2007–2019年中国海外铁路项目信息数据集

2019-06-24 16:18肖建华邬明权尹富杰牛铮
关键词:爬虫一带铁路

肖建华,邬明权,尹富杰,牛铮

1. 东华理工大学测绘工程学院,南昌 330013

2. 中国科学院空天信息创新研究院遥感科学国家重点实验室,北京 100101

数据库(集)基本信息简介

?

引 言

通过改革开放40年来的飞速发展,中国已经发展成为世界第二大经济体,不断发展经济、推动科学技术发展和开拓广阔的海外市场,极大提升了海外合作能力。同时,中国铁路建设取得了举世瞩目的成就,在立足国内、走向世界过程中积累了丰富的建设经验。近年来,中国在海外承建的重大铁路互联互通工程快速增长,特别是2013年“一带一路”倡议提出以来,中国企业在“一带一路”沿线区域的铁路项目增加明显。

2013年习近平总书记提出“一带一路”倡议,即建设“新丝绸之路经济带”和“21世纪海上丝绸之路”的合作倡议,旨在推进沿线国家之间的政策沟通、设施联通、贸易畅通、资金融通、民心相通,实现互利共赢、经济融合发展的命运共同体目标。基础设施互联互通作为“一带一路”建设的优先领域,是各项合作扎实推进的重要基础和支撑。铁路是重要的桥梁纽带,缩小各国基础设施发展差距,提升互联互通水平,促进了地区间的经贸合作和人文交流[1]。它有力拉动了沿线地区形成产业链,促进了地区间的优势互补。

自“一带一路”倡议提出以来,中国在海外承建的重大铁路互联互通工程快速增长[2]。然而,目前国内对我国相关企业在海外承建、投资及收购的铁路项目信息掌握不够全面。此类信息相对零散,没有形成相对集中统一、详细全面的海外铁路建设项目数据集。现有的研究大多集中于以具体海外铁路项目为例对管理或风险策略等某一领域问题进行探讨[3-5],“一带一路”海外铁路项目信息仅有简短零散的相关报道资讯[6-9],而对近年来我国企业海外铁路建设项目的全面详细的统计资料较为缺乏,未能形成一份相对集中统一的海外铁路项目数据集。

因此,针对这一问题,本数据集通过网络爬虫技术、中国拟在建项目网、商务部项目数据库及相关国家大使馆经济商务参赞处网站、“一带一路”相关公众号、海外铁路项目建设企业官网等,对2007–2019年中国企业在海外(指“一带一路”沿线区域及世界其他国家和地区)承建、投资和收购的铁路建设项目信息进行了收集整理,可为国家相关部门及海外铁路建设企业提供决策支持,同时也可为“一带一路”项目相关研究报告提供数据支撑。

1 数据采集和处理方法

1.1 数据采集方法

本数据集收集的中国海外铁路项目信息包括项目名称、铁路项目所在国家和大洲(地区)、国家类别、铁路类型、建设企业、铁路线路长度(km)、设计时速(km/h)、预计签约/开工时间、预计完成时间(工期)、项目金额以及合作方式(投资、承建、收购)等。首先通过网络爬虫技术获取中国企业在海外承建、投资和收购的铁路项目相关信息。由于网络爬虫技术爬取的项目信息存在部分精确度不高和信息不全面的缺点,所以把获取的铁路项目信息逐一在中国一带一路网、中国外交部网站、中国拟在建项目网、中国国际贸易促进委员会网站、商务部公共项目服务网——中国投资指南网、以及相关国家大使馆经济商务参赞处网站、“一带一路”高参公众号、海外铁路项目建设企业官网及相关媒体新闻报道(新华丝路网、央视网、人民网等)等进行查询核验,对错误及缺失的信息进行修正和完善,尽可能保证铁路项目信息的准确度和全面性。

1.2 数据处理流程

首先需确定本数据集中铁路项目所需要的各类信息,通过网络爬虫技术获取中国企业在海外承建、投资和收购的铁路项目相关报道信息,从中归纳总结出一般性铁路项目所包含的信息,以此确定项目名录准备搜集汇总的各类信息。项目名录信息包含如项目所在国家和大洲(地区)、国家类别、铁路类型、建设企业、铁路线路长度、设计时速、预计签约/开工时间、预计完成时间(工期)、项目金额等。其中项目所在国家类别依据世界银行和联合国贸易和发展会议(UNCTAD)公布的世界国家经济发展数据划分为发达国家、发展中国家、最不发达国家和新型经济体4个类别,铁路类型按铁路时速和城市轨道交通类型划分为普/快速铁路、高速铁路、轻轨、地铁4大类型;确定项目名录所需的各项内容后,根据爬虫获取的已有项目信息,按项目名录内容填充在Excel表格中,然后在“一带一路”项目官方网站、海外铁路项目建设企业官网、主流媒体资讯报道等权威平台上逐一对爬虫获取的已有项目信息进行查询核验和补充缺失信息,对爬虫获取的项目信息错误地方进行订正,尽可能补充完善项目缺失信息,同时也保证数据名录信息的准确性,项目数据集搜集过程如图1所示。

图1 项目数据集搜集过程示例图

1.3 数据分类方法

依据世界银行[10]、联合国贸易和发展会议(UNCTAD)公布的世界国家经济发展数据将项目所在国家按经济发展程度高低分为发展中国家、最不发达国家、发达国家和新兴经济体国家。按铁路时速和城市轨道交通类型把铁路项目类型分为以下四类:

(1)普/快速铁路

普/快速铁路一般是指按照中国铁路标准建设的设计速度在250 km/h以下的客/货运铁路,这类铁路多在长途领域客货共线以满足多种需要。例如,亚吉铁路项目、阿卡铁路项目、阿根廷贝尔格拉诺货运铁路改造项目、圣马丁货运铁路改造一期项目、几内亚达比隆港至圣图矿区专用铁路等。

(2)高速铁路

高速铁路列车行驶速度多在250 km/h以上,部分时速200 km/h的线路也属于高速铁路。为保证列车在轨道上安全高速行驶,其基础设施设计标准比一般普/快速铁路高,这类铁路主要是客运列车专线铁路。例如,印度尼西亚雅加达–万隆高铁项目、孟加拉国达卡至吉大港高速铁路项目、沙特阿拉伯麦麦高速铁路项目、土耳其安伊高铁等。

(3)轻轨

轻轨主要服务于城市轨道交通,是城市轨道建设的一种重要形式。城市轻轨以其运量大、速度快、污染小、安全性高等优点,近年来在轨道交通建设中得到迅猛发展,有效改善了城市交通拥挤的状况。例如,亚的斯亚贝巴城市轻轨线路项目、越南河内吉灵至河东城市轻轨2A号线、巴基斯坦拉合尔橙线轨道项目、以色列特拉维夫轻轨红线项目等。

(4)地铁

地铁主要是以地下运行为主的城市轨道交通,部分还有在路上铺设的高架铁路,其具有专有、无平交、车厢数多、载客量大等特点,是现在大中城市的主要交通工具。例如,马来西亚吉隆坡捷运地铁、莫斯科地铁项目、乌克兰基辅市地铁4号线项目。

2 数据样本描述

本数据集共收集汇总海外铁路项目86个,分布在世界6大洲47个国家。按国家经济发展程度进行分类,发达国家共有5个,发展中国家有15个,新型经济体国家有9个,最不发达国家有18个;按铁路时速和城市轨道交通类型进行分类,普速铁路项目达60个,高速铁路10个,轻轨项目13个,地铁项目3个;最后将搜集的铁路项目信息在Excel 表格中进行汇总。Excel文件包含14列,每一列的属性包括序号、大洲、国家、国家类型、地区、铁路类型、铁路项目名称、建设企业、线路长度(km)、设计时速(km/h)、预计签约/开工时间、预计完成时间、项目金额、合作方式(投资、承建、收购),部分信息示例如图2。

图2 中国海外铁路项目名录部分信息

3 数据质量控制和评估

为确保本数据集的准确性和可靠性,涉及的铁路项目信息通过与“一带一路”项目资讯相关官方平台(如中国“一带一路”网、中国外交部网站、中国国际贸易促进委员会网站、商务部公共项目服务网及相关国家大使馆经济商务参赞处网站等)进行多平台检查验证,其中国家类型是依据世界银行和联合国贸易和发展会议(UNCTAD)公布的世界国家经济发展数据进行分类,所以本数据集质量整体可靠、真实。

4 数据价值

基础设施互联互通作为“一带一路”建设的优先领域,是各项合作扎实推进的重要基础和支撑。本数据集采用网络爬虫技术结合“一带一路”项目相关官方平台,对2007–2019年中国企业在海外承建、投资和收购的铁路项目信息进行了搜集和汇总,编制形成中国目前较为全面、详细、系统的海外铁路项目信息名录。涉及的铁路类型包括普速铁路、高速铁路、轻轨、地铁等86个铁路项目,共分布于6大洲的47个国家。

本数据集有利于国家相关部门更直观地掌握海外铁路项目信息,为推动与相关国家开展互联互通铁路领域合作提供决策支持,同时也可为“一带一路”项目相关研究报告提供数据支撑。国家相关部门可通过项目信息(如铁路项目类型、建设工期状况、建设企业等)进一步分析我国企业在相关国家铁路项目建设状况、存在的问题、铁路项目需求特点等,为相关企业总结“走出去”建设经验;同时通过分析我国企业在相关国家已建及未来规划建设铁路项目,可了解其铁路交通设施建设需求状况,为后续我国企业开拓相关国家铁路项目市场提供导向。

5 数据使用方法和建议

该数据集包含1个Excel文件。数据集文件名为“中国海外铁路项目信息汇总”,数据集所搜集的时间在2007–2019年,共统计86个海外铁路项目。Excel文件包含14列,每一列的属性包括铁路名称、项目名称、所在国家和大洲(地区)、国家类别、铁路类型、建设企业、铁路线路长度(km)、设计时速(km/h)、预计签约/开工时间、预计完成时间(工期)、项目金额以及合作方式(投资、承建、收购)等。虽然通过多种项目资讯渠道获取,仍然不可避免存在部分数据缺失问题。用户可以筛选出自己需要的铁路项目信息数据,用于项目建设进度监测和生态环境变化研究。

需要注意的是,本数据集中部分铁路项目信息存在空缺现象,其主要是由于在现有多种信息获取渠道中(“一带一路”项目官方网站及主流媒体资讯报道、中国拟在建项目网、海外铁路项目建设企业官网等多种信息获取渠道)未查询到此项信息。针对此现象,数据集使用者如需要此项铁路项目信息,建议利用更加丰富、权威的信息渠道获取该空缺信息。同时,数据集使用者还可根据研究需要对数据集中铁路项目信息进行再次验证,使精度满足研究需要。另外,由于本数据集由网络爬虫结合人工网络信息搜集获取,所以获取的铁路项目并不全面,有待后续其他学者进行补充更新。

如需空间位置信息,请向通信作者提供包含用途和用户信息的申请,经我单位审核后提供。

致 谢

感谢中国科学院空天信息创新研究院遥感科学国家重点实验室重大工程遥感监测团队的田定慧、朱洪臣、李祜梅、蒋瑜、贾战海等成员,为海外铁路项目数据的搜集做出的贡献及为本数据集论文的撰写提供了宝贵的意见。

猜你喜欢
爬虫一带铁路
利用网络爬虫技术验证房地产灰犀牛之说
一带一路风光无限
基于Python的网络爬虫和反爬虫技术研究
沿着中老铁路一路向南
一路欢声一路歌 中老铁路看点多
“一带一路”我的梦
ДОВОЛЬНО ЗАПРЯГАТЬ,ПОРА ЕХАТЬ!
铁路机动车管理信息系统
大数据背景下校园舆情的爬虫应用研究
大数据环境下基于python的网络爬虫技术