近日,我院智能交通研究取得重要进展。吴剑青副教授课题组在Nature旗下知名期刊《Scientific Data》(影响因子9.8,JCR一区)上,以江西理工大学为第一单位发表了题为《A Railway Network Dataset Incorporating Multi-Type Train Operation Records and Train Scheduling》的学术论文。此外,该课题组相关成果也发表于交通领域顶级期刊《Transportation Research Part C: Emerging Technologies》(影响因子7.6,中国科学院一区Top)。上述研究均获国家自然科学基金项目支持。
背景介绍:
铁路运输已发展成为一个高度网络化、动态化的复杂系统。然而,铁路公司公开的数据往往存在不规范、不完整等问题,且能全面整合列车运行记录与调度信息的公开数据集十分稀缺。这限制了在智能交通、复杂网络、时序预测等领域开展深入研究的可能性。为此,本研究团队构建并发布了一个覆盖意大利全国铁路系统的大规模、多维度数据集,旨在为相关学术研究与工程应用提供高质量数据支撑。
论文简介:
本研究提出并详细描述了“意大利铁路网络数据集”,该数据集整合了2024年1月1日至6月30日期间3,324列列车、2,974个车站的运行记录。数据涵盖七种列车类型(包括高速、城际、区域列车等),包含列车时刻表、实际到发时间、延误信息、车站经纬度、站间距离、天气状况、节假日标识及调度调整等多类信息。数据集以四个结构化CSV文件发布,支持时空模式挖掘、网络拓扑分析、延误预测与传播、运行图优化等多种研究与应用。

图1 基于列车运行记录与天气数据的铁路网络数据集构建方法流程图
图2 列车线路图

图3 不同类型列车日运行热力图

图4 区域晚点累积热图

图5 列车晚点率与天气因素的相关性
创新之处:
本研究在列车晚点预测方法上实现了多项关键创新,主要体现在以下四个方面:
1.全面性与多源性:首次公开发布涵盖意大利全国铁路、多列车类型、融合运行记录、地理信息、天气、节假日与调度调整的综合数据集。
2.结构化与可重用性:数据经清洗、校正与标准化处理,符合GTFS规范,可直接用于机器学习、复杂网络与时空分析模型。
3.场景覆盖广泛:包含日常运行、节假日、恶劣天气、调度干扰等多种现实场景,支持韧性评估与智能调度策略研究。
4.开放与可扩展:数据集与处理代码均公开,支持后续研究进行数据融合、模型训练与跨区域对比分析。
期刊简介
《Scientific Data》是Nature旗下的权威开放获取期刊,专注于发表高质量科学数据集,致力于推动数据共享。期刊被SCIE收录为Q1区,入选ESI综合交叉学科期刊,亦属中国科学院综合性期刊二区。其覆盖生命科学、物理、环境、社会科学与工程等多个领域,以严格的数据标准著称。
Wu, J., Xiao, X., Zhou, Y. et al. A Railway Network Dataset Incorporating Multi-Type Train Operation Records and Train Scheduling. Sci Data (2025).