今年10月,港铁发生信号故障,这是自香港启用地铁以来来,第一次发生四大线路同时出现信号故障,导致早高峰时段全城瘫痪近6小时。
港铁于对外透露信号故障起因,经调查,故障与各列车线的电脑互相自行同步数据的程序及设定有关,由于信号系统在各区间的电脑不断有大量数据传输及互相同步情况,占用电脑大量计算资源令区间电脑变得不稳定;此次信号故障与荃湾线信号系统更新测试无关,工程人员已成功将新信号系统转回现有系统,新系统与现有系统完全分隔;另外,也排除了人为因素。此外,港铁承认,由确认不能及时修复系统到发出红色警报有半小时延误。
至于为什么需要近6小时才完成临时修复,港铁解释,信号系统由中央控制,并在车站区间有计算机运作,当港铁人员发现系统出现问题后,需逐一跟进各线合计20多个区间计算机,逐一重置恢复自动操作服务。
复盘此次港铁信号故障经过、处置和原因分析,中国软件评测工业产品系统测评工程中心从管理和技术两方面提出几点建议,供相关管理部门、运营单位和评测机构参考。
1 在管理方面
一是运营单位要做好应急预案和应急演练,尤其是提升对繁忙时段影响人数多、范围广的故障响应能力,力争做到第一时间发现、第一时间处置;二是在故障处置和运营恢复期间,运营单位要分时段及时对外发布故障修复进展,以及当前地铁运行间隔时间和额外行车时间;三是运营单位要责令设备供应商和集成服务商提供事故分析的详实报告,明确原因、责任到人,避免出现厂商间互相推诿、故障原因不明、系统带病运行;四是管理部门做好舆情管控,避免出现“多线故障目的是售票加价”等严重偏离事实真相的流言传播。
2 在技术方面
一是新系统测试环境应与在役系统物理隔离或严格逻辑隔离,避免测试影响在役系统的实时历史数据和通信网络;二是新系统与在役系统并行运行时,要全面考虑切换过程中的不可预见风险,例如传输途中的指令再下达、切换完成时数据的初始化和随机赋值等;三是针对区间电脑信号系统数据传输及同步、大量计算资源占用、磁盘阵列用尽等导致电脑不稳定的问题,需第三方评测机构开展严格的专项测评,确认问题、落实整改,避免类似情况的出现;四是重点关注不同厂商信号系统的兼容互通、稳定运行,随着交控科技、浙江众合等国产品牌在新线建设市场占有率的上升,与传统泰雷兹、卡斯柯等厂商系统要实现稳定对接,逐步替换。
作者:陈曦
版权所有:郑州三中网安科技有限公司 豫ICP备2020036495号-1 | 豫公网安备 41019702002241号 | 站点地图 | 人才招聘 | 联系我们 |