12小时预警被忽视:CME全球宕机背后,一场本可避免的“人祸”

对此次故障根源的分析报告显示,运营该芝加哥郊区数据中心的CyrusOne,于美国中部时间11月27日凌晨4点19分首次向包括交易所在内的客户通报了正在出现的问题。当天是美国市场因感恩节假期休市日。

该数据中心运营商(由私募股权公司KKR与全球基础设施合伙公司持有)还在上午10点19分发送了一条短信,以确保其客户知晓该问题。尽管如此,市场参与者直到后来才获悉此事,许多人对亚洲交易时段突如其来的交易暂停感到意外。

这份由CyrusOne撰写的11页分析报告,对全球最大的衍生品交易所之一如何处理上月末扰乱从东京到伦敦市场的此次故障提出了疑问。尽管芝商所的灾难恢复计划要求切换到纽约地区的备用数据中心,但交易所当时选择不启用备用设施,因为其当时掌握的信息指向的是一次短暂中断。

CyrusOne的一位代表拒绝置评,仅引用了该公司于12月6日发送给彭博新闻的一份声明,其中解释称问题是由人为失误造成的。芝商所也提到了其12月6日的声明,该声明承认了CyrusOne对故障的分析,并补充说数据中心的“初步修复尝试反而使问题恶化”。

根据报告,事件始于当地时间11月27日凌晨3点40分,此前一天,CyrusOne为应对寒冷天气将数据中心的冷却塔切换到了新的运行模式。该操作未能遵守标准程序,最终导致设施过热。

报告显示,初步的修复工作反而使问题变得更糟。到下午6点19分,所有冷却器均报告为离线且处于故障状态。

人为失误

CyrusOne在12月6日表示,现场工作人员和承包商未能遵循冷却塔排水的标准程序。

报告显示,在故障期间,CyrusOne在芝加哥时间11月27日下午5点亚洲交易开盘前,交替降低和提高了事件的严重性评级。据一位熟悉内情的人士透露,芝商所与市场参与者的沟通部分受到影响,是因为事件影响范围的扩大并非立即可见。

报告中包含的时间线显示,随着事态发展,问题出现约两小时后,严重等级曾被下调。事件在下午12点13分被重新升级为更高级别,并在下午4点10分再次升级至更严重的1级。

在一次故障期间,从主数据中心紧急切换到备用设施相对罕见。公司往往倾向于等待其主站点恢复,除非绝对必要,以避免数据不一致和在常规演练中可能未发现的错误风险。

此外,做市商偏好附近的基础设施以确保信息传输更快,从而获得相对于竞争对手的微弱优势。这些交易商对于为交易所提供流动性至关重要。

交易暂停

尽管如此,此次故障突显了芝商所依赖该设施所关联的风险,该设施每天处理全球股票、货币、债券和大宗商品市场数万亿美元的交易。该交易所于2016年将数据中心出售给CyrusOne,并以15年期协议回租。

此次故障导致从黄金、石油到利率等所有品种的交易暂停。它还迫使CyrusOne暂停了由高盛集团管理的一笔13亿美元抵押贷款债券的发行。

交易最终在美国时间11月28日恢复,交易所占芝商所交易量90%的Globex期货与期权市场于芝加哥时间上午7点30分开市。自11月26日收盘以来,芝商所股价已下跌约3.7%。

为防止事件重演,CyrusOne表示已更新其应对寒冷天气的程序,包括增加现场工程师。报告显示,该设施现在将依赖一个专门的工程团队,每周7天、每天24小时监控和管理冷却操作。

相关文章