AWS冷却系统故障导致交易平台服务中断
亚马逊云服务一处数据中心因冷却系统失效引发服务器关停,致使某加密货币交易平台的交易、存取款及转账业务全面受阻。后续恢复过程因撮合引擎故障转移问题及影响关键后端系统的流处理服务异常而进一步延迟。该平台此后宣布将通过新增冗余机制、故障转移测试及基础设施升级以提升系统韧性,防范未来可能发生的服务中断。
核心系统因云服务故障离线
根据该平台发布的报告,事故始于5月7日美国东部时间19时20分,当时位于美东一区的亚马逊云服务数据中心内多台冷却装置同时失效。散热缺失触发过热保护机制,导致受影响服务器及存储系统离线。
此后不久,平台用户遭遇大面积服务中断。交易功能于19时48分暂停,多个产品的买卖、存款、取款及转账服务均无法使用。平台声明指出,云服务可用区本应具备故障隔离能力,但此次中断蔓延至单个设施之外,暴露出其自身恢复系统的不足。
双重故障叠加延缓恢复进程
在工程师全力恢复服务时,第二重问题使修复工作复杂化。平台表示其撮合引擎在云服务终止集群部署组内服务器后失去法定节点数。该系统缺乏跨可用区自动故障转移能力,工程师不得不紧急修改代码并重建基础设施以恢复运行。
然而另一障碍接踵而至:流处理服务在中断后未能自动重新分配分区领导节点。该故障影响了事件流服务,波及报价系统、费用计算、支付基础设施及部分账务流水线。工程师最终与云服务团队协作,通过手动重新分配分区才恢复功能。
交易服务分阶段恢复:平台于5月8日美国东部时间2时25分率先恢复仅撤单功能,至3时49分全面重启市场交易。
平台公布基础设施升级方案
事件发生后,该平台概述了多项旨在提升系统韧性的基础设施改进计划。公司将通过热备跨可用区待机系统增强撮合引擎冗余,并定期在生产环境开展故障转移演练。此外,计划将某流处理服务的部署从两个可用区扩展至三个,同时开发新工具、测试方案与运维流程以应对类似故障场景。
平台表示已向相关监管机构通报事件,并正在完成此次中断影响的正式评估报告。

交易所
交易所排行榜
24小时成交排行榜
人气排行榜
交易所比特币余额
交易所资产透明度证明
去中心化交易所
资金费率
资金费率热力图
爆仓数据
清算最大痛点
多空比
大户多空比
币安/欧易/火币大户多空比
Bitfinex杠杆多空比
ETF追踪
索拉纳ETF
瑞波币ETF
香港ETF
比特币持币公司
加密资产反转
以太坊储备
HyperLiquid钱包分析
Hyperliquid鲸鱼监控
大额转账
链上异动
比特币回报率
稳定币市值
期权分析
新闻
文章
财经日历
专题
钱包
合约计算器
账号安全
资讯收藏
自选币种
我的关注