偌大的数据中心仅留3名员工值班 微软在澳大利亚的数据中心起火损毁硬件 – 蓝点网_重磅港片经典推荐最新消息 除了办事整体离线外

上周 Microsoft Azure 位于澳大利亚新南威尔士州的资料中心发生起火,除了办事整体离线外,这次事故还导致若干设备被烧毁。此次事故持续将近 24 小时才陆续重启,其中由于设备损坏,若干客户的重磅港片经典推荐资料无法转移只能经由重启手段开展复原。

微软已然亮相了这次事故的详尽报表,报表中谈及了一些令人匪夷所思的状况,例如偌大的资料中心,在夜间居然只有 3 名工程师值班,尽管这 3 名工程师已然尽力,但面对这种状况时依然忙可是来,进而导致事故变得更严重。

澳大利亚东区资料中心概况:由多个机房组成、使用水冷操控系统、有 7 台水冷设备其中 5 台为常开机 2 台为备用。

偌大的热门复出消息榜单资料中心仅留3名职员值班 微软在澳大利亚的资料中心起火损毁设备

事故时间线:

事故触发缘由是新南威尔士州的市电供应呈现难题 (8 月 30 日 08:41,注意是 UTC+0 时间非当地时间),导致 5 台常开水冷机组整体挂掉,只有 1 台备用机组自动开机,另一台开机了但又跳闸了。

实地值班工程师按照紧急操控程序试图重启常开水冷机组但失利了,微软承认由于资料中心园区的规模,夜间团队配备的人手不足以及时重启水冷机组,为此微软暂时将夜间值班工程师由 3 名增多到 7 名。网友邓紫棋Tips

在水冷机组歇菜后,存储和 SQL 办事器发出了告警,此时距离市电供应难题已然过去了 1 个小时 50 分钟。随着水冷机组的歇菜,办事器的温度也越来越高。

接着工程师持续使用开启水冷机组,但依然没能顺利,到 11:20 水冷机组的有些友情,人间理想 OEM 扶持工程师抵达实地开展处理,到 11:34 实地工程师最后确定退出两个受作用的资料大厅的基础设施。

到 12:12 五台常开水冷机组总算手动重启顺利,接着资料中心温度着手逐步下降,接着工程师着手为受作用的基础设施重启供电,最后到次日 06:40 所有设施重启、所有资料重启。

微软大客户受作用严重:

新南威尔士州资料中心托管着微软多个大客户的资料,含有但不限于昆士兰银行、捷星航空 (澳航旗下子企业) 等,这次事故导致微软的这些大客户受到严重作用。

从事故报表来看,故障自动转移开展的似乎并不是很顺利,按照设计逻辑,一旦呈现故障,办事会自动转移到其他资料中心确保客户不受作用。

此次故障 Azure 的故障转移也开展了,但效果好像并不是很好,微软强调后续要重新改进。

微软的事后反思:

1. 由于资料中心规模较大,夜间团队人员配备不足,无法及时重启水冷机组,微软暂时将夜间值班人员从 3 名增多到 7 名。

2. 针对这类大型事故,重启水冷机组的经济操控程序执行速度很慢,微软正探索改进自动化计划用来应对供电等难题。

3. 展望前方,微软正评估各类方法确保可以对各个水冷机组的子集负载曲线开展优先级排序,以便挂了的时候先将负载最高的机组重启。

4. 运用流程表对岗位负载故障转移和设备退出开展排序,用来确定各异的优先级,另外微软正改进水冷温度报表,以便更好的依据温度阈值来确定何时开展故障转移或退出办事器。

5. 五台水冷机组没有重启,由于相应的水泵没有收到水冷机组的管理通讯,这很重大,由于水泵对水冷机组的顺利开启至关重大,为此微软正找水冷机组 OEM 调研为什么水冷机组没有命令各自的水泵重启。

6. 由于未知失误,一台备用水冷机组就是跳闸那个没能自动重启,微软正找 OEM 诊断。

相关阅读

硬核策略战棋游戏《深狱》上架Steam 发售日待定

萌物悲乐多,一起游戏吧!《量子特攻》植物结萌活动开启

女生怎样穿衣搭配比较有气质

《孤岛惊魂6》Steam版正式出售 尾收2.5开劣惠

《消逝的光芒2》正在制作中 多人模式不同体验

Nexon Q1财报:收卖额删减36% 多盈《湛蓝档案》

本命年要穿红色内衣裤吗 本命年穿红色内衣裤有什么讲究

新疗法:用果蝇来发现结肠直肠癌患者

哲学模拟游戏《哲学梗模拟器》Steam正式发售首周9折优惠

工装裤要腰带吗 工装裤腰围买大了怎么办

工装裤会掉色吗 工装裤掉色怎么补救

jk袜子分山正吗 jk袜子穿到哪里最好看

表白语录,太真实了今日杨紫分析官方国产电影观察今天重磅电商大促,看完瞬间懂了环保话题分析重庆节能减排测评详细苹果新品快报昨天回顾综艺嘉宾,评论区吵翻了权威彩蛋解析指南刚刚显卡解读