有关Exchange Online(微软基于云的企业电子邮件、日历和联系人管理平台)问题的更多详细信息,该网站在6月24日(周二)遭遇了长时间的停机,这导致一些客户失去了他们最基本的沟通和协作方式之一。IT经理们涌入Office 365支持论坛寻找答案,发泄他们的沮丧,因为他们停止在办公室工作了几个小时。管理员用来监视其云订阅的服务运行状况仪表板无法正确报告任何问题。
微软在八小时后恢复了服务。然而,这一经历,再加上前一天Lync Online的中断,引发了人们对关键业务服务向云迁移的担忧。
重大服务中断后,Office 365工程公司副总裁Rajesh Jha转向公司的支持论坛,提供公司的建议。他写道:“首先,我代表Office 365团队,对由此带来的影响和不便表示歉意。”他补充说:“电子邮件和实时通信对您的业务非常重要,我和我的团队完全了解我们作为您的合作伙伴和服务提供商的责任。”
Jha承认,客户用来监控其微软云服务的工具并不令人满意。他解释说,他的公司“在发布我们的服务健康仪表板(SHD)的过程中也遇到了问题,这意味着并非所有受影响的客户都能及时得到通知。我们意识到这非常令人沮丧,这个问题已经解决了。”
Jha解释说,Exchange Online的故障是由“目录角色的间歇性故障导致目录分区停止响应身份验证请求”引起的。“这导致少数客户无法访问电子邮件。”
他声称损坏“仅针对少数客户”,并表示缺陷的“独特性”导致恢复时间延长。这一问题加剧了这一问题,并导致“由于以前未知的代码缺陷导致更广泛的客户邮件流延迟,从而在更广泛的邮件传递系统中出现意想不到的问题”。
贾(Jha)说,他的团队不仅解决了根本问题,还更新了系统,以防止问题再次发生。他说:“除了解决根源触发因素,我们还在努力进一步强化这一模式。”
Lync Online的问题开始很小,然后迅速升级。据Jaha称,该服务收到消息称“我们北美数据中心的客户端连接因外部网络故障而暂时中断”。问题在短短几分钟内解决后,“随之而来的流量激增导致几个网元过载”,让部分客户几个小时无法使用Lync。
微软已经从这次经历中吸取了教训,并正在努力建立对其云服务的信心。贾哈说:“虽然我们已经解决了问题的根源,但我们将借鉴经验,继续完善我们的主动监测、预防、恢复和纵深防御体系。”