微软有计划尝试改善Azure中断协助

云中断很严重。停电期间和停电后沟通不畅使情况变得更糟。微软官员对此非常了解,并计划改善公司处理Azure中断通信的方式。

我已经注意到一段时间,微软越来越少地使用其Azure状态页面通知用户云中断。早在三月份,当微软最活跃的地区之一美国东部下跌了几个小时时,状态页面上就没有关于此问题的消息,而对Twitter的抗议很少(这是另一个云中断的晴雨表)。

事实证明,这种相对安静是设计使然。Microsoft一直在努力让其云用户进入其个性化的Service Health页面,而不是面向公众的Azure Status网站。并且其在Twitter上的Azure支持帐户尝试引导用户查看这些页面和/或在用户需要有关中断的最新信息时直接向该帐户发送消息。(说服用户摆脱Twitter的束缚也有利于使我们讨厌的记者更加难以跟踪停电情况,从而减少了“ Azure停电”头条新闻的数量。)

在本周的博客中,负责Azure中断通信流程的首席项目经理Sami Kubba概述了Microsoft的位置以及中断通信方面的进展。他的帖子是Microsoft去年开始的系列文章的一部分,概述了其寻求改善Azure可靠性,性能等的方法。

他指出,Microsoft的目标是在中断15分钟内通知所有受影响的Azure订阅。Microsoft使用人类,加上自动通知来执行此操作。他说,通过服务运行状况发出的自动通知占上季度微软中断通信的一半以上。库巴说,微软的目标是继续减少公司通知用户故障的时间。

他补充说:“我们还处于扩展我们对基于AI的操作的使用的早期阶段,以自动识别相关的受影响服务,并在缓解后尽快发送解决方案通信(针对受支持的情况)。”

Kubba承认,Microsoft当前仅使用公共Azure状态页面来传达“广泛的”中断,这意味着影响多个区域和/或多种服务。Microsoft通过Service Health直接与受影响的客户进行了内部沟通,以解决95%以上的当前事件。Kubba将此比率归因于绝大多数中断仅影响“很小的客户订阅'爆炸半径”。

(Azure服务运行状况是一套体验,可为Azure服务问题提供个性化的指导和支持,包括停机甚至计划的维护。Azure服务运行状况由Azure状态,服务运行状况服务和资源运行状况组成。)

Kubba说,微软正在努力使这种停机通知系统在其其他云产品(包括Microsoft 365和Power Platform)中保持一致。客户已经可以在Twitter上看到M365状态帐户,将用户引导到其门户,并在出现问题时直接发送消息。

正如我过去所提到的,此系统适用于管理员以及具有管理员访问其云帐户的权限的人员。但是,除非IT部门在内部向用户通知发生中断时发生的情况,否则许多用户仍会转向Twitter来查找其他人是否受到影响,并在Office 365中断发生时获得任何信息。

Kubba确实说过,客户可以要求事后报告较小的中断(较大的中断将有公共共享的PIR),并指出该团队正在继续努力使事情变得更加透明,并向用户展示Microsoft正在采取的具体步骤关闭相关类型的中断。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

相关推荐