“史诗级”故障！阿里云“崩”上热搜

6新闻通信

·“史诗级”故障！阿里云“崩”上热搜
·5G-A迈向商用汽车产线成“样板间”

“史诗级”故障！阿里云“崩”上热搜

官方：底层服务组件出现故障专家：高级技术人员缺失或是主因

IT时报见习记者孙永会
　　阿里云上热搜了，但却是“崩”上热搜。
　　“淘宝崩了”“钉钉崩了”“闲鱼崩了”……11月12日晚，阿里云因多款应用发生故障登上热搜榜，知乎、小红书、脉脉等平台关于“阿里云崩了”的话题层出不穷。此前，阿里云也出过多次故障，但此次影响范围之广，实属罕见。
　　根据阿里云实时“官宣”的处理进度：11月12日18：14，阿里云发布公告称，自17：44起，阿里云云产品控制台访问及API调用出现异常，工程师正在紧急介入排查；17：50，阿里云确认故障原因：与某个底层服务组件有关；18：54，公告显示杭州、北京等地域的控制台及API服务已恢复；19：20，公告称工程师通过分批重启组件服务，绝大多数地域控制台及API服务已恢复；21：11，公告显示受影响云产品均已恢复。
　　这并非阿里云的第一次事故，2018年6月，阿里云被曝出持续近半小时的重大技术故障；2019年3月，阿里云疑似出现宕机事故；2022年12月，香港Region可用区C发生大规模服务中断事件，对较多客户业务带来重大影响……6年内发生多次不同程度的故障，不禁让人心生疑虑：阿里云还值得信赖吗？
底层服务组件故障影响“全身”
　　从事发当日首个回应公告至当晚发布“云产品均已恢复”，整起事故耗时3个小时，地域范围波及甚广，国内如华南1（深圳）、西南1（成都）、华南3（广州）、华东1（杭州）、华北5（呼和浩特）等，海外如印度（孟买）、英国（伦敦）、美国（硅谷）、韩国（首尔）等。
　　昕荣（化名）所在的公司用了阿里云的服务，她告诉《IT时报》记者，公司相关业务运转受到了较大影响，研发同事“被迫”在周日加班数个小时。“我看这次主要是阿里云的AK鉴权发生异常，从而影响到了OSS和MQ这两个组件。其他公司很多服务都用阿里云的这两个组件，所以当它们受损时，便会受到牵连。”昕荣说道。
　　底层服务组件在中台发挥关键作用，业内专家王淇（化名）告诉《IT时报》记者，阿里云自身使用的是大中台技术架构，中台具有高度复杂性和集约性，当底层出现错误，要完成灾备切换恢复具有较高的难度。
　　“相当于‘大脑’瘫痪了。”王淇表示，尽管当前这个故障已恢复完毕，但倘若处理不周或不防患于未然，随时会再次面临“瘫痪”。
　　中台出现故障不仅会发生在阿里云身上，在王淇看来，任何一家提供云计算服务的企业都会存在故障风险。
裁员、管理或成“导火索”？
　　《IT时报》此前报道，今年5月，关于阿里裁员的消息在微博、脉脉等各大社交媒体上引发热议，裁员风波涉及淘天集团、菜鸟、本地生活、云智能集团、大文娱等板块。其中，作为阿里六大业务之一的阿里云智能，被曝裁员比例约7%。彼时，阿里云回应表示，这是公司进行的正常组织岗位和人员优化。
　　据阿里巴巴第二季度的业绩报告，截至今年6月底，阿里巴巴的员工人数较之于3月份的235216人减少了6541人，仅2023年上半年，阿里巴巴便裁员11065人。阿里巴巴集团官微此前回应，2023年六大业务集团总计需新招15000人，其中校招超过3000人。
　　外界普遍认为，裁员，特别是高级技术人员的缺失，或是阿里云这次大规模故障引发的主要原因。王淇也表示，维护一个复杂的中台需要大量专业的开发和运营人员，而阿里云今年的裁员对此或多或少产生了影响，另外，管理亦是重要因素之一。
　　独立分析师付亮也表示，今年阿里巴巴管理模式大调整可能带来新的管理隐患。“从管理层看，阿里全面推进各业务集团及下属公司独立，各实体之间‘公司化协议运作’，各业务集团及具备条件的公司独立盈亏，结果必然是各业务集团和公司加强盈利项目，压缩非盈利项目，跨业务集团的支撑很难避免不受到盈利目标的影响。”在付亮看来，阿里云内部精力正从“云”向仍处于投入期的AI大模型转移。
　　本月初举行的云栖大会上，阿里云发布机器人大模型解决方案，宣称集成了通义千问、通义万相等基础模型及阿里云物联网平台，赋予机器人知识库问答、工艺流程代码生成、机械臂轨迹规划、3D目标检测和动态环境理解等全方位能力。
　　付亮认为，阿里云高管的调整、业务团队的变动以及精力的转移都增加了不确定性，业务稳定性亦在降低，“利润考核逐步下压，降低成本以增加利润，却减少了资源配置，这是阿里云业务支撑出现隐患的重要原因。”