IT时报 -V6 新闻通信-
6新闻通信
  • ·“史诗级”故障!阿里云“崩”上热搜
  • ·5G-A迈向商用 汽车产线成“样板间”

“史诗级”故障!阿里云“崩”上热搜

官方:底层服务组件出现故障 专家:高级技术人员缺失或是主因

  

IT时报见习记者孙永会
  阿里云上热搜了,但却是“崩”上热搜。
  “淘宝崩了”“钉钉崩了”“闲鱼崩了”……11月12日晚,阿里云因多款应用发生故障登上热搜榜,知乎、小红书、脉脉等平台关于“阿里云崩了”的话题层出不穷。此前,阿里云也出过多次故障,但此次影响范围之广,实属罕见。
  根据阿里云实时“官宣”的处理进度:11月12日18:14,阿里云发布公告称,自17:44起,阿里云云产品控制台访问及API调用出现异常,工程师正在紧急介入排查;17:50,阿里云确认故障原因:与某个底层服务组件有关;18:54,公告显示杭州、北京等地域的控制台及API服务已恢复;19:20,公告称工程师通过分批重启组件服务,绝大多数地域控制台及API服务已恢复;21:11,公告显示受影响云产品均已恢复。
  这并非阿里云的第一次事故,2018年6月,阿里云被曝出持续近半小时的重大技术故障;2019年3月,阿里云疑似出现宕机事故;2022年12月,香港Region可用区C发生大规模服务中断事件,对较多客户业务带来重大影响……6年内发生多次不同程度的故障,不禁让人心生疑虑:阿里云还值得信赖吗?
底层服务组件故障影响“全身”
  从事发当日首个回应公告至当晚发布“云产品均已恢复”,整起事故耗时3个小时,地域范围波及甚广,国内如华南1(深圳)、西南1(成都)、华南3(广州)、华东1(杭州)、华北5(呼和浩特)等,海外如印度(孟买)、英国(伦敦)、美国(硅谷)、韩国(首尔)等。
  昕荣(化名)所在的公司用了阿里云的服务,她告诉《IT时报》记者,公司相关业务运转受到了较大影响,研发同事“被迫”在周日加班数个小时。“我看这次主要是阿里云的AK鉴权发生异常,从而影响到了OSS和MQ这两个组件。其他公司很多服务都用阿里云的这两个组件,所以当它们受损时,便会受到牵连。”昕荣说道。
  底层服务组件在中台发挥关键作用,业内专家王淇(化名)告诉《IT时报》记者,阿里云自身使用的是大中台技术架构,中台具有高度复杂性和集约性,当底层出现错误,要完成灾备切换恢复具有较高的难度。
  “相当于‘大脑’瘫痪了。”王淇表示,尽管当前这个故障已恢复完毕,但倘若处理不周或不防患于未然,随时会再次面临“瘫痪”。
  中台出现故障不仅会发生在阿里云身上,在王淇看来,任何一家提供云计算服务的企业都会存在故障风险。
裁员、管理或成“导火索”?
  《IT时报》此前报道,今年5月,关于阿里裁员的消息在微博、脉脉等各大社交媒体上引发热议,裁员风波涉及淘天集团、菜鸟、本地生活、云智能集团、大文娱等板块。其中,作为阿里六大业务之一的阿里云智能,被曝裁员比例约7%。彼时,阿里云回应表示,这是公司进行的正常组织岗位和人员优化。
  据阿里巴巴第二季度的业绩报告,截至今年6月底,阿里巴巴的员工人数较之于3月份的235216人减少了6541人,仅2023年上半年,阿里巴巴便裁员11065人。阿里巴巴集团官微此前回应,2023年六大业务集团总计需新招15000人,其中校招超过3000人。
  外界普遍认为,裁员,特别是高级技术人员的缺失,或是阿里云这次大规模故障引发的主要原因。王淇也表示,维护一个复杂的中台需要大量专业的开发和运营人员,而阿里云今年的裁员对此或多或少产生了影响,另外,管理亦是重要因素之一。
  独立分析师付亮也表示,今年阿里巴巴管理模式大调整可能带来新的管理隐患。“从管理层看,阿里全面推进各业务集团及下属公司独立,各实体之间‘公司化协议运作’,各业务集团及具备条件的公司独立盈亏,结果必然是各业务集团和公司加强盈利项目,压缩非盈利项目,跨业务集团的支撑很难避免不受到盈利目标的影响。”在付亮看来,阿里云内部精力正从“云”向仍处于投入期的AI大模型转移。
  本月初举行的云栖大会上,阿里云发布机器人大模型解决方案,宣称集成了通义千问、通义万相等基础模型及阿里云物联网平台,赋予机器人知识库问答、工艺流程代码生成、机械臂轨迹规划、3D目标检测和动态环境理解等全方位能力。
  付亮认为,阿里云高管的调整、业务团队的变动以及精力的转移都增加了不确定性,业务稳定性亦在降低,“利润考核逐步下压,降低成本以增加利润,却减少了资源配置,这是阿里云业务支撑出现隐患的重要原因。”