15000卡！万兆联万卡

V1 时报要闻下载阅读下一版

1时报要闻

·从“全城上云”到“全城AI”
·15000卡！万兆联万卡

15000卡！万兆联万卡

全国最大运营商级智算中心落沪

IT时报记者郝俊慧钱立富图东方IC
　　上海“模都”建设迎来一波澎湃动力。
　　1月22日，新年伊始，中国电信上海公司（以下简称“上海电信”）宣布，在上海点亮“大规模算力集群暨人工智能公共算力服务平台”。“这将是全国规模最大的运营商级智算中心。”上海电信总经理龚勃表示，当天点亮的算力集群规模达15000卡，其中包括全国首个单池万卡规模的国产液冷算力集群。
　　《IT时报》记者独家获悉，该算力集群采用自主创新AI芯片，且在技术架构上实现了突破，全部采用液冷散热方案，是目前规模最大、单池训练能力最高的国产液冷智算中心。
　　同日，上海电信发布一系列人工智能公共算力服务产品。2022年7月，上海电信在全国电信运营商中率先发布公共算力服务，如今时隔一年半，随着大模型风暴的兴起，全社会算力需求进一步井喷，上海电信再次宣布推出一系列“人工智能公共算力服务产品”，为全市人工智能企业提供一站式服务，降低算力使用的门槛和成本，提高算力资源的可及性和利用效率。
　　此次产品和服务更新，既是上海电信进一步提供普惠算力的重要举措，也是上海电信在公共算力服务领域发展的重要里程碑。
　　随着全球一步迈入AI时代，上海正在书写新的“模都进化史”，作为上海新一代智能信息基础设施建设的主力军，继打造“全城上云”的“智云上海”之后，上海电信为城市AI更新迭代和大模型产业生态升级打造的多元一体化智算承载底座，进一步推动上海向“全城AI”进化。
　　发布会由上海电信联合徐汇区政府共同举行。当日，“双万兆接入暨一跳入算服务”在徐汇区大模型专业孵化和加速载体——“模速空间”正式启用。
国产万卡液冷算力集群多项创新打破算力焦虑
　　当算力成为国力之争的核心资源，国产算力的技术和能力突破被大众所瞩目。
　　“我们希望算力不再被卡脖子。”发布会上，复旦大学附属中山医院信智部主任助理兼规划与管理中心主任钱琨透露，受限于英伟达芯片限售，目前很多基于国外算力和生态的大模型无法在医院适配落地，这让她对上海电信当天点亮的国产万卡大规模算力集群非常期待。
　　发布会上透露的消息是，中国电信将在上海规划建设可支持万亿参数大模型训练的智算中心。其中，单池新建国产算力达10000卡，是首个支持单池万卡的国产超大规模算力液冷集群。
　　此轮由ChatGPT引发的大模型风暴，与往常人工智能训练模式最大不同在于，超海量参数数据的并行计算，也就是将多个服务器连接成一台“超级计算机”，甚至要在算力卡间完成直联。然而，在万卡级别的算力集群上同时训练和推理数据，对软件规划、资源调度挑战非常大，尤其是发展时日尚短的国产大规模算力集群和智算中心，并没有太多经验可循。
　　“此次中国电信打造的万卡规模国产算力集群，采用网络中置、算力分层的‘魔方’型网络布局，实现了单池万卡集群的架构创新，而且全部采用液冷散热，是目前全国规模最大的国产液冷机房。”一位接近电信的人士告诉《IT时报》记者，无论是算力集群架构，还是机房建设水平，该国产万卡液冷AIDC，在多项技术指标和创新突破方面都是全国第一。
普惠算力“随时用，用得起”
　　2023年3月，此轮人工智能“刚起蓬头”，张家庆和合作伙伴便毅然离职，奔入大模型创业浪潮中，创办开放传神公司，致力于大模型生态社区建设，为大模型在垂直行业的应用提供工具平台和解决方案。
　　“创业不久，我们就发现算力成本真的很高。”如今担任开放传神联合创始人的张家庆告诉《IT时报》记者，为了更快使用模型构建应用，最初开放传神采用了AWS海外的云算力和国内某大厂算力，但成本始终居高不下，“短期来看，算力成本在整个大模型产业链中仍是瓶颈”。
　　构建普惠的算力体系，不仅要让算力像水电一样随取随用，而且要让全社会都“用得起”“用得上”，是近两年来从国家到地方接连打造大规模智算中心，启动东数西算战略，并出台一系列算力优惠政策的愿景。
　　2022年，上海电信率先宣布向社会提供公共算力服务，成为国内首个推出此服务的电信运营商。经过一年半的持续建设和升级，此次发布会上，上海电信再次宣布推出基于中国电信“天翼云自研CloudOS4.0底座”的人工智能公共算力服务平台及一系列产品，包括智算产品、弹性算网、算力调度平台和行业大模型等，从算力供给、算力输送、算力调度到模型训练及推理应用，为大模型企业提供一站式服务。通过在云端租赁算力，企业大幅减少了本地IT设备投入，降低了使用算力的门槛。
　　“可见即可用，可用即可得。”据上海电信资深经理张慷现场介绍，此次推出的算力产品均已是成熟的商用产品，包括标准化套餐和定制化开发两种，客户既可以在线自行下单，亦可以线下咨询后按需订购，并面向全市各类人工智能生态企业开售。
　　此外，大规模算力建设背后，存在算力资源供需不均衡，利用率不高，不同架构、厂商、资源池算力难匹配等问题。
　　为了让企业获得性价比更高的算力资源，此次推出的“息壤——全国算力一体化调度平台”，可以同时联通全国六大云商87根中继节点，覆盖头部云商在全国的所有资源池。
　　从现场演示可见，当用户提出一个云渲染的算力需求时，平台显示，天翼云雅安、天翼云扬州等地的资源池有不同算力配置和价格，用户可以根据时延和价格按需购买。
　　在平台层，通过中国电信天翼云大模型的一站式智算服务平台“慧聚”，将大模型开发训练过程中的关键流程、复杂技术和宝贵实践经验进行总结和抽取，构建出一站式全链路的大模型生产应用流水线，大幅降低大模型训练、微调、部署、推理的门槛，让客户能够更专注于模型升级和应用落地。
　　下转07版