IT时报 -V11 新闻通信-
11新闻通信
  • ·超算中心:互联网巨头的下一个赛道

腾讯在上海豪掷450亿建超算枢纽 阿里百度也纷纷大手笔投资

超算中心:互联网巨头的下一个赛道

总投资总投资450450亿元的腾讯长三角人工智能超算中心目前在上海松江开工建设亿元的腾讯长三角人工智能超算中心目前在上海松江开工建设

  

IT时报记者郝俊慧
  从G60沪昆高速公路大港出口下匝道,拐几个弯后驶入文翔路,沿途是一系列耳熟能详的名字,库卡柔性系统(上海)有限公司、富士迈半导体精密工业、上海超硅、台积电(10厂)……这里是“G60科创走廊”的起点,在这块区域,一片待建工地格外引人注目。谁会是这个“群”的新加入者呢?
  谜底在6月5日揭晓。“2021年底前,这里将建成世界一流、全国前三、长三角第一的人工智能超算枢纽”,在总投资450亿元的腾讯长三角人工智能超算中心开工仪式上,松江区委书记程向民透露,这也是疫情以来全国范围内新基建领域单体投资最大的项目。
  超算中心,是体现国家创新能力的“国之重器”,历来由国家科研机构和高等院校建设。如今,在“新基建”东风下,超算中心正成为各城市竞相打造的“新名片”。仅2020年初,厦门、苏州已宣布启动超算中心建设。“超算中心是战略性产业的科技基础设施,建设前便要考虑清楚是否有成熟的产业和生态应用,而不是建好之后再去找应用。”对于这股“超算热”,一名政府人士认为,在能耗指标资源紧缺的一二线城市,打造“超算生态”必须谋定而后动。
总算力超全球最快超级计算机75倍
  日前,天津、深圳、济南、长沙、广州、无锡、郑州等七地建有国家级超算中心,上海超算中心也于2000年成立,此外国内一些高等院校也建有自己的超算中心。“腾讯的投资是传统超算中心的数十倍、甚至数百倍,这将彻底改变超算中心的生态。”一位高校超算中心人士告诉《IT时报》记者,高校超算中心的建设成本大多在亿元以下,他们中心8000万元的投入已属前列,国家级超算中心则在数亿到数十亿之间,相较而言,腾讯450亿元投资的确“大手笔”。
  根据规划,腾讯长三角AI超算中心及人工智能产业园区占地236亩,包含8栋高标准数据中心,其中单栋数据中心可提供10万个GPU(或同等AI处理芯片)计算能力,在实际运行中,算力可达到1400千万亿次/每秒(Pflops/s)浮点运算,可同时支撑超过100个大型人工智能计算项目,整个中心计划建成48万台服务器、2.5万个以上等效机柜(腾讯R18微模块模式)。保守估计,这个规模至少是长三角第一,全国前三。
  浮点运算速度(FLOPS)是超级计算机的性能指标。如今计算性能世界排名第一的超级计算机Summit,最大算力为14.86亿亿次/每秒,腾讯超算中心单栋的计算能力已与此基本相当,若进行叠加,腾讯超算中心8栋数据中心总算力可达1120亿亿次/每秒,是Summit的75倍。
  当然,单纯算力数据对比并不代表实际计算效果,但对于提高超级高密度计算效率最有效的方法——扩展规模而言,云的方式显然更加灵活。腾讯相关人士告诉《IT时报》记者,新冠疫情期间,为了保障各界对在线学习和工作的需求,腾讯会议一直扩容资源,合计扩容超过10万台云主机,涉及超百万核的计算资源,“这样的资源需求,只有基于海量的云计算能力才能实现,这也是建设超大规模超算中心的意义所在。”
人工智能成超算新“蛋糕”
  人工智能是超级计算的新需求。北京大学教授杨超曾表示,像AlphaGo Zero这种大型的AI应用,如果想一天之内完成它的训练,所需要的计算能力已经超过1Eops(100亿亿次/秒)。
  上述高校超算中心人士进一步解释,传统并行式超级计算大多用于科研项目,需要使用者事先根据测试数据做出模型,然后再进行预测,通常而言只要原始数据准确、模型标准,就可以计算出较为准确的结果。但人工智能采用深度学习算法,输入参数训练模型,然后输入新的数据不停地对模型进行修正,最后才能得到相对准确的模型,“简单理解,传统超算计算门槛较高,需要先有准确的模型,此前都是科研机构才有实力做,但云超算中心门槛较低,较少数据量就可启动,创业公司都可借用算力打造模型,然后再应用,但不断修正过程需要的算力也很惊人。”
互联网巨头“新军备竞赛”
  今年4月20日,国家发改委明确将以数据中心、智能计算中心为代表的算力基础设施被列入第一类信息基础设施范畴,由此开启了新基建投资高潮。
  只是,与以往基建不同的是,在这轮投资热潮中,非公资本将成为主力军。以上海为例,新基建规划2700亿元的总投资中,2100亿元来自社会资本。
  互联网巨头自然不愿错过新风口。就在腾讯宣布超算中心开工的第二天,快手宣布智能云大数据中心项目落地内蒙古乌兰察布市,投资达百亿元。此前,腾讯、阿里巴巴、百度、京东也都宣布了新基建投资计划,其中大笔资金投入数据中心建设。
  国盛证券认为,一线城市IDC资源相对较为稀缺且难以复制,所以腾讯、阿里等云巨头在积极储备,“军备竞赛”已然开启。“能耗指标是最稀缺的资源。”近几年来,受限于电力、土地成本和节能减排指标,北上广一线城市的数据中心建设被严控,在《上海市推进新一代信息基础设施建设助力提升城市能级和核心竞争力三年行动计划(20182020)》(简称《三年行动计划》)中明确提出,上海数据中心建设总规模控制在16万个机架,一位电信运营商人士介绍,在上海建设互联网数据中心需要审批并定额发放指标。
  6月5日,上海经信委发布了《关于支持新建互联网数据中心项目用能指标的通知》(以下简称“通知”),共落地3.6万个高密度28A机柜用能指标,较上海经信委3月计划指标多出约6000个,其中包含临港的3000个特批指标和松江腾讯数据中心。“能耗是我们在一开始便重点考虑的因素,腾讯超算中心的PUE(数据中心消耗的所有能源与IT负载消耗的能源的比值)是1.1,”上海松江区科委(信息委)主任赵宏卫告诉记者,这个数字比一般意义上的数据中心要低30%。根据《三年行动计划》,新建IDC的PUE指标是1.3。
  长城证券研报显示,截至2020年5月8日,上海互联网数据中心已建机架12万个,与16万总规模只有4万的缺口。但也有分析人士认为,在新基建明确大力发展数据中心和智能计算中心后,一二线城市有望松动对此的限制。不久前刚刚发布的《上海市推进新型基础建设行动方案(2020-2022)》中指出,用能指标将适当向具有重要功能的IDC项目倾斜,并计划研究继续新增一批互联网数据中心机架数。
  这或许是腾讯不再建设传统IDC,而是超算中心的缘由。“一线城市限制数据中心建设会使得需求外溢,围绕一线城市周边的布局将成为数据中心发展的趋势,松江可以借此形成新的数据中心产业带,带动整体社会和经济的发展。”一位腾讯人士表示。
“超算生态”的商业未来
  随着数据爆炸时代的到来,超算中心的定位正在发生微妙变化。
  有研究机构预计,到2030年全球数据原生产业规模量将占整体经济总量的15%,而中国数据总量将占全球数据量30%。万物互联后带来的爆发性数据量,是能效比逐渐降低的传统超算中心新面临的挑战。
  另一方面,新型应用场景不断涌现,通过人工智能、大数据、区块链等新技术,政务应用、金融服务、医疗健康等与普通人密切相关的服务,更加细致和个性化,这些对超高速计算新增的需求意味着,超算中心将不再“远在庙堂”,它需要更像“智慧大脑中枢”,上要能算天算地,下要知衣食住行。
  这也是全国各地争相建设超算中心的重要原因,一座智慧的城市,需要一个“城市大脑”。但对于社会资本建设的超算中心,一个绕不开的话题便是,盈利。
  “目前我们中心基本满负荷运算,但收入根本覆盖不了成本。”上述高校超算中心人士表示,传统超算中心主要用于气象、生物、化学等国家大科学项目,以国家补贴为主,并不太考虑盈利。
  记者在网上看到的一份“大连理工大学超级计算中心服务收费标准”显示,如果用双路刀片计算,5个节点以下,每核时需 700元/天。如果是GPU计算节点,GPU为1000核时/台天,CPU按实际使用机时量1.2倍计费。
  根据规划,腾讯长三角人工智能超算中心将在2021年底建成,届时腾讯两大顶尖实验室科恩和优图将落地松江。腾讯云副总裁道峰告诉记者,未来超算中心除了自用,还将充分发挥集群规模效应,整合腾讯云、企业微信、腾讯SaaS加速器等内部资源,对包括腾讯上下游企业在内的整个市场开放。
  “我们希望可以在松江筑巢引凤。”赵宏卫透露,松江将依托超算中心产业生态,引入超过100家人工智能企业。
  随着数据中心的规模和区域布局出现变化,超大规模化成为数据中心建设的主流。“超算中心强调的是大规模高性能计算,对计算时延有极高要求,因此会自然围绕超算中心形成一个超算生态。”一位云计算架构专家告诉记者,当算力不再是问题时,距离和带宽便成为限制大规模计算的障碍,对使用者而言,离超算中心越近越好,“比如一个汽车设计公司需要对图像做快速渲染,图像上传速度跟不上超算计算的速度,那它自然而然会迁移至腾讯的超算园区。”
  作为长三角G60科创走廊的策源地,松江是上海先进制造业的主战场、上海科创中心重要承载区,也是全国首个、上海唯一的国家级工业互联网新型工业化产业示范基地。
  “超算中心建成之后,将与松江的高端制造产业生态有机结合,为这些坐落在松江的战略性新兴产业和工业互联网等新基建重点企业提供服务,同时,作为长三角最大的超算中心,还将为整个长三角企业提供服务。”赵宏卫表示。
  有能力,有需求,有客户,有辐射效应,独特的“超算生态”,或许是巨头们愿意在此一掷千金的根本原因。