利好政策频出 上海全力推进大模型生态高地建设
IT时报记者孙妍图东方IC
“算力风暴”是横亘于国内大模型发展路上的第一道坎,数据显示,过去四年,大模型参数量以年均400%复合增长,AI算力需求增长超过15万倍,远超摩尔定律。
“商汤人工智能计算中心几乎已经满负荷,正在扩建,上海电信等算力提供方也在建设国产算力集群,即将对外开放。”业内人士向《IT时报》记者表示。
继打造人工智能产业高地后,上海提出要建设具有国际影响力的大模型生态高地,从魔都到“模”都,要跨过的第一道坎是算力。上海正在以全市之力解决算力短缺问题,政府牵头统筹、调度、共享算力资源,还对使用算力的大模型企业大规模发送“算力券”。
更多中小企业表示,数据和人才是大模型之争的核心资源,也是燃眉之急。经过近十年科创中心建设、五年人工智能高地建设,上海已经深谙创新之路。不久前发布的《上海市推动人工智能大模型创新发展若干措施(2023~2025年)》中提出十一条措施,不仅要共建共享语料数据资源,还要支持大模型人才落户。
“算力风暴”倒逼芯片国产化上海建设自主可控算力网络
“算力很缺,毕竟做大模型预训练急需好用的大集群。”达观数据CEO陈运文向《IT时报》记者提到,为了训练曹植大模型,达观数据斥巨资自建中等规模的算力集群,但对小企业来说,如果无法承担高额算力成本,只能用别人开发好的大模型。
在上海,目前规模最大的算力中心应数商汤人工智能计算中心(AIDC),已经上架3万多块GPU,产生超过6000 PetaFLOPS算力,可支持20多个千亿参数规模的大模型同时训练。
然而,即使商汤早在2022年便已建成这座占地87亩的人工智能计算中心,但AIGC带来的大模型算力风暴席卷速度远超预期。如今,这一亚洲最大的智能计算中心正在扩建中。
但,选谁的芯片?
随着美国针对英伟达高端GPU先后发布两次禁令,中国企业已经意识到,只有支持国产GPU,走自主可控之路,才能在大模型之路上走得长远。
上海市经信委基础设施处处长潘焱在2023年11月举行的“算力网络与大模型”产业生态论坛上表示,除了保障算力供给与调度外,上海也在构建自主可控的算力网络建设。同一论坛上,上海电信副总工程师肖晴提到,上海电信已经在临港建设了数千卡国产算力集群,2024年争取推出万卡集群。
2023年4月,《IT时报》记者在参观商汤AIDC时发现,其芯片国产化已在进程中。
同样作为算力提供方,优刻得在内蒙古乌兰察布和上海青浦两大数据中心可提供超3000 PetaFLOPS的AI算力,也在布局国产算力,与沐曦、壁仞等国产芯片厂商联合测试。
优刻得副总裁刘杰曾在接受《IT时报》记者采访时表示,虽然在支持大模型训练上,国产芯片尚有一段距离需追赶,但在大模型推理上,国产芯片较有前景,未来预估大模型训练和推理的算力芯片需求是1:3至1:5,甚至更高。
最高补贴10%上海大规模发放“算力券”
上海市区两级正在密集出台算力相关政策。据《IT时报》记者了解,上海政府对算力补贴的政策分为两大类,一是针对算力提供方,对纳入统筹管理的算力平台进行建设补贴;二是针对算力使用方,对使用算力的单位给予最高10%算力补贴,类似于“算力补贴券”。
2023年11月,上海制定了《上海市推动人工智能大模型创新发展若干措施(2023~ 2025年)》,被称为人工智能大模型发展十一条措施。其中,第三条提到的大模型智能算力加速计划,将对2024年底前在沪完成智能算力部署并纳入统筹、接受调度的算力建设主体,经评估给予适当额度的部署奖励;对租用纳入本市统筹调度的算力进行大模型研发的本市主体,经评估按算力集群规模和成果水平给予最高10%的租用补贴。建设市域极速智能算力承载网,实现市域智能算力中心间100Gb/S以上高速直连和毫秒级时延。
2023年12月,徐汇区开展人工智能大模型算力补贴项目,申报条件主要是设立在徐汇区的算力需求主体,上年度研发投入占主营业务收入5%以上,研发人员占项目研发团队总人数50%以上等等。
徐汇区科委主任张宁在“算力网络与大模型”生态产业论坛上重点提到几点,一是在徐汇西岸创建“模速空间”大模型生态社区;二是与算力供应商开展区域“智能算力加速计划”,加强市区算力统筹、探索自建算力服务;三是大模型算力补贴项目,确保大模型企业算力“够用、好用”。
上海市经信委也在落实“模速空间”的专项政策,协调上海电信等算力供应方,加速对“模速空间”的算力供给,对接入驻企业的算力需求,支持企业的模型开发与应用。
根据规划,到2025年,上海市数据中心算力将超过18000 PFLOPS,人工智能公共算力服务平台能级跃升,完善算力交易机制,实现跨地域算力智能调度,通过高效算力调度,推动算力供需均衡,带动产业发展作用显著增强。这是《上海市推进算力资源统一调度指导意见》提出的2025年计划,可见上海对解决算力困局的清晰目标。
谁掌握优质数据谁突围上海共建共享数据资源
算力、算法、数据,被认为是大模型的竞争三要素。近期,研究机构Epoch AI指出,对数据需求急剧增加,以至可用于训练的高质量文本可能会在2026年耗尽。
“优质数据才是未来大模型的核心竞争力,谁掌握的优质数据多,谁能用得更好,谁就能突围,但中文教科书只有英文的十分之一。”达观数据CEO陈运文认为,知识密度高的文档资料才是大模型训练的优质数据,包括教科书、论文、报告等,而微信聊天记录、淘宝聊天记录等数据的有效性弱。目前,散落在出版社、图书馆等机构的优质数据,难以界定版权归属于作者、出版社还是其他机构,这将成为大模型发展的一大难点。
优刻得计算产品线总经理钟春山也认为,中文数据的短缺将阻碍大模型的发展,应加大数据共享。另外,政府可以多开放应用场景给大模型公司,场景用起来有三个好处:首先能形成反馈,对模型进行调整优化;其次能产生更多经济价值,让大模型真正深入产业;最后能帮助各行各业提高效率,解决信息不对称的问题等。
目前,全球70%的数据源仅停留在免费公开数据集的层面,上海数交所总经理汤奇峰也曾表示,大模型成长所需的高质量数据库仍存在供给不足、质量不高、多样性匮乏、标准欠缺等问题。
2023年7月6日世界人工智能大会开幕式上,上海宣布成立大模型语料数据联盟,由上海人工智能实验室联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团等10家单位联合发起。
下转07版