IT时报 -V8 时报独家-
8时报独家
  • ·国产AI芯片困境中期待曙光

“二道贩子”爆炒英伟达A800 售价11万元以上

国产AI芯片困境中期待曙光

  

IT时报记者范昕茹图东方IC
  当地时间8月8日,在美国洛杉矶举行的计算机图形学专业会议SIGGRAPH 2023上,身着经典皮衣的英伟达CEO黄仁勋宣布推出新一代AI超级芯片DGX GH200 Grace Hopper。
  据了解,GH200采用了英伟达的Hopper GPU架构,并与ARM的Grace CPU架构结合起来,比此前推出的H100数据中心系统能容纳更多内存和更大带宽,即141GB的HBM3e内存,以及每秒5TB的带宽。
  大模型热潮持续,英伟达再度迭代AI芯片产品,不断强化自己在行业内的“统治力”。而在国内AI芯片市场,受地缘政治等影响,AI芯片一片难求,在倒爷“满天飞”、卖家乱报价的情形下,国内大模型厂商急需国产方案来替代。
倒爷“满天飞” A800单卡售价超12万元
  “A800有货,想要的直接点击购买”“A800现货,支持验货”……随着大模型浪潮在国内的掀起,英伟达A800成为畅销货。用于售卖闲置物品的闲鱼,如今已经化身A800芯片二手市场。留言区还有人指路,抖音上某账号有货,100块。
  对于《IT时报》记者的询价,卖家们显得尤为积极。在记者沟通过的4、5位卖家中,每位都表示手头有全新现货,但库存不多,仅有30、40片左右。这些卖家的报价普遍在11万元以上,低至11.15万元,高至11.5万元。相比于今年4月份的价格,A800单片价格上涨了1万元左右。
  “你最好今天就订,明天说不定就没货了。”一位卖家在电话里催促《IT时报》记者交定金。
  “今天已经有7、8个人来问过了。”看记者有些犹豫,另一位卖家说道。为了让记者相信他手头确实是现货,卖家特意拍了包装好的视频,表示拍下就发货,“今天拍,明天就可运到”。
  “只有服务器厂家才有卡,其他都只是二道贩子,单纯吆喝而已。”一位芯片渠道商这样形容国内A800芯片市场的现状。
  另一位卖家也告诉记者,最近英伟达的A100、A800十分紧俏,来询价的人特别多,但真正下单的少,大多是炒货的。他表示:“如果需要找货,需要谈价钱,再签合同交定金。”定金根据货量的大小从30%-50%不等,货量越大,定金越高。“之前我们就遇到过,有人订了货后又不要了,我们怎么办?”这位卖家接着说,“这么做,也是为了规避风险。”最终,这位卖家报价A800单片10.7万元,但想要拿到货,需要等2个月。
  相比水涨船高的A800单片行情,A100服务器整机的价格浮动并不大。在该卖家的朋友圈记者看到,2周前,安装有8张A100芯片的服务器,售价在每台140万-145万之间。但服务器的货源依旧紧缺,卖家告诉记者,前几天到货10台服务器,一个星期之内被订完了,“就是你们上海那边买的。”
  2天后,该卖家又联系记者,称A100芯片有货,而且打折销售,只需5万一块,“是二手的,保质期还有1年半。”他还表示,全新的A800芯片也有,但相比两天前,价格上涨了1万多元,12万元一块,“价格上涨是因为要的人多,但货很少。”
  实际上,在这一轮大模型热潮中,即便是服务器厂商,也面临着“地主家没有余粮”的尴尬局面。记者尝试询问了多家云服务厂商,其中两家规模较大的云厂商表示,暂时没有存货。另一位服务器经销商则表示,8月腾讯云将上架部分A800的卡,可以提前预订,但数量和价格都未曾透露。
  早在今年4月举行的业绩电话会议上,台积电方面表示,AI相关需求“爆单”,要到2024年底才能完全解决AI芯片的供应短缺问题。根据中国台湾地区媒体《电子时报》的报道,由于台积电先进封装产能不足,英伟达正在考虑将部分GPU中使用的2.5D封装交给其他供应商。
  台积电日前宣布,规划斥资近900亿元新台币在中国台湾地区竹科铜锣科学园区设先进封装晶圆厂,新工厂预计2026年底建成,2027年第三季度开始量产。但远水解不了近渴,在芯动力科技有限公司相关负责人看来,考虑到国际形势短期内很难改变,自主可控成为新一代芯片的要求,预计国内训练芯片短缺的情况可能会持续2-3年。
生态、性能有差距 国产芯片替代成本或更高
  英伟达芯片全线缺货,用国产芯片来替代是否是更好的方案?
  “国产芯片更贵。”对于这个问题,一位芯片渠道商回答道。
  尽管在价格方面国产GPU芯片有一定的优势,但英伟达在计算方面建立的完善生态,让大多数厂家对英伟达的芯片趋之若鹜,而对改换国产芯片踌躇不前。
  在今年的世界人工智能大会上,一家国产GPU厂商销售人员就透露,目前国内第一批大模型厂商使用的基本都是英伟达A100、A800的芯片,原因就在于英伟达构建的完善的CUDA生态。“如果你用惯了这个生态,”该销售人员说,“贸然换一个生态,意味着你的学习成本、试错成本、调试成本都会增加,自然没人会想要换了。”
  纵观国内AI芯片第一梯队的海光、华为和寒武纪等厂商,除了海光的DCU产品深算系列采用了兼容通用的“类CUDA”环境,华为的昇腾系列采用了自研的达芬奇架构,大模型厂商在使用相关芯片时,需要提前针对软硬件进行调配和优化。寒武纪的产品虽然包含了云端和边端芯片,但由于其ASIC的芯片架构,在使用时也需要提前进行调试,对通用性计算而言,ASIC芯片的成本优势并不明显。而对于位于第二梯队的燧原、昆仑芯、天数等公司,生态的建设是大家不得不面对的难题。
  生态和易用性已经将一部分小型大模型厂商拒之门外,而性能同样是许多厂商犹豫不决的原因所在。对大多数国内厂商而言,无论走通用GPU的路线,还是走ASIC芯片的路线,在性能上对标英伟达芯片都是其目标所在。但单片性能接近是否就意味着整体计算性能同样能够达到英伟达的算力水平?
  和过去PC时代不同,大模型训练需要巨大的算力,并非一两颗芯片所能支撑。在当下的大模型浪潮中,芯片集群成了行业解决算力问题的一大方向。
  “芯片集群并不是单纯做加法,1+1一定大于2。”中国信通院华东分院人工智能与大数据事业部副主任常永波说,“在芯片行业,1+1往往小于2。”由于在计算过程中,数据需要在芯片之间互通,这就要求芯片之间保持高带宽,以减少算力的损耗。而且,计算过程同样面临算效的问题,如何能够将芯片算效尽可能提高,也是各大芯片厂商面临的难点之一。凡此种种,都意味着单颗芯片的纸面算力和实际算力之间往往存在差距。
  目前,国内芯片在算力上和英伟达的AI芯片仍然存在差距,这意味着,想要达到同样的算力,需要企业购置更多的芯片。对企业而言,就意味着更多的成本支出。“打个不恰当的比方,就好像你原来用iPhone,突然换成了一台国产手机。”一位芯片卖家解释说,“为了达到同样的性能,你得买好几台国产手机,成本自然就上去了。”国产化方案箭在弦上AI算力需求结构将改变
  尽管在目前的AI算力芯片市场上,英伟达仍是很多大模型厂家的第一选择,但这样的局面或将得到改变。
  “今年,一些公共服务平台,尤其是涉及政府机构、学校这种公共服务平台,已经开始使用国产化的AI芯片。”常永波告诉记者,国内已经开始构建AI芯片国产化的生态。
  今年3月,科技部办公厅发布了《关于开展国家新一代人工智能公共算力开放创新平台申报工作的通知》,其中明确表示,公共算力平台应使用自主研发的人工智能计算芯片,并优先采用自主研发的系统软件。对于混合部署的公共算力平台,基于自主研发芯片的算力标称值占全部系统算力标称值的比值应不低于60%。公共算力平台应优先使用国产开发框架,使用率应不低于60%。
  今年6月2日,中国电信临港公共智算服务平台暨国产GPU联合创新基地启动,首批国产GPU厂商华为、燧原、天数、寒武纪等宣布入驻。在今年的世界人工智能大会上,中国电信方面表示,国产GPU联合创新基地将面向开发者或开发企业搭建异构的国产算力开发环境。同时,基地还将与国产算力GPU厂家一起推动国产GPU芯片性能和兼容性的提升。未来,基地会拿出机架,免费提供给国产GPU厂商使用,进行专业的测评服务,推动国产GPU的商业化和产业化。
  在常永波看来,这一轮AI芯片的短缺,主要是由于短时间内大模型集体爆发。由于大部分厂商的大模型都处在前期训练阶段,对训练算力需求非常大,加之AI算力产能不足,最终导致了AI芯片供需失衡。但随着大模型发展进入应用推理阶段,大模型训练带来的对训练算力的需求未必能够一直持续。
  “目前来看,如果说大模型公司的需求70%是训练算力,那么30%是推理算力,”常永波说,“3、5年之后,大模型训练需求就会退坡,变成30%的训练算力加70%的推理算力。”到那时,AI芯片算力需求结构将显著改变。
  在目前的“缺芯”状态下,常永波认为,国内的大模型厂商可以给国产芯片厂商更多的机会,共同营造生态,支持国产AI芯片厂商迭代,推动国内厂商快速成长。