IT时报 -V10 新闻产业-
10新闻产业
  • ·5分钟,真人视频素材生成数字人
  • ·无标题

5分钟,真人视频素材生成数字人

商汤“日日新SenseNova”大模型体系入局 记者实测大模型超市

徐立发布“日日新”大模型体系

  

IT时报记者孙妍
  争分夺秒,国产ChatGPT已在近期开启“日更模式”,爆发期即将来临,互联网和人工智能大厂尽数参与到这场科技革命中,宣告着“大模型+大算力”的时代到来。
  近日,商汤科技推出“日日新SenseNova”大模型体系,不仅有时下最火热的对话式自然语言处理大模型,还包括内容生成、自动化数据标注、自定义模型训练等大模型及能力。在现场,商汤不仅展示了AI文生图、2D/3D数字人生成、大场景/小物体生成等一系列生成式AI模型及应用,还公布了商汤AI大装置能提供的“大模型+大算力”融合创新的研发体系。
  “日日新像超市的名字。”商汤科技董事长兼CEO徐立在技术交流日现场调侃道,商汤确实也像大模型超市一样向外输出能力。从算力等基础设施到大模型的研发能力,从现场的实测体验来看,商汤在AI视觉上的多年积累是经得住市场检测的,而这次全方面展示肌肉也并没有急于求成之感。
“日日新”大模型超市
  商汤构建了计算机视觉、自然语言处理、AI内容生成、多模态、决策智能等多个领域的大模型。放眼目前所有发布GPT大模型的互联网大厂,商汤的大模型是最全的,正如其大模型超市的构想。
  正如商汤科技联合创始人、首席科学家王晓刚所言:“商汤已建立全栈的大模型研发体系,并已在多个行业场景中落地。”
  虽然目前暂未对C端开放测试,但“日日新SenseNova”向B端企业开放了API接口和服务,包括图片生成,自然语言生成,视觉感知通用任务与标注。企业可以根据实际应用需求,调用“日日新SenseNova”大模型的AI技术能力,低门槛、低成本、高效率地实现各类AI应用。等于B端企业不用自己再从秧苗播种开始,在超市里就能买到小麦,企业也可以将小麦加工成面粉等再向C端推广。“日日新SenseNova”也已为商汤自身业务带来诸多突破,例如在智能驾驶领域,基于视觉大模型,商汤实现了可识别3000类物体的BEV环视通用感知算法的实车量产,也构建了感知决策一体化的自动驾驶多模态模型,具有更强的环境、行为、动机解码能力。
实测五大模型视觉最为突出
  ChatGPT让全球都见识到了对话式聊天机器人的飞跃式发展,完全改写了传统自然语言模型的技术范式,这也是全球搜索引擎及互联网大厂的必争之地。
  “日日新”也孵化出了商汤的语言大模型“商量SenseChat”,目前只面向B端企业开放内测,计划将于2023年中推出市场。这一自然语言处理大模型的参数达到千亿级,也是基于中文语境来开发的。在大会上,商汤并没有使用演示视频,而是直接演示了人机共创故事多轮对话能力,还展示了编程助手、健康咨询助手、PDF文件阅读助手等。
  在现场,《IT时报》记者实测“商量SenseChat”,虽然其在调用实时数据解答上比搜索引擎类ChatGPT略逊一筹,但其在编程、医疗分科咨询、长文档的理解上的准确率较高,具有专业性。
  商汤更为突出的能力在于视觉,多模态也必然是大模型的方向,毕竟人类获取的信息80%通过视觉,因此“日日新”也孵化了AI文生图创作、2D/3D数字人生成、大场景/小物体生成等一系列生成式AI模型及应用。
  “秒画SenseMirage”文生图创作平台可支持6K高清图的生成,而且用户还可根据自身需求训练生成模型,操作十分简单,比如导入多张80年代港星的照片,大模型就能到位地输出“港风”。《IT时报》记者实测发现,它对马斯克等名人的刻画已经可以做到脸部细节还原。
  “如影SenseAvatar”AI数字人视频生成平台,仅需一段5分钟的真人视频素材,就可以生成出声音及动作自然、口型准确、多语种精通的数字人分身。据《IT时报》记者实测,这可能会对真人出镜类的短视频创作造成较大的冲击,因为从文本创作到翻译,再到数字人出镜,都由AI完成。不过,最后也要看C端应用上架后的定价是否具有竞争力。“琼宇SenseSpace”和“格物SenseThings”3D内容生成平台,可以高效低成本生成大规模三维场景和精细化的物件,为元宇宙、游戏等虚实融合应用打开新的想象空间。
  融合以上的数字人、自然语言大模型以及3D内容生成的能力,可以想象,以后数字人将成为直播间的“常客”,电商直播的主播、产品展示和客服回复都能由AI来完成。
  此外,商汤还开放了自动化数据标注、自定义大模型训练、模型增量训练、模型推理部署、开发效率提升等多种大模型即服务。基于预训练大模型的自动化数据标注可实现相较于人工数据标注近百倍的效率提升;大模型并行训练和模型增量训练服务能够快速利用自有数据训练模型,包括在预训练大模型之上进行垂域行业模型的开发,生产千行千面的自定义模型;模型推理部署服务可将大模型推理效率提高100%以上,降低用模型提供服务的成本;商汤也向行业开发人员开放大量预训练模型及AI开发工具链,开发效率也能大幅度提升。
大模型小型化对抗算力风暴
  在AI大模型时代,数据、算法和算力这三要素也在经历新的演变,大模型参数量将以指数级的速率提升,而数据量随着多模态的引入也将大规模增长,因此就必然会导致对算力需求的剧增。
  目前,高端GPU呈现供不应求的局面,各大国产大模型都在紧锣密鼓地进行算力扩容,每几个月翻一倍算力,早就超越摩尔定律。近期,OpenAI的ChatGPT暂停Plus会员注册,恐因算力紧缺所致。
  历时五年,商汤建设了AI大装置,总共有2.7万块GPU芯片卡,可以输出5.0 exaFLOPS的总算力,是亚洲目前最大的智能计算平台之一。商汤2022年财报显示,目前,AI大装置已支持超过10个大模型训练项目,面向8家企业进行大模型训练,总共对外提供7000多块GPU芯片卡。
  在上海临港,商汤AIDC的1期机房已经启用,GPU国产化已在进行中,算力密度较高。徐立表示,商汤AIDC可以同时提供20个千亿级参数的大模型训练。
  在“日日新”大模型发布前,《IT时报》记者和王晓刚聊了聊ChatGPT浪潮引发的算力风暴。“模型小型化是必然趋势,加上芯片的联合优化,从而降低对算力的依赖,以后甚至在终端芯片上就能完成推理。”王晓刚解释道,“B端主要算力需求在于推理,因为模型商汤已经训练好,商汤不是线性地增加算力,比如增加10家B端客户,我们就增加10倍的算力。”
  商汤科技联合创始人、大装置事业群副总裁陈宇恒表示,商汤在算力领域已进入无人区,我们将上万块卡进行低延迟、高稳定、高吞吐的互联,这可能是全国乃至全球都没有人做过的。
  ChatGPT的浪潮可能会驱使互联网大厂重新排位,而每一次新的技术革命都会涌现出黑马,另辟蹊径击穿稳固的大厂。如果说百度的能力在于基于中文搜索引擎的数据积累,阿里的能力在于大生态的产品力,那么商汤能在一众互联网大厂中脱颖而出,还是在多年AI技术研发能力的积累上,它从2016年开启了AIGC商业化进程。
  “ChatGPT开启了AI的第二次革命,AGI催生了新的研究范式。”王晓刚对《IT时报》记者表示,以前的模型更像刻苦但天赋不高的运动员,教练需要用人工数据标注一招一式地教,而AGI多模态基模型就像极具天赋的运动员,人类就像教练,通过强化学习和人类反馈不断解锁基模型新的能力,再基于基模型训练小模型,堪称无招胜有招。AGI将实现从“数据飞轮”到“智慧飞轮”的演进,最终迈向人机共智。