多模态兴起仿真人离我们还有多远？

4年度热词

·多模态兴起仿真人离我们还有多远？

多模态兴起仿真人离我们还有多远？

IT时报记者沈毅斌图东方IC
　　ChatGPT横空出世，在全球掀起一场大模型之风。百度、字节、商汤、科大讯飞等头部科技企业纷纷发布自家大模型，2023年俨然成为“百模大战”元年。
　　当人们纷纷预测大模型未来走势与发展形态时，科技巨头谷歌推出其认为规模最大、功能最强的多模态大模型Gemini 1.0。所谓多模态大模型是可以理解文本、代码、图片、视频、音频等多种信息，并通过AI技术进行解析应答的大模型。
　　相较于侧重文本理解和输出的大语言模型，Gemini在功能上实现进一步升级，这或将掀起一场全球大模型之变。国内许多科技企业也号称打造出多模态大模型，但无论是准确地理解，还是快速地回答，都不是那么“丝滑”，那么多模态大模型距离真正商业化还有多远？2023年多模态时代开启商业化仍遥远
　　男子在纸片上画出一只鸭子，并为其涂上蓝色，AI在一旁回答：“这种颜色的鸭子不常见，但也存在蓝鸭品种。”男子拿出一只蓝色橡皮鸭放在地图上某一位置，AI说：“这片区域不太可能找到鸭子。”随后男子将一张纸团放在三个不透明的杯子下，随意打乱顺序，AI猜道：“纸团在左起第一个杯子里。”
　　上述这些画面均来自谷歌发布的Gemini 1.0演示视频，无论男子做出什么手势、拿出什么物品，甚至玩换手猜硬币小游戏，Gemini 1.0都能丝滑地互动。从测评数据来看，Gemini在MMLU任务表现上取得90.0%的成绩，人类专家的成绩为89.8%，GPT-4为86.4%，Gemini成为首个优于人类专家的大模型。谷歌DeepMind产品副总裁伊莱·柯林斯表示，这是谷歌迄今为止功能最强大、最通用的大模型。
　　谷歌表示Gemini大模型预计将在超过170个国家和地区提供服务，未来有望帮助人类通过阅读、过滤和理解海量信息，在科学研究、金融等许多领域实现突破，同时，高质量代码的生成能力使其有望成为优秀的代码助手。
　　Gemini真能如视频中一般快速且准确地回应吗？“演示视频是剪辑出来的，实际Gemini根本达不到这样的实时性。”科大与MSRA联培计算机博士李博杰表示，从体验来看，只要把截图喂给GPT-4V，演示视频中的效果GPT-4V也能做出来，当然延迟会比较高。
　　目前，Gemini的水平超过了GPT3.5，距离GPT-4仍然存在较大差距。但为何谷歌Gemini 一经发布就能火爆全行业呢？
　　千诀科技CEO高海川告诉《IT时报》记者，首先谷歌作为老牌AI公司，其关注度和粉丝数很大，推出科技新品自然引发热议。其次尽管Gemini还不如GPT-4，但它已经能实现大部分功能，同时使用起来比较流畅。“从通用性角度来说，两者可以打个平手，但准确率、鲁棒性以及幻觉方面，还是GPT-4要强。”
　　多模态大模型用于科研辅助效果还不错，但无论是GPT-4，还是Gemini，都达不到商业化程度。高海川认为，“以用于机器人领域的通用感知大模型为例，行业对安全性、成功率、准确度的要求至少是99.99%，小数点后位数越多越好，而目前现有的多模态大模型，能到达百分之七八十就已经算很高了，哪怕GPT-4V也达不到90%以上。”
　　如此看来，尽管Gemini开启了多模态大模型时代，但想实现多模态大模型商业化依旧任重道远。
国内起步晚却有本土化优势
　　多模态大模型之风在国外兴盛，但其实国内早有多模态大模型的先例。例如在2023年世界人工智能大会上，第四范式带来的“式说”多模态大模型。与生成图片、生成海报、生成文案等大家所认知的AIGC领域不同，第四范式将大模型技术聚焦在企业软件领域AIGS。
　　“多模态可以说是AIGS的核心能力。”第四范式技术品牌负责人大硕告诉《IT时报》记者，多模态大模型面向C端用户的产品体验已经较好，但面向企业用户的B端软件操作仍然复杂，功能迭代也需要花费更长时间，为to B多模态大模型的升级重塑留下空间。
　　以工业领域为例，传统国内飞机制造企业在使用工业设计软件时，查找相似零件需要经过许多复杂操作，即便是数模查询、组装等基础功能，也需要记住具体参数，才能完成。但使用多模态大模型则只需上传一张零件图片，并语音提问“帮我找类似的零件”“给出这两个零件的装配方案”，就能轻松找到相似零件，并提供多种组装方案。此外，多模态大模型还被广泛运用在医疗、金融、教育等多个领域。
　　尽管国内多模态大模型起步还是相对较晚，加上所收集的私有数据不够充分，目前还达不到国外多模态大模型的准确率和成功率，甚至还有较大差距。但从“式说”为代表的应用场景来看，国内多模态大模型的丰富程度不输国外，甚至一些领域还做到行业领先，“尤其是国内多模态具有很强的本土化优势。”高海川说道。
　　高海川口中的本土化优势，更多的是指国内大模型对中国特有物品和语言体系的理解。例如，上传一幅山水画让Gemini配一首诗，它输出的语序、语感都不太准确或没有意境。但给到书生等国内多模态大模型，不仅具备由图像到文本的跨模态生成能力，还拥有深厚的中国文化积累，甚至可以从图片中寻找能够表达出诗人思想情感的元素，如山峰高耸、云雾缭绕等。
2024年多模态大模型涌现机器人是未来
　　谷歌Gemini发布后，众多业内人士认为，多模态已是大模型发展的明确趋势之一。IDC咨询联合钉钉发布《2024 AIGC应用层十大趋势报告》也将多模态大模型预测为前沿热点密切关联的技术热词之一。
　　从产业角度看，多模态大模型与大语言模型的区别是扩充了信息输入和输出的模态。相比文本，视频、图片等视觉信息的使用率更高。医疗、金融、教育、传媒等大模型使用较为广泛的领域，同样需要视觉信息输入。与传统视觉模型相比，多模态大模型又具备深度知识的理解能力，这也成为多模态大模型的“过人之处。”因此许多科技企业在完成大语言模型打造后，又增加视觉模型系统，升级为多模态大模型。
　　这虽是大部分多模态大模型打造的路径，但不是唯一，上海人工智能实验室推出的书生多模态大模型，就是从视觉模型发展而来。“尽管路径不同，但背后的原理都是相通的。”高海川表示，多模态大模型无论怎样发展，最后都会走上“语言”这条路。
　　真正能让多模态大模型发挥能力的关键是研究人员喂给大模型的丰富语料库。这些语料库中包含了人类的思维逻辑和对世界的认知，多模态大模型也以此为核心，将语言作为生成物的基础。
　　不过这并不意味着由大语言模型发展而来的多模态大模型就有先天的优势。“做语言的需要弥补视觉，做视觉的需要专研语言，在如今开源程度比较高的情况下，两条发展路径切换其实都差不多。”高海川说道。
　　知晓多模态大模型发展路径后，落地场景才是下一步的重点。高海川认为，2024年必然会涌现出大量多模态应用场景，其中机器人肯定是其中之一。
　　中信证券发布的《大模型应用专题报告：多模态大模型催生产业应用革新》中显示，对于机器人产业，大模型的出现为智能体闭环带来了两个重要的影响，第一点是大语言模型可以高效地根据自然语言或客观需求快速准确地生成代码用于操作机器人，提升机器人操作的可及性和泛化性；第二点是多模态模型完成了机器人视觉观察到的信息向机器人决策系统的高效反馈，从而形成闭环。
　　不过，想要将多模态运用于机器人领域，数据收集是巨大挑战，因为目前还没有比较成功的“多模态大模型+机器人”落地案例。
　　奥比中光联合创始人肖振中表示，多模态大模型会让各类机器人、机械臂落地到更多场景中，如工业制造、柔性物流、商用服务等。但是，目前大模型与实际数据的结合还存在一定差距，运行消耗的算力也偏大，需要三年至五年的时间逐步落地，而业务成熟可能需要更久。

多模态兴起 仿真人离我们还有多远？

多模态兴起仿真人离我们还有多远？