IT时报 -V1 时报要闻-
V1 时报要闻 下载阅读 下一版
1时报要闻
  • ·“戏”说赛博魔都
  • ·这一步,是“天堑”还是“咫尺”?
  • ·以真实的故乡“消解”虚拟的现实

Sora“炸场”中美AI差距几何

这一步,是“天堑”还是“咫尺”?

  

IT时报记者贾天荣
  Sora,已经成为人工智能界的开年王炸。
  2月16日,OpenAI发布Sora大模型,仅需通过文本即可自动生成视频,这也是继文本模型ChatGPT和图片模型Dall-E之后,又一极具颠覆性的大模型产品。
  文本生成视频并非始于Sora。据不完全统计,截至去年年底,全球范围已涌现了包括Runway、Pika、Stable Video Diffusion在内的超过20款同类产品。但Sora的登场无疑带来了一场革命性冲击,其展现出来的卓越性能近乎达到对同类产品的“碾压”级别。
  Sora所展示的颠覆性体现在多个维度,可以直接输出的视频长达60秒,并且视频内含复杂精细的背景环境、动态多变的运镜、多样化的角色表现以及一镜到底或切换多机位的无缝对接,从人物微妙的表情变化至动物生动的姿态模拟,都足以以假乱真。
  在OpenAI发布的视频中,一名时尚女性走过喧闹繁华的东京街头,背景建筑、街道以及人像的逼真程度,都保持了高度一致性,哪怕是各种镜头的蒙太奇,都没有出现明显的失真。
  有人评价,由Sora生成的视频,无论是光影色彩的转变,还是镜头移动,甚至细微到纹理结构变化,都呈现出较高质感。它还能模拟现实世界的物理规律,像“一杯咖啡中,两艘海盗船展开了激烈的战斗”这段视频,不仅呈现了咖啡的流体动力学和逼真的光影渲染,还运用了光线追踪和移轴摄影技术等,技能强大。
  OpenAI强调,“Sora是能够理解和模拟现实世界模型的基础,我们相信这一功能将成为实现通用人工智能(AGI)的重要里程碑。”
  Sora的横空出世引发了关于中美AI差距是否进一步加大的热议。360公司周鸿祎指出,尽管国内大模型发展水平接近GPT-3.5,但与4.0相比仍存在一年半左右的差距。
  周鸿祎认为,OpenAI可能还握有未公开的秘密武器,“中国跟美国的AI差距可能还在加大。”
  与此同时,不少业内人士表示,中美AI发展的根本差距或许不在于技术本身。
OpenAI
数据是“秘密武器”游戏引擎或是关键
  《IT时报》记者注意到,根据OpenAI发布的技术报告,Sora强大能力背后的主要功臣与两点有关:其一是使用了基于Transformer的扩散模型(Diffusion Model);其二是将不同类型视觉数据转化为统一格式——像素块(patch),从而能获取利用数量庞大、质量过硬且算力性价比高的数据。
  技术报告中,OpenAI并没有披露训练来源和具体细节,业内人士认为,数据很可能是Sora成功的最关键因素之一。
  “我觉得最核心的一点是OpenAI有足够的数据。”Logenic AI联合创始人李博杰向《IT时报》记者表示,OpenAI之所以能够在生成模型领域取得突破,主要原因在于,其数据质量和数量上的显著优势。
  浙江大学百人计划研究员、博士生导师赵俊博在接受澎湃新闻采访时也表示,对于Sora采用了怎样的数据进行训练,圈内依然众说纷纭,推测可能是运用了游戏引擎生成的大规模数据:“可能是游戏引擎里面吐出来这种数据,但它这个数据到底怎么收集、如何生产加工,最后如何喂到Sora里面进行管线化的预训练,我们确实不知道。”
  OpenAI曾发布两个20秒长的Sora版《我的世界》演示视频,研究人员向Sora提供包含“Minecraft”(《我的世界》游戏)一词的提示后,Sora可以渲染出与《我的世界》游戏极其相似的HUD、高保真度渲染世界及游戏动态,同时还能控制玩家角色。
  值得一提的是,去年8月,OpenAI官宣了有史以来第一次收购,收购对象为制作开源版《我的世界》的初创公司Global illumination。李博杰猜测,从Sora版《我的世界》演示成果来看,OpenAI对Global illumination收购或许为Sora的数据积累做了一定贡献。
  另外,在算力方面,虽然OpenAI训练Sora模型使用的GPU卡数量并非无法企及,但其他公司在具备足够硬件资源的情况下,仍然难以复制OpenAI的成功,主要瓶颈还是在于如何获取和处理大规模高质量的视频数据。
  《IT时报》记者注意到,收购Global illumination的同时,OpenAI宣布以创新方法来训练AI模型,有望省去标注大量资料的训练过程。 下转05版