互联网视频背后的“魔术师”

9新闻产业

·互联网视频背后的“魔术师”

高通玛尔塔·卡兹维茨博士：

互联网视频背后的“魔术师”

IT时报记者王昕
　　每天万亿GB级的视频数据流通过有线和无线网络在地球各个角落流淌，数十亿人通过手机、Pad、PC、VR等各式各样的数字终端观看，Youtube、NetFlix、爱奇艺、优酷、Facetime、抖音等花样百出的视频应用丰富着人们的生活。
　　在这空前繁荣的视频世界背后，仍是由“1和0”构成的数字世界，对科学家来说，更是如此。高通公司技术副总裁玛尔塔·卡兹维茨（Marta Karczewicz）博士可算是这光怪陆离的互联网视频世界的重要建设者之一，她是视频压缩技术的开创者，大大推动了网络视频压缩技术的发展，这让所有人得以通过更窄的带宽看到更高质量的视频画面。
　　近日，欧洲专利局宣布，玛尔塔·卡兹维茨博士在欧洲发明家大奖评选中获得“终身成就奖”提名。
　　对许多中国网民来说，玛尔塔·卡兹维茨在全球拥有的近400项专利中不乏一些熟悉的名字，例如高级视频编码（AVC）和高效视频编码（HEVC）等都曾极为广泛地在中国和全球互联网视频领域应用。
数学天才改变互联网影像世界
　　什么样的人可以成为视频压缩领域的专家？玛尔塔·卡兹维茨告诉我们，也许得是个数学天才。
　　玛尔塔·卡兹维茨出生在波兰什切青市，从中学起，她就在数学领域展现出过人的热爱和天赋。“我对其他学科不在行，但我发现数学能帮助我解决复杂问题，而且事实也证明我真的很在行（数学）。”玛尔塔·卡兹维茨丝毫不掩饰自己对数学的喜爱，在中学期间她还曾夺得过波兰数学奥林匹克竞赛的奖项。
　　玛尔塔·卡兹维茨在获得诺基亚奖学金后前往芬兰佩雷大学学习信号与图像处理，在芬兰攻读硕士学位期间，她参与了诺基亚的多个研究项目，其中之一就是视频压缩技术的研究。“我当时就对视频压缩技术产生了浓厚的兴趣，因为这项技术涉及大量的数学问题，特别是统计学。我喜欢那些需要分析大量数据并寻找其中规律的问题，而这正是视频压缩的基础。”玛尔塔·卡兹维茨说，视频压缩在当时是一个相对新兴的领域，MPEG-2标准刚刚制定完成，前景非常广阔。
　　目前，玛尔塔·卡兹维茨的发明已经在多种视频压缩标准中发挥了重要作用，比如高级视频编码（AVC）、高效视频编码（HEVC）以及即将推出的多功能视频编码(VVC)。如果用一个数字来形容玛尔塔·卡兹维茨研究成果的价值，那么只要将VVC与此前的MPEG2和H.263视频编码进行对比，就不难发现在保证图像质量不受影响的前提下，全新视频压缩标准的压缩比已经增加了80%以上。
　　高通工程执行副总裁兼首席技术官Jim Thompson表示：“毫不夸张地说，如果没有卡兹维茨博士的发明，我们如今每天享受的视频传输将不可能实现。她获得这一享有盛誉的奖项提名，再次证明了高通公司发明的基础科技的价值以及我们拥有世界一流水平的发明家。”
　　据悉，欧洲发明家大奖是为表彰那些通过发明对技术进步做出实质性贡献并且改善人们日常生活的欧洲杰出发明家而设立的。其中，享有盛誉的“终身成就奖”这一奖项是表彰那些拥有长期贡献和重要专利发明、并已对技术领域和整个社会产生巨大影响的个人发明家，玛尔塔·卡兹维茨成为获得“终身成就奖”提名的三位最终入围者之一。
魔术般的1000:1压缩率
　　极限情况下，现代编解码器可以将原始数据压缩1000倍，实现1000:1的压缩比，这让通过互联网观看在线高清电影变得轻而易举，也将支持诸如增强现实或虚拟现实、远程医疗等数据密集型视频应用。
　　有人说玛尔塔·卡兹维茨是魔术师，能让海量视频数据通过压缩而“消失”得无影无踪，而玛尔塔·卡兹维茨说：“我不是魔术师，解决问题的方式是数学方法，视频压缩是一项使能技术，世界因此而迥然不同。”
　　那么，如此惊人的视频压缩率是如何实现的呢？
　　众所周知，视频图像由24至120帧组成，在视频网站中非常常见的高清视频中，每帧图像由1920×1080像素组成，即大约200万个小点，每个像素都承载亮度和色调信息，因此高清视频传输过程中每一秒都会产生大量的原始数据，而逐帧减少图像尺寸正是数据压缩的艺术。
　　帮助实现这个目标的正是“解码器”。解码器是一组在设备处理器上运行的模块和算法，解码器将图像信息缩减到最小值，并将其转换为1和0，再通过有线宽带、无线网络等方式传输这些信息直至视频播放的目的地，编码器再利用压缩信息重构视频图像。
　　玛尔塔·卡兹维茨说，在圣地亚哥的海边散步时，她常常会迸发压缩数据新想法的第一步，她和团队工作的目标是对图像质量无明显影响的全新简化。在数据压缩领域，也有基本的捷径，省略掉人眼无法察觉的色彩，例如视频中的大海和天空景象没有发生明显变化，就不用再压缩解码，为了节省数据，参考帧之间的动态可以通过预估而非精确描绘。“我格外引以为豪的发明是去块效应滤波器（deblocking filter），这项发明是AVC的一个重要组成部分，并在经过改进后推动了VVC标准的形成。”玛尔塔·卡兹维茨认为这是她个人对视频压缩技术所做出的一个重要贡献，“去块效应滤波器能够用于检查相邻信息块内的像素并将明显变量平滑化，保持图像质量，同时降低文件大小。”
1%背后的艰难
　　过去20年出现的许多想法已显著改进了编码器模块，玛尔塔·卡兹维茨说，比特率降低不会因为单一技术突破而发生，而是小改进的积累，每个改进能实现1%或2%的提升，视频编码和视频压缩技术正在逐渐走向成熟，但距离技术极限还有很长一段距离，这中间还可以进行不断的技术突破，“将来视频技术的发展速度只会更快，并没有减缓，也没有到达技术饱和状态。”
　　视频编码技术发展到今天已经变成了一个非常复杂的系统，需要团队互相合作，互相学习，并互相给予灵感。“在视频编码领域，一项新技术的研发动辄需要数十人的团队，并花上至少5年时间。从AVC开始启动到其成为一个相对主流的标准，经历了大约10年。虽然这个周期目前已经缩短至5年左右，但这当中还存在着很多不确定性。通常，你的10个想法里可能只有1个想法能够被往前推进。”玛尔塔·卡兹维茨进一步解释，视频压缩率即使只是想要提升1%，也可能需要尝试和实践多达数十种不同的想法，“仅我目前管理的团队就拥有7000台计算机组成的计算机集群，不难想象，我们在工作当中需要进行多少次模拟和多少种尝试。”玛尔塔·卡兹维茨博士带领团队持续在视频压缩技术领域寻求突破。
　　不仅如此，一旦一个新的方案诞生，接下来的标准化过程一般需要至少3年的时间，在这过程中还会有很多不确定因素，比如这个新技术、新想法是否能够被市场认可，是否能够满足性能及各方面的要求以及如何加以实施。“在我看来，为发明申请专利是非常有必要的。因为通过这样的方式，可以快速公开我们的发明，同时还能够把我们的发明与其他公司或领域的技术进行更好地结合，让不同的发明者之间互相启发。”玛尔塔·卡兹维茨介绍，当她和团队开发新的算法方法时，几乎立即将其引入标准讨论，目标是激励其他人尽可能地启动新的标准化项目，她坚信，标准化的过程是开发新技术的最佳方式，因为它既能促进协作又鼓励竞争，“事实也证明成功的视频编码技术都是在标准组织的环境中被开发出来的。”
　　总而言之，视频编码领域的研究是一项耗时且耗资巨大的工作。所以，玛尔塔·卡兹维茨认为，进行视频压缩和编码这种基础技术的研究工作主要应该由企业来承担，而非大学，“像高通这样的公司，致力于移动基础科技的发明，高通的发明文化也激励着发明者们持续地进行研究，不断探索技术上的突破。”
未来的视频世界将是怎样？
　　和所有女性一样，业余时间玛尔塔·卡兹维茨喜欢购物，和朋友一起社交聊天，做一些家务，但她更喜欢看电影。
　　玛尔塔·卡兹维茨说，自己喜欢看大制作电影，比如《星球大战》和《侏罗纪公园》，她非常喜欢其中的视觉特效，但她与常人看电影时不一样的地方在于，“我很难看电影，尤其是流媒体或广播，因为我会一直留意伪影，这让每个与我一起看电影的人都受不了，因为我总是指指点点，这里有区块伪影，那里有闪烁伪影。”如果互联网视频不能发挥最佳效果，就会导致每个人都能看到的瑕疵——这被称之为伪影，玛尔塔·卡兹维茨发明的最明显改进之一，就是可消除此类错误的校正回路。
　　今天，业界已经可以实现4K、8K的视频质量，视频图像质量的不断提高对压缩技术又有了更高的要求。玛尔塔·卡兹维茨展望：“我认为视频技术的终极目标是实现一些科幻电影中所描述的应用场景，比如早晨醒来打开电视，人们可以借助摄像头等设备的辅助实现沉浸式体验，屏幕画面可以从细节、色彩与对比度上完美复现周边的环境。”同时，随着VR和视频技术的结合，将来VR用户对视角的多样化实时选择也对带宽有更高要求，这需要压缩技术的不断进步来配合。
　　玛尔塔·卡兹维茨还透露，一种称为定积摄像(volumetric video)的新型视频形式已经出现，定积摄像不仅能够表现2D的画面，还能呈现3D的景象，视频的每一帧都能反映2D和3D的现实，“如此一来，将来我们在看视频时就能获得和今天打视频游戏时一样的体验，可以选择自己的视角，可以接近图像当中的物体，甚至可以绕到这个物体的后面。”
　　玛尔塔·卡兹维茨强调，目前2D视频的展现也还称不上完美，定积摄像或VR视频的压缩方面还有更长的路要走。“我们最终观看的视频能够真正展现外部世界，并且带给我们身临其境的体验。”对于未来，玛尔塔·卡兹维茨坚信，视频技术的使命就是把现实带进视频。