在网上，你能“变”成任何一个人

V1 时报要闻下载阅读下一版

1时报要闻

·在网上，你能“变”成任何一个人

在网上，你能“变”成任何一个人

换脸、变声App网络走红专家称技术难度不高，需谨防被色情、诈骗等黑产利用

IT时报记者潘少颖
　　前不久，有杨幂粉丝将朱茵版《射雕英雄传》中的经典扮相“黄蓉”的脸替换成杨幂，这段视频在网络上引起热议，以至于微博话题点击量飙升至1.1亿，很多网友对这样的“改头换面”表示毫无违和感。
　　说到换脸、变声，你可能会想到《聊斋》中的画皮场景或是看上去无所不能的PS修图技术，但是，这里说的换脸变声是来自AI的硬核技术。只要点几下鼠标，视频的主角，人物的声音都能瞬间、实时改变，最关键的是，对于不知情的人来说，根本无法觉察出这样的改变！
　　细思极恐，人们不禁发问：如果AI能实现换脸，那么我会不会成为色情片的主角？如果AI能变声，那么诈骗会不会变得更猖獗？
　　无法否认的是，暴露在外的人脸、声音是个人唯一且不可再生的生物信息，不少人丝毫不吝啬于将自己的照片发布于微信朋友圈中，但他们没有想到的是，如果自己的头像被采集并“移花接木”到他人身上，或者自己身上被安上了别人的脸和声音，都可能发生意想不到的混乱事件。
一分钟换脸成功
　　曾经，换脸和变声是人工智能公司“秀肌肉”的一种方式。比如在科大讯飞2019新品发布会上，董事长刘庆峰通过AI变声技术，现场模拟了单田芳、林志玲和罗永浩的声音来做开场白。
　　虽然以上案例带有更多的娱乐性质，但当其快速应用到普通手机用户身上时，却让人细思极恐。
　　从2017年开始，各种换脸、变声App就在各大应用商店盛行，《IT时报》记者在AppStore中搜索了此类App，换脸类的有诸如换脸大师、AI换脸、颜技等，变声类的有手机变声器、伪音变声器等。这些换脸变声的应用真的有那么神奇吗？《IT时报》记者试用了一款名为“Morphin”的换脸应用，使用之前需要添加自己的头像，这个应用的最主要功能就是换完脸后可以生成一张GIF图。在其素材库中有许多明星的动图，如《了不起的盖茨比》中小李子举酒杯、骚气的撒盐哥等，玩家可以把自己的头像“移花接木”到任何明星身上。《IT时报》记者又从网上下载了一张女性头像照片，并在“Morphin”的图库中选择了一张蜘蛛侠的动图，一分钟，经过“Morphin”的处理，蜘蛛侠动图上蜘蛛侠的动作没有改变，但脸已经变成了上述女性的脸。从效果上看，虽然有点模糊，但还是较为逼真的，不仔细看很难看出端倪。
　　变声的效果同样也是如此，在两年前的GeekPwn极棒安全大赛上，主持人黄健翔就在现场被AI“戏耍”了一把，仿声AI模仿黄健翔的声音与评委互动，让“正主”黄健翔直呼“太像了”。
　　如果说个人判断是凭感觉，那么选手们利用语音合成中的参数合成模式一举攻破声纹识别系统并通过手机声纹锁的验证足以证明：不论是图像领域，还是在语音和行为智能领域，AI存在被欺骗的可能性。
三大法宝：数据、学习、显卡
　　换脸和变声，听上去满满“高科技”的感觉，那么实际上，技术门槛高吗？
　　GeekPwn实验室安全研究员宋宇昊给《IT时报》记者演示了整个过程，他在网上下载了一段相声演员的演出视频并录制了自己的一段面部视频，分别从中截取上千张图片，用基于开源项目改编的程序代码提取这些图片中目标人物的脸部特征，训练机器来学习目标人物的“一颦一笑”。“为了让效果更逼真，需要采集目标人物不同的表情，训练时长大概需要2-3天。”宋宇昊说。
　　在宋宇昊的电脑上有两个界面，一个界面显示的是其本人实时的一举一动，另外一个界面则显示的是换脸之后的效果，宋宇昊的脸已经变成了上述相声演员的脸，“如果需要更逼真，还可以在肤色、灯光等各种细节上打磨。”在宋宇昊看来，换脸的技术门槛并不高，只需要从开源项目网站下载成熟的项目代码，外加一块性能较好的显卡就能搞定。
　　变声的原理亦是如此。蜻蜓FM大教育赛道负责人牛森向《IT时报》记者解释，当前市场上大多数的变声软件是改变输入音频的音色、音调并将变声后的音频输出，是基于真实人声来进行的简单变化。真正的变声，要有足够覆盖全场景、全内容、全领域的语音样本库、高理解力的文本解析能力以及精准的语音表述能力。“‘语音cos’在实操层面有很多硬伤，比如合成后的音频与真实的人声在情绪和情感表达上难以完全一致。单纯从技术角度看，核心难点在于音节衔接和情感表达上如何无限接近真人。在同样内容的音频样本中，如果用户无法准确分辨哪些语音样本是机器生成的，哪些是人类生产的，基本就可以认为这一合成系统通过了图灵测试，实现了人工智能。”
　　随着AI“智商”的提高，换脸变声也在变得越来越容易。“以前要合成一个目标声音，可能需要半小时的声音素材，现在只需要三五分钟的素材即可。”一位技术人员告诉《IT时报》记者。
　　公安部第三研究所顾荣杰主任向《IT时报》记者进一步解释，换脸变声背后的关键技术是基于神经网络的深度学习技术，这类技术的挑战主要有两个方面，一是要有好的深度学习算法，二是要有大量的训练数据，“用在换脸变声这类应用中，尽管现在有一些公开的标准数据集可以直接下载作为训练数据集来使用，但要做得好，还是要采集大量的人脸、语音信息，采集大量训练数据是有难度的，但中国是数据大国，在中国研究人工智能有天然的优势。”
　　下转第9版