人工智能使读唇越来越精准

点击：0时间：2021-01-12 16:12:09

李忠东

读唇破案匪夷所思

读唇术是一种以视觉代替听觉的高超技能，在隔绝说话者话音的情况下，会读唇术的人依靠观看他们说话时的嘴唇动作，就能解读所说的内容。在国际上，读唇已经成为媒体爆料和案件举证的重要来源之一。

此前，英国皇家检察院雇佣著名的“读唇女王”杰西卡·里斯为英国唯一的官方读唇证人。她能够根据英国警方用监控摄像机偷拍下来的嫌犯录像，用读唇翻译出录像带中嫌犯的对话，提供至关紧要的证据。这位英国获得认可的唯一“无声证人”一度被视为该国司法界的“奇迹武器”，帮助法庭将至少包括谋杀犯、武装抢劫犯、恐怖分子和毒品大亨等在内的30名罪犯定罪关入监狱，其中5名是英国2002年“零证据”最大劫钞案（案值650万英镑）的罪犯。

杰西卡自幼失聪，却能通过读唇术理解别人的话语。她阅读唇语的能力如此娴熟高超，往往让人们很难发现是一位耳聋患者。在这位唇语解读者的视线之内，没有什么秘密可言。无论怎样的对话场景，哪怕是录像带中人的脸没有正对着摄像机，只要看到了对方的部分嘴唇，也能够通过读唇术破译出来。杰西卡从侧面、上面和下面各个角度，即使隔着40～50米远，也可以根据说话人的嘴唇动作读懂他们的话语内容，甚至连方言也难不倒她。

然而读唇这种独特的技艺学习起来非常困难，因为它对于语言语境和知识理解要求非常高。测试实验发现，大部分人在别人说话时，通过观看后者的嘴唇动作，只能辨别出10%的单词，即便是所谓的唇语专家，准确识别率也不够理想。像杰西卡这样的读唇术天才，真是凤毛麟角。

然而研究人员称，通过获取大量数据来寻找“共同点”的人工智能（Artificial Intelligence，以下简称AI）技术，能够大大提升音频语言的识别度，使读唇越来越精准，达到跟“面对面”对话一样的程度。

最近，谷歌旗下DeepMind AI团队与英国牛津大学合作，开发出迄今为止全球最先进最准确的AI“读唇”软件。为了实现超过人类读唇能力的目标，研究人员选取了BBC2010 年1月～2015 年12 月间的一系列电视节目，其中包括“新闻之夜”“英伦早晨”“提问时间”和“今日世界”等，然后上传到一个神经网络上，对其“读唇”软件进行训练，即根据主播嘴部运动来识别其播报内容。

Deep Mind团队发现，人们在观看视频时，如果里面主人公说话的口型与声音不吻合，就会觉得很不舒服。这是音视频流不一致造成的结果。音视频流包括视频流与音频流，其中前者指视频数据的传输，后者指控制“数据流”同步类型音频的输出质量。为此，研究人员先让计算机学会完全同步的音视频流，掌握发音与唇形间的关联，进而自行推断音视频流中哪些画面是不同步的，再进行自动修正，从而避免了视频流与音频流不同步的障碍。

据统计，将选取的BBC所有的视频资料加起来，约有 11.8 万句话和1.75万个不同的单词。在经过了大约5000个小时的训练之后，掌握了读唇技术的AI“读唇”软件正式开启了读唇功能。在后来进行的读唇对比测试中，从2016 年3 月～9 月的节目库中随机选取出 200 种说话场景，要求对电视节目嘉宾进行唇语解读。结果很令人震惊，AI“读唇”软件的完全准确率为46.8%，而专业的唇语专家在接受同样的测试时准确率仅为12.4%。它不仅迅速掌握了读唇术，而且还比唇读专家做得好，一些媒体将其评为2016年10大科技之一。

不久前，牛津大学AI实验室的研究人员也使用深度学习技术，开发出了一种名为“LipNet”的AI“读唇”软件。在将视频中人物的嘴部运动与其台词进行匹配时，它的“表现”远远胜过了唇语解读者。虽然现在还处在初期阶段，但这款软件几乎达到了一种能够“实时”将静音视频转化为文本脚本的处理速度。

研究人员选用了一组数据库，用它对“LipNet”AI“读唇”软件进行训练和测试。测试中，研究人员收集了来自34名志愿者事先录制好的短视频。在视频中，他们读取的是一些“毫无意义”的句子（比如插图说明）。每个短视频只有3秒长，并且每个句子都采用非常简单的句式结构：命令动词+颜色+介词+字母+数字+副词，没有任何复杂的事件背景可言，测试视频当中的特殊词汇只有51个。但从事这项研究的科学家雅尼斯·阿萨尔指出：“‘LipNetAI‘读唇软件的测试结果令人满意，能够在更大的数据库中表现出色。”

这款“读唇”软件可以帮助那些听力受损的人群，尤其是在一个比较吵闹的环境（也就是计算机很难分离出噪音的环境）。他们可以佩戴内置摄像头的眼镜，在参加聚会的时候清楚地拍摄到目标人物说话时嘴唇动作，接着使用这款软件来实时将嘴唇“语言”翻译成文本，然后再将其语音传输到佩戴者耳朵中。“未来，或许我们就不敢对着自己的电脑讲话了。”另一位研究人员布兰登·席林福德表示，“原因很简单，它们可能会读懂我们说的内容。”

AI业内专家高度评价说，谷歌AI“读唇”软件绝对是构建全自动读唇系统的第一步，现有的各类庞大数据库完全可以支持深度学习技术的发展。“AI唇读技术非常实用，大有作为，例如可以使助听器变得更智能。”牛津大学里普耐特研究团队的阿萨埃尔教授展望道，“此外，AI技术还能够应用于外交和破案等领域，在普及之后甚至可能改变人们的生活，像注释电影或者利用唇部动作与Siri（苹果公司在其产品iPhone4S，iPad 3及以上版本手机上应用的一项语音控制功能）这样的数字助理进行沟通。”

人们对DeepMind团队的研究成果并不陌生，他们开发的AI程序AlphaGo （一款围棋AI程序，） 2016年3月以总比分4：1大胜围棋世界冠军李世石曾经轰动世界，充分显示了AI逐渐壮大的能力，让人类不容小觑。DeepMind 原是一间专门研发AI的公司，自2011年成立以来一直专注于研究解决AI问题。它所拥有的天才团队和未来发展性是谷歌决定在 2014 年以4亿英镑收购的主要原因之一，最后成為 Alphabet 旗下的一员。DeepMind 发展AI的脚步没有因为人事变动而趋缓，接连研发能让电脑有记忆和AlphaGo等突破性技术。

现在 DeepMind 又赋予了AI新的能力，让它能够自动从其记忆中学习，使读唇越来越精准。这种命名为“可区分神经电脑”（DNC）的AI系统会将一些相连的事实组织起来去解决问题，表明AI系统能在人类未教导它们所有可行解决办法的情况下，直接对其问题给予答复。AlphaGo 在与李世石对战时，需要人类主动给予其超过3000万种的下棋方式，而若能将DNC的相关技术应用至 AlphaGo 上，则能让它自行完成其他更加复杂的任务。这样的新突破其实是建立起神经网络的概念，它能模仿人类思考的模式，也是对于想让电脑透过记忆来学习找答案的一种非常好的机器学习应用。

编辑：成韵 chengyunpipi@126.com

标签: 杰西卡研究人员软件

分享到：