唇读人工智能可以帮助聋人或间谍

唇读人工智能可以帮助聋人或间谍
iStock.com/Jake Olimb
唇读人工智能可以帮助聋人或间谍

对于无法听到的数百万人来说,唇读可以提供一个窗口,可以在没有它的情况下丢失对话。 但这种做法很难 - 结果往往不准确(正如你在看到的那样)。 现在,研究人员正在报告一种新的人工智能(AI)程序,该程序的性能优于专业的唇读者和迄今为止最好的AI,其错误率仅为之前最佳算法的一半。 如果完善并集成到智能设备中,这种方法可以将唇读放在每个人手中。

“这是一项了不起的工作,”伦敦玛丽女王大学的计算机科学家海伦·贝尔说,他没有参与这个项目。

编写可以阅读嘴唇的计算机代码令人抓狂。 因此,在新的研究中,科学家转向了一种称为的人工智能,其中计算机从数据中学习。 他们为他们的系统提供了数千小时的视频和成绩单,让计算机自己解决了这个问题。

研究人员开始使用140,000小时的YouTube视频,让人们在各种情况下进行交谈。 然后,他们设计了一个程序,可以创建几秒钟的剪辑,每个音素的嘴部运动,或单词声音,注释。 该程序过滤掉了非英语语音,非语言面孔,低质量视频和未直接拍摄的视频。 然后,他们裁剪了嘴巴周围的视频。 这产生了近4000小时的录像,包括超过127,000个英文单词。

哥伦比亚大学的计算机科学家哈桑·阿克巴里说,这个过程和由此产生的数据集 - 比同类产品大7倍 - 对于任何想要训练类似系统阅读嘴唇的人来说都是“重要且有价值的”。在研究中。

该过程部分依赖于 ,AI算法包含许多连接在一起的简单计算元素,这些元素以类似于人类大脑的方式学习和处理信息。 当团队为节目提供未标记的视频时,这些网络会产生剪辑的嘴巴动作。 系统中的下一个程序,也使用了神经网络,拍摄了这些剪辑,并为每个视频帧提供了可能的音素列表及其概率。 最后一组算法采用了可能的音素序列并生成了英语单词序列。

经过培训,研究人员在37分钟的视频中测试了他们的系统。 他们在本月发布在arXiv网站上的一篇论文中报告 ,人工智能 。 这可能听起来不是很多,但最好的以前的计算机方法,专注于单个字母而不是音素,单词错误率为77%。 在同一项研究中,专业的唇读者错误率为93%(尽管在现实生活中,他们仍然有语境和肢体语言, )。 这项工作由位于伦敦的人工智能公司DeepMind完成,该公司拒绝就此记录发表评论。

Bear喜欢该程序理解音素可能看起来不同,取决于之前和之后说的内容。 (例如,嘴里的形状不同于“靴子”中的“t”而不是“beet”中的“t”。)她还喜欢系统有单独的阶段来预测嘴唇的音素和预测音素中的单词。 这意味着如果你想教系统识别新的词汇单词,你需要重新训练最后一个阶段。 但她说,人工智能有其弱点。 它需要清晰,直观的视频,41%的错误率远非完美。

Akbarni表示,将程序整合到一部手机中可以让听力障碍人员随身携带“翻译”。 这样的翻译也可以帮助那些不会说话的人,例如因为声带受损。 对于其他人来说,它可以简单地帮助解析鸡尾酒聊天。

Bear会看到其他应用程序,例如分析安全视频,解释历史镜头,或在音频下降时听到Skype合作伙伴。 新的人工智能方法甚至可以回答世界上最大的一个谜团:在2002年世界杯决赛中,法国足球运动员齐达内被驱逐出局,突然头部对手。 他显然是被垃圾话引起的。 说了什么? 我们终于可以知道了,但我们可能会后悔有问题。

Write a Comment

电子邮件地址不会被公开。 必填项已用*标注