正在阅读:从谷歌到搜狗,为什么科技企业都在玩“唇语识别”?从谷歌到搜狗,为什么科技企业都在玩“唇语识别”?

2017-12-19 18:17 出处:其他 作者:佚名 责任编辑:huangying2

  2016年底,研发出AlphaGo的谷歌DeepMind工作室,与牛津大学合作推出了一款能够阅读唇语的软件,在人工智能领域引发关注。通过测试,这款软件的识别准确率达到46.8%,虽然还不完美,但已经远超人类的唇读准确率(12.4%)数倍之多。DeepMind工作室的负责人称,这款软件可以帮助到听力受损的人,未来,他们的努力方向是从识别单词到可以识别句子,进一步提高唇读的准确率。

  科技的进步往往比我们预想中更快。在谷歌发布了唇读软件一年之后,搜狗公司在今年的乌镇互联网大会上,带来了全球首个公开演示的唇语识别系统。在会场,许多嘉宾都测试了这一全新的科技成果,其中还包括来自央视和多个地方台的记者,无论是“今天天气怎么样”这样的短句,还是“吃葡萄不吐葡萄皮”这样的绕口令,记者们只需要动动嘴唇,系统都可以准确识别。

  根据公开资料显示,谷歌唇读软件支持的词汇量只有17500个,而搜狗唇读系统可以支持的中文词汇超过十万个,在车载、智能家居等垂直应用领域,准确率超过90%。不得不承认,在唇读这个具体的领域,中国制造已经领先于大洋彼岸的科技巨头了。

  有人或许好奇,唇读系统的技术难度在什么地方?为什么从谷歌到搜狗,科技公司都在这个领域进行研究,其发展和应用前景又在哪里?

  唇读系统的技术难度

  简而言之,唇语系统都是由“看——听——同步——写”四个人工智能板块组合而成的。首先,它要求系统要能够对人的嘴唇运动进行捕捉记录,然后将记录下来的内容输入为图像序列,根据图像信息,机器学习进行相应的图像文字解码,经过复杂的运算得出结果,再将内容同步至书写设备上。

  此前,谷歌的方式是使用卷积神经网络对静止的图像进行分析,目的是辨认语言当中的最小单位,之后再逐步尝试去识别单词和词组。而搜狗采用的方式,是他们首创的复杂端到端深度神经网络技术,他们的优势是可以根据语言序列建模,直接识别整句话,不仅提升了识别速度,准确度也更高。

  唇读系统的应用前景

  读唇术看上去很科幻,许多人还不了解这项技术的商业潜力在什么地方。而根据目前业内人士的分析,其应用场景至少在以下几个方面:

  首先,是对语音识别的进一步强化。唇语识别可以在环境嘈杂,语音识别受到干扰的情况下判断语音内容,这样就可以把语音识别的准确率提升到一个全新的水平,例如最基础的语音输入、车载指令、同声传译等方面的用户体验都可以随之得到提升。

  其次,是在安保领域,可以判断无声指令。目前,我们国家的天网系统已经普及,但是只有摄像头,没有麦克风,对于许多治安问题的管理和侦破仍然是一个挑战。有了成熟的唇语识别系统之后,我们不仅可以拍下犯罪分子的容貌,甚至可以了解到他说了什么,这对于维护社会治安秩序是很用的帮助;

  另外,在商业领域,唇语识别可以帮助进行残疾人教育,以及介入硬件产品,比如助听器的改进。对听力受损的残疾人来说,可以说是为他们架起了一座沟通的桥梁。

  总结

  无论是谷歌还是搜狗,他们的实践都证明唇语识别作为一项重要的人工智能技术,其应用场景极为广泛。牛津大学唇语技术研究团队的Yannis Assael就曾经向媒体表示,这一技术不仅有着前沿的技术意义,也具备着难以估量的商业可能,从军事到公益,从支付到智能家庭,众多行业都会因这项技术发生改变。而从行业内部看,这些提前进入唇语识别研究的公司与团队,将有更大的机会筑起属于自己的技术壁垒,这相当于为他们的商业版图打下了一个坚实的基础。

关注我们

最新资讯离线随时看 聊天吐槽赢奖品