正在阅读:搜狗展示唇语辅助语音识别工作原理:准确率显著提升了搜狗展示唇语辅助语音识别工作原理:准确率显著提升了

2019-05-20 17:34 出处:其他 作者:PConline 责任编辑:wuyiying1

  [PConline资讯]2017年年底,搜狗在乌镇“世界互联网大会”上发布了通过唇语识别辅助提升语音识别准确率的初步成果,成为业内首家。近日,搜狗宣布发展一年多的唇语识别模型的准确率,跟最初的50%~60%相比已有很大提升,并达到了可以将原本独立发展的唇语和语音识别结合起来,形成“多模态”识别的水平。

  搜狗于2016年4月22日捐赠1.8亿元给王小川的母校清华大学,联合成立“清华大学天工智能计算研究院”,致力于人工智能领域的前沿技术研究。本次公布的语音和唇语的多模态识别正是由该联合研究院主导。

  相关论文《基于模态注意力的端到端音视觉语音识别》在今年5月12-17日召开的国际声学、语音与信号处理会议(ICASSP)发表,这是由IEEE主办的国际语音识别、信号处理学界的顶级会议。

  搜狗方面对国内科技媒体“量子位”介绍了论文主要内容。据介绍,将唇语识别加入单纯的语音识别,需要克服两个主要问题:一是协调音视频的不同帧率(一般音频为100fps,视频为24fps),二是合理确定音频和唇语内容对整个识别结果分别贡献多大比例。

  显然,这一比例绝不应该是固定下来的。有的时候,语音非常清晰可辨,此时视频内容搞不好反而带来干扰;另一些时候,语音比较模糊,这时才应该合理提升唇语识别的比重。搜狗采用名为“基于注意力的编码器/解码器”的方法来动态确定当前时刻混用唇读和语音识别的比例。

  搜狗方面表示,该论文去年6月立项,10月完成投递,其中接近一半时间用来处理比例问题。

  在语音清晰可辨的环境中,视频的“注意力权重”约为35.9%。当信噪比为0dB(即噪音音量跟信号声音差不多大)时,视频的“注意力权重”提升到接近40%,此时“多模态识别”的准确率相比清晰环境提高了30%。

  在一段演示中,人们模拟在地铁运行环境中说话,同时记录下口型。单纯识别语音的结果是“北京今天天气走”,单纯识别唇语的结果是“嗯北京今天天气怎么样”,合起来即可得到正确结果“北京今天天气怎么样”。

  语音交互技术中心首席科学家陈伟预计,结合视频读唇的语音识别可能会用于未来的搜狗手机输入法,及结合了摄像头的汽车车机导航等环境(也就意味着届时输入法将请求摄像头权限以提升识别准确率)。

相关阅读:

搜狗进行股权结构变更:腾讯持股38.2%!

//pcedu.pconline.com.cn/1256/12563359.html

搜狗推出阿拉伯语AI合成主播 将落地海外市场

//pcedu.pconline.com.cn/1255/12551476.html

搜狗2019年第一季度财报:营收为17亿元

//pcedu.pconline.com.cn/1253/12539859.html

 

关注我们

最新资讯离线随时看 聊天吐槽赢奖品