正在阅读：搜狗展示唇语辅助语音识别工作原理：准确率显著提升了搜狗展示唇语辅助语音识别工作原理：准确率显著提升了

2019-05-20 17:34 出处：其他作者：PConline 责任编辑：wuyiying1

　　[PConline资讯]2017年年底，搜狗在乌镇“世界互联网大会”上发布了通过唇语识别辅助提升语音识别准确率的初步成果，成为业内首家。近日，搜狗宣布发展一年多的唇语识别模型的准确率，跟最初的50%~60%相比已有很大提升，并达到了可以将原本独立发展的唇语和语音识别结合起来，形成“多模态”识别的水平。

　　搜狗于2016年4月22日捐赠1.8亿元给王小川的母校清华大学，联合成立“清华大学天工智能计算研究院”，致力于人工智能领域的前沿技术研究。本次公布的语音和唇语的多模态识别正是由该联合研究院主导。

　　相关论文《基于模态注意力的端到端音视觉语音识别》在今年5月12-17日召开的国际声学、语音与信号处理会议（ICASSP）发表，这是由IEEE主办的国际语音识别、信号处理学界的顶级会议。

　　搜狗方面对国内科技媒体“量子位”介绍了论文主要内容。据介绍，将唇语识别加入单纯的语音识别，需要克服两个主要问题：一是协调音视频的不同帧率（一般音频为100fps，视频为24fps），二是合理确定音频和唇语内容对整个识别结果分别贡献多大比例。

　　显然，这一比例绝不应该是固定下来的。有的时候，语音非常清晰可辨，此时视频内容搞不好反而带来干扰；另一些时候，语音比较模糊，这时才应该合理提升唇语识别的比重。搜狗采用名为“基于注意力的编码器/解码器”的方法来动态确定当前时刻混用唇读和语音识别的比例。

　　搜狗方面表示，该论文去年6月立项，10月完成投递，其中接近一半时间用来处理比例问题。

　　在语音清晰可辨的环境中，视频的“注意力权重”约为35.9%。当信噪比为0dB（即噪音音量跟信号声音差不多大）时，视频的“注意力权重”提升到接近40%，此时“多模态识别”的准确率相比清晰环境提高了30%。

　　在一段演示中，人们模拟在地铁运行环境中说话，同时记录下口型。单纯识别语音的结果是“北京今天天气走”，单纯识别唇语的结果是“嗯北京今天天气怎么样”，合起来即可得到正确结果“北京今天天气怎么样”。

　　语音交互技术中心首席科学家陈伟预计，结合视频读唇的语音识别可能会用于未来的搜狗手机输入法，及结合了摄像头的汽车车机导航等环境（也就意味着届时输入法将请求摄像头权限以提升识别准确率）。

相关阅读:

搜狗进行股权结构变更：腾讯持股38.2%！

//pcedu.pconline.com.cn/1256/12563359.html

搜狗推出阿拉伯语AI合成主播将落地海外市场