正在阅读：搜狗拼音输入法词库是怎样炼成的搜狗拼音输入法词库是怎样炼成的

2007-04-08 18:19 出处：作者：吕杰勇责任编辑：linjixiong

　　词库的机器整理

　　在1.0版本发布以后，许多用户抱怨垃圾词太多，于是我们又进入了与剩余垃圾词的战斗，以其进一步提高输入法词库的质量。

　　经过分析我们认为垃圾词可以根据垃圾的类型分为几大类，例如：交叉型垃圾词，比如“量将”；错别字类型垃圾词，如“张亮影”、“张亮颍”，“张亮颖”等。

　　对于这三种垃圾词，我们可谓使出了浑身解数。针对每一种类型的垃圾词，我们结合词性、互信息等理论进行大规模的统计操作，并对每一个阈值下过滤的词进行抽样把关，像淘沙子一样由一位工程师持续过滤了近一个月，过滤了近3万的垃圾词。

　　词库的人工整理

　　机器不是万能的，在机器的铡刀间总会存在无法自动处理的角落。为了再进一步提升词库质量，我们招聘了名校中文系的毕业生来审查我们的词库。由于编辑的辛勤劳动，不断与众多不知名的文字专家探讨垃圾词的标准，并借助技术工程师的力量，通过人工、机器两相配合的方式，又进一步过滤了数以万计的垃圾词。其中我们的编辑特别辛苦，需要对每一个词条进行确认，对于一部分词，还需要查字典确认，仅仅手工查《现代汉语词典》就超过2000次。终于，搜狗词库的混乱状态得到了改观，用户抱怨搜狗词库的声音逐渐平息，输入法的智能性也在不断努力中接连攀升。

　　词库的注音

　　由于普通词条是没有拼音的，所以我们必须对它们注音。注音的难点在于对多音字的处理，为此我们搜集了大量的拼音语料，从中统计出每一个多音字的读音概率，并开发了一套完整的注音程序，从而使每一个词条拥有了读音。但是注音问题也是一个经典的问题，从没有过完美的解决方案，因此我们的注音结果也存在诸多谬误。除此之外，有时甚至还存在一种事理上的矛盾，比如有些词（如模板，正确读音为muban，但很多人读moban）的大众读音是错的，那么到底该不该纠正该读音? 像这种物理上谬误的逐步纠正和现实中矛盾的合理处理，都是我们的编辑和工程师不断努力的结果。

　　新词发现

　　除了已有的词库，我们还要不断发现新词。因为人类的词库是不断变化的，而互联网对这种变化相当敏感，所以我们开发了一套从互联网中发现新词的算法和系统。此系统拥有自动流程，每周自动发送新词报告，再由人工过滤确认，从而使搜狗词库保持与互联网同步，与人们的生活同步。

　　词库的验证

　　在输入法词库制作完成以后，我们不会直接发布给用户，而是需要经过严格的准确性评测。准确性评测的方法主要是用机器自动模拟人工在输入法上击键输入，在数万行的中文样本上计算首选词正确的比例，以及不正确情况下翻页找词的次数。每次词库评测都需要测试组工程师花上数天的时间来完成，确保词库制作无误、首选词的准确性达标才能发布出来。

　　所以搜狗输入法的词库凝聚了众多开发工程师、测试工程师、中文编辑长达十几个月的心血。随着输入法小组集体的努力，搜狗的词库错误越来越少，质量越来越高。每当听到用户好的反馈，我们总是十分的高兴与欣慰。

　　然而在词库成绩显著的同时，我们也不能忽视词库中存在的个别问题，如仍有个别错词垃圾词存在，为此我们开通了各种渠道便于用户举报错词；我们也会进一步优化词库相关技术，相信在开发小组和用户的共同努力下，我们能够呈献给大家一款更加完善好用的输入法。