正在阅读:“会说话的人,一开口就赢了”——语音交互中的机器话术研究“会说话的人,一开口就赢了”——语音交互中的机器话术研究

2018-04-24 17:54 出处:其他 作者:佚名 责任编辑:maoyuanwen

“如果机器在某些现实的条件下 , 能够非常好地模仿人回答问题 , 让提问者在相当长时间里误认它不是机器, 那么机器就可以被认为是能够思维的 。”

—— 阿兰·图灵

“ 一个人的成功 , 约有 15% 取决于技术知识 ,85% 取决于口才艺术 。”

—— 戴尔·卡耐基

“ 与机器像和人一样对话” 大概是人类对人工智能最初的设想 , 也是人类希望在人工智能领域实现的目标 。

在不少科幻电影或小说里, 人工智能可以和人自然交流 , 甚至可以谈情说爱 ( 如电影 《her》中的萨曼莎 )。 但我们不得不承认 , 现实和理想差距很大 。 现在的人工智能虽然已经 “可以说话 ”, 但大多数都 “ 不会说话 ”, 我们经常可以听到 “ 这个问题我还理解不了 , 如果你想……,可以这样对我说……”。

为了教会机器“ 像人一样说话 ”, 人们在语音识别 、 自然语言理解 、 语音合成等诸多方面进行了大量探索 , 但这些探索主要集中在技术维度 , 而对机器话术涉猎较少 。

在汉语中 ,“ 术” 有技艺 、 方法之意 , 话术即指说话的技艺和方法 。 和技术相比 , 话术更偏艺术和人性 。 乔布斯说 “ 只有技术是不够的——技术与人文艺 术结合 、 与人性结合 , 才能带来让我们内心喜爱的结果 ”。 因此 , 我们本次从用户视角出发 , 尝试 从艺术和人性的角度对话术进行探索 。

研究主要包含以下内容 :

话术设计研究: 我们如何做的

话术设计原则:用户关注什么 ? 哪个更重要

话术设计建议:原则如何指导话术设计

一 、 话术设计研究: 我们如何做的 ?

当下的话术研究多从研究者视角出发,原则主要源自研究者的日常观察 、 哲学思辩和专业判断。 本次 , 我们从用户视角出发来探讨话术 ,研究过程如下 :

1. 案头研究

我们对人与人的对话结构和对话原则进行了系统梳理, 特别推荐 Grice 的 “ 合作原则”( 出自 《逻辑与会话 》 演讲 ,1967) 和索振羽的 “ 得体原则”( 出自 《 语用学教程 》 第二版,2014)。 这一步至关重要 , 它加深了我们对 “对话” 的理解 , 这些原则也成为我们设计实验话术时的重要参考依据 。

2. 对话场景设计

为覆盖尽可能多的场景, 我们系统梳理了语音交互的典型场景 , 如听音乐 、 问天气 、 家居控制 、 生活服务等 。 同时 , 每个场景下也细分了机器的不同状态 , 如是否听清 、 能否识别 、是否有能力满足等 。

3. 具体话术设计

对话场景梳理清晰后, 我们针对每个场景设计实验所需话术 。 话术来源主要有二 , 一是主流语音交互产品的现有话术 , 二是研究者基于人与人的对话原则撰写而成的话术 。

4. 话术实验

上述准备完成后, 进入正式实验阶段 。 在实验中 , 我们创设了各类场景 ( 具体场景见 “对话场景设计” 部分 ), 并且模拟了真实的人机对话过程 ( 所有实验话术均转为语音合成音进行播报 ), 要求用户基于真实体验对不同场景下每类话术的喜好度进行评价 。

同时, 我们使用了 “ 参与式设计”, 以“ 假如你是机器, 你会如何回答 ” 为起点 , 引导用户更深地参与到话术设计中 , 共同探讨实验话术以及更为理想的表 达方式 。 这一过程使我们获得了大量源自用户的鲜活话术 , 也使我们能从更丰富的角度挖掘用户构建话术的原则、 方法与技巧 。

5. 设计原则提炼与验证

基于案头研究和实验发现 , 我们提炼了初步的设计原则。 之后 , 要求用户对原则的可理解性、 全面性 、 适用性等进行评估 。 经过多轮评估 , 我们不断调整原则, 最终获得了现在的话术设计原则。

二、 话术设计原则:用户关注什么 ? 哪个更重要 ?

我们发现, 在用户心中 , 好的话术要兼顾理性和感性原则。 理性原则体现在 “机器的话是有用的 ”, 话术应该是以目标为中心 、 准确 、 简洁的 ; 感性原则强调 “对话过程令人愉悦 ”, 话术应该是自然 、 友好 、 有个性的 。

同时, 我们要求用户基于自身体验对各原则的重要性进行了 1 -10 级评价 , 其中 1 分代表非常不重要 ,10 分代表非常重要, 分数越高 , 重要性越高 。

结果发现, 现阶段 ,用户更看重理性原则, 尤其是以目标为中心 , 准确 , 而自 然 、 友好等感性原则暂居相对次要的位置 。

此外 , 我们也梳理了不同原则下的具体评估指标 , 这些指标代表在该原则下 ,用户在对话中具体的关注点 。 不同指标的重要性有所不同 , 详见下表 。

三、 话术设计建议:原则如何指导话术设计?

接下来, 我们一起看看上述这些原则如何指导具体的机器话术设计。

1. 以目标为中心原则

以目标为中心是用户最为看重的原则。用户非常重视效率 ( 闲聊场景除外 ), 他们希望机器的回复与自己的需求高相关 ,可以快速达成心中所想 。

同时,用户表示在语音交互中 , 需要更多 “ 引导 ”, 尤其需要了解机器当下和未来状态 。 语音看不见摸不着 , 我们无法像在图形用户界面 (GUI) 中那样——通过导航条判断所在的位置 ,看到按钮可以判断是否点击等 。 如果缺少必要的引导 ,用户在语音交互中很容易迷茫 , 产生各类负面情绪 。

因此, 话术设计时 , 必须遵循以目标为中心原则, 做好引导 , 让用户可以通过声音 “ 看到 ”通往需求的路径 。 基于此原则,设计话术时可考虑以下几条建议:

建议 1: 优先回应用户的核心意图

围绕用户最关心的问题优先给出适合的回应 。

建议 2: 清楚传达机器当前的情况

如果因为各种原因无法直接满足用户需求时 , 应及时告知 , 避免用户困惑 。

建议 3: 澄清目标 , 不轻易终结对话

对话过程中 , 引导用户不断澄清目标 , 不轻易做话题的终结者 。

建议 4: 告诉用户接下来怎么做

不能清晰识别用户意图时 , 可主动询问用户有可能的意图 , 引导用户完成目标 。

建议 5: 提供相关替代方案

在无法直接满足用户时 , 可考虑提供相关度较高的替代方案 , 间接满足用户。

2. 准确原则

用户认为表达准确是最基本的原则。 表述不准确可能导致用户误解 、 无法判断机器所要传达的真正含义 , 使对话脱离正轨甚至无法进行 。

基于准确原则,设计话术时可考虑以下建议:

建议 1: 避免表述有歧义

表述的含义要确定, 不要说让用户“ 这样理解可以, 那样理解也可以” 的话 。 口语中最常见的歧义是同音歧义 , 即语音相同带来的歧义 。 以下两类同音歧义 , 话术设计时需要注意 :

同音异形词歧义, 如播放菜谱时提到 “ 切 ji 放糖 ”, 是“ 记 ” 还是 “ 忌 ”?

同音同形词歧义 , 如闲聊时提到 “ 我最喜欢杜鹃啦 ”, 是杜鹃这种花还是杜鹃这种鸟 ?

建议 2: 避免表述过于笼统模糊

表述要尽可能具体明确 , 避免过于笼统模糊 。

我们来看下面一个案例,研究中 , 面对第一种话术 , 大多数用户表示 “ 有点懵 ”,“ 是给音箱起名字, 还是告诉音箱自己的名字 ? 不知道该怎么回答 ”。 而第二种话术则明确指出是 “ 音箱对自己的称呼 ”。

3. 简洁原则

在研究中 ,用户多次提到 “ 不喜欢这个话术 , 太啰嗦了 , 能不能 拣 重点说 ”,“ 说太多了 ,压根没记住啊 ”, 这些抱怨体现了用户对简洁的重视 。

用户如此重视简洁是必然的。 语音是一维线性的 , 只能一个字一个字的听完 , 无法快进 , 不能后退 。 哪怕信息不相关 、 无意义 ,用户都无法略过 。 这些冗余信息既浪费用户时间 , 也会增加用户的烦躁情绪 。

更重要的是, 大脑能处理的语音信息量有限 , 一旦超出会给人的工作记忆造成负担 。 长期以来 , 神奇数字 7±2 被认为是工作记忆的容量 , 但近期这一标准遭到质疑 , 普遍认为这一估计偏高 。 有研究者 (Mastin,2010) 认为这一数字可能是 4±1。

基于此原则,设计话术时可考虑以下几条建议:

建议 1: 表述简单明了 , 不啰嗦

传递必要信息前提下 , 保持话术简洁 。

建议 2: 避免信息量过大 , 一次提供的选项不超过三个

单次交互提供的信息量不要过大 , 以免给用户造成认知和记忆负担 。

4. 自然原则

在研究中, 听到某些话术 ,用户纷纷表示 “ 这太生硬了 , 一点都不自然 ”,“ 这明显就是机器说的话 , 人怎么可能这么说呢 ”。用户希望话术可以贴近生活 , 尽可能自然 。

这是非常好理解的。 在人机语音交互中 , 人类最想使用的肯定是自然语言 。 口头语言是人类最擅长 , 使用门槛最低的自然语言 , 人类使用口头语言进行交流的历史已跨越十万年 。 与之相比 , 书面语言的发展不过五千年 , 计算机语言更是刚刚萌芽 。 因此 ,设计话术时 , 可参考汉语口头语言的特点 , 营造 “ 自然感 ”。

基于此原则,设计话术时可考虑以下几条建议:

建议 1: 措辞口语化

日常对话中 , 我们会使用丰富多彩的重叠词 ( 如看看 、 马上马上 )、 语气词 ( 如吧 、 呢、哈 )、 感叹词 ( 如哎 ! 天 !)、 惟妙惟肖的象声词 ( 如噗通 、 呼啦 )、 填补词 ( 如嗯, 呃 ), 也会妙用各种副语言 , 如 “ 哼哼 ” 之类的鼻化音 、 笑声 、 颤音等等 。 话术设计中,可以参考这些口语化的表达 。

尤其注意 , 话术设计时要尽可能避免专业术语 、 技术名词 、 晦涩用语等 。

建议 2: 句式自然 , 可使用话语标记

口语中句子多短小 , 结构简单 。 语言学研究发现 , 口语中长句占比仅 19%, 短句占比达到 81%(超过 7 个实词的单句为长句 , 反之为短句 。 实词指具有实际含义且能单独充当句子成分的词 )。 话术设计时可考虑这一特点 , 尽可能使用短句 。

另外 , 口语对话中会使用 “ 话语标记语 ” 做句子之间的过渡 , 话术设计时也可参考 。 常见的话语标记有 :“ 首先…然后…最后 ” 之类的序列标记 ;“ 开始 ”、“ 以后 ” 之类的时间标记 ;“这”、“ 那 ” 之类的指示词等 。

建议 3: 增加措辞多样性

使用同义词为固定的答案增加多样性 , 比如表示确认的时候 ,可以随机呈现 “ok”、“ 收到 ”、“好的 ”、“ 没问题 ” 等等 。 这些同义词可以增加对话活力 , 让对话更自然 。

5. 友好原则

研究中, 我们发现 ,用户很反感机器以 “ 高人一等 ” 的姿态说话 , 尤其反感被机器指责 。 高人一等的话语和指责会让用户觉得 “ 不忿 ”、“ 挫败 ”, 甚至会丧失对机器的 “ 信任 ”。

人是社会性动物。 日常交往中 , 我们更喜欢对我们友好 、 喜欢我们的人 , 而倾向远离那些不够友善的人 。 判断对方是否友善 , 语音是最直观的线索 。 在人机语音交互中 , 我们同样能根据机器的应答判断其是否友好 。 因此 , 话术设计时要重视友好 。

基于此原则, 话术设计时可考虑以下几条建议:

建议 1: 错误归为机器, 而非人

错误发生时 , 从机器的角度说明出错原因 。

建议 2: 避免要求用户按照特定的方式表达

尊重用户的说话方式 , 不要试图教给用户怎么说话 。

建议 3: 体现 “ 关注用户需求 ” 的服务态度

即使不能满足用户需求 , 也要体现出努力帮助用户的态度 。

6. 有个性原则

必须强调, 话术体现的个性必须与产品人设保持一致 , 比如冷静成熟的产品人设就不太适合嗲嗲说话撒娇卖萌的话术 。

本次我们发现,用户对 “ 幽默 ” 的话术接受度较高 。 在人际交往中 , 幽默能提升他人对自己的印象 , 让人感觉亲密并能帮助人们缓解压力 。 语用学研究也发现 , 只要适合特定场景 , 幽默话语的交际效果是最佳的 。

不过, 幽默具有明显的文化和群体差异 ,“ 甲之蜜糖 , 乙之砒霜 ”,设计话术时需特别注意 。

建议 1: 遇到难题时 , 可考虑使用幽默话术回应

遇到无法实现的功能时 , 通过幽默话术回应用户, 调节氛围 。

建议 2: 娱乐话题的表述可以更加活泼有趣

讨论一些娱乐话题或闲聊时 , 话术可以考虑增添更多趣味元素 。

四、 小结

本文从用户视角出发 , 阐述了机器话术设计的 6 大普适性原则, 以及如何基于这些原则设计话术 。 我们定义的设计原则及提供的设计建议如下 :

话术研究具有挑战性。 话术与对话场景 、 对象 , 产品本身的人设 、 特性 , 系统语音识别 、语义理解能力等均具有密切关系 。 但这不妨碍我们通过参与式的用户研究探索话术设计的普适性原则。 所谓 “ 深根固柢 ”, 这些原则是机器话术设计时的基础与根基 , 有助于我们打造更自然和极致的语音对话体验 。

我们也以此研究为契机, 开始探索在 AI 时代 , 在机器话术这个领域 , 如何将技术和艺术 、人性结合 , 希望能带来让用户内心真正喜欢的体验 。

机器话术作为一个充满艺术特色又与人性密不可分的主题, 还有着许多未知且充满魅力的方面值得探索 。 希望本次研究可以抛砖引玉 , 引发更多同仁更深入的研究。

关注我们

最新资讯离线随时看 聊天吐槽赢奖品