计算机语音在未来基于语音的人机交互中的作用
作为人类,我们主要通过声音和听觉进行交流。我们不仅传达语言信息,还传达我们情绪状态和个性的复杂性。我们声音的各个方面,例如音调、节奏和音高,对于我们被感知的方式至关重要。换句话说,我们说话的方式很重要。
随着技术的进步以及社交机器人、对话代理和语音助手进入我们的生活,我们正在扩展我们的交互,以包括计算机代理、界面和环境。根据技术类型,可以在人机交互 (HAI)、人机交互 (HRI)、人机交互 (HCI) 和人机通信 (HMC) 等领域找到对这些技术的研究正在研究中。许多研究分析了计算机语音对用户感知和交互的影响。然而,这些研究分布在不同类型的技术和用户群中,并侧重于语音的不同方面。
在这方面,来自东京工业大学 (Tokyo Tech)、 RIKEN 高级智能项目中心 (AIP) 和加拿大 gDial Inc. 的一组研究人员现在汇总了这些领域的多项研究结果,包括旨在提供一个可以指导未来计算机语音设计和研究的框架。正如东京工业大学的首席研究员 Katie Seaborn 副教授(RIKEN AIP 的访问研究员和前博士后研究员)解释说:“语音助手、智能扬声器、可以与我们交谈的车辆和社交机器人已经在这里。我们需要知道如何做到最好设计这些技术来与我们一起工作,与我们一起生活,满足我们的需求和愿望。我们还需要知道它们如何影响我们的态度和行为,特别是以微妙和不可见的方式。”
该团队的调查考虑了同行评审的期刊论文和基于会议记录的会议论文,重点是用户对座席语音的感知。源材料包括各种各样的代理、界面和环境类型和技术,其中大部分是“无体”计算机语音、计算机代理和社交机器人。记录的大多数用户响应来自大学生和成年人。从这些论文中,研究人员能够观察和绘制模式,并得出有关各种交互环境中代理声音感知的结论。
结果表明,用户将他们与之交互的代理拟人化,并更喜欢与与其个性和说话风格相匹配的代理进行交互。与合成声音相比,人们更喜欢人声。包含诸如使用停顿和诸如“我的意思是……”和“嗯”之类的语音填充词改善了互动。总的来说,调查发现,人们更喜欢高音调的人性化、快乐、善解人意的声音。然而,这些偏好并不是一成不变的。例如,随着时间的推移,用户对语音性别的偏好从男性化的声音变为更女性化的声音。基于这些发现,研究人员能够制定一个高级框架来对各种基于计算机的技术的不同类型的交互进行分类。
研究人员还考虑了代理的身体或形态和形状因素的影响,代理的形式可以是虚拟或物理角色、显示器或界面,甚至是物体或环境。他们发现,当代理被具体化并且声音“匹配”代理的身体时,用户倾向于更好地感知代理。