亚马逊语音专家揭秘Alexa耳语模式的AI基础

上周，亚马逊在美国西雅图举行的发布会上一口气推出了十余款Alexa设备，大部分设备主要由Alexa语音平台驱动。其中部分设备将增添“耳语模式”功能，使Alexa设备用耳语来回应用户的低声说话。日前，亚马逊Alexa语音系统小组的一位专家Zeynab Raeesy在其博文中揭秘了这一功能的AI基础。

Raeesy在博文中介绍：“如果你在一个有小孩睡觉的房间，当有人走进来时，你会马上低声说话，提醒进来的人你希望房间内能保持安静，而进来的人意识到这一点之后，很可能也会压低声音讲话。”

Raeesy指出，Alexa的耳语模式令人难以理解的地方在于它是清音的，也就是说，它不涉及声带振动，往往比普通的语音在低频段具有更少的能量。她与小组的同事研究了两种能区分正常语音和耳语音的神经网络。

两种神经网络主要在结构上有所区别，一个是MLP（多层感知器），另一个是能进行时间递归的LSTM（长短期记忆）网络，这两者用来做训练的数据是一样的，这些数据包括（1）对数滤波器组能量，或者是用来记录不同频率范围信号能量的语音信号表示；（2）能区别耳语音与正常语音之间信号差异的一组特征。

在测试中，他们发现LSTM的表现结果比MLP更好，具备许多优势。Raeesy解释道，Alexa语音识别引擎的其他组件完全依赖对数滤波器组能量，并给不同的组件提供相同的输入数据，进而使整个系统更加紧凑。

Alexa耳语模式的开发并非一帆风顺，至少在最初阶段是这样的。由于Alexa是通过短时间的沉默（一种被称为“结束指向”的技术）来识别指令的结束或者进行回复，LSTM往往在话语即将结束时降低置信度。为解决这个问题，研究人员将LSTM的输出校准成整个话语的平均值，最终，降低最后1.25秒的语音数据成为维持“耳语模式”性能的关键。

美式英语的耳语模式功能将在今年11月份推出，对耳语模式具体工作原理的介绍将以论文的形式在12月份的IEEE语音技术研讨会上发表。