侃科技频道 · 袁喜乐
语音行业在2000年左右,迎来了第一个产业高潮,起因是1997年IBM推出了一款语音录入软件ViaVoice。
当时人们把这个软件安装到PC上,就可以在计算机前面朗读报纸或者新闻内容,或者录入一些简单的日常用语,识别率也还不错。于是工业界有了一次大规模连续语音识别的产业化应用的热潮。
但由于当时PC是一个固定的环境,消费者已经习惯了键盘打字而不是对着屏幕说话,ViaVoice并没有获得广泛认可。最终IBM于2003年将这个产品卖了。
但语音识别的产业化应用热潮却并没有停止。4月12日,微软公布了公司历史上第二大金额的收购案,目标是语音识别巨头Nuance Communications,交易价值达197亿美元。
有意思的是,Nuance正是苹果Siri语音分析背后的技术供应商。
而几乎是同一时间,在大洋彼岸百度和罗技也宣布了一场围绕语音识别的战略合作。
4月13日,百度正式发布“语音输入服务”并宣布百度大脑和罗技达成合作,将领先的AI技术全面赋能罗技外设硬件,首款产品即是罗技即将发售的VOICE M380「智能鼠标」。这款鼠标嵌入了百度AI技术,支持多国语言语音输入、中英自由说和智能翻译等创新功能。
某种意义上,这可以看作是ViaVoice的一种精神继承,也是对微软收购Nuance的价值肯定。
1
百度AI全面赋能罗技硬件
ViaVoice被变卖的6年后,语音技术产业应用迎来了第二波高潮,这一波热潮以互联网需求和实现为基础。今天我们随处可见的机器对话,也是在这一波高潮的基础之上发展而来。
如今我们常在社交媒体上看到,一个大学生利用简单工具+一块芯片的结构,就能设计出可以语音操控的DIY设备。
当技术进步、产业成熟、消费者习惯养成、交互认知足够以及场景需求等等因素叠加,使得语音交互有了快速发展的沃土。
这些都可算作是百度AI对罗技产品赋能的充分条件,也是罗技迫切实现产品智能化的来由。
但落实到具体产品上,有两个不能忽视的因素:
在鼠标上加入「语音识别服务」模块,对技术提供商的水平要求很高;
融合语音识别服务的传统输入设备,是满足需求还是创造需求。
简单点说,「智能鼠标」作为一个「新物种」,我们要重点关注的就两个方面:好不好用和谁会用。
先说第一个因素。VOICE M380支持中、英、日三国语言,同时也支持中英文自由夹杂语音输入,以及7种方言的混合语音输入。同时,VOICE M380支持中译英、中译日、中译韩、中译法、中译西、中译泰、英译中、日译中8种语音翻译。
从功能上看,VOICE M380基本覆盖了日常生活、学习、商务等场景的语音和翻译需要。从语音识别服务的技术内核看,这一次百度是将百度大脑的优势技术语音识别和机器翻译功能拿出来优先赋能罗技,其2019年百度推出并上线使用的流式多级的截断注意力模型SMLTA,已经令中文语音识别率达到98.6%,且可以同时实现中英文混合识别、方言混合识别。
在机器翻译方面,百度已经支持203个语种的准确翻译,现在每天响应超过千亿字符的翻译请求,相当于2000部大英百科全书。而百度提出的语义单元驱动的AI同传模型,已经达到了与人类相当的翻译水平。
再说第二个因素。实际上,「智能鼠标」既是满足需求也是创造需求。
一方面,「智能鼠标」在学习、游戏、商务场景下,可以很好的满足用户跨语种的交流需要,譬如游戏、商务邮件。
另一方面,对于小孩、老人、视觉障碍人群等日常打字输入比较不方便的群体,语音输入显然更方便,这又是「智能鼠标」创造需求的一种体现。
而且,得益于百度AI技术的加持,VOICE M380在输入效率上语音输入每分钟可高达400字,而多数打字员的输入则为80-200字每分钟。
无疑,具备语音识别服务的VOICE M380,可以使用户摆脱大量敲击键盘产生的疲劳感,轻松实现所说即所得。
搞明白了好不好用和给谁用这两个因素,再回过头看这一次百度AI对罗技的赋能,实际上是一次典型的定制化AI技术输出,说明百度AI的技术落地已经可以实现模块化运作,更具灵活性的按需输出。同时,「智能鼠标」这样的新物种出现,也是对其它硬件设备的一种启示,万物皆可AI,万物皆可语音。
而且,就双方宣布的信息来看,罗技旗下的设备还将继续接入百度AI的技术,进而实现全面的智能化升级。