语音识别技术突飞猛进 或成人工智能下一个风口
“嘿,Kuri!想一起玩吗?”“嘿,Kuri!能讲个故事吗?”只要听到叫自己的名字,身高半米、看上去胖嘟嘟的机器人Kuri就会睁开眼睛跑到你跟前,像小狗一般可爱。正在美国拉斯维加斯举行的消费电子展上,这款黑白色的呆萌家用机器人让媒体争相报道。
“Kuri是一款社交机器人,您可以把它当成家庭的一个成员,”研发这款机器人的初创企业梅菲尔德机器人公司首席执行官迈克尔·毕比说。除了可以用手机应用程序控制外,还能通过简单的语言命令指挥它完成一些任务,比如在家里自动巡逻、把小狗赶下沙发、与小孩一起玩耍、讲故事、放音乐等等。
语音识别突飞猛进,达到了人耳的程度
据预测,到2020年,美国每10户家庭中就有一户将拥有家用机器人。这些机器人不仅能干家务,更重要的是还能与人简单交流,替人们排忧解闷。
随着重出江湖的“阿尔法围棋”近日横扫多位中日韩顶尖棋手,有人评价说,人脑斗不过机器的时代已经来临。不过,在语言理解方面,目前机器还远远斗不过人脑,但这种情况正在迅速发生改变。
“电脑的下一个接口是语音,”展会主办方美国消费技术协会首席经济学家肖恩·杜布拉瓦茨在记者会上断言。他列出未来5大技术发展趋势,语音交互排在第一位。
现在的智能手机和个人电脑依靠图形用户界面来实现人机交互。它最早可追溯到1981年施乐公司的“施乐之星”操作系统。3年后,苹果公司“偷师”的Macintosh成为首个在商用领域取得成功的图形用户界面个人电脑。从命令行发展到图形界面是人机交互方式的重大革命,助推了个人电脑迅速普及。
自那以后,随着个人设备运算能力日益增强,各种应用程序越来越多,图形用户界面也变得更复杂。与此同时,从2010年逐渐兴起的可穿戴式设备以及其他一些非传统设备,开始尝试把最重要的运算功能通过无线连接交给手机或其他中枢设备。
许多人认为,图形用户界面已经接近极限。接下来,谁能把人类从纷繁复杂的窗口、工具栏以及菜单选项中解放出来,脑电波、眼神还是语音?10年前这三种方式没有一个靠谱,今天语音似乎成了首选项。
语音识别研究已经有好几十年,但进展一直不尽如人意。微软早在1994年就成立了研究团队,但2006年研究人员在投资者面前演示时,电脑竟然把“mom”(妈妈)听成了“aunt”(阿姨)。“早期版本的语音识别技术太糟糕了,”杜布拉瓦茨说。据他介绍,到2013年,哪怕口音再标准、背景噪音再小,语音识别的单词错误率依然高达25%,即电脑每听4个词就会错一个。
得益于深度学习与人工神经网络的发展,近3年来语音识别突飞猛进,单词错误率降到5%左右,达到了人耳的程度。“我们在过去30个月所取得的语音识别进展比过去30年还要多,”杜布拉瓦茨说,“这就是为什么我认为语音技术会出现爆发式增长。”
“动动嘴皮子”,就可以关灯、锁门,甚至叫车
苹果手机推出了语音助手Siri,微软、谷歌和亚马逊也相继推出类似的语音助手。值得一提的是,约两年前亚马逊第一个把其语音助手“亚历克萨”嵌入到“回声”智能音箱中,作为智能家居的中枢控制音箱,让人们多了一个“家庭事务助理”。有了“回声”,人们“动动嘴皮子”就可以查信用卡账单、关灯、锁门,甚至叫车。
此后,谷歌推出了家用智能硬件“谷歌家庭”,三星和联想等也准备推出类似产品……一场由语音交互驱动的智能家居竞赛正在进行之中。汽车厂商也开始加入进来,福特在展会上宣布跟亚马逊合作,在车上安装“亚历克萨”,将来可由语音控制车内播放音乐、阅读新闻,快到家时打开车库门和家中的照明、空调等。
杜布拉瓦茨说,到目前为止,全球估计已售出约500万个语音助手,今年可能还会售出500万个。
在中文语音识别方面,科大讯飞是佼佼者。在此次美国展会上,长虹就展出了基于科大讯飞技术的语音控制电视和空调,并介绍说,2012年长虹就推出了语音控制电视,目前已经升级到第三代,除了普通话,还能听懂四川话、粤语等几种方言。在演示中,长虹工作人员通过语音遥控器或安装了相关软件的手机,说出“长虹小白,我想看某某电视剧第几集”,电视就直接开始播放相关剧集,并可以指挥快进、后退或直接跳到某个时间点开始播放。
中兴通讯高级副总裁程立新在展会新品发布会上说,中兴把语音交互视为未来手机发展的一个重要方向。“我们也牵头成立了一个智慧语音联盟,以打造一个好的生态圈。我们认为未来智能手机的接口会有很多的、大的发展,语音的发展有可能会真正解放人类的双手,”他说。
语音识别还要克服很多障碍,比如理解嘈杂背景下的语言指令、自动纠错、理解同一词语在不同情境下的语义等。但杜布拉瓦茨认为,未来是乐观的。
“显然,语音(识别)跨过了拐点,正从理论走向现实,”他说,“人们开始考虑,如果它(语音识别)能表现得再好一点点的话,我们该怎样使用它。”