车载语音机器人需要“更强大脑”
不久前,一段关于“山东纠正哥”进行车载电话拨号的视频疯传网络。夹杂方言的山东男子试图用语音拨打电话号码,车载系统的识别过程笑话百出,纠正多次都无果,人与机器纷纷无奈。在这则笑话视频的背后,更多地是反映出了当今智能语音技术的关键短板所在:非配合情况下,人和机器根本无法用语音顺畅交流。
车载硬件的“智能”,在驾驶过程中首推交互智能。驾驶过程中由于导航、电话、信息、车载娱乐和各类车内控制,司机需要与车载硬件进行不停的“沟通”。以往,通常需要司机的视线离开路面,用手操作手机或车载硬件实现沟通。人们已经广泛认识到,这种方式的精力分散已经成为重要的安全隐患。因此,采用语音操控成为了“智能汽车”的必由之路。国外的苹果、谷歌、Nuance,国内的百度、科大讯飞等公司都纷纷开发过车载语音系统。
但目前的车载语音系统大都只使用了语音识别技术,通过抗噪算法一定程度上减轻车载噪声对机器辨识的影响。但从人机交互角度,更多地还是停留在“一问一答”的简单命令控制阶段,只是一个不太灵敏的“耳朵”加上机械式的流程图判断,在出现多个结果的情况下,仍需辅助屏幕触控,这使得现在的车载系统都不具有真正的“人机智能”。
首先就是语音识别在非配合的情况下,由于方言、环境噪声等的影响准确率不高。即使达到了90%以上的准确率,上述的“山东纠正哥”在拨打11位手机电话的时候,还是有1位错误。而一旦有识别错误,机器就无法准确理解用户意图,电话号码错1位也无法拨出,还是要手动操作。更严重的是,没有大脑的语音交互系统,只能不停地按照自己的逻辑让用户重复或提供特定信息,对“打断”、“纠正”这类深层次的需求束手无策,使得本应解决问题的智能交互变成了不断添加更多累赘的“麻烦制造者”。更不要说由于没有交互系统的架构设计、缺乏智能的信息控制与调度而造成的语音延迟和反应滞后的现象了。真正的“车载语音机器人”需要“更强大脑”。
从“能听会说”到“会听能做”
“语音交互系统不能再‘有耳无脑’了。”国家青年千人计划获得者、上海市“东方学者”特聘教授,上海交大—思必驰智能语音技术联合实验室负责人俞凯表示,上海交通大学智能语音技术实验室最新研发的认知型人机口语对话系统,就已经不再是传统的语音识别,而是一个 “人性化语音机器人”。人们可以顺畅自由地使用语音,随时随地与能够理解自然语言的智能交互机器人进行对话交流,完成任务。
俞凯介绍说,上海交通大学智能语音技术实验室从人机交互系统的角度进行智能语音技术的研究,在实现一系列高性能抗噪语音识别的基础上,研发了具有适应和思考能力的认知型人机口语对话系统。并与苏州思必驰信息科技有限公司合作,升级推出了针对智能车载的一体化智能人机交互解决方案,使得语音交互系统不再 “有耳无脑”。在近期刚刚发布的全球首款车载智能抬头显示(Head Up Display,HUD)系统——“车萝卜”(carrobot)中,就使用了这样的智能对话系统技术。
俞凯认为,传统语音识别只是模拟耳朵的感知功能,但其实更关键的是解决完整的口语人机交互问题,这是模拟人脑的全套认知功能。认知型的智能语音技术是更高层面的人工智能,与传统语音识别和合成相比,它融入了自适应、理解纠错、智能反馈的认知技术。这会使得机器可以适应更多的环境和口音,具有进化调整的能力,从“能听会说”变成“会听能做”:即听得懂说的,懂得听什么,听不清楚了能问,搞错了能纠正,最终能成功完成用户的任务。
让机器“深度理解”“自动纠错”
俞凯说,超越传统语音识别的“深度理解”以及“自动纠错”技术是新型的人性化智能语音交互技术的两个典型例子。
“深度理解”是把机器的识别状态(比如识别结果的可靠度、环境嘈杂程度等)、用户的个人特点(比如性别、方言地区、说话快慢等),以及说话的情境(比如谈话的领域、常识、前面谈话的历史等)等因素从大数据中提取出来,根据这些“情境”对识别结果再进行二次计算,使得语义理解的准确度大大提高。
“因为这些计算模型的训练都依赖于语音识别的结果,采用合理的算法,就能学习各种语音识别错误模式,使机器像人一样能够从失败中总结规律,在理解的时候自动纠正语音识别的错误。”俞凯举例说,比如用户在开车的时候说“导航到车管所”,不幸被识别成“导航到厕所”,根据情境和谈话历史信息,这个语音识别的错误很容易就被自动纠正回“车管所”。
而对于“纠正错误”的问题,不止是深度理解可以进行单句的语义适配式纠错,机器还可以像人一样通过对话交互纠错或理解意图。俞凯说,通过逻辑关联和智能对话,机器能够像人一样允许被“打断”,以及智能的根据新信息纠正原先的号码,这也就是上海交通大学智能语音实验室研发的基于统计的认知型对话管理技术。
语音机器人会越来越“听话”
“以前语音识别只追求‘听清’,语义理解也只追求一句话层面的‘听懂’,而新型的人机智能交互是追求机器能够‘听话’,成为真正的‘语音机器人’。而且希望它能够有进化和适应的能力,用得越多越听话。”俞凯说,语音输入不再局限于呆板简单的句式限制,语音控制也不需要按照机器的设定去命令,在复杂环境和噪音影响下,在自由说话方式(例如打断)下,依然能够保证良好而稳定的语音识别和语义分析精度。人类的自然口语,或许不完整,或许发音不准确,语义不精确,但是通过上下文关联逻辑,以及多轮对话交互,机器能够进行智能语义推理而准确识别人的意思,大幅度提升使用者的语音交互体验。
对于自己正在进行的研究项目,上海交通大学智能语音技术实验室的研究者们表示,语音交互的智能设备更容易打动消费者,这是因为“人性化”带给消费者更好的使用体验。真正的人工智能语音,要以用户为中心,在多类环境下准确识别并反馈,以个性化色彩进行交流。语音交互的未来应当是面向用户,人性化的智能交互,而非过去模块化的机械交互。抛弃过去单一的语音识别与合成,把识别、语义理解和人机对话连在一起,帮助用户完成任务,这将是一个崭新的划时代变革。
“希望‘山东纠正哥’能用上最新的认知型人机口语对话系统,不再闹笑话;更希望车主们都能与自己的爱车无障碍交流,愉快地行走在路上。”俞凯笑着说。