马鸿鹏指导同事进行智能车载系统测试。(受访者供图)
前不久,长安汽车旗下的欧尚汽车智慧快乐座舱在渝发布,将人工智能技术与汽车使用场景深度融合,打造全球首发的车外语音交互系统。
这一交互系统,来自科大讯飞智能汽车重庆分中心“80后”青年专家马鸿鹏的团队。
2018智博会上,科大讯飞董事长刘庆峰宣布将西南总部落地重庆,同时落地的还有科大讯飞智能汽车重庆分中心,由来自东北的马鸿鹏担任该中心总经理。从此,马鸿鹏的团队开始与重庆结缘。
4年来,科大讯飞与长安汽车等重庆车企共建联合实验室,在汽车电子智能化的技术研发、产品设计以及整车
应用领域展开合作,取得了多项技术突破。
“我们在重庆的团队平均年龄27岁左右,是一群有技术、有理想、有冲劲的科技青年,致力于通过‘AI+汽车’,解锁智能汽车人机交互新模式,赋能重庆汽车产业开创新格局。”5月4日是五四青年节,马鸿鹏在接受重庆日报记者采访时如是说。
反复测试建立庞大的场景知识库
让车机系统精准理解说话人的前言后语
“小安你好,帮我查一下北京的天气。”
“好的,北京天气晴,白天气温20℃。”
“再帮我订一张去那儿的机票。”
……
这样的对话,在人与人交流中再简单平常不过。但是,对于人机互动而言,想要和机器持续对话,并让机器理解“那儿”就是上文所指的北京,并非易事。
“人坐在车内,一次唤醒车机系统就实现多个指令,还要让系统能前言后语结合理解,这种交互方式是之前没有的。”马鸿鹏说道,要达到这样的效果,机器需要记忆和理解当前说话人的意图和场景,因此就需要覆盖尽可能多的场景和可能的问法。这样一来,算法复杂度会呈几何级数增长,使软件的开发和维护都有较大难度。
为了实现这一看似简单的“高难度”操作,马鸿鹏带领着20多人组成的团队入驻长安汽车,反复测试并建立了一个庞大的场景知识库。
“通常车内常用指令不超过2000种,但我们在车机上内置了常用指令近6000条,以及不常用指令近2万条,才实现了精准获取用户指令。”马鸿鹏说。
如今,搭载了相关技术的飞鱼OS已经在长安CS95、CS75等车型上使用,助力重庆汽车在智能汽车赛道拔得头筹。
训练外语语音识别系统能理解会思考
助力“重庆造”汽车走向国际市场
随着智能汽车产业发展,不少重庆汽车品牌也开始走向国际市场。智能汽车在海外使用,必须适用当地的语种,而在过去,外语的车载语音识别及合成系统被国外企业掌握,国内车企只能使用国外企业的语音技术。
“过去很长一段时间长安汽车在面向中东、南美等海外发行的车型中,语音识别系统一直是采用的国外技术,安全问题是最大的考量。”马鸿鹏坦言。
为了解决这一“卡脖子”问题,马鸿鹏团队联合科大讯飞研究院展开了长安汽车车载外语语音识别及合成系统研发。
“做车载外语识别,不仅需要听懂,还要理解其他国家的语言文化习惯,甚至同一语种不同地区的口音,这就需要有强大的识别模型和机器学习做支撑。”马鸿鹏解释说,车载语音的“识别”分为“语音识别”和“语义识别”两个技术层次,“语音识别”相当于人的嘴巴和耳朵,负责表达和获取;“语义识别”相当于人的大脑,负责思考和信息处理。为了实现外语的能听会说、能理解会思考,团队还找来“外援”,邀请一大批留学生和外语专家加入语音系统的训练中,通过算法的积累和机器学习,让车载外语语音系统更稳定高效。
2021年,这套车载外语语音识别系统已成功实现国产化,长安汽车海外发行的车型均采用了这一国产系统。
独创神经网络降噪算法和“冷启动”系统
让车主可以在车外唤醒车辆“开出来”
在欧尚汽车上打造全球首发的车外语音交互系统,也是智能汽车领域的一大技术创新。
“以前汽车的语音交互都在车内,实际上车外智能交互也是用户的需求。”马鸿鹏说,以往用户在用车场景中,常会有开门难、挪车难等痛点,而这套车外语音交互系统可以让车主在车外唤醒车辆,比如在拥挤的停车场,可以叫它“把车开出来”,车辆即可自动向前驶出。购物归来双手不方便开门,也可以说一声“打开后备厢”,后备厢即可自动开启。
车外语音交互较车内语音交互来说,难点在于如何保障在有车外噪音等复杂环境下,机器能听清楚并执行指令。马鸿鹏介绍,为了实现车外的人车交互,他和团队独创了神经网络降噪算法和“冷启动”系统两项技术,让车外语音交互系统做到360度语音降噪和无死角识别覆盖,实现稳定高效的车外语音交互。
“汽车革命的下半场是智能化、网联化、共享化。”他表示,未来,他们还将继续扎根重庆,进一步探索汽车多语种、多模态交互技术,为重庆的车域生态伙伴提供更具有生命力和创新力的智能化场景服务,助力重庆汽车智能制造再上台阶。