机器人与小观众现场互动
想足不出户游览祖国大好河山?与表情丰富、情感细腻的虚拟导游来一场对话吧,无须穿戴设备就能“打破”空间界限,“说走就走”带你“瞬移”到旅游景点,目及之处皆是美景、远观近瞧随心所欲,开启一场身临其境的沉浸式“云旅游”。
这个AI能力“硬核”的虚拟导游就是AI虚拟人,它集成“讯飞超脑2030计划”的多模感知、多维表达、深度理解等多项前沿技术,使真人和虚拟人可以非常自然地“穿越”不同场景对话,给人机交互带来全新的沉浸式体验。
11月18日,2022科大讯飞全球1024开发者节在合肥正式启幕,在发布会上,科大讯飞AI研究院副院长高建清以“AI新纪元,讯飞超脑2030”为主题,解密“讯飞超脑2030计划”阶段性技术突破。他表示,随着AI虚拟人的诞生,一大波“预演未来”的创新 应用将走入百姓生活,让AI惠及每个人。
超脑2030计划赋能AI虚拟人更懂知识
“面包在低温下会马上发霉吗”?AI虚拟人要回答这一问题,就必须理解“低温变质慢”等常识,在引入海量知识的基础上,用预训练模型进行知识重要性排序,并融合知识与问题进行推理,这样才能与人畅聊“面包变质的二三事”。
然而,让AI虚拟人拥有这种知识推理却并非易事,必须要“超脑”赋能才行。2022年伊始,科大讯飞正式发布“讯飞超脑2030计划”,核心是通过AI技术持续的核心源头技术创新和系统性创新,让机器远不止具备“你问我答”的基础智能,还拥有更强的交互和运动能力。只有让人工智能“懂知识、善学习、能进化”,才能让机器人走进每一个家庭,以解决未来社会重大刚需命题。
“实现‘讯飞超脑2030计划’,要突破人工智能共性基础算法,攻克多模感知、多维表达、认知智能、运动智能等核心技术,也要研究软硬一体的机器人关键技术。此外,要探索虚拟人交互、机器人等方面的示范应用。”高建清说。
作为“讯飞超脑2030计划”的阶段性成果,今年,讯飞已打造多款专业虚拟人,分别用于客服、助理、招聘、财务、法务等工作,为金融、电信、媒体等行业提供专业虚拟人解决方案,为“数字经济”服务。
“目前科大讯飞虚拟人播报支持包括中文、英语、日语、韩语、西班牙语等多种语言及四川话、粤语、藏语、维吾尔语等多种方言。”高建清介绍,科大讯飞强大的AI技术支撑,使虚拟人不仅可以满足各场景的播报需要,也可以出色地完成主持、客服、陪伴、直播等交互工作,提供导航导览、业务知识、生活服务、信息查询等交互式AI服务。
创新“交互”技术对话“滔滔不绝”
想向AI虚拟人了解《独行月球》这部 电影的内容?没问题!今年,科大讯飞在交互系统的认知关键技术取得突破性进展,依托科大讯飞建设的认知智能国家重点实验室相关团队在认知智能技术突破方面夺得3项国际冠军——在常识推理挑战赛中刷新机器常识推理水平世界纪录,在科学常识推理挑战赛中以准确率94.2%的绝对优势夺冠,在常识推理挑战赛中以多模型准确率93.48%、单模型准确率92.07%夺冠,后两项比赛成绩更是超越人类平均水平。
随着核心源头技术创新和系统性创新的持续突破,AI虚拟人拥有更加“智慧”的语义理解和对话生成能力。“好的人机交互系统,在开放式场景下要具备深度理解能力,并能了解交互对象从而发起主动对话。”高建清说,围绕认知智能技术,讯飞实现了基于语义图网络的开放场景语义理解、基于事理图谱的对话管理以及基于知识学习的可控对话生成。其中,面向开放世界的基于图表示的深度语义理解体系,通过增加关系预测模块形成了信息丰富的语义表示图,并将要素和关系进行具体化,从而可以更精准地理解用户意图、更准确回答用户问题,解决了AI对开放问题无能为力的痛点。目前,讯飞定义了1517个意图、近2000个事件。“通过这个框架的提出,我们在深度语义理解技术上又迈进了一大步。”高建清说。
机器人与小观众现场互动
“唇形+语音”多模感知“唤醒”交互新模式
环境太吵、人声太多,语音交互怎么办?在“讯飞超脑2030计划”中,科大讯飞用“唇形+语音”的多模态语音增强技术,唤醒智能语音交互新模式。
“机器想更自然地与人类进行交互,需要通过听觉、视觉、语义以及各种传感器的组合去获取更多的有用信息,AI感知方式必然要从单模态发展到多模态,逐步拟人化。”高建清表示。
继“语音识别在多人讨论场景下效果做到70%”“多点噪声干扰场景做到了可用”之后,今年,科大讯飞挑战商场、医院、地铁等复杂场景,提出全新的多模态语音增强与识别框架。结合 视频信息输入,新技术可以利用人脸、唇形、语音等多模态信息的互补,将主说话人的干净人声从嘈杂背景环境中分离出来,显著提升开放场景的识别效果。
一个典型的场景是,当你在嘈杂的环境中通话,旁边其他人也在说话,搭载多模感知技术的应用系统能够只“听”到你的声音,不受旁边嘈杂音干扰,从而顺利完成沟通。“这一方案,从用户主观理解度层面有了极大改善,是真正站在用户体验角度优化系统的一种方法。”高建清表示,这个算法主要解决“语音识别准确率高,但用户体验不好”的现实问题。
多情感多风格语音合成虚拟人有温度有个性
如何让机器的声音媲美人类?这是智能语音合成技术领域需求量大、技术门槛高的难题。高建清分享了科大讯飞在语音合成技术领域的新突破——多风格多情感合成系统SMART-TTS,语音合成从简单的信息播报“变身”具备喜怒哀乐情感的语音助手。
据介绍,SMART-TTS系统可提供“高兴、抱歉、撒娇、严肃、悲伤、困惑、害怕、鼓励、生气、安慰、宠溺”等11种情感,每种情感有20档强弱度不同的调节能力;也能提供声音的创造能力,如停顿、重音、语速等,用户可以根据自己喜好调节,真正实现了合成系统媲美具备个性化特点的真人表达能力。
当你漫步林荫路,它可以用字正腔圆的“播音腔”为你读新闻;当你结束一天工作准备入睡,它可以轻声细语为你读散文;当你驱车去公司上班,它可以用你最喜欢的歌手声音告诉你走哪条路不堵车;当你和家人一起观看纪录片,它可以为纪录片不同人物配音。人机交互表达自然、情感饱满。
在声音和虚拟形象生成技术方面,科大讯飞实现语义可控的声音、形象生成,语义驱动的情感、动作表达。比如,输入“一头长发”,系统智能生成温柔大方的女性形象,声音端庄又不失甜美;输入“英俊潇洒”,生成商务范儿的男生形象,声音略带磁性。据了解,讯飞开放平台将开放500个虚拟合成的声音。
此外,科大讯飞还实现了语音语义驱动的动作合成,通过对语音节奏、韵律体会和语义理解,虚拟人可以随时、流畅地切换动作,拥有更加自然的肢体语言。