2020年庚子年开了不太好的一个头,新冠疫情在全国开始蔓延,对各行各业都产生了很大的影响。“危”和“机”总是并存的,在我们审视这场灾难的同时,疫情也将深刻的改变人们的工作和生活方式。面对疫情大家肯定大量听到“测温”“消毒”“无接触”等等需求和对应的产品方案给此次疫情防控带来的帮助。智能语音先天的无接触特性,在本次抗疫斗争中发挥了巨大的作用,作为国家推进的人工智能核心能力的一个重要组成部分,智能语音行业势必将迎来新的发展机会。
本专题《智能语音》尝试总结梳理智能语音的相关内容,希望为大家了解智能语音概念,业务流程,能力现状,产业链提供帮助,涉及篇幅较多,会分为几个章节逐步更新完善。
随着人工智能各种应用的不断渗透,人们已经接触了越来越多的智能语音产品,从形态上可以简单的分为软件类产品和硬件类产品。
智能语音软件或SAAS类产品
微信、个人助理(Siri、小冰、Home、Alexa)、呼叫中心、智能客服等等。
(曾经智能语音外呼由于大量的AI客服通过骚扰电话进行广告推销,被大家深恶痛觉,但此次疫情期间智能语音外呼系统,辅助进行重点人群发热筛查和跟进随访,起到了相当明显的作用,降低的大量的重复工作量。)
微信转语音功能
智能语音硬件类产品
家居:智能音箱、智能电视、智能机顶盒等等
儿童:儿童机器人、智能故事机、智能学习机等等
随身:蓝牙语音TWS耳机、智能手表、智能翻译机等等
汽车:车载智能导航、手机智能支架、智能车载机器人等等
商务:智能录音笔、商务录音转写器、智能办公本等等
硬件智能语音产品
以上的产品形态,使用了智能语音当中全部或部分能力,以满足实际的业务场景需求。人们开始更多的认识和了解语音产品和语音技术,也知道了相关的语音技术供应商,比如科大讯飞,知道亚马逊的Alexa,知道了Google的Dialog Flow。了解语音行业的人,大多都知道了ASR是语音识别、NLP是自然语言处理。
哦,你是XX公司的,你们是做ASR的吧。(而内心的想法是,智能语音除了ASR其实还有很多技术能力;同样的我们希望把语音产品做好,需要涉及的工作也很多很多。)
智能语音不只是语音识别。
一次语音交互示意
以上是一次智能语音问答的演示,我们同机器(假设是智能音箱,忽略唤醒步骤)语音如下。
用户:“明天出门要带伞吗?”
音箱:“您好,成都明天晴,气温5-10℃,不需要带伞哦。”
人的听觉形成过程是将声能转变为机械能、再转为生物电信号,在听觉中枢加工、分析的结果。以上整个交互过程就涉及了机器需要“听清”“识别”“理解”“行动”“想话术”“播报”整整6个环节,类比“人”听到了同样的语音指令所需要进行的步骤。对应的智能语音主要技术领域就包含了“信号处理”“语音识别”“自然语言处理”“语音合成”4个主要方向。在每个方向上针对不同的应用场景,又有更多细分的业务能力。
智能语音是希望实现人与机器以语言为纽带的通信。我们的长期目标肯定是能够同机器像人一样的自由沟通,机器像人一样智能应答交互。多思考人与人做对话时的特征,再类比到人与机器的交互过程,我们还有很多工作要做。
鸡尾酒会效应
“听清”和“识别”
人类在听觉上是天赋异禀的,我们的人耳是一个很特殊的器官,可以分辨声音的方位和距离,感觉声音的远近变化,选择我们感兴趣的声音进行聆听。在灯红酒绿的鸡尾酒会上,即使周围有各种各样的噪音,尽管周围的人使用的是各自的母语,英文、西语、法语、葡萄牙语等等,此时,如果远处突然有人用中文叫你的名字时,你还是能够马上就注意到他,你甚至可以和他聊天,听到他说的内容,注意力集中在你和他的谈话之中而忽略背景中其他的对话或噪音。
而如果把机器放到同样的环境中,我们是很难从各种声音中找到需要机器真正倾听的声音,机器“听清”和“识别”在交互的开头就出了问题,后续的交互体验怎么保证了。
这个时候你也许会跳出来说,我试了手机上的语音识别感觉做的还不错啊,我在酒吧里发个微信还是能很好的识别,转换为文字。
声音是一种波,在传播中会不断的反射、折射、衍射、吸收,在任何场景中设备接收到的声音都会包含”需要识别的声音”、“不需要识别的的声音”。不需要识别的声音会是多元的,包含噪音、额外的人声、回声、混响叠加在一起,在不同的场景中会有不同的叠加效果,形成一个专有的声场,传入机器的耳朵(麦克风)中。
如上,我们称为机器所处的”声学场景”。曾经语音产品大多为手机里的APP,都是低噪音加近场,“信号处理” 很少提及。我们一般把声源和麦克风之间的距离在“半米”以内,称之为“近场场景”,大于“半米”的,称之为“远场场景”。我们需要不同的前端“信号处理”方案去适配不同的“声学场景”。
声学场景 = 需要识别的声音 + 不需要识别的声音(对应场景下的“信号处理”直接决定了语音入口体验。)
近场对比远场
在酒吧里发微信的场景,这是一个明显的近场应用。虽然其环境噪音很大,但是我们的发声源距离机器的耳朵(麦克风)很近,声学场景中“需要识别的声音”远大于“不需要识别的声音”,机器“听”的难度更低。而远场场景中,比如在机器人产品,机器人可能位于机场的候机厅、医院的导诊室、展厅的引导台、人满为患的餐厅等等。每一种机器与环境空间的相对位置变化都会形成不同的“声学场景”给机器“听清”和“识别”增加难度。
一个好的智能语音产品,“信号处理”和“语音识别”能力必然是针对其投放的“声学场景”深度适配优化后的,如此才能保障后续的语音交互体验。
语音交互 VUI
这里我们单独强调一个词叫做“语音交互 Voice User Interface”。
大家或许都知道User Interface,而没有听过VUI。在传统的人机交互中,我们都是通过图型的方式,进行强视觉弱逻辑的交互,也被称为GUI(Graphic User Interface);而VUI则是通过语音的方式进行人机交互,强逻辑而无视觉(或者弱视觉),我们要通过语音传递所有足够的信息,承载我们的认知、逻辑、价值、情绪等等一切元素,这才是真正赋予智能语音灵魂的部分,而前面提到的“听清”和“识别”只是VUI中的一部分。
语音交互VUI
完整的语音步骤包含以上多个步骤,而多次交互才能形成一次完整的语音交互。
我们先要“听清楚”对应的过程 “信号处理”,找出我们想要识别的语音信号;然后”识别”对应的就是语音识别,听懂对应的语音信号说的是啥,把声音转换为文字的过程,他说的是“明天出门要带伞吗?”;此部分作为语音的入口,识别可以进一步泛化为模式识别,基于“声学场景”和“语音”导入当前对话的语音对象所处的情景,声纹特征,性别,年龄,情绪等等更多元素。
知道内容了,然后就要理解要做什么,过程叫做“自然语言理解NLU”,他的意思是问我“明天”的“天气”,当前所在的城市是否“下雨”;理解了,之后就要去行动,查一查明天的天气,告诉他一些关键信息:成都、明天、晴、温度5-10度;行动完了之后,就要去想话术,怎么表达更好,不同的表达方式会给人不一样的交互体验,”他问的是带伞,那我肯定要对应的答复“,这个过程叫做自然语言生成,NLG;NLU+行动+NLG 对应的可以统称为自然语言处理,我们需要赋予机器以个性、逻辑、通识、对语音对象的理解、对上下文情景的理解等等都需要从NLP层面去渲染机器想要表达的思想。
想清楚怎么表达之后,就要播报说出来,采用不同的声音、林志玲的还是岳云鹏的,是温柔、知性、亲切的还是活波、可爱、俏皮的会带来不同的语音交互体验。如此形成单次的语音交互,反复以上完成智能语音交互的完整体验。
智能语音目前从技术上包含几大关键环节:
VSP信号处理:通过麦克风阵列进行“声学场景”的信号处理,研究方向上涵盖。降噪NS,对声学场景中的非语音噪音信号进行抑制;语音增强SE,从含有噪音的的语音信号中提取纯净语音;去混响DER,弱化混响引起的不同步的语音相互叠加、从而提升语音识别效果;回声消除AEC,去除语音交互设备自己发出的声音(播报、音乐等等),而只保留用户的人声;语音活性检测VAD,检测出一段音频中真正的语音部分;声源定位DOA,确定发声源的距离、角度等等;盲源分离BSS,从多个语音信号中分离出不同语音信号,例如不同的说话人声。
ASR模式识别:不局限于将语音识别为文字,更广的针对语音和音频的模式识别,研究方向上涵盖。ASR,通过将人类语音转换为计算机可读的输入,由特征提取、声学模型、语言模型组成,包括近场识别、远场识别,近年的应用中还涉及切分说话人、全双工语音等;声纹识别VPR,通过比对说话人声纹特征来判断是否为同一个人;语音唤醒WUW,在连续语流中实时检测出说话人特定片段,将设备从休眠状态激活至运行状态;特定声音检测,识别声音特征,检测音频流当中的特殊事件,例如检测婴儿啼哭,狗叫等等;情绪识别,识别声音特征中的性别、年龄、情绪等等元素;谎言识别等等。
NLP自然语言处理:自然语言理解NLU,基于词法分析、句法分析、意图提取和填槽获得语言的含义;对话管理DM,考虑历史对话信息和上下文的语境等信息进行全面地分析,承载机器的个性和逻辑状态,决定系统要采取的相应的动作,如追问、澄清和确认等;自然语言生成NLG,将机器输出的抽象表达转换为句法合法、语义准确的自然语言句子;内容知识库CMS,承载机器的通识,对于聊天对象的理解;知识图谱KG,同知识库结合,扩展机器的认知能力,获得更多相关信息等等。
TTS语音合成:把文字智能地转化为自然语音流,也就是输入是文本 ,输出是波形 ;近年个性化TTS、带有情绪的TTS成为热点。
以上我们对于智能语音有了概要性的认知,而人类大脑皮层每天处理的信息中,声音信息占20%,它是沟通最重要的纽带,所以人机对话将方便人们的工作与生活。因此当很多人问我们是做什么的时候,我们更愿意说我们是做VUI的,而非是做语音识别。
“智能语音交互”承载着更多的希望与寄托,时代的一粒沙,落在每个人头上就是一座山,让我们把它铸成堡垒。