语音交互事关未来,国内外已经不少公司在抢蛋糕了,大公司收购、投资、合作不断,就可见一斑。目前,基本上所有的巨头都有涉足。
苹果收购Siri、Novauris,组建基于神经网络算法的语音识别团队
2014 年 7 月,有消息称,苹果正在联系多位语音识别技术的专家,正在招聘经理、小组负责人、研究员,很可能将成立一支强大的语音识别团队,并最终取代现在的 Siri 技术服务商 Nuance。过去几年中,苹果招聘了多名此前供职于 Nuance 的的高层次语音技术研究员,包括前研究副总裁拉里·吉利克 (Larry Gillick)、Siri 的项目经理贡纳尔·艾弗曼(Gunnar Evermann)、微软语音识别项目高管亚历克斯·阿赛洛(Alex Acero)。
在 2013 年,苹果收购了自动语音识别公司 Novauris Technologies。Novauris 是英国研究机构 Dragon Systems 旗下的附属公司,以语音听写识别著称,成立于 2012 年。当然,怎么能忘了最著名的那笔收购呢,2010 年 4 月,以 1.5~2.5 亿美元收购了 Siri。
Google收购多项语音识别技术专利、SayNow 、Phonetic Arts
Google 在 2014 年收购了 SR Tech Group 的多项语音识别相关的专利,其中包括“ 搜索引擎语音界面” 和“ 修改、更新语音识别项目系统”的专利。
Google 一直致力于投资语音搜索技术,以期与苹果公司的 Siri 展开竞争。2011 年,Google收购语音通信技术公司SayNow 和语音合成技术 Phonetic Arts。 其中,SayNow 创建于 2005 年,可以把语音通信、点对点对话、以及群组通话和 社交
应用整合在一起,支持的设备包括 PC 浏览器、智能手机乃至座机。被收购时,有 1500 万用户,旗下产品包括 SayNow Phone,SayNow 广播,Big Call 以及 Chit Chat 等。
Facebook收购Wit.ai和Mobile Technologies
语音交互解决方案服务商 Wit.ai 要做的就是重写互联网的语音层,简单地在第三方 App 中加入几行代码来为它生成一个语音交互界面,就能把语言转化成可以操作的数据。正如移动支付公司 Stripe 通过几行代码就为网站解决了线上支付问题一样。Wit.ai 称,它比 Siri 更灵敏精确,不需要开发者先期投资,或训练数据集,而且可以应用在移动应用程序 (iOS、Android 等平台)、穿戴设备和
机器人以及几乎任何你可以想到的智能设备。被收购时,Wit.ai 成立才 18 个月,吸引了 6000 多名开发者,创建的应用超过了数百个。此次收购有助于提高 Facebook 整体对自然语言的理解能力。
除了 Wit.ai,Facebook 还在 2013 年收购了语音识别公司 Mobile Technologies。MT 创建于 2001 年,在 2009 年推出了 Jibbigo 应用,允许用户在 25 种语言中进行选择,使用一种语言进行语音片段录制或文本输入,然后将翻译显示在屏幕上,根据你选择的语言大声读出来。
Amazon收购语Yap、Evi、Ivona
2011 年,Amazon收购语音识别公司Yap。Yap 成立于 2006 年,主要提供语音转文本服务,代表应用是 Yap 语音邮件。利用 Yap 的技术亚马逊建立自己的语音技术平台,服务于亚马逊的网上搜索和客户服务等领域。
2012 年,Amazon 收购语音技术公司 Evi。Evi 是一家应该创业公司,原名 True Knowledge,在获得了 Nuance 语音识别技术的授权后,基于自主的自然语言搜索引擎开发了一款与苹果 Siri 类似的应用。
2013 年,Amazon 收购语音技术公司 Ivona Software。Ivona 是一家波兰公司,是 Nuance 的竞争对手,主要做文本语音转换,被收购时支持 17 种语言 44 种声音。
英特尔收购语音识别技术公司Indisys
2013 年,英特尔收购了语音识别技术公司 Indisys。这是一家西班牙公司,但自称一直在做多语音。在计算语言学、人工智能、认知科学和机器学习领域有研究,不少西班牙公司都采购了他们家的技术。此外,他们还开发了与苹果 Siri 相似的助手界面。
三星或收购语音识别软件商Nuance
关于三星和 Nuance 的绯闻已经传了段时间。Nuance 的语音识别技术在智能手机、电视和 GPS 导航设备上都有广泛应用,比如苹果的 Siri 就是用的它的技术;其他一些企业级市场也有需要用到语音识别的地方,比如医院里的电子病历业务,医生直接口述就能生成电子病历。2013 年 9 月份时,Nuance 还同三星达成合作。
雅虎收购SkyPhrase,牵手Robin Labs
2013 年 12 月,雅虎收购了自然语言处理技术初创公司 SkyPhrase。Gmail 和 Twitter 的相关技术支持就是 SkyPhrase 提供的,允许用户跟机器说“人话”得到个性化的搜索结果。比如“NANA 发的带图微博”,或者“Jane 发给我的包含照片的电子邮件”——这样复杂的信息 Siri 是理解不动的。SkyPhrase 还开发了两款应用,其中一款能让用户查看梦幻足球的比分统计数据,另一款应用与 Google Analytics 整合发挥作用。
为了推雅虎语音助手,雅虎还找到了合作伙伴Robin Labs,后者主要做自然语言识别和导航。除开发自己的私人助手的导航应用外,现在它还为客户提供语音助手白标产品的开发。”也就是说,理论上讲,每个应用都可以添加一个特定的语音助手模块。既然雅虎语音助手其实是 Robin Labs 开发的,那它会被收购么?
其实,除了这些大公司和被他们收购的小公司,还有几家初创公司做的也挺有意思。比如,下面这两家。
全球首个通过语音来识别情绪的公司Beyond Verbal
Beyond Verbal 是一家以色列公司,成立于 2012 年,在情绪识别领域一直领先。Beyond Verbal 系统创建的算法可以通过识别音域变化,从而分析出像愤怒、焦虑、幸福或满足等情绪,心情、态度的细微差别也能被识别到。Beyond Verbal 的情绪识别系统可以分析出 11 个类别, 400 个复杂情绪的变量。
2013 年 1 月,他们开发的情绪识别 app moodies 在 iOS 平台发布;2014 年 8 月,他们开发了 moodies 的安卓版。2013 年 5 月,获得了 280 万美元融资;2013 年 7 月,又获得了 100 万追加融资。2014 年 9 月,又追加了 330 万美元种子融资。
在 2014 年耶路撒冷召开的 TEDMEDLive 上,就引入了 Beyond Verbal 的技术来对所有与会人员的情绪进行分析,进而总结整个会议的整体反馈情况。
英国语音识别初创企业EI
英国的初创企业 EI Technologies 也是一家做语音情绪识别的公司,可以分析人声的音调,监控用户的情绪。之前从孵化器 Wayra London 和英国政府的 Technology Strategy Board 拿到了 15 万英镑的种子期融资。
目前系统可识别 5 种基本情绪:高兴、悲伤、害怕、愤怒及无感情。识别的准确率约为 70-80% 左右,这个数字要高于人类 60% 的平均水平。而受过训练的心理学家的判断准确率约为 70%,从这些数据来看,EI 的算法准确率已经非常可观。其未来目标是进一步提高到 80-90%。
通过识别并恰当响应语言内容和情绪来增强自然语言处理算法似乎是人工智能系统的下一步发展方向。《银翼杀手》里面的复制人的致命缺陷正是缺乏“移情(empathy)”能力。现在这三家公司的技术正帮助机器朝着具备“移情”能力迈出一小步—首先学会感受人类的情绪。不过这也是个庞大又复杂的工程。