美国调查公司VoiceLabs在本年初发布了《2017年语音报告》,报告中对目前美国智能语音市场进行了调查,特别是亚马逊Alexa和谷歌Google Home的开发者和消费者。报告中预测2017年将有2450万台以语音为主要交互方式的智能硬件产品发货,市场总量将达到3300万台,市场规模超过200亿美元。
↑ 语音为主的智能硬件产品
随着亚马逊的智能音箱Echo销量逼近千万,苹果的智能耳机AirPods登顶美国无线耳机市场榜首,亚马逊Alexa在美国CES展上大放异彩,国内各个科技公司也纷纷开始了进入语音交互领域。
无论是IT科技巨头阿里、百度、腾讯、科大讯飞等,还是陆续出现的思必驰、声智科技、云知声、三角兽、蓦然、Rokid等创业公司,智能语音产品和语音助手成为竞相追随的热门话题,俨然形成了一股全行业研究亚马逊Echo的热潮。根据声智科技提供的数据,国内已经有超过200多家公司正在研发类似Echo的智能音箱。
然而,就在国内科技公司还在模仿Echo之时,国外的科技巨头已经开始进一步抢夺全球语音交互市场的控制权。无论是行业标准的定制,还是战略专利的布局,抑或是音频数据集的开放,以及各种产业生态联盟的搭建,一切都在悄然的进行中。
智能语音交互的行业标准之争拉开帷幕
3月6日,微软在其官网上发布了新版本的语音平台测试标准,即2.1版本。微妙的是,就在微软发布消息的同时,我们惊喜的发现,亚马逊的官方网站上也已经推出了其语音测试的最新标准,智能语音交互的行业标准之争已经开始“渐入佳境”。
微软指出,目前语音平台支持Windows 10中的所有语音体验,如Cortana和Dictation,而其最新的测试标准适用于所有使用微软语音平台的音频输入设备。其中,直接影响的设计参数,包括语音识别精度和语音处理算法的性能。目前,微软还没有把该测试标准作为设备认证必不可少的环节。然而,随着测试标准日益规范化,平台用户数增多,未来的结果一切都不言而喻。
↑ 测试环境搭建图
区别于微软,亚马逊也为其所有采用Alexa开发的智能语音产品设立了相应测试标准,然而,此测试并未公开,还是采用黑盒测试的方式,用户需提交产品给亚马逊进行相应测试。其产品通过认证测试后,搭载Alexa的智能语音交互产品才可获得Alexa认证,并在Alexa Smart Home商店出售。
↑ 目前通过测试获得认证的企业
语音交互市场专利布局竞争更为激烈
一直以来,一旦掌握行业标准制定的主导权也就掌握了整个市场的控制权。与其有同样魅力的便是专利。当今的激烈市场竞争中,专利早已经成为市场竞争的一柄利剑。
从1月19日国家知识产权局公布的数据显示:过去的2016年,我国国家知识产权局共受理发明专利申请133.9万件,同比增长21.5%,这已经是我国第6个年头专利受理量居世界首位。同时,国外专利的申请情况也保持良好的增长势头,2016年通过《专利合作条约》(PCT)途径提交的国际申请4.50万件。然而,虽然专利整体保持良好的发展态势,但是,在语音交互领域国内的专利布局与国外尚存差距。
众所周知,语音交互涉领域广泛,是一门多项技术融合的交叉学科,涉及到信号处理、模式识别、概率论与信息论、发声机理和听觉机理、神经网络,语音识别,机器学习等。其中,语音以及音频的编解码(G10L),电数字数据处理(G06F),电话通信(H04M),这三个领域专利累积数量最多,比例高达80%。
从德温特世界专利索引数据库平台收录的自1963年以来全世界40多个专利机构的基本发明的数据来看,语音识别的相关专利约2万件。
↑ 根据CNKI自1985年后收录的中国专利的数据来检索关键词语音识别情况
其中,截止到2015年,仅“语音识别”累积专利申请量方面来看,前五位的为IBM,NEC,微软,Nuance和东芝,分别为749件,508件,506件,415件,406件。而从2010年至2015年的语音识别专利的申请量来看,除了IBM被Google替代,降至第7名,其他几位仍然保有专利数量的优势,排名顺序是Nuance,谷歌,微软,东芝,NEC,分别为206件,178件,141件,102件。
巨头形成的专利防御攻势仍然迅猛,而业界所关心的后起之秀也来势汹汹,2010至2015年,仅“语音识别”方面,谷歌布局专利178件、苹果布局专利25件、亚马逊布局专利33件。
对于国外的科技公司来说专利之间的斗法更加剑拔弩张,专利壁垒正在逐渐形成。从《中国知识产权报》发布的数据来看,截止至2017年1月,苹果公司在语音领域的专利申请量为695件,而谷歌公司为1261件。从语音领域专利布局方面看,两家公司在语音领域的技术除了自主研发外,还通过并购语音类相关企业或者收购语音技术相关专利来加强专利储备。
2013年苹果公司收购语音识别公司NovaurisTechnologies。经过收购,苹果公司获取了该公司的4件语音专利。通过这4件专利,苹果Siri由可通过简单识别单个词句来理解上下文,发展到通过识别超过2.45亿个短语来辅助理解上下文的功能,从而大幅度提升语音系统的理解力。
为了应对苹果公司带来的激烈竞争,谷歌公司采用了专利“围剿”战术。2013年,谷歌公司收购了Wavii公司的一件专利,该专利技术使得谷歌公司的语音搜索识别正确率提高了25%。同年,又收购了SR Tech Group公司的两件关于语音识别的专利,并购入雅虎公司的一件名为“背景会话上下文搜索技术”的专利,通过购买专利,谷歌公司拥有了完整的语音识别引擎。
目前,中国的语音识别企业专利布局还主要是在国内,国际领域的专利布局情况和国外企业对比,确实还存在巨大差距。不过,国内企业的知识产权意识也越来越强烈,百度,科大讯飞,声智科技等在近几年的专利申请上也有不错的作为。
对比于市场销量带来的直接经济效益,知识产权的价值还不能充分体现。然而,在提高公司效益,抢占市场,保持公司可持续发展时,知识产权的价值不可小觑,专利作为企业不得不向公众透露以获取独占权的关键信息,对其进行详细、周密、综合的分析,可以从中获得巨大的商业价值,特别是在国际市场竞争中。
谷歌开放音频数据集,用意不言而喻
3月8日,谷歌开放了一个大规模的音频数据集 AudioSet。该数据集包含了632 类的音频类别,收集了2084320 条人工标记的每段 10 秒的YouTube视频中的声音剪辑片段(包括527 个标签)。
这些特定音频是使用基于元数据,上下文(例如,链接)和内容分析的搜索来标记的。声音内容十分广泛,包括人类的声音和动物的声音,各种类别乐曲的声音和每天日常环境中的各种声音等。谷歌声称:此次开放这个数据库的目的就是为了满足学术研究的需求。
从此前ImageNet广泛数据集的开放效果来看,大部分识别图像中的目标研究已经从中获益。而此次,对于利用AudioSet公开数据集训练机器学习模型的语音识别研究者或者技术公司来说,无疑是获益匪浅。然而目前,国内的科技巨头还没有开源音频数据集的动作,哪家公司可以有魄力的贡献资源,我们还要翘首以待?
组建产业联盟,试图瓜分市场蛋糕
毫无疑问,通过语言交流获取知识是人类最有效的学习方式。从PC时代的键盘鼠标过渡到移动互联网的触屏操控,下一个AI时代,无疑将会是以语音、体感等多种感知融合的新的获取方式,而语音交互作为天然的人机交互入口,势必是对信息生态与未来生活的一种重构。
诚然,语音交互涉及了非常复杂的技术链条,包括了声学处理、语音识别、语义理解和语音合成等核心技术。需要产业链上下游相互合作,需要产业伙伴相互合作。目前,美国顶尖的科技公司,INTEL、ARM、谷歌、亚马逊、Facebook等都纷纷牵头成立了自己的产业联盟。
随着智能语音交互领域不断发展,国际化的竞争也会日趋激烈。如何积极抢占全球智能语音交互的主导权?必然是组成产业技术创新联盟,把握国际标准的制定、积极做好专利战略布局,才能紧抓国内外同步创新的契机,不再重复PC和移动互联网时代的遗憾。