日前在2016新浪C+峰会上,科大讯飞轮值总裁、研究院院长胡郁发表演讲的同时,还向在场的所有人展示了科大讯飞最新的语音转写技术。
胡郁演讲过程中,他的所有发言都能实时变成文字展示在屏幕上。而这项语音转写技术的反应速度相当惊人,几乎已经达到了音画同步的节奏。
据胡郁介绍,这项语音转写技术已经和国家的很多部门,包括中共中央办公厅、国务院办公厅以及中宣部都在使用。
从能听会说到能理解会思考
1946年世界上第一台电子计算机诞生开始,许多计算机科学家就开始对计算机能够代替人类做什么展开了联想。1956年“人工智能”首次在Darmouth会议上被提出,然而因为技术的掣肘和时代的局限性,人工智能的发展并非一帆风顺。
进入21世纪,特别是随着移动互联网和互联网的发展,人工智能的力量再次得到重视,因为人们发现,人工智能可以解决很多问题,甚至可以对传统的行业进行颠覆式的创新。
但人工智能发展到现在,仍然有尚未攻克的难题。人工智能与人的智能之间还存在着巨大的差别。胡郁在演讲中提到,“我们现在的人工智能跟我们的意识其实根本没有任何的关系。”
胡郁更习惯将人工智能进行分类,分为计算智能、感知智能和认知智能。机器发明出来以后,计算能力和存储能力远远的超过了人类。但是在认知方面,机器还远远落后于人类,在胡郁看来,如果机器能够在这一点上赶上人类,那就是机器智能战胜人类非常重要的节点,“但它们现在还有很大的差距。”
那么如何能够让机器像人类一样能够认知理解这个世界呢?胡郁的演讲中介绍了目前研发存在的两种思路。一种是通过对人类大脑的了解,帮助机器更好的设计算法。另外一方面,是利用深度神经网络、大数据以及涟漪效应,来共同养成视觉、听觉和自然语言处理方面的能力。
讯飞超脑背后的认知革命
谷歌旗下人工智能公司DeepMind近来憋了个大招,继AlphaGo赢了人类棋手后,他们又研制出了能够生成模仿人类语音的系统。
让人能与机器对话一直是人类希望在人工智能领域里实现的目标。但是,目前用计算机生成语音仍然大量地依赖于TTS(文本到语音)拼接技术。在这个过程中,机器首先要记录一个说话人的声音片段,并基于此构建超大型的数据库,随后,经过再次结合过程,形成完整的表达。
与对原始声浪建模的构想类似,科大讯飞的“讯飞超脑”在对声音进行处理时,模拟的同样是语音图谱。
“大家都知道我们的声音其实在我们的脑海里面,在声音处理里面能够看到有一个语音谱图。非常牛的人员,利用这个语音谱图来判断。我们现在做的成果可以利用图像处理的方法处理我们的语音,跟我们耳朵里面的听觉系统是非常接近。不仅仅如此,更加重要的是解决认知的问题,里面包括语音翻译、知识表示、联想推理和自主学习。现在我们做到了什么样的成果呢?”胡郁介绍称,目前科大讯飞最新发布的产品AIUI,已经能够非常自然的与人类语音进行交互,而且能够将原来单次的交互变成全智能的交互,将语音识别、语音合成、自然语言理解和整个对话过程融为了一个整体。
科大讯飞展示的语音转化技术其响应速度已经远远超出想象,科大讯飞的目标远远不是让人工智能去取代速记的工作,它所瞄准的是一个入口。胡郁介绍称,“我们要做语音和语言为入口的机器认知革命,这里面包括感知智能和认知职能。让机器模仿我们人类的感知智能,可以对概念进行推理和解决。我们期待将来可以看到非常好的物联网的世界,手机、智能家电、智能家居……都能够跟我们自由的交流,我们可以进入一个真正的机器认知的革命时代。”