中国技术突破大规模知识库构建与问答挑战
今年IJCAI-16从全球众多AI学术论文中,共筛选并录用了551篇最顶级技术论文,小i机器人和复旦大学合作的两篇论文位列其中,分别针对大规模自动化知识库构建以及面向海量知识库自然语言问答展开了研究,解决了其中的众多挑战。
据了解,大规模知识库是实现智能信息处理和机器智脑的关键所在。自动化构建大规模、高质量知识库因而成为了人工智能领域竞争的核心问题。富含属性信息的概念分类体系是知识库的重要类型,是实现机器认知实体的前提,但现有研究却鲜有提及。比如“香港歌星”这个概念是由其属性“出生地=香港”和“职业=歌手”所决定的。当机器拥有任意概念的特征属性,机器就可以将现实世界符合条件的实体加以准确归类,从而实现实体认知。此次的IJCAI论文,研究团队在国际上首次提出这一问题,并利用大数据方法自动从大规模在线实体库上展开挖掘以抽取概念的特征属性。最终为6万多常见概念找到了相应的特征属性,为下一步机器实体认知奠定了基础。
自然语言问答是人机交互的重要形式之一。近年来,随着结构化知识库的规模与质量的不断提升,面向大规模知识库的自然语言问答日益流行。但实现这一目标仍然面临众多挑战,其中之一在于同一意图的问题通常具有较多不同的语言形式。之前的研究工作,包括基于规则的、基于关键词的、基于同义词的方法,都受限于传统的表示形式,只能回答一小部分问题,而不能完整理解整个问题。在此次IJCAI论文中,研究团队提出一种新型问题语义表示方法:问题模板,以及相应的基于大数据的自动提炼方法;实现了基于语义模板面向知识库的自然语言问答系统——KBQA系统。大规模测试表明这一系统对问题理解的准确率达到90%以上,且无论是在性能还是效率上,都击败了QALD测评数据集上的其他系统,稳居全球前列。这一工作代表了知识库上自然语言问答的最新发展。
多领域合作加速学术成果应用转换
在构建大规模知识库方面,小i机器人与复旦大学计算机学院已经共同研发了最大的中文结构化百科CN-DBpedia、完成了深度学习算法在自然语言处理中的研究,以及建立了面向十亿规模知识图谱的在线自然语言问答系统。
小i与华东师范大学共同组建了语义大数据联合实验室,并成功推出“医疗AI知识助手”,为医生提供疾病统计数据查询、学术专业搜索和潜在疾病分析、进行相关医生的推荐,帮助提升国内医疗领域的技术和经验,连续获得了2015 CLEFeHealth“临床医疗症状信息检索”第一名和TREC“临床诊断支持信息检索”第一名。同时,双方还针对电商领域推出CEQA智能问答系统,现已随着电子商务的丰富被广泛
应用于电商客服。
除此之外,小i机器人与中科院软件所、声学所、北京大学语言所、清华大学等高校和科研机构也建立了合作。通过这样的合作,小i机器人搭建了一座以企业大规模的商业数据支持学术研究,以技术突破反哺产业应用落地的良性循环平台,形成企业与科技机构优势互补的局面,不但在学术研究方面形成突破,而且在经济效益上取得成效,让小i机器人始终保持技术的领先性,并推动更加深入的产业化应用,最终走上了全球顶尖的人工智能学术会议IJCAI的舞台。
从IJCAI官方公布的参会信息看,小i机器人是唯一一家受邀在IJCAI上演讲的中国公司,小i机器人朱频频博士将在当地时间7月15日IJCAI-16会议压轴的Industry Day(工业日)上发表演讲,并与谷歌研究主管Peter Norvig、COGITAI创始人兼总裁Peter Stone等顶级专家就AI当前最核心的发展与挑战问题展开探讨。据悉:首次在美国展出的小i机器人成熟的商业应用受到了来自全球AI专家及大学研究院的关注。