热搜： 佳士科技 irobot 开云电竞官网下载app 机器人 ABB 机器人产业联盟发那科库卡码垛机器人机械手

谷歌超敷衍的Allo背后，是超智能的图像识别技术

日期：2016-05-20 来源：Google Research Blog 作者：lx 评论：0

标签：

　　编者按：Ariel Fuxman是谷歌研究科学家，他于2006年从多伦多大学获得计算机科学博士学位。他2015年加入谷歌，之前的8年时间在微软担任高级研究员。本文中他介绍了谷歌在I/O大会上新推出的智能聊天应用Allo，到底有怎样神奇的智能回复功能，以及这些功能是如何通过图像识别技术实现。

　　谷歌今天发布了智能聊天应用Allo。从开发Allo的第一天起，我们就想打造一个真正特殊的产品，通过机器智能的力量，让聊天变得更加简单、更加高效、更有表达力。Allo的一些特殊功能Photo Reply。我们利用了机器学习来理解分享的图片到底有什么内容，从而给用户提出丰富的自然语言回复建议，用户只要简单点击就能发送，省去了打字的麻烦。这让用户使用手机小键盘的时候，也可以非常方便地让聊天对话比较有料。

　　举个栗子，当你的朋友升级成为父母，难免会非常激动地给你发来（你并不感兴趣的）小娃照片。

　　图片来自Google Research Blog。

　　此时Allo就给你提供了几个快捷回复的建议：

　　选项一：哇啊啊啊！

　　选项二：好可爱！

　　选项三：可爱的宝宝！

　　（这完全是对晒娃无感的我，一向惯用的敷衍方式。）随手一点，再也不担心友谊的小船说翻就翻。

　　幕后功臣Photo Reply

　　今年冬天的时候，谷歌产品经理Patrick McGregor和Ryan Cassidy给了我们一个挑战：敢不敢做一个简化媒体分享的聊天软件，并且同时让用户玩得开心、获得很好的谷歌体验。我与Vivek Ramavajjala、Sergey Nazarov和Sujith Ravi等几位同事一起，接受挑战，开始打造Photo Reply。

　　我们利用了由机器感知团队开发的谷歌图像识别技术，来将图像和语义个体联系起来——人、动物、汽车等等。然后，我们应用了一个机器学习模型，将识别出来的语义个体与自然语言回复联系起来。我们的系统为几千个个体类型生成了回复，这些类型是从谷歌知识图表的一个分类学子集中取出，并且有可能在不同的粒度等级上。举个例子，当你收到一张小狗的照片时，系统可能会监测出这条狗实际上是一条拉布拉多犬，并建议你回复“超爱拉布拉多！”或者当有人给你发了一张意大利面的照片，系统会监测出意面的类型，然后说：“意大利扁面超好吃！”甚至不一定是关注细类，可以上升到美食文化的层面，回复说：“我超爱意大利美食！”

　　面对上图中的意大利面，系统建议回复：“意大利扁面超好吃！”“我超爱意大利美食！”图片来源Google Research Blog。

　　面对玫瑰的图片，系统建议回复：“好漂亮！”“好爱玫瑰！” 图片来源Google Research Blog。

　　我们发现系统有一项功能特别有用，就是它不仅能针对具体的物体建议回复，还能针对抽象的概念。它可以针对事件（生日聚会、婚礼等等）、自然风景（日出、远山等等）、娱乐活动（登山、露营等等）以及更多的类别来建议回复。另外，系统还可以基于与图片内容有关的情绪，来进行回复建议，例如“开心”。下面的两个例子，是针对抽象概念的回复：

　　针对毕业典礼的图片，系统建议回复：“恭喜！”“你成功了！”图片来源Google Research Blog。

　　针对跳伞活动的图片，系统建议回复：“太刺激了！”“胆子太大了！”图片来源Google Research Blog。

学习个体-回复之间的联系

　　Photo Reply在运行的时候可以识别分享照片中的语义个体，触发针对性的回复。这项模型将语义个体与自然语言回复联系起来，而模型是通过Expander离线学会的，Expander是谷歌一项基于图片的大规模半监督学习平台。我们打造了一个很大的图表，节点对应图片、语义个体以及文本回应。图像的边界指明了图片中的语义个体何时被识别、针对一张图片的具体回复何时确定以及照片之间的视觉相似点。有一些节点被“标记”了，我们通过在图表中传播标记信息，来学会未标记节点之间的关联。

　　为了说得明白一点，我们可以看看下面这张图表。这里有两张表：红色标记对应“好吃”回复，蓝色标记对应“美味”回复。“意粉”和“扁面”这两个节点没有标记，但是因为他们与红蓝两种标记都很近，算法可以学会这两个节点应该与“好吃”和“美味”回复联系起来。注意，通过这种方式，我们将“扁面”语义个体与“好吃”回复联系了起来，即便是图表中的所有扁面图片都没有直接与该回复有联系。Expander可以以超大的数量来进行此类学习，搞定包含几十亿个节点、几千亿个边界的图表。

　　图表例子。图片来自Google Research Blog。

　　Photo Reply是多模式学习的一个很棒的例子，在这种学习模式中，计算机视觉和自然语言处理结合起来，从而创造出一种非常好的用户体验。今年夏天晚些时候，Allo就会正式上线安卓和IOS平台。到时候记得用Allo发发照片，看看谷歌的人工智能到底会如何回复呢？

更多> 相关开云电子链接

0条 相关评论

推荐图文

机器人赋能产业，智赢	机器人也会创造英国
2018年中国智慧机场行	智能工厂全面解读！
艾猫早教机器人亮相20	360智能硬件助力美国

推荐开云电子链接

点击排行

• 深圳博铭维又一力作，管道周边地质灾害探测神器	• 北京启动建设国家人工智能创新应用先导区
• Project Loon前CEO已加盟自主机器人交付企业Sta	• 嘉定将试点打造机器人“智慧园区”
• 提高工效、节省人力！美空军用机器人给战机“洗	• 人工智能是否可信？专家：一些疾病诊断AI准确率
• 上千亿激光焊接市场被激发，但国产机器人90%的	• 广州：无人机递药机器人送餐
• 即日起正式施行协作机器人末端接口技术条件标准	• 即将实施的协作机器人末端接口标准，将对协作机

恰佩克奖	机器人高峰论坛	北大机器人	金属加工在线	AI中国网	埃森焊接展	机气林
工博会	赶考网	中国机床网	ITES深圳工业展	电气自动化网	高压电气网	人工智能机器人
亚洲工业网	二手设备网	展览会信息网	重庆房交汇网	VLAI未来四足机器人官网	中国传动网	华北机床网
数控机床市场网	国家标准化委员会