亚马逊家的Prime Air无人机可以把爆米花送到你手中,其实Yelp家的EAT24机器人或许也可以在某一天做到。
日前,网友@Ryan Lawler发Twitter消息爆料称,美国大众点评网Yelp旗下的EAT24机器人正在旧金山附件的任务区内取景。也就是说,该机器人还处于测试中,还没有开始正式工作。
我们通常都会学习前辈或大牛的经典作品,而引用次数自然也成为了论文的一个重要标杆。在GitHub上,@Terryum整理了一份精心编写的论文推荐列表,其中包含了在深度学习领域中引用次数最多的前100篇论文(自2012年起)。囿于篇幅限制,雷锋网(公众号:雷锋网)整理编译了理解/泛化/迁移领域的七篇论文,并增加了论文的概要,方便读者快速了解。
有一些深度学习论文,无论它们属于哪个应用领域,都值得仔细研习。文章在精不在多,雷锋网提供的这些文章,都被认为是值得一读的优秀论文。
背景
除此列表之外,还有一些优秀的深度学习论文推荐列表,比如《Deep Vision》,《Awesome Recurrent neural networks》和《Deep Learning Papers Reading Roadmap》。其中《Deep Learning Papers Reading Roadmap》是一个适合深度学习初学者的论文推荐列表,包含了很多重要的论文,被很多深度学习的研究者所喜爱,但是想要读完其中包含的所有论文还是有一定难度的。正如我在介绍中提到的一样,任何应用领域的开创性工作都会让我们受益匪浅。因此,我将介绍前一百篇深度学习论文,作为概述深度学习研究的起点。
评选标准
入选论文的发表年份限于2012年至2016年间
每当一篇新的论文入选此列表(通常从《More Papers from 2016》选择),那么就会有另一篇论文被淘汰,确保始终只提供前100篇论文。(选择淘汰论文的工作与选择加入的工作同样重要)
有一些没有入选的重要论文,将会在《More than Top 100》中陈列
对于2012年前或者近六个月发表的论文,请参考《New Papers and Old papers》
(引用标准)
按论文发表的时间:
<6 个月: 新论文(经讨论决定)
2016年 : 引用次数大于60次或者入选了《More Papers from 2016》
2015年 : 引用次数大于200次
2014年 : 引用次数大于400次
2013年 : 引用次数大于600次
2012年 : 引用次数大于800次
~2012年 : 旧论文(经讨论决定)
注意:我们优先选择学术领域而不是应用领域的开创性论文,入选的论文影响力相对较大,也更加适用于其他研究匮乏的学术领域,因此有些满足评选标准的论文没有被选中,而有些选中了。
论文集目前包括以下几个分类:理解/泛化/迁移、最优化/训练技巧、无监督学习/生成模型等十个子类,本篇文章只简单对理解/泛化/迁移的论文进行介绍。
理解/ 泛化/ 迁移
对于大型的机器学习任务,通常在训练阶段和应用阶段会使用相似的模型。为了使特征提取更容易,我们愿意训练一个相对复杂的模型,甚至是训练几个模型的集合。一旦这样的集合模型训练完成,使用一种叫做“压缩”的技术把复杂模型的知识转化到一个较小的模型中以便应用模型使用。Caruana曾经提出过一种将一个大的模型集合转化为小的单一模型的方法,来自谷歌的Geoffrey Hinton, Oriol Vinyals和Jeff Dean三位技术专家合著了《Distilling the knowledge in a neural network 》,他们改善了Caruana的方法,应用了一种不同的压缩方法并在MNIST数据集上取得了惊人的成绩。论文表明,把集合模型中的知识 “压缩” 到单一模型中可以显著地改善一种频繁使用的商业系统的声学模型。
深度神经网络 (DNN) 在分类图片物体的问题上达到了近乎人类的程度,很多人会有疑问,计算机视觉和人类视觉究竟有何不同? Anh Nguyen, Jason Yosinski和 Jeff Clune在《Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images 》一文中提出了DNN和人类视觉的差异,文章认为,在面对人类完全不能辨认的图片时,DNN很容易被糊弄。文中通过进化算法或者梯度下降方法来处理图片,实验显示,即使对于人类无法辨别的图片,DNN依然能够呈现很高的置信度。其中,处理过后的MNIST数据集,DNN的辨别置信度达到了99%,而辨别ImageNet数据集的置信度则相对较低些。
很多深度神经网络在分类自然图片时都表现出了同一种奇怪的现象,它们在第一层网络层学习的特征与Gabor 滤波器和Color blobs很像,无论选择怎样的数据集和损失函数,似乎这样的第一层特征都会出现,具有普遍性。另外,我们知道训练的网络最后一层的特征与选择的数据集和训练任务紧密相关,具有特殊性。网络层的特征在训练过程中会由一般转变为特殊,但是目前这种转变过程还没有研究的很透彻。由Jason Yosinski, Jeff Clune, Yoshua Bengio和Hod Lipson合著的《How transferable are features in deep neural networks? 》通过实验量化了深度卷积神经网络每一层中的神经元的普遍性和特殊性。实验表明,有两个因素会造成迁移特征的性能下降:高层特征本身的特殊性;由于在协同工作的相邻网络层之间进行分割造成的优化困难。另外,实验观察了这两个因素在不同迁移方式下的表现,量化了因训练任务不同而改变的迁移差异性变化,结果表明,即使是从完全不同的训练任务迁移过来的特征,表现的性能都要优于随机设置权重的网络。另外,实验表明,即使是进行微调参,使用迁移的特征还是可以提高泛化性能,这可以作为提高深度神经网络性能的有效手段。
已有研究表明从卷积神经网络中提取出的通用描述符是非常有用的,从CNN网络中学习到的通用特征,可以成功应用于其他的识别任务。《CNN Features off-the-shelf: an Astounding Baseline for Recognition》再次证明了这一点,论文作者Ali Sharif Razavian等进行了一系列实验,使用已有的OverFeat网络加上简单的分类器SVM,来处理不同种类的识别任务,包括物体对象识别,场景识别,精细分类,属性检测,图像检索,OverFeat+SVM在这些任务上都表现出了非常优异的性能。结果表明,卷积网络获得的特征可作为大多数视觉识别任务的首选。
CNN模型的训练过程,相当于在拥有大量标签过的图片样本的情况下,估算百万个参数的值。CNN的这一性质使得它无法在训练数据有限的情况下使用,由Maxime Oquab, Leon Bottou,Ivan Laptev,Josef Sivic等人合著的《Learning and transferring mid-Level image representations using convolutional neural networks 》展现了使用大规模标签数据集和CNN模型训练过的图片表征,可以有效地应用到其他的视觉识别任务上。论文设计了一种方法,在ImageNet数据集训练过的网络层可以重用,用于计算PASCAL数据集的中层图片表征。
来自纽约大学的Matthew D. Zeiler和Rob Fergus合著了《Visualizing and Understanding Convolutional Networks》,这篇论文解释了为什么很多CNN模型在ImageNet上表现优异并介绍了如何提升这些模型的性能。论文引入了一种新的可视化技术展示中间层特征函数和分类器的操作。可视化使得我们可以找到这些在ImageNet分类基准中比Krizhevsky模型表现更好的模型结构。
对于一个大的, 固定的物体的识别任务,在全监督学习中训练过的深度卷积网络的激励层提取出来的特征,是否能够在新的通用任务中再利用?《DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition》一文讨论了这个问题。论文中调查并可视化了不同任务的深度卷积特征的语义聚类,比较了不同网络层次的效果来定义固定特征。报告的新成果明显优异于目前在视觉任务挑战中表现的最优水平。
某种程度上,这一测试也说明,我们距离用机器人送外卖的日子似乎不远了。以后,EAT24可能会成为用户的外卖机器人。
对此,Yelp并未置评。
网友疑问多多
自网上关于EAT24外卖机器人的照片流出后,就引起了众多网友的热烈讨论。很多网友认为,这会让旧金山发生大拥堵。
还有网友认为这不现实。如果用这些机器人送外卖,他们的“存活率”不会高在哪里。想想帝都那些被破坏的自行车,这些载着美食的小巧外卖机器人能逃过美国人的魔爪,尤其是那些流浪汉?这样看来,这位网友说的还是蛮有道理的。
另外,对这些外卖机器人的监管也存在很大的问题。如果这些外卖机器人大批上路后,与行人、车辆发生摩擦,该如何解决?
据报道,EAT24的这些机器人是由Marble公司提供。该公司由一群来自苹果、谷歌等公司的电气工程师创建。
提供更好的服务?
2004年,Yelp成立于美国旧金山。2012年,公司在纽交所上市。目前,Yelp已经成长为美国最大的点评网站。
与中国的点评网站类似,Yelp网站也提供包括美食、购物、酒店、旅游等各种服务。同时,用户可以在网站上对商户打分、评论、交流等。
从Yelp的财报来看,2014年Q1-2016年Q4,公司的营收一直从7640万美元涨到1.95亿美元。从收入结构来看,主要由广告营收、交易营收、品牌营收、订阅及其他服务构成。其中,广告营收是公司最主要的收入来源。2016年Q4,广告营收占总营收的90.60%。从这一数据来看,公司收入单一,而且严重依赖广告收入。
虽然公司目前的营收增长情况良好,但其面临的压力不少。尤其是在广告业务方面,公司不仅要应对传统的广告公司,还要面对Groupon、Foursquare等公司的竞争。而且后者基于团购和LBS的服务更受消费者青睐。但Yelp推出的Yelp Deals团购服务却遭遇了挫折,这也成为投资人不看好公司的原因之一。
另外,公司的基本盈利模式就是在向广告主“兜售”客户。然而从财报中来看,2016年Q3-Q4,公司的PC端、移动端、APP端、国际页面端的月平均访用户问量都出现下滑。这对公司来说确实不是一个好消息。
为了公司的长远发展,这需要其拿出更好的服务来吸引用户。而从垂直领域的营收情况来看,来自本地、餐饮领域的收入占比最多。在2016年Q4,这一占比分别达到30%和15%。而近几年,公司的收购也主要围绕这两大领域展开。
目前,公司已经完成6笔收购。其中,2015年2月,公司花费1.34亿美元收购了食品订购与速递公司EAT24。这意味着公司正式进军外卖领域,而且这也是公司最大的一笔收购案。
据报道,在当时的Eat24平台上,拥有2万家的餐饮服务商,覆盖1500多座城市。这次收购,不仅可以为Yelp对接更多的餐饮服务商,而且可以为公司带来更多的营收。
然而,随着行业竞争的加剧,各家公司都在不断创新服务,如通过无人机等来送食物。在未来,通过机器人来送外卖或许就是一个很常态的事情。在这种情况下,如果EAT24不做创新,那么就会有DoorDash 或Postmates来做。