以下Matt Turck对于机器学习型初创公司发展模式的讨论,哪些是推动生态系统发展的原因,以及为什么它们看起来与之前的SaaS初创公司不同。
采访人Sam DeBrule是人工智能、技术、创业等领域的优秀博主。在Medium社区,他有8600多粉丝。他的《机器学习和人工智能的非技术指南》、《如何找到一个值得工作的创业公司》等文章获得了许多喜爱。
Sam:Matt,请你简单介绍一下自己以及你所做的工作吧。
Matt:我是纽约风投公司FirstMark的合伙人,FirstMakr管理着61亿美元的资金,已经成为纽约市最大的早期投资创业公司。作为投资者,我虽然对很多事情感兴趣,但我重点关注的领域有两个。
第一个是“数据领域”,包括大数据、机器学习和人工智能公司,以及将大数据视为护城河的初创公司,如ActionIQ、Dataiku、x.ai、Sense360和HyperScience这样的公司,我很热衷于投资于这样的企业,并时常在博客上讨论这些话题。与此同时,我还运营着一个有着14000名大数据和AI爱好者的社区——Data Driven NYC。
第二是“前沿科技领域”,包括新型计算平台、VR/AR、物联网以及你所能想到的所有流行新事物。同样地,我也会在个人博客上讨论,并运营着一个超过5000人的社区Hardwired NYC。
1. 现在确实是投资AI的最佳时机
Sam:你是在什么时候开始考虑投资机器学习领域
Matt:我是以数据分析师这个角色进入科技行业的。我是一家搜索引擎初创公司的联合创始人,我们用贝叶斯理论(一种机器学习方法)来进行问题搜索和检索。
实际上,机器学习已经存在于创投领域很多年了。但近年来,因为大数据的出现这个领域变得有趣了许多。大数据技术以合理的成本和速度捕获和处理大量数据。另一方面,它同时加快了机器学习的发展速度,特别是需要大量数据工作的领域,如神经网络。
现在正是投资该领域的最佳时机。在我看来,人工智能确实很热。
2. 营销盖过现实:IBM可能在兑现承诺方面做得最差
Sam:接下来,我们来讨论一个比较犀利的问题。如今众多的AI企业中,哪家企业在兑现消费者承诺方面做得最差?
Matt:根据我从市场上听到的,可能是IBM。
很大程度上,正是因为他们的营销机制和雄心勃勃让他们陷入了一个尴尬的境地:承诺太多,同时间投入在多个领域难以得到市场的满意回馈。据说,只要你愿意花几个月的时间和大量的金钱去训练IBM Waston,你就能用它来实现有趣的事情。但是,很明显,这有些言过其实了。
他们会发现,在每个垂直领域的竞争上都十分激烈。据我了解,他们正在损失大量交易,通常是败给那些更为专注、灵活的小公司。
3. Kaiyun官方网站app登录 是核心,而创业公司距离Kaiyun官方网站app登录 更近
Sam:Salesforce是否会走上和IBM同样的路径?
Matt:我觉得不会。当Salesforce创始人Marc Benioff去年宣扬人工智能平台Einstein时,Salesforce公司自己的人都有些害怕,不过这可能是因为Marc本身就爱吹牛。
问题的核心是,创业生态系统的导向和市场收购动作有着直接联系。因为创业公司距离机器学习领域的Kaiyun官方网站app登录 更近,而目前来看,这个因素是该行业的决定性条件。Salesforce和创业生态系统有较强的连接性,这一点很重要。
4. 没有大数据对创业公司的影响并没有想象中大,行业里最敏锐的人正在致力于减少神经网络对大数据的依赖,这是未来的一个方向
Sam:众所周知,专有数据是模型训练的关键,这使得创业公司和大公司相比会处于劣势。是否能找到更小的数据集来为模型提供动力的方法?
Matt:创业公司在这一方面确实处于劣势,但是这同时也会让他们具备更多创造性,让资源变得丰富。
从技术角度来说,当下该行业中最敏锐的人(不仅仅是初创公司里的人)正在致力于让神经网络在数据量较少的情况下发挥作用。在可以看得到的未来里,这将是这个行业前进的方向。
几家我很熟悉创业公司已经取得了一些真正的进展,并在迁移学习方面做了一些有趣的事情。话虽如此,这似乎还是一个特别棘手的问题,所以还需要些时间。
同时,创业公司也正在寻找多种的方法获得他们所需要的大型数据集。例如医学成像领域的人工智能公司,他们中的一些人在与特定医院建立了合作后,能安全地访问一些特定的放射影像数据库。在保险、工业机械、农业等领域也同样如此。
另外,获取数据只是挑战的中一部分,你还需要给它贴上标签,以便深入学习。一些创业公司在世界各地雇佣了一大批人,用Mechanical Turk(Amazon旗下的公司,网络交易平台)的套路来给他们的数据贴上标签。
我还看到其他一些创企聘请了一些行业专家来给特定类型的数据贴上标签,比如一个外科医生精英组给最复杂的医疗图像数据集贴标签。
5. 理论上,任何人都能收集到足够多的数据,形成马太效应
Sam:基于Netflix、Spotify和Facebook等平台,我们看到数据集带来的马太效应。哪些初创公司在构建下一代强大的数据马太效应?
Matt:理论上,任何人都能从多个用户那里收集到足够多的数据,在集合数据集上运行算法,并将学习反馈给每个客户的机器学习企业这些都可以从数据网络效应中受益。
以x.ai项目为例,人工智能助手安排的会议越多,得到的数据也就越多,算法随即变得越聪明。算法越智能,体验也就越好。反过来,体验越好,人们也就会更愿意使用x.ai来安排会议,从而x.ai就能获得更多的数据。如此良性循环下去。这便是数据网络效应。
这种效应的奇妙之处适用于很多创业公司,从像x.ai帮助人们安排会议的公司,再到像Phosphorous帮助医院经营基因检测实验室的公司都能适用。
在B2B模式背景下,通常不会轻易受到数据聚集带来的马太效应影响,因为企业都很注重对数据的保护,比较抗拒把自家数据和所在行业其他公司的数据掺糅在一起。
另一方面,数据集造成的门槛问题也将在一定程度上得到解决。谷歌搜索在几个月前发表了一份关于联合学习的文章,文章的想法是:在不实际收集数据的情况下支持协作式机器学习。这就可以解决所有关于数据隐私的担心,充分利用各类数据网络效应了。
不管怎样,数据网络效应的影响要几年才能发挥出来。创企要建立客户基础来收集足够的数据,这才能让他们的模型进行学习。不过,一旦完成,企业就会形成较强的竞争力。
6. 人工智能创业不是简简单单4、5个人就能搞定的事
Sam:人工智能是否将成为创业公司的“最佳市场策略”?
Matt:我认为,大多数的人工智能创企最终都会趋同。例如,由于不同行业的特点、客户规模、价格等,面临着多种不同的市场策略供创业者选择,然而这些公司最后将会变得和软件或SaaS公司类似。但是,我们还远未达到那种程度。现在,建立机器学习产品还需要大量的研发,训练算法需要大量的时间、精力、技术资源以及数据。
再引用x.ai的例子。x.ai成立了数年时间,雇佣数十名数据科学家和机器学习工程师,花费数百万的风投基金才建立起AI后端,以提供其高水平的自动化和可靠性。这样高的门槛,使得机器学习企业很难成为精益创业企业,至少现在看来是这样。对于这些创业团队,构建一个真正以AI技术为驱动的可行产品仍比较困难。任何一款运作良好的AI产品,都需要基于大量数以训练算法,并定制完善产品。
比较常见的情况是,AI创业团队以大额预算来追求大体量客户,自上而下销售产品,基本上遵循合作策略。即在早期,与少数客户建立紧密合作的基础上,尽可能多地迭代产品。基于大量服务来解决客户问题的模式,以达到在工作中构建软件的目的,积累可重复使用的案例,再将其服务转化为产品。模式稳固,但销售周期比较长。
但这个阶段只是暂时的。随着机器学习的大众化和开源化,我们能得到更多的开源数据集和算法、更多训练有素的工程师。未来,机器学习的初创企业会像其他领域的公司一样变得多元化。
7. AI型创业公司必须提供10倍产能
Sam:投资人是否会将人工智能创业公司视为收购标的,或者是否看好这些创业企业发展为大型独立公司?
Matt:考虑到风险投资的经济效益,后者的可能性更大。近年来,大公司收购各种小型AI公司的确形成了一股潮流。但这种现象背后的原因在于,人们坚信AI的美好未来,并且机器学习领域的Kaiyun官方网站app登录 稀缺。所以,有机会近距离接触研究实验室的公司可能获得相当可观的投资。不过,这种情况正在减少。
这就是为什么像我这样的投资者对垂直人工智能创企会如此感兴趣。在垂直领域方面,创企的专注度更高,而且他们的服务和产品能够有别于大公司。当大公司嗅到商业气味的时候,创企已经能取得不小的成就。
只要找准定位,人工智能可以成为真正的差异化因素。AI技术确实会对产品性能产生巨大影响,能够提供比现有质量好上10倍的产品。
不论你是创业者还是投资人,目的都是利用下一个市场拐点来获得发展。几年前,这个拐点是SaaS,现在是人工智能。当然,这个时间窗口终究会结束。但是,现在很多的人工智能企业都有机会成为这一行业的领军人。