Google令人惊讶的成功,不仅在于其实现的规模和多样性,更在于将传统智慧与人工智能与机器学习领域进行结合后所爆发出的惊人力量。很多聪明人小心求证并论证如何建立AI的理论再一次被证明是错的(这在历史上不止一次的发生)。
从而人们开始注意到数据有效性中不合理的方面:通过对一简单的模型供给庞大的数据将传统的经验理论实现方式压得粉碎,而这些方法在大数据之前是世界处理这类问题的主要手段。
在很多实际情况中,Google将很多曾被认为需要强AI才能解决的问题成功的通过结合人类智慧和弱AI得以解决,利用新的匹配的输入取代上文提到的庞大数据。而这一点金术的魔力来自于大型的中心化云服务的诞生。
如今谷歌在这一方向走得更远,他们提出了一个伟大的公司使命:重构世界的信息,并让信息的接入无处不在发挥作用。它成功的将网络世界中的规则和可能性迁移到了我们现实生活的物理世界中来。这一切都反映在其机器学习和人工智能的实现重。
我们不禁要问这难道就是AI唯一可行的途径吗?谷歌和其他技术巨头都在疯狂的购买AI和
机器人公司,系统的向机器学习能带来更高竞争力的利于转型并雇佣了大批的机器学习专家,他们仿佛想要表达游戏已经结束了。但是在这一切的背后是我们知之甚少的大量未公开的研究计划,我们依然可以乐观了做出假设,这一领域依然有很多方向充满机会,至少没有形成垄断的格局。
笔者认为这些方向具有下面三个方面的特征:
1. 数据集规模本身就很小,进一步收集数据要么会触碰到法律红线,要么需要高昂的成本,甚至进一步收集数据是不可能的。但需要注意一条上限:有的时候数据收集的仅仅只需要等待合适的投资和努力,例如将地图车开到地球每一个角落的大街小巷。
2. 不用复杂精准的模型就无法进行解释的数据。当然其中表现出的数据有效性可以由大数据下一大堆模型的简单统计计算就可以得到。
3. 由于法律、政治、合同等原因无法从用户和客户上采集的数据。这造成了很多小数据而不是大数据的问题。
基因数据就具有上述1、2两个特征。将基因序列称为小数据你可能会感到奇怪,但你需要明白,地球上只有几十亿人,每一个人都携带有几十亿的编码。这意味着大多数基因(包括很多完美的基因)我们将永远没有机会观测到。另一方面,我们根据采集到的数据,来对如此丰富的编码分析出的模式很可能会面临过拟合的错误。
全基因组关联分析得到了这个令人失望的结果,但对于基因序列相对直接的统计学分析代表了第一次通过基因识别和预测疾病的努力,这也强化了这一领域需要更多关于细胞对于基因变化的转录和翻译机制知识的合作需求。
另一个有趣的例子是关于在未知环境中的感知和自动导航的内容。谷歌目前的无人车是通过预置的高精度地图来帮助它进行定位和导航的。
没有预先的信息,
机器人将会完全迷失在喧嚣的世界中。未来将会有成千上万的自动驾驶汽车和机器人进入我们的生活,他们中的大多数都需要一套可以实时进行感知和定位的系统来帮助他们工作。但如果将自动驾驶设备放到一个它完全没有到过的地方(就像火星车一样),或是面对迅速变化甚至与静态地图完全相反的情形,机器人将为怎么样呢?我们需要明白,在真实世界中,有很多地方是不可测量或者谷歌的无人车无法轻易进入的。
其他的例子包括通过公开数据和财报来解读和预测公司的表现(第一和第二种特征);直接通过传感器数据来理解制造业或者其他商业流程,并提出改进建议(第二第三种特征);通过真实信息进行优化和决策,这个领域还远远没有成熟(以上三种特征都有)。
这个领域还有很长的路要走,但是我确实在其中看到了一些机会。这并不是这些大公司不能够研发这方面的应用,而是因为这些问题与这些公司根深蒂固的文化、组织结构以及现有的能力不匹配,才使得更多的市场参与者有了发展和进步的空间。这将正是AI领域未被发掘的新机会!