AI擅长什么,不擅长什么
牛津大学计算机科学系主任、DeepMind-Oxford Partnership负责人Michael Wooldridge教授做了题为《Routesto Artificial Intelligence》的大会报告,这个演讲引起了笔者长时间的思考,总结出以下一点点感想。
人工智能(Artificial Intelligence)简称AI,在1955年达特茅斯特会议上被提出,约翰·麦卡锡将其定义为“制造智能机器的科学与工程”(science and engineering of making intelligent machines)。
上世纪70年AI泡沫破灭后,这个概念沉寂了一段,相关研究者和工程师都不好意说自己是研究人工智能,而是变成机器学习、数据挖掘、自然语言处理、语音识别、图像识别等各个领域。机器学习是方法,数据挖掘、自然语言的理解、语音识别和图像识别是目标和具体应用。目前为止,AI的进步主要是机器学习的进步。近年计算能力的提高、互联网大数据的积累,深度学习被应用在语音识别、图像处理等领域并取得非常大的突破。人工智能的概念再度被学术、产业、投资人甚至普通民众关心,特别是今年AlphaGo战胜李世石,更是将AI推向了历史的最高点,各具体领域的人又纷纷回归人工智能的怀抱,笔者才能厚着脸皮说自己是人工智能从业者。
先不纠结人工智能的各种定义,目前学者们将AI分成强AI和弱AI。强AI是通用型的、有自我意识的,是自主的,简单说就是一个跟人一样的智能,星球大战中的R2-D2、多啦A梦都是强人工智能,有自己的意识、能做自己做决定,强AI目前仍然是科幻片里的人工智能。
弱AI目标没有那么高远,专注在一些原来只有人或者动物的大脑能做的具体任务上,目前的突破仍是各个弱人工智能做得更好。语音识别、图像分类、AlphaGo等为解决某一特定任务的系统都是弱人工智能。
弱人工智能需要有明确的优化目标:语音识别的优化目标是字符识别的准确率,图像分类的优化目标是图像识别的准确率。目前的AI几乎都是弱AI,当有明确的可以量化的优化目标时,可以通过机器学习实现逐步迭代接近优化目标,在很多这样的领域,AI可以接近甚至超过了人类的水平。说完AI适合解决什么样的问题后,再看看AI目前做不好什么。
1)处理定义不清晰的问题:计算机可以按照精准的指令进行运算,并且执行非常快,但是需要指令是清楚明确的;
2)感知:人可以感知周围的环境,同样的会议室大家都不说话,一个新进入的人可以感觉到里面之前是经历了激烈地争吵还是愉快的讨论,尽管机器可以通过不同的传感器捕捉到温度、光线、湿度的具体数字,这些人也无法做到如此精确,但还不能将这些各种信息真正的结合起来达到人的水平。
3)决策:很多决策是没有精确的规则,要涉及判断者的直觉、心态、猜想,这些对于计算机来讲是非常复杂的。而这些是强AI的必要条件,所以个人认为强AI可能在可见的未来不会实现。
目前的各种所谓智能机器人更多的是一些弱AI的整合,可以集成一个系统,可以实现语音识别、图像识别、语音合成、下棋等具体任务,但这些组合到一起只能解决每个具体的任务,并不能构成自我意识,并进行真正的思考。
下面举几个简单的例子:
当在地铁上,你站在门口,后面的人问“您下车么”,潜台词是“如果不下,请给我让下路”。这时如果下车,需要回答“下”;不下车时不需要回答,只需要把路让开。
当男生跟女生说咱们分手吧时,女生更多的会说“她是谁?”
上面介绍过当我们做弱人工智能时,需要对于每一个任务定义优化目标,这些优化目标都是人的一个基本功能,有些功能,甚至动物也可以实现,有可能比人做得更好。而一个智慧的人的优化目标是什么,这更加复杂,可能是个哲学和社会学问题。权利、金钱、异性、被认可、世界大同,甚至宗教里面的“空”、“道”、“涅槃”等等都是人追求的目标。
首先我们不能知道自己到底有多少目标,可以列出目标的并集,并不是人所有追求的总和。
其次这些目标只有一部分可以用一个优化函数来描述,进而化解成各种指令,这种可以认为是一个弱AI系统——
比如在准备英语考试时,考试的结果可以用分数衡量,背更多的单词,掌握更多的语法,书写更流利的文本,发更正确的读音,能得到更高分。
这样我们可以以获取高分为目标,做一个英语考试的系统,让这个系统参加考试,会取得不错的成绩,而且在未来的几年内,考试的水平会超过人类的最好水平。
而回归这些目标本身,一个人可能同时追求这些目标;在人生的不同阶段,或者具体到不同时刻,这些目标也会发生变化:对于大多数人年轻时追求权力、金钱,年纪稍长追求家庭和睦,年老时追求健康长寿。对于具体的每一个人,教育、周围的人、社会变化都会导致人生目标的动态变化,但每一件事对具体优化目标影响究竟有多大,可能自己也不知道。
这里插句题外话,虽然我们无法确定每一本好读书,交一个更牛的朋友,更积极的看待社会,这些会给我们带来多大的改变,但持续做下去,人肯定会更好。不能把人的各种追求量化并穷尽并整合,不是所有的优化目标都可以被量化,这些都是目前的AI框架无法解决的问题。
从AI概念提出到现在,AI的发展基本都是量变,科学家们并没有跳出现在的整体框架。所以个人认为强人工智能在几十年内,不会实现,大家尚可不必担心强AI诞生并取代人类。很多大小公司、某些专家出于各种考虑,提出自己的“AI相当于几岁小孩的智商”,有失偏颇。在各个弱AI领域,可以超过人类最好的水平;在感知决策等方面,AI不如初生的婴儿,所以现在一切以人类年龄宣称自己AI产品智能水平的行为,都是耍流氓。
各领域的具体技术进展
上面务虚的侃了自己一点粗略的想法,再介绍一些大神们的干货。
香港科技大学教授杨强:AI成功的五个必要条件
香港科技大学杨强老师做了《人工智能成功的几个必要条件》的主题演讲。杨强老师认为深度学习之后的算法模型有三层结构:
第一层就是递归的深度学习(RNN);
在这之上的第二层是一个强化学习的学习器(RL);
而第三层是迁移学习(TL),它能把一个已有的模型迁移到一个新的领域。
深度学习训练需要大量的数据,强化学习也需要大量数据进行反馈。利用迁移学习,可以有效的减少对数据量的需求。
比如人骑自行车的经验有助于学习骑摩托车,一个会打羽毛球的人学习网球也会更快一些。目前已经将该模型应用在对话系统和股票预测等领域上。
杨强老师认为目前成功的人工智能的应用还是在机器学习,从数据中找到规律,把重复的工作替代掉。最后给出了他认为的AI成功的五个必要条件:
清晰的商业模式
高质量的大数据
清晰的问题定义和领域边界
懂人工智能的跨界Kaiyun官方网站app登录
擅长应用和算法
计算能力。
微软亚洲研究院常务副院长芮勇:计算机视觉从感知到认知的长征
在演讲中,芮勇老师提到现在可以根据输入图像的内容给出描述,如生成“小河旁边停了一辆自行车”,并将继续研究根据视频内容生成描述文字。更令人兴奋的是可以回答关于图像内容的自然语言问题。
例如:在一片泥泞的土路上,什么东西在拖着马车?答案是马在拖着马车。方法是同时用一个问题的文本的深度学习模型,一个图像的深度学习模型,最后将两个模型融合。
笔者想到今年一次听合唱时,不同人唱不同声部,可以很快的根据口型动作和声音确定声音的发出者,从直观感受来讲,这应该是大脑将连续的图像和声音一起作为输入,做了一个联合模型的识别。随着研究的深入,未来语音、文字、图像等输入源的联合输入,一定会做出更加有趣和实用的产品。同样,最后芮勇老师也给出了计算机视觉进一步发展的三个关键因素:机器学习算法的进步、各个垂直领域的科学家和从业者合作、高质量的海量数据。
滑铁卢大学教授李明院士、前Google seniorstaff科学家林德康老师也分别介绍了用深度学习做自然语言处理和自动问答技术的主题演讲,这里不过多介绍。
如何做好AI产品?
目前做AI的创业公司很多,各种语音助手、各种功能的机器人公司风起云涌,各个团队都有很强的学术背景和技术能力。好技术不意味着能够做出好产品,做好产品仍需很多其他因素。
小米联合创始人黄江吉先生在演讲中表示小米对于人工智能的观点是:产品+大数据+机器学习。制造各种智能硬件的产品,生成高质量的大数据,利用机器学习创造人工智能,进而应用在各个产品上,使产品更加智能。
搜狗CTO杨洪涛先生认为好的产品要满足三个条件:叫好、卖座、赚钱。并提出“只有使用AI技术的好产品才能创造价值,一个是给用户提供一个好的办法,第二个是真正能生产数据,从而使自己迭代。”
这点跟小米黄江吉先生的看法一致。“欲望先于手段”。用产品和功能来满足用户在特定场景下的欲望,而并非用已有技术手段去寻找用户的需求,欲望在手段之前,反过来“拿着锤子看哪里都是钉子”就是走错了方向。
个人认为好的人工智能产品要能落地,有载体,能切实改善人们的生活。
拿笔者所在的出门问问为例,我们一直致力于做场景化的语音搜索,有独立的语音识别、语义分析、垂直搜索、智能推送技术。14年底发布了自主的智能手表系统Ticwear,并提供Androidwear在中国的语音搜索技术。我们自己的硬件产品Ticwatch和将要上市的智能车载产品问问魔镜,就是希望人工智能技术落地,方便用户使用人工智能技术提高生活品质。这次大会上也给问问颁发了人工智能&机器人Top25企业奖杯。
可能谁也无法预测AI的未来,作为一个从业者,我们能做的是脚踏实地做好AI技术和产品,一点点地提高全社会的生产效率,并将人们从单调可重复的工作中解放出来。
希望AI能让生活更美好。