从可以追溯的历史资料来看,对话机器人(chat-bot)至少在上世纪六十年代就已经问世,经过近五六十年的发展,今天我们已经可以在许多产品中看到对话机器人的影子,微软的Cortana、小冰,苹果的Siri、Google Now、阿里小蜜、百度度秘、图灵机器人、助理来也、出门问问等等。
可以肯定的是:对话机器人已经成为了一种业界时尚,越来越多的公司试图通过这种全新的交互形式,来优化或者升级自己产品——我们已经可以在许多的产品中看到各种名为“小X机器人”的子产品。
如此多的对话机器人很容易给人一种百花齐放、方兴未艾的感觉。我们可能会隐约觉得:每家的对话机器人产品都大同小异,有些家的产品会有一些别样的特征,可是终究给人一种不属于过去十年移动互联网发展的感觉——这些对话机器人似乎都还处在很早期,用户量似乎都不大,显得都有些小众。
我将试图站在纯产品的视角分析:一款产品对话机器人背后,需求和产品逻辑是怎样的(文中我无意去对比各家对话机器人的优劣,也不讨论某款对话机器人的产品观或方法论)。
一、探索“对话”行为背后的需求
首先,我们试图探索“对话”这一行为的场景与背后的需求。
在《人类简史》一书中,认为语言能力是智人区别于其他猿类最重要的特质和能力;因为语言能力,智人可以互相通过对话而形成更丰富的交互,从而才有了协作和后来的文明。
人类有三种最直接的方式来使用语言:“一对零”、“一对多”、“一对一”。
“一对零”是自我内化的反思、总结、沉淀,不向外做交互和分享。
“一对多”是广播式的宣讲和相对单向的输出,譬如开大会或者发号施令。
“一对一”是对话——群聊也是由许多的“一对一”构成的,所以我认为不存在真正意义上的“多对多”对话。我认为对话是我们人与外界进行交互的最直接即时的途径(注意“即时”很重要)。
所谓对话,一定是一个双方交互行为,并且互为I/O(input / output)的过程。比如两个人对话,每个人所说的话,对于自己而言是输出,对于对方而言是输入。原则上,对话可以永远持续下去。
但我们几乎从未见过两个人会永远在对话,那是因为:如果需要对话持续下去,双方都需要保持参与;任何一方觉得疲劳或者无价值感了,对话就会终止。
对话的场景更加贴近我们的生活行为,它频次最高,且环境开放多变,分析它背后的需求并不容易。现在,我们需要回答两个问题:
1.1 第一个问题:对话为什么能够开始?
我认为人在对话中存在三个层面的需求。
第一层,是基础问答的需求。可以描述为:
我有一个问题,请你回答我。
二次追问的问题,属于新问题。这个过程,非常类似于我们今天所使用的搜索引擎。
第二层,是任务流程协作的需求,以达成某种目的为止。可以描述为:我想请你帮我买一张明天下午14:00-18:00出发,北京到上海的机票;经济舱,尽可能便宜,最好是东航的。我们和朋友相约去逛街,拜托同事帮忙预定会议室,接受闺蜜的请求明早叫她起床。
这些都是任务流程协作的需求。
第三层,是共同的情感建立,无论喜怒哀乐。聊天的目标很难定量量化,我们更多是尝试定性地去制定聊天的目标。可能是心情不好需要人陪,也可能是好事情需要向好朋友分享,我们需要对话来表达进行最直接即时的表达。
我并不认为只有孤独的情感才需要对话——人作为拥有万年发展历程的群居动物,与他人进行情感分享是早已刻入基因的特质。只是我们建立的情感在不同人之间会有所不同,对于信任之人的情感建立会很深刻,而对于点头之交则会保留许多。
开启一段对话一定源自上述的某种需求,而开启的契机则是一个相对明确的话题,哪怕只是一句“我饿了”。
1.2 第二个问题:对话为什么会持续?
对话能够持续,是有两个层面的原因。
第一个原因,是至少一方的需求没有得到满足。比如我去提问题,对方回答我不满意,我就会持续追问。两个女生在一起聊八卦,听的人很入神,讲的Kaiyun官方网站app登录 有成就感能继续讲下去。
第二个原因,是双方相对平等。如果我提了个问题,或者请对方帮个忙,但是对方始终是一种高姿态不搭理我,那我就很容易放弃,不想聊了。反过来,如果对方对我过分尊敬,总在说一些没有营养的恭维拍马屁的话,时间久了,我也会变得更虚荣,而且会觉得很无聊。所以,人不会和自己阶层或者品味相差太多的人聊天,绝大多数人更不会和宠物长时间聊天。
对话会终止,最根本的原因是:双方都放弃了这轮对话。
感性一些来描述对话终止的原因,可以认为是双方都觉得“疲惫”了,也就是这一轮对话的能耗消耗殆尽;哪怕是情侣之间说甜言蜜语,聊个两三千句也会觉得累了,也会在十几个回合的互道“晚安”中结束本次对话。
所以,对话总会终止,能耗殆尽就会终止。
二、“对话机器人”产品的发展源自搜索引擎
在我以前的文章《进阶之路:站在高视角看产品是一种怎样的体验》中,讲述过一个概念,叫做“知识诅咒”。简单说:现在我明白一件事情,但是要完整清楚的讲授给你,是很难的;因为我们所拥有的知识背景不同,我们对同一件事情的理解不同。这也就解释了为什么很多老师在上课的时候索然无味,很多人做Presentation的时候显得苍白无力,这其实是知识诅咒在起作用。
知识诅咒带来一个很大的问题,就是每当我们接触到一个陌生事物时,都会和自己的背景知识进行类比。譬如对于长发飘飘的素颜美女,在我所知中,这类美女一般都是家境不错,待人温柔,家教优良。所以当我再次见到一个类似的美女时,我会做相似的第一印象类比。
不只是美女,我们几乎所有的认知都源自于过往的背景知识。
在人类发展的历史上,对于即时的问答需求几乎时时刻刻都存在。最早大家是询问部落中最年长的智者,后来大家互相都有了知识储备,就可以通过对话来进行基本的问答和辩论——这一个过程持续了千万年。同一个问题,最早时只能去问一个人,得到一个答案;到后来,可以去问很多人,得到许多答案,然后“择其善者而从之”。如果我能把所有人都问一遍,可能会得到一个巨大的答案集合;我需要过滤、排序、取舍,你发现,这个过程就是“搜索引擎”。我们使用搜索引擎时,是通过一个“输入框”输入想问的问题或者关键词,然后搜索引擎会丢给我一个经过相关性排序和优化的答案集合。
但我认为两个原因,会导致搜索引擎会逐渐向对话机器人演变。
2.1 其一:精准答案的需求愈发旺盛
搜索引擎从简单的信息集合展示,逐渐向精准答案给予,这个已经持续了好几年。“百度阿拉丁”就是这方面的典型,譬如当你问“北京天气”,百度搜索结果页第一项是经过精心设计的天气卡,会通过丰富的UI展示天气相关的信息。在头部热门搜索词中,阿拉丁已经可以覆盖大多数,但是对于腰部需求和长尾需求,随着信息爆炸,人们对于翻多页进行搜索的忍耐度会越来越低,对于“快”“准”的需求只会越来越大。
2.2 其二:搜索场景下输入能耗太大
从能耗体验的角度来说,搜索的输入框远高于对话聊天的输入框,即使是同一个话题的持续输入,对话聊天的疲劳感也会明显低于搜索。
如果今天人们每天平均提问的次数是N,那么几年后会迅速到10N,体验不升级会很难让用户满意。而回归对话的方式,是一种很好的体验优化,可以抵消需求的增长。
三、“对话机器人”产品场景:封闭域对话 VS 开放域对话
优秀的产品经理很懂得如何控制自己的用户使用产品时的各种操作,从而提前把控用户的预期,进而达到体验的相对最优。
许多优秀App的基本设计逻辑就是:页面之间的跳转有规则且有顺序,这样用户不会通过点击跳出预设流程,预期就相对可控。手机上的App产品交互中,可以通过各种逻辑和提示信息来把控预期——可是对话机器人该如何控制预期呢?
由于对话机器人用户几乎都是通过自然语言输入实现交互,而且每次只有一句;所以只能通过用户的输入,以及针对输入的回复来实现用户预期的把控。
可是在对话聊天的场景中,用户的输入时而可控,时而不可控;我们做不到像App设计那样可以制造一个封闭的逻辑闭环来让用户遵守规则——对话聊天是一个天然的开放场景,用户平时怎么和朋友对话,和机器人也会怎么对话。
因此,我们人为地把对话分为两种场景:
封闭域对话:要求用户输入指定地话语才能继续对话
开放域对话:用户爱说什么就说什么都可以持续对话
3.1 封闭域对话
封闭域对话有两个关键的特征:
输入和输出可归类可枚举
对话有明确的始和终,且有流程
所以,在对话的三个需求中,问答和任务流程协作都属于封闭域对话。
封闭域对话的设计逻辑延续自“IFTTT(if this then that)”,是workflow的进化交互形式(感兴趣的同学可以去App Store去搜索一款App,叫做“Workflow”,它就是可以将一系列原本不相关的App通过条件判断串联起来)。
下面我来分享两个封闭域聊天的典型案例。
读心机器人
10年前微软必应推出过一个“读心机器人”,它会在20个问答中猜你心中所想。这个机器人曾经在几年前出过一个对话问答版本,用户只要在每一步时回答“是”或者“不是”,对话就会持续进行,直到猜出或者猜不出结果。
必应读心机器人
这就是一个典型的封闭域多伦问答对话,用户的输入只有两个,而过程是一大堆背后的逻辑判断,且有相对固定的流程,而且有明确的开始和结束。
Amazon Echo音箱
Amazon的Echo音箱,大家都很熟悉了,Echo之所以成为爆款产品,很关键的一个原因是,它的对话机器人Alexa在Echo音箱的场景设计中是一个封闭域对话。由于音箱是我们居家场景中,除了遥控器之外最常见的高频交互式Commander,我们很难再在家里找到一个这样的硬件,它除了可以轻易地输入指令,还可以快速且明显地反馈。
当我们面向Commander进行输入时,我们可以输入的话语就已经变得局限,可以想象到的是,在居家场景中我们可以发出的指令几乎就是“打开”、“关闭”之类的。更重要的是,在居家场景中可以控制的物品也是有限的,而且任何一个操作的流程都很短。
所以,人们和第一代Echo音箱的对话中,输入和输出都是可枚举的,而且有始有终有流程,Echo最优秀的特质,就是它选择了一个封闭域场景,极大地控制了用户的预期,获得了更优的体验。
Amazon Echo音箱
从上面两个例子中,我可以看到,封闭域对话在产品设计中有几个明显的特征。
3.1.1 其一:封闭域对话其实是workflow的延伸
其实封闭域中的“封闭”二字,无论在话题量、输入输出量,还是对话轮次、对话流程,都是封闭的,封闭就代表了有限集合。workflow之所以可以通过ifttt设计,就是因为有限集合,只有各种条件有限,才可以设计出条例清晰且逻辑合理的workflow。
封闭对话通常是为了解决某个特定的问题或者需求,从结果来看,它的效果会显得更加“有用”。但是,从过程来看,封闭域对话并不是一种真正意义上的创新,它的效率相比workflow并没有本质上地提升,只是在交互的体验上更加接近人的语言交互本能,所以大多数封闭域对话都会设计地如同助理或者秘书,譬如阿里小蜜,百度度秘。
3.1.2 其二:封闭域对话场景单一可控
封闭域由于拥有特定的目的性,往往都是在单一确定的场景里。如下图中的百度度秘,两个红色框中的部分,是预设了各种封闭域的场景,每一种看似简单的功能其实都是一个特定的封闭域对话;譬如截图中正在使用的图片笑话。
度秘机器人
很显然,不同的封闭域对话中,对话的轮次要求是不一样的,讲笑话是一个单轮次对话,度秘产品中通过图中蓝色框里的“再来一个”这种预设输入,来不断强化用户输入的单一性。而“叫外卖”这类的封闭域对话,就会是一个标准的workflow,感兴趣的同学可以自己去试试。
3.1.3 其三:封闭域的边界处理很重要
封闭域有一个很重要的问题,就是用户可能随时跳出封闭域,开始聊其他的话题,或者不按照预设的规则逻辑出牌。
譬如微软小冰的一个封闭域对话,叫做“小冰识狗”。
正常的逻辑中,用户的发给小冰的应该是一张狗的照片,可是有的用户可能就是发了一张不是狗的照片,如下所示,那么这个时候就是边界case,需要额外处理。用户发来的可能是语音、文字、其他任何照片,每一种的处理都是需要单独设计的。
微软小冰之“小冰识狗”
多说一点,在封闭域对话的边界设计中,很难做到万无一失周密完全,因为用户输入可能会千奇百怪,所以最佳也是最讨巧的方式,就是用开放域对话来“兜底”。
3.2 开放域对话
开放域是相对于封闭域而言的。由于对话机器人的话题几乎都源自用户,而每个用户可能有任何输入,话题就会无法穷举,且在多个场景中跳来跳去,进而形成了所谓的开放域对话,也就是“啥都能聊”。
2011年在人人网上横空出世的“小黄鸡”算得上是国内最早出名的开放域对话机器人,其后发展最好的当属微软小冰。
开放域对话最大的特点是:输入无法穷尽,导致输出无法穷尽,而且对话没有确切的结束点,无流程可言。
我们一般情况下想去考验一个机器人是否智能,通常考验的就是开放域对话,大名鼎鼎的“图灵测试”通常所面向的也是开放域对话能力。
从可以承载的对话输入范围来讲,开放域对话像极了搜索引擎,我们可以在百度搜索中输入任何的词句,百度几乎都会给出结果页面(除了敏感词);相应的,在开放域对话中,我们也是可以说任何话,机器人也应该每一句都可以回复。
3.2.1 开放域对话产品设计的基本原理
对话需要的是双方的平等。
和微软小冰聊天时,有时甚至感受不到她是真人还是假的机器——其实这并不重要,小冰正在解决开放域聊天中一个核心的问题:如何不断给用户制造话题,从而延续聊天的能量?
说到话题制造,我们先来看看开放域对话机器人到底是如何制造的:
几乎所有的开放域对话语料都源自于网络上公开的对话,譬如百度知道、知乎、豆瓣、贴吧等等,这些对话都是人与人形成的;那么,当一个机器人把其中的某些话在当时的场景下再说一遍,我们是分辨不出来这个机器人是不是真人的——这便是开放域对话机器人制造的基本依据。
当我们和一个看起来像人的机器人聊天时,由于场景发生在人与人对话的场景下,根据“知识诅咒”的原理,我们很容易带入一种“对方也是人”的感觉。而一旦对方的回话像人,我们就会认可她是人。
人与人的情感建立源自于长期的交流和沟通,聊天本身就是开放域的;所以那些乐于和机器人聊天的人类,就会越来越觉得机器人像人。
我们知道:对话机器人是一个新兴的产品,最初尝鲜的人是所谓的“种子用户”,这些人建立了与机器人之间的最早形态亲密感和信任感,这对后续的对话机器人发展积累了非常宝贵的经验。
3.2.2 开放域对话机器人的两个产品陷阱
其一,面向用户的机器学习
很多人认为,对话机器人和人聊得越多,学习的语料就越多,就可以省去很多语料获取的问题,这是一个巨大的误区。由于用户的输入无法预期,导致从用户处采集来的语料千奇百怪,而且大量骂人的脏话,非常不适合作为开放域对话语料。由于用户的语料是海量且无规则特征,导致语料清洗非常苦难,无法使用。
其二,无人为引导的个性
由于开放域的语料完全来自于互联网,所以机器人回复的话语带有何种语气很难把控,如果不加以认为干预,机器人说的话会显得时而有趣,时而刁蛮,时而无知,时而夸张,时而智慧,在用户的心智中无法用一个或几个明确的形容词去形容它,这会带来一个很尴尬的结果,用户是抱着“调戏、戏谑”的态度去对话,长此下去,想建立用户的亲密感和信任感几乎不可能。
四、对话机器人的用户价值
现在,我们试图回答一个问题:对话机器人为什么需要开放域对话?价值是什么?仅仅是为了逗比有趣吗?
这是一个非常复杂的问题。
由于对话机器人同时具有“开放域对话”和“封闭域对话”两重场景,站在用户视角来看,对话机器人意味着它更像人,而非机器。像人,意味着用户会更愿意像与人交流那样,同对话机器人进行对话交流——而一旦如此,“个性”和“意识”便是用户主动强加于对话机器人的标签。譬如,几年前被玩坏的10086短信聊天,还有《生活大爆炸》中Rajsh幻想Siri是个性感御姐,都无一例外地源自于用户主动强加于对话机器人的人性标签。
这便给一个可落地的对话机器人产品设计带来了巨大的挑战。
我们知道,任何的产品都是能够和用户产生亲密感和信任感的,这份亲密和信任是建立在产品体验之上的,是建立在“产品解决了核心需求”+“产品制造了惊喜”。我们因为问题解决而对一个产品产生依赖,因为惊喜而对产品形成感情,打开我们的手机,我们会一眼就找到那几个充满亲切感的产品——譬如经常开车的人会十分信任高德地图,追剧《那年花开月圆时》的人会十分喜爱腾讯视频。
同理,机器人需要有基础个性,需要极大地拉近人与机器人之间的亲密感和信任感。对话机器人的亲密感和信任感建立,也是站在“解决了需求”和“制造了惊喜”两个方面。
站在产品的视角来看,解决需求通过封闭域对话完成,而开放域对话来不断制造惊喜。
4.1 问答、助理、聊天,哪个才是刚需?
已经在落地的对话机器人产品中,基本上是以纯to C和to B再to C来划分。由于对话机器人的交互特征是面向终端用户的,所以基本很少有纯to B的产品场景(即使有,它的逻辑也与to C逻辑相似)。这意味着,对话机器人的用户都是一些终端个人用户。
那么,我们来看看这些对话机器人在to C中,到底解决了怎样的核心需求。
在我们所知的对话机器人产品中,有主打客服的问答机器人,有主打秘书的助理机器人,还有纯趣味导向的聊天机器人,它们的背后,都是刚需吗?
4.1.1 一个事实:瞎聊难为刚需,情感计算任重道远
聊天是一个容易被激发,却也容易迅速消退的场景,唯有情感依赖可能长久。
以微软小冰为例。小冰最耳熟能详的功能是chit-chat(瞎聊),但是从用户活跃和留存周期来看,用户最易被激发的时间是在首次领养时、每周更新时、重大更新时,而且被激发后,活跃上升后就会很快下降。这是为什么呢?因为人与机器之间的对话聊天是基于趣味话题的,想要通过自然的情感依赖,成为像《HER》里面的Samantha,至少还有相当长的路要走。
情感计算并非只是一个数学或者计算机科学问题,更是一个产品问题。
由于情感并非一个可具象问题,而且人的情感变化会随着时间、环境、他人、自身思想等等因素发生变化;而且情感并非连续的计算,你喜欢一个女孩子,并不意味着时时刻刻与她发生情感依赖,而是通过一些关键的情感触达,来完成情感连接。
在微软小冰的诸多被设计的Feature中,“给用户起外号”、“升级解锁”都是断点式情感触达,通过细微的产品设计,寄希望于黏住用户。
4.1.2 一个问题:用户真的需要一个秘书机器人吗?
助理型对话机器人的发展建立在其他各种线上线下服务的完善基础上,譬如Siri;只有当你手机里已经有了“闹钟”、“提醒”、“打电话”、“搜索引擎”等功能时,Siri的助理功能才能发挥效用,此时你才有可能面向Siri发出指令“提醒我明天8点给老板回微信”。
大概两年前,YC孵化的Magic轰动东西两个半球,无数效仿者争先恐后去探索“助理型”机器人,时至今日,鲜有成效——我们普通人真的需要一个像秘书一样的对话机器人吗?
我们先来看两个例子。
第一个例子——我想定个这样的闹钟“每周一、周三、周五的上午8:15”。
若我用iPhone的闹钟程序,那我的步骤会大致如下:
STEP1:解锁手机屏幕;
STEP2:左右滑屏,找到闹钟程序;
STEP3:点击闹钟程序;
STEP4:点击新建闹钟;
STEP5:选择闹钟时间为“上午8:15”;
STEP6:选择重复时间为“周一、周三、周五”;
STEP7:点击完成。
若我选用Siri帮我来做,那我的步骤大致会如下:
STEP1:长按Home键,唤醒Siri;
STEP2:对Siri说“帮我设定每周一、周三、周五上午8:15的闹钟”;
STEP3:Siri反馈设置成功,完成。
现在我们看第二个例子——通过秘书类对话机器人叫外卖 VS 通过“饿了么”叫外卖。
在秘书类机器人中,叫外卖的流程大致是这样的:
STEP1:发出“叫外卖”的指令,在机器人推荐的餐厅中,寻找想吃的那家
STEP2:如果没有合适的,就输入想吃的店家名字
STEP3:在推荐的列表中选中想吃餐,或者直接输入想吃的餐
STEP4:输入“确认”实现下单,输入订单信息并提交订单
STEP5:支付,并等待接收外卖,可以询问送餐进度
在饿了么中,叫外卖的流程大致是这样的:
STEP1:在餐厅列表中选择想吃哪家
STEP2:如果没有合适的,就搜索店家
STEP3:在推荐的列表中选中想吃餐,或者直接输入想吃的餐
STEP4:确认下单,确认订单信息,提交订单
STEP5:支付,并等待接收外卖,可以查看送餐进度
这两个例子有什么本质区别吗?
你会发现,如果通过Siri来设置闹钟,我其实只做了一件事情:对着Siri发出一个单条指令,然后就一切搞定——相比我通过App来做,节省了近乎70%的操作步骤。可是,如果是叫外卖,我需要对着机器人发出一组系列指令,但是和App的操作步骤一样多。
这里有两个关键点——
如果助理机器人可以一步到位,那么将极大地提升效率和体验,是新的需求升级;
若一个workflow可被一步解决,机器人需要补全的数据信息巨大,这是核心产品难点;
第一个关键点,我们只要设身处地地想一下,就会发现:在不考虑语音识别准确率的前提下,任何事情我只要一个指令就可以达成。譬如“帮我叫个车”、“帮我交份外卖”、“帮我交一下水电费”、“帮我定一下出差的机票”,其他都不用管了,这种体验简直赞爆了。
我们再看看第二个关键点。
就拿上面这个外卖的例子来看,如果用户只需要一句“帮我叫个外卖”即可,那么机器人需要补全的信息至少包括“餐厅”、“餐食”、“价格”、“送餐时间”、“送餐地点”、“支付信息”等,这些信息中的“送餐时间、送餐地点、支付信息”是相对静态的信息,获取一次就可长期使用。可是“餐厅、餐食、价格”则是动态信息,若想每次都可自动获取,则代表机器人需要非常了解这位“主人用户”才可以,否则只要有一两次推荐偏差太大,体验就会降低近乎一个量级。从本质上来说,这时的助理机器人已是一款强大的推荐引擎,而且代表了极佳的魅力和美好的发展未来。
4.1.3 一个肯定:问答机器人是很有价值的
最常见的问答机器人是“客服机器人”,譬如京东的JIMI,阿里的小蜜机器人,还有一些银行的客服机器人,但它们更像FAQ过滤器。
我们细想一下阿里小蜜的使用场景。如果我问阿里小蜜“我的快递怎么还没送到?”,它的回复方式本质是在常见的关于“快递”的问题中,把最常见的答案丢给我,比如它会告诉我“你的快递已经签收了,如果没收到可能是放到大门口了”。
这些企业为什么要做个问答机器人呢?效率自然是第一位的,无论是节约人工客服成本,或是节约沟通时间,带来的都是效率的提升。这些企业为什么如此看重效率呢?因为他们的客户是最贴近自己的利润池的,品控是所有交易型企业的核心,你看京东的用户客服和QQ的用户客服简直一个天上一个地下,原因就是京东用户是京东现金流的关键角色,而QQ的普通用户并非其现金流业务的关键角色。
如此,我们再回过头来看看问答机器人,它其实是在头部问题上实现了综合过滤,然后通过对话的形式反馈给用户,如果用户实在问的是长尾问题,问答机器人回答不了的,可以把问题再抛给人工客服。满足了用户九成以上问题的直接答复,是问答机器人的核心目标。而至于其他类似导购、协助订单管理等等,不过是附加在头部问题之上的增值体验优化。
4.2 对话机器人真的适合分为“聊天、助理、问答”这三类吗?
这是一个目前业内比较惯用的分类,我们来看看这个分类的视角。
如果站在技术视角来看,对话机器人应该分为“开放域”和“封闭域”,这个我们已经聊过了,这里不再赘述。
如果是站在用户角色来看,对话机器人可能分为“教育版本”、“医疗版本”、“二次元版本”等等。
如果是站在业务视角来看,对话机器人可以分为纯To C和To B再To C。
所以,这种分类更像是站在抽象场景视角来看的。几乎任何场景都会被划分到这三个类别中,要么无主题聊天,要么是任务导向,要么是提问解答。其实,倒过来看,几乎所有我们已知的App也被这个分类所覆盖了。
可是,对话机器人不是一个移动互联网时代的App,它是一个综合体,直接这样划分并不是一个好的产品分类。
你不会在淘宝里视频聊天,更不会在支付宝里侃大山,百度几年前试图在大搜索中推出“直达号”去颠覆微信公众号,结果以失败告终。
这个道理很简单:在移动互联网时代,几乎每个App都有自己的专属定位。有自己专属的产品主路径,不在自己路径逻辑中的行为是不能顺畅流转的;每个App都像有自己的紧箍咒,不能轻易破除互相之间的壁垒。
可是,在对话机器人产品的世界里,这些壁垒会瓦解。
如果我们站在互联网整体产品世界里来看,其实我们每个人生活在一个混在的江湖社会中,手头的各种工具帮我们实现一个个小任务目标,但是几乎每一件小事都需要与人打交道,衣食住行无一例外。如果每一次与外界的接触被看做一个流量的话,那么最大的流量便是频繁且无实际任务目的的人与人之间的交互,而相对较小的是去做一个个的具体任务事情:你会每天都见一些人,但你不会天天都买衣服。
几乎所有的流量都是围绕着人与人之间的交互而形成的,而且你会发现一个规律:离现金流越近的流量,其活跃性越低,而且流失率越高。腾讯系的产品、百度的产品都是通过流量漏斗来多元变现的,而阿里系的产品,是直接拉人来买东西,盈利空间就直接建立在交易之上,需要不断刺激人们买买买。
在所有的产品中,社交类产品是最贴近“江湖社会”的,它距离现金流是最远的,也是最活跃的,可以说是几乎所有互联网产品中活跃度最高,并且可以向任何产品导流的源流量产品,所以你看到了,阿里无所不用其极地想去做社交产品。
说了一圈,那么我们回来看看社交产品的最小雏形。
社交产品分为即时社交和延时社交,简单类比就是聊天和朋友圈,而这两个都是建立在“语言对话”的基础上。由于社交产品的场景中几乎可以做任何事情,前段时间网上流传的微信“发现”页面那张神图,就可见一斑。
微信“发现”页面网络神图
对话机器人具有社交产品的通性,原因只有一个——对话机器人的交互场景天然就是一个社交产品的交互场景。
当我们站在用户视角来看待对话机器人时,用户根本不理解什么是“开放域、封闭域”,也不了解什么是“聊天机器人、助理机器人、问答机器人”,用户也记不住那些分类,也没法记住,只要有一个对话输入框摆在用户面前,就像微信的输入框那样,由于知识诅咒的原因,用户就会去类比他所理解的对话输入框,就会在这里输入任何他们想输入的自然语言,可能是瞎聊的话,也可能是某个任务,也可能是提一个问题,我们根本不能阻止用户在面对京东JIMI机器人时不做瞎聊的操作。
这时带来的一个巨大难题就是,开放域对话会时有发生,而只要一次两次回答不佳,体验不满就会提升。站在产品设计的角度来说,我们能做的就是尽量让用户的输入是可控的,就像度秘、阿里小蜜已经在做的。这就是为什么,每当我们去设计对话机器人时,总是要设法去多涉及一些开放域对话的功能点,也是为什么每当我们谈起对话机器人时,却也总是绕不开“机器人在开放域下是不是智能”这个问题。
4.3 像朋友一样的伙伴会是对话机器人的终局吗?
如果你在微信上,问你最好的朋友“帮我看看有没有战狼2的票,我晚上想去看”,他/她会如何回答你?
我猜,他可能会说“你去看《战狼2》不叫我?!”,他可能还会说“我也去,咱俩一块儿去”,然后他会继续说“我看了下,你家跟前那家万达有票,晚上七点的,下班一块儿去?”
如果一样的问题问Magic呢?它的回答就是让你告诉他几点去看,它帮你挑选了五家,每家的时间都挺合适,有一些距离你近,有些有优惠,等等。
你喜欢哪种体验呢?这个其实很难说。如果站在封闭域的角度来说,Magic的算法要比朋友优很多,选择也更丰富,可是和朋友一起去的这种体验,才是生活。
我认为这个可能是对话机器人的终局,它存在的意义仍然是协助人们去更好地解决一系列问题;但是它不能太傻,像个指令机一样待在那里,而是应该像个朋友一样懂你却也能帮你。以前在对话机器人产品的讨论中还经常讨论:对话机器人应该更“有趣”还是更“有用”,其实从这个终局来看这个讨论毫无意义,你能说你的朋友只有用,但是无趣吗?
五、对话机器人的产品价值
上面关于对话机器人的用户价值的讨论,有一些发散了,我们收拢回来,聊整个文章的最后一个部分,关于其产品的价值。
对待产品,一定要从其商业视角出发,不然没有聊的意义。站在商业视角,对话机器人拥有三个方面最核心的产品价值。
5.1 跨场景连接成为可能
由于对话机器人的交互方式原始而单一,使得机器人背后所有的计算逻辑都被隐藏,机器人可以成为一个独立的桥梁连接不同场景下的服务,让用户只在一个对话场景下都可以完成交互。
譬如Skype for business中,就有一个机器人,帮助通过Skype做协同的人们预定会议室、设置工作项目提醒、代理自动回复等等——原本每个工作都是跨场景的,现在只要一个对话交互场景就可以解决了。如果再往大了去说,未来如果伙伴式的机器人可以逐渐出现,那在聊天中完成订机票、订酒店,甚至管理家里的智能空调,这些跨场景可能通过一个伙伴都可以完成了。
5.2 交互升级带来的流量深度沉淀
对话的方式有很多,可以是打字,也可以是语音。如果是语音,那么带来的是革命性地变化。
5.2.1 指数级的流量增长
百度DuerOS和Amazon Alexa的逻辑是相似的,都是通过赋予所有智能硬件语音对话的能力,进而获取新流量,同时实现流量的深度交互和沉淀。
我们知道,在互联网的生意经中,一切都是围绕着流量来完成的,要么是流量足够多,要么流量的价值足够大。由于对话带来的交互效率提升,使得在单个用户身上获取的流量频次呈现指数级增长,如果一般的互联网产品PV/UV是个位数的话,那么对话机器人的PV/UV(其实就是对话的频次)至少是两位数。
一些曾经很难成为交互场景的,譬如在家里面向Echo音箱发号施令,如今都通过对话机器人成为现实。没有任何一款App能比一个对话机器人更容易和人产生亲密感,产生如此多高频互动的可能。最后的结果可能就是,我们的生活方方面面都在触网,每一次交互就是一次所谓的PV,指数级的流量映射出一个人生活的方方面面。
5.2.2 高频次的端计算
我有一个猜测:由于对话机器人是一个高频次交互场景,带来的最直接影响可能是要求在设备端上拥有更加强大的计算能力;可能一些封闭域或者开放域的计算能力直接预加载到了客户端,可能是硬件也可能是软件。如果网络能力不能同样倍数增长的话,对于端的计算能力会增强——我猜这也是为什么一些AI企业会做芯片的原因之一。
5.3 流量沉淀带来的数据深耕
正是由于流量的深度沉淀,使得每个用户多维的数据沉淀成为可能。当平均每个用户的数据量和维度增长十倍,那么到底意味着什么呢?
对于百度而言,起码广告费要涨价,对于阿里而言,可以卖给这个用户更多的东西,总而言之,ARPU(Average Revenue per User)会增长许多,这些就是最直接的商业价值。我在之前的文章《人工智能「风口」,先行者为什么是搜索引擎?》中,曾分析过这其中的一些逻辑关系,因为流量的深维度价值尚未被开发,对于计算广告而言可能是一块从未尝鲜的处女地。
六、总结
如上是我针对对话机器人的一些比较浅显的分析和探讨,作为一款正在发展的新兴产品,对话机器人还有非常多的细节值得探讨;限于篇幅,只能先聊这么多了,希望以后还能继续深入探讨。
从个人层面来说,我看好To C的对话机器人产品的未来——但是它的产品路径非常曲折漫长,与我们过往所经历的移动互联网产品差异巨大;但是万变不离其宗,任何产品都是从用户的需求出发的。
对话机器人承载了全新的交互形式,可能带来了全新的产品服务体验,这种进步过去从来没有过。
我们每个人几乎都在渴望着机器人时代的到来,也许很遥远,也许已经在路上,谁知道呢~