我们总会对陌生的事物产生抵触心理。
其实也不无道理,比如菜鸟网络在天津的仓库利用计算机视觉技术,代替了原来250名仓库管理人员。峰会论坛利用机器翻译代替了人工同传、速记等岗位。
所以有不少人担心未来自己会不会丢饭碗,不过人们过分担忧,我们会受到国外科幻
电影的影响,认为
机器人无所不能,甚至他们一定会毁灭人类。其实在现实中,能做到像电影中的高科技还是有一定很长的路要走,另外,有恐惧说明我们对人工智能还不完全了解。
笔者将围绕计算机视觉和语音语意理解方面简要介绍当前的技术发展状况和可能遇到的问题。
何为人工智能?
在一个酒吧里,男孩发现不远处有一个美女,于是他准备上前搭讪,很幸运他加上了女孩的微信,成为好友后他们不断的聊天、约会,他们谈起了恋爱。这个过程,一个男孩被女孩吸引,他首先感受到了女孩的美,于是大脑产生思考的过程,再做出搭讪的行为,执行了大脑的反应,对于机器来说也是类似的,机器在训练后,也可以做到,简单总结一下这个循环便是便是“感知-认知-决策-执行-学习-感知”这样一个闭环。让机器依据这个闭环并且做一切符合社会核心价值观的行为,这样的机器或者系统就叫人工智能。
所以这样看,人工智能是一个很大的概念,这包含多种领域:计算机视觉、自然语言理解与交流、认知和推理、机器人学、博弈与理论、机器学习。
因为我们人在认知这个世界靠的最主要的还是眼睛,所以今天说计算机视觉会多一些。
计算机视觉能做什么?对我们有什么影响?
就目前来看它已经渗透到我们生活的方方面面,常见的比如公司日常刷脸打卡、手机刷脸解锁、支付。如果说2015年的时候我采访的公司还在谈概念,但在今年,可以看到有很多项目有具体落地。
说到计算机视觉,我们现在日常能看到的
应用比如肤质检测、手势识别、证件识别、银行卡识别、文字识别、人脸对比、情绪识别、颜值评分,大一点方面在公共应用上比如监控旅游景点人数、监测交通拥堵情况等等,所以计算机视觉可以渗透到安防、生活娱乐、金融、农业、教育等多种行业。
以上的例子比较宽泛,以具体的零售为例,看看计算机视觉技术如何赋能零售。
以前我们逛街进到实体店,绝大部分的营业员不了解潜在顾客的喜好,只能强推。现在,消费者经过商店,商店门口如果摆放摄相机,通过机器捕获人脸,店员第一时间知道你是不是商场VIP会员,判断你的性别和年纪,通过机器学习若干与你相似年龄女孩的喜好数据,会分析推断你可能会喜欢产品。如果你看到屏幕的时候,机器会从头到脚自动推荐该店适合你的商品。目前,科学家正在研究如何让机器读懂人的情绪,希望顾客进门后服务员通过人脸识别,或者表情识别可以知道你对哪件商品满意,让店员提供细致入微的服务。反过来对于商家,通过摄像头汇总消费者大数据比如性别,年轻分布,流动性、停留时间、消费者看了什么样的商品,通过大数据的分析告诉他们这个店的物品怎么样摆放最优的,商品如何摆放销售量最高,让商家更好做决策。但是也有保守者认为这种做法多此一举,或者担心自己泄露了隐私。
说白了,大数据起到了巨大作用。在线上我们国内有引以为豪的阿里、京东、小米这样的公司,但在线下目前来看7-11便利店利用大数据是做的最好的。他们如何搜集数据呢?原来,每个用户在完成购物后,电脑上有专门的按键提供给店员,让其来选择消费者的性别和年龄等信息,7-11会有专门的数据分析人员,用数据去辅助运营做商品或者店铺的优化。
其它领域,比如汽车,研究人员现在也在试图让汽车了解自己的驾驶员,比如他们喜爱的音乐、习惯的座椅角度等等。
存在的问题
不过,技术虽然发展特别快但是对于商业落地需要磨合调试的,目前还有一些值得探讨的边界问题,比如算法是否具有可行性,因为机器接受人的指令目前还没有推理的能力,所以机器参与的工作仍需要人去做决策,另外作为人工智能至关重要的就是数据量,小型创业公司可能虽然有技术,但是可能遇到缺少数据的问题影响产品的准确性。还有就是行业的边界,比如在医疗领域,计算机视觉是否真的是有助于医生在影像分析上有绝对的帮助,因为对于医院来说最本质的需求是影响分析的准确性,要减少或避免误诊,而不是快速每天完成成百上千的病人的影像分析。另外在渗透到各行业中时,也要考虑到场景问题,是一锤子买卖还是可以复用?行业门槛有多高?落实后技术的可持续有多久?这都是值得讨论的。
腾讯翻译君在博鳌出糗是技术不行吗?
再来说说自然语言理解和语意,在刚刚过去的两会,科大讯飞刘庆峰在部长通道向媒体展示了他们的翻译机产品,同样在博鳌亚洲论坛,腾讯也很有勇气的展示他们的同传翻译君,但尴尬的是把“one belt one road”(一带一路)翻译成“一个腰带和一条路”。搜狗在两会后也发布自己的翻译硬件产品,对于语音类研究很早以前就有,只不过在两千年初技术停滞了有长达十年,现在的翻译技术有巨大突破归根到底是得益于深度学习,机器能能抓取句子的意思了,深度学习技术大大促进了翻译功能的进步。
为什么说腾讯有勇气,主要是看自然语言理解领域什么最难,这肯定是“语意理解”,他们敢放在公开场合使用,其实对于技术团队来说是一次很大的检验。语意理解背后需要很多知识,包括尝试和具体的物理世界的知识,数字知识等等才能让语言变的更丰富有足够的意义,要想突破这个技术需要对知识和其他常识联系起来做理解分析,其背后逻辑关系也很强,所以这不仅仅是国内的互联网公司遇到的技术问题,国外的研究院也在做提升准确性的努力。无论任何人工智能的产品,数据是最关键的要素,相比较多家产品,购物决策可以看背后的公司,一家公司如果有大量数据积累,比如他是做搜索、做翻译等,再做翻译产品准确度会有优势。不过这里还有一点要注意,各家的用语测试的数据库大小还都不一样,笔者期待着翻译类产品能直接用手机就行了,不用单独买一款硬件,不过目前对于手机来说,收声是最关键的,对声音质量有要求,还要考虑对话者所处环境,是否有杂音等,有公司试图做一款插入手机的小硬件,但后来考虑市场空间等因素后来放弃了。
语音在产业的融合也有很多领域可以看到,比如人机对话
服务机器人,前不久猎豹移动发布了若干机器人,有适合办公的也有适用于家庭的,还有小米的智能音响,虽然现在看这些产品并不是刚需,也许是为了抢占入口。对于服务型企业来说客服是一个非常重要的环节,无论售前售后,曾经与新零售公司的人讨论过如何让机器更了解潜在用户,这个问题目前有的公司做售前机器人,他们想通过售前与用户的对话来不断了解用户需求,从而推荐产品并配合今后的营销工作,但用户有没有耐心与机器人交流,在售后上用户往往是带有情绪的如果售后客服机器人机械式的处理会加深用户的不满,所以现在各大企业纷纷建立AI实验室,有一部分任务就是让机器人更好的理解人,从语气、视觉观测到到人的情绪。