如果你也有同样的烦恼,不如试试「微软小蜜」小程序。有了它,你只需上传几张
图片,就能轻松制作好看的 PPT。
这款看似简单的小程序的背后,隐藏着微软在人工智能和深度学习领域内的大量积累和经验。可以说,「微软小蜜」制作的每一份 PPT 背后,都含有微软工程师的研究成果。
今天,知晓程序邀请到微软 Office 365 中国团队资深产品经理张鹏,让他为我们揭秘在「微软小蜜」背后,到底有什么厉害的地方。
为什么会选择微信,做一个 PPT 小程序?
张鹏介绍,他所在的是微软 Office 365 创新团队,主要面向中国市场进行工作。
他们的目标之一就是将 Office 365 产品在 PC 端的强大生产力,集成到移动端。在中国,几乎所有移动互联网用户都会使用微信,所以,微信自然就成为了这个团队的目标之一。
我们内部的项目开发代号叫「龙门计划」,从名字看你就能明白,这个项目完全是中国创造的。
这个团队对新平台的敏感程度不亚于任何创业团队。在 1 月 9 日微信正式开放小程序平台后不久,「微软小蜜」就成为首批推出的小程序之一。
张鹏告诉我们,之所以这么早进入微信小程序领域,原因有两个。首先是微信平台得天独厚的用户量优势。有数据统计说明,用户每天在微信里的时间要占总手机使用时间的 35%,也就是说,平均一个用户每天有超过三分之一的时间都在微信里面。
你的联系人早就从亲人朋友扩展到公司同事和合作伙伴,群聊已经是不单单是家人之前的沟通,很多群已经是用于办公协作等工作场景。
而小程序天生的优势就是不用下载,可以快速进入
应用,并且可以进入微信群聊便于更快更高效的协作。
巨大的用户量和粘性,以及小程序平台的「无需下载」特性,都让 Office 365 进入小程序变得再正常不过。利用 Office 365 生产力平台,通过微信小程序完成一件工作,再直接进入群聊进行必要的沟通和协作,对用户来说是一件非常自然的方式。这也是我们第一时间试水小程序的初衷。
除此之外,张鹏还认为,小程序开发成本和获客成本相对较低,便于类似人工智能等新技术的快速试错和验证。
对于微软内部的创新团队,我们除了 Office 365 这个强大生产力平台之外,还有对人工智能应用的研究。从目前整个行业来看都面临一个难点:技术走的很靠前,但是很零散。如何把人工智能技术推进到产品化这条道路上来,形成一个端到端的产品,需要快速验证和迭代。
决定做小程序之后,「要做什么小程序」也成为了张鹏所在团队需要关心的事情。那为什么会选择做「图片识别文字转 PPT」这种小程序呢?
张鹏给出的答案是:我们是想探索一下未来移动端文档的生成方式。
在 PC 端大家习惯于键盘、鼠标和打印机的文档生成方式,然而在手机端这些就都不灵了,在手机上,我们可以利用的是摄像头、语音输入和多点触控屏幕。
另一方面,张鹏和他的团队认为,大部分对用户有价值的资源,都是在手机端被发现的,类似现场 PPT、创意海报、画在黑板上的流程图,或是微信公众号文章,等等。
用户将这些信息「缝合」进 Office 文档中,往往是比较困难的,也很耗时费力。如果小蜜可以帮助用户快速完成这个动作,用很短的时间提取有价值内容,这本身对用户就是有价值的,因为帮用户节省了时间。
「微软小蜜」小程序的概念,很像微软 Office 的另一款产品:Sway
那为什么是「缝合」,而不是「收藏」呢?
就是因为我们希望这些内容,不管是在移动端还是 PC 端,都是可以编辑的。只有随时可编辑的可加工的内容,才是属于你的知识或者观点。
目前看来,整个团队的投入是非常值得的。张鹏告诉我们,现在,「微软小蜜」累计访问量已经超过了 500 万,并有累计超过 100 万张图片处理量和超过 40 万份 PPT 制作量。
在这段时间,我们并没有主动去运营和推广,我们更多是关注现有用户数据和反馈。在用户量背后,我们更关注产品的核心用户,他们的需求是否被满足。
让我们感到高兴的是,我们看到小程序有很多忠实用户。小蜜每天有超过 70% 都是老用户,也收到了他们很多好的建议,这对产品初期是非常重要的。
在「微软小蜜」背后,有微软这些技术支持
作为一款以 OCR(即类似识别图片中文字)功能为主的小程序,里面当然有微软自家的技术存在。
在采访中,张鹏就向我们介绍微软在计算机视觉领域的研究成果。
微软在研究计算机视觉这个领域还是非常给力的,在我们前不久的计算机视觉方面的大赛也得了很多一等奖,不管是能够识别出来的物体的种类,还是坐标值、位置等等,精确率都非常高。
光有研究成果当然不行。如何在实际中,利用好这些技术成果,也是让科技走进千家万户的重要步骤。
将图片、印刷品中的文字,变成在电脑、手机上可编辑的文本,就需要用到 OCR 功能。
我们的产品相对来讲是属于从技术上比较成熟,也比较适用一些实际的场景,我们会逐步通过产品给大家分享。
比如,计算机图像识别要对图像里面的基本特征值的抽取。例如,我们刚刚增加了对图像里面的物体识别,打标签的功能,目前可以识别 2000 多种物体,我们识图接口在你的图片里看到一种物体,就会标注一种物体。
张鹏还介绍,目前微软的光学识别技术,可以识别来自全球跨商界、体育界、文娱界等超过几十万人的名人。
而「微软小蜜」小程序,也是利用了微软计算机视觉方面的研究成果,这也是计算机视觉实际应用的一个例子。
张鹏介绍,计算机视觉能够实际被应用,离不开最近热门的「深度学习」。
深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。深度神经网络是按层排布的,每一层都运行着不同的数学运算(算法)。
举个例子,一个针对图像识别的深度神经网络,其中有一个层用于搜索图像中的一组特征(如:图片的边缘,形状等),后面的运算层用于搜索其他特征,那么这个神经网络的深度越深,他的学习能力越强,对图片的表达越清晰和智能。
深度学习原理图
微软在深度学习领域的研究,也有非常好的成果。
目前典型的神经网络设计一般包含 6~7 层,部分可以达到 20 到 30 层,而微软亚洲研究院一种被称为「深度残差网络」(deep residual network)的新技术,可以进行多达 152 层的复杂数学运算。
这意味着,在不远的将来,微软可以使用 GPU 和其他专用芯片的庞大集群,提升人工智能的各式各样服务能力,其中就包括今天介绍的「微软小蜜」小程序。
未来,微软还打算这样做小程序
在采访中,张鹏也向我们透露,他们团队接下来的计划。首要之事,就是为小蜜增加新功能。
小蜜有一双眼睛,他现在可以看懂图片中的文字和表格,下一步我们会让他看到更多的东西,比如流程图,信息图表,图标等等。
除了「看见」,我们还希望小蜜能「听到」,即用户可以直接通过自然语言让小蜜产生内容。最后,我们希望小蜜可以去设计,用户只要关心内容输入就可以了,将演示效果交给小蜜来完成。
我们前一段时间为「微软小蜜」小程序增加了表格识别功能,你用手机拍照一张表格图片,我们可以识别图片中的表格坐标,在 PPT 中将表格还原出来,你可以很轻松的对表格进行各种操作。从识别效果上,我认为在市场上还是领先的。
当然,这个小程序还有很多要改进的地方,如刚才提到的,如何更好的将微软在计算机视觉和深度学习领域的研究产品化,我们还有一段路要走。
当被问及是否还有其他小程序推出,张鹏的回答是「当然」,而且方向也是以生产力为主。然后对我们卖了个关子,「这里先不透露太多,希望早点儿和用户见面。」
我们也期待「微软小蜜」和微软 Office 365 团队,能够用新技术,帮助我们更快、更好地完成工作。