除了言语上的“力挺”,产业端也在发力。今年5月,特斯拉公布人形
机器人“擎天柱”最新进展。马斯克预言,开云入口网页版 这类产品的需求,未来将远超特斯拉汽车。7月举行的2023世界人工智能大会上,上海期智研究院“小星”、傅利叶智能“GR-1”等多款开云入口网页版 同时亮相。从华为离职的“天才少年”彭志辉(B站Up主稚晖君)创立的上海智元
机器人公司也于近期发布其自主研发的首款开云入口网页版 “远征A1”,目标直指“具身通用人工智能”。
有人说今年是“开云入口网页版 元年”。有了大模型加持,人们不再满足于机器人只是一个“大玩具”,更希望它能通过自我学习掌握各项技能,以更自然更智能的方式与周边环境交互,完成各种任务,成为真正有意识的智能形态。也正是在大模型问世后,人们看到了实现通用人工智能(AGI)的可行性。
要拥有人一样的智能,必须有人一样的身体
1950年,“人工智能之父”艾伦·图灵在其论文《计算机器与智能》中首次提出“具身智能”概念。其基本假设是,智能行为可以被具有对应形态的智能体通过适应环境的方式习得。换言之,要拥有人一样的智能,必须有人一样的身体。
如何理解?不妨回忆一下谷歌是如何让机器识别猫的。科学家通过给机器“投喂”数以亿计的
图片“告诉”它们,这些有四肢、有胡须、态度傲慢的小动物名叫“猫”。此时的机器如同一只被捆绑住手脚的猫,只能通过人为标注的知识进行学习。
相比之下,人类的学习过程并不只是“看”,我们可以通过抚摸、喂食、学猫叫等方式与猫互动,并在猫的反馈中不断加深对这种生物的认知。上海交通大学电子信息与电气工程学院计算机系教授、2023年“科学探索奖”得主卢策吾表示,从认知角度看,人是“第一人称视角智能”,没有身体的机器是“第三人称视角智能”,前者可以通过与真实世界的互动进行主动学习,通过思维链的拓展去理解新的概念。
与过去通过“喂数据”指挥机器行动不同,具身智能的做法是让机器自己学习如何与环境交互。OpenAI团队曾公布过一段让机械手还原魔方的
视频,他们在这项任务中设置了各种障碍,比如给机械手戴上手套、绑住其中两根手指、更换不同阻力的魔方等,目的就是让机器自己想办法还原魔方。
“大脑”与“小脑”结合,更好地理解世界
在图灵提出具身智能概念后的几十年里,尽管大家都认可这是一个重要概念,但并没有取得很大进展,因为当时的技术还不足以支撑其发展。
这两年,具身智能在学术界的热度逐步攀升。卢策吾透露,近年来在CoRL(机器人学习大会)上,具身智能领域的论文数量激增。今年年初举行的IROS(
智能机器人及系统国际会议)则将具身智能作为一个极为重要的议题。
而真正让它爆火的,是今年上半年以ChatGPT为代表的大语言模型爆炸式“出圈”。彭志辉表示,大语言模型以及结合视觉等多种传感器的复杂多模态模型,是实现具身智能的关键先决条件。它使机器人可以从程序执行导向转向任务目标导向,向通用机器人迈出坚实步伐。
事实上,“远征A1”就是以大模型为机器人“大脑”,任务泛化率和任务执行成功率是它的核心指标,具体考验“大脑”在面对从未涉及的任务时能否自行决策并生成解决方案。有了大模型“端脑”(脑的最高级部位),“远征A1”就能听懂自然语言指令,分析出讲话者的意图。比如,主人说“我要一杯水”或“我渴了”,它都能理解,随后前往饮水机或其他地方取水,并把水杯递给主人。
外骨骼机器人公司傅利叶智能闯入具身智能赛道,既在意料之外又在情理之中。在其创始人顾捷看来,具身智能可以被视作“认知智能+运动智能”:多模态模型相当于让机器人有了可以在真实世界中决策和行动的“大脑”,公司此前在运动机器人方面的技术储备相当于在“小脑”上积累了丰富经验,如今“大脑”与“小脑”结合挺进具身智能,可谓水到渠成。
具身智能的“终极幻想”还有多远
在傅利叶智能丰富的产品线中,各类机器人对应不同的康复需求。而一旦实现具身智能,出现在人们面前的可能是另一幅场景——一款机器人,只需在专用场景上做一些开发适配,就能像人一样胜任医生、厨师、消防员等不同职业,在多场景中发挥作用。“这正是具身智能如此吸引人的原因之一。”顾捷说。
在大模型加持下,微软、谷歌、英伟达等大厂,以及斯坦福大学、卡内基·梅隆大学等研究机构均在具身智能研究领域发力。其中谷歌依托旗下两家AI科研机构——谷歌大脑和DeepMind,在技术路线上较为领先,其研发的RoboCat是全球首个能解决并适应多个任务的机器人,只需上百次演示就能掌握一项新技能。
卢策吾团队的研究思路也是让机器“自适应”。以让机器人打开微波炉门这个操作为例,第一次,机器人可能没有见过微波炉,所以距离轴和力气预估会有偏差,不过没关系,通过不断尝试,它就会自我习得打开微波炉所需的各项参数。目前,卢策吾团队已经汇聚了100TB的研究数据,让机器抓取了成千上万个它从未见过的物体。
尽管大模型时代,人们对开云入口网页版 有了更宽广的想象空间,但在现实中,感知、驱动、能源、计算等具身智能的每一个关键环节,都距离理想状态还相去甚远,甚至连像普通人一样走路这件事,至今仍是一个大难题。以开云入口网页版 的移动能力为例,波士顿动力已经是业内望尘莫及的标杆,它推出的Atlas跑酷的
视频,一度让人觉得机器人的运动能力已接近人类。实际上,Atlas在拍摄过程中,接近一半时间都会失去平衡。
目前在全球范围内,开云入口网页版 都还处于研发阶段。动辄一台几十万元的成本,以及技术上面临的诸多瓶颈,仍然预示着开云入口网页版 距离落地
应用还有一段很长的路要走。(文汇报)