阿里云当天发布的一个演示
视频,展现了这一实验成果。“我渴了,找点东西喝吧。”工程师通过钉钉对话框向机器人发出指令后,千问大模型立即理解了指令内容并回答,“好的,我找找有什么喝的。”随后,千问大模型在后台自动编写了一组代码发给机器人,机器人开始识别周边环境,从附近的桌上找到一瓶水,并自动完成移动、抓取、配送等一系列动作,顺利递送给工程师。
张勇表示,“制造业是AI大模型的重要战场,未来10年最大的机会就在于云、AI与物理世界机器的融合,机器人取水只是第一步,未来能与人直接对话的
智能机器人,将改变整个工厂的形态。”
目前,人们依然严重依赖代码来实现对机器人的控制,人类操作机器人需要学习复杂的编程语言或机器人系统的细节,而GPT等大模型的出现,为推翻树立在人类与AI面前的“巴别塔”提供了新思路,即将多模态的大语言模型作为人类与机器人沟通的桥梁。
正如阿里云工程师所说,“AI大模型突破了机器人的局限,让人类可以通过自然语言指挥机器完成负责任务,让机器人真有了大脑。”
另外,大模型对机器人领域的加持不仅体现在
应用环节,也可参与开发环节。据阿里云工程师介绍,在机器人开发阶段,工程师可通过千问大模型自动生成代码指令完成机器人功能的开发与调试,甚至还能为机器人创造一些全新的功能。
阿里之外,头部AI大公司均在尝试以大模型为机器人注入灵魂。
微软团队正探索如何将OpenAI研发的ChatGPT扩展到机器人领域,旨在让人类用自然语言控制如机械臂、无人机、家庭辅助机器人等多个平台。3月23日,OpenAI还领投了挪威人形
机器人公司1X。
3月8日,谷歌和柏林工业大学的团队重磅推出了史上最大的视觉语言模型——PaLM-E,同时谷歌表示,计划探索PaLM-E在现实世界场景中的更多应用,例如家庭自动化或开云电竞官网下载app ,希望PaLM-E能够激发更多关于多模态推理和具身AI的研究。
不过,大模型只是提供了一种新思路,距离能听懂“人话”的机器人面世,还有很长的路要走。语言模型固然可以为机器人提供更好的步骤规划评估和选择,但并不能面面俱到,比如不能告诉机器人打开冰箱时应施加多大的力。谷歌在内的巨头也暂时没有将装上大模型的机器人商业化的计划。