机器人领域最重要且至今尚未完成的挑战是学习了解这个世界,并操控其中的物体与世界进行交互。现在的机器人跟科幻电影里无所不能的机器人还差距甚远,机器人在人类社会的渗透率仍然很低。
大模型的出现,补全了让机器人产业从1%到10%跃升的技术基础,这也是业内为何看中“机器人+大模型”的主要原因。以ChatGPT代表的生成式AI(AIGC)走红全球,深刻影响着机器人行业。
具身智能(Embodied Intelligence)是指一种具备自主决策和行动能力的机器智能,能够像人类一样与环境交互、感知、规划、决策、行动、执行任务。它包含了人工智能领域几乎所有的技术:如自然语言理解、逻辑推理、运动控制、机械控制、机器学习、机器视觉、博弈伦理等,横跨多个学科、是人工智能的集大成者。
在ChatGPT出现之前,大模型与具身智能领域的结合更多出现在感知层面,在海量数据集上预训练的视觉模型只是作为一种更好的表征提取器来提升机器人在场景中的感知能力,而具体的规划与动作执行依然需要大量的具身场景数据进行训练。
随着ChatGPT等大语言模型(LLM)展现出了丰富的知识和令人惊艳的推理能力,在具身智能领域之前很难解决的复杂任务也开始逐渐跟LLM相结合,通过用LLM将复杂任务进行分解并特定地完成其分解后的子任务,并取得突破性的进展。
具身智能已经成为国际学术前沿研究方向,具有支持感觉和运动的物理身体,可以进行主动式感知,也可以执行物理任务,强调“感知-行动回路”的重要性——即感受世界、对世界进行建模、进而采取行动、进行验证并调整模型的过程,这一过程正与我们人类的学习和认知过程吻合。
7月7-9日,华为开发者大会2023在松山湖华为小镇精彩举办,在华为“具身智能,让机器人‘知行合一’”分论坛上,高新兴机器人首席技术官刘彪以《大模型助力巡逻机器人进入3.0时代》为题进行了技术分享。
他提到,人工智能从第一代符号主义到第二代感知智能,以及第三代认知智能,与机器人的发展历程交相呼应、协同发展。以深度学习为主的第二代感知智能极大地促进了图像识别、语义理解、大数据分析等领域的技术进步。第二代机器人解决了环境感知与导航定位技术、基于激光SLAM与深度学习结合的语义地图技术、基于语音的人机交互技术、基于深度学习的视频结构化及图像检测与识别技术、基于大数据分析的传感器数据分析与行业数据分析和处理技术。
高新兴机器人结合第二代人工智能技术和机器人技术,构建了全栈机器人技术研发体系,搭建了云边端一体化机器人操作系统、FMAX四个机器人硬件平台、基于国产芯片SOC攻克了智能跨域融合控制器,在移动能力上解决了线控底盘、电机及控制器、智能跨域融合控制器技术;在感知能力上解决了以激光SLAM为主的组合导航技术、三维重建技术、基于高清、红外、紫光视觉、声音为主的多传感器环境感知与边缘计算技术;在决策能力上解决了规划决策、人机协同、多机协同及调度、云边端一体化技术;在交互能力上解决了特定场景NLP、移动AI检测和识别技术;在应用能力上打造了安保服务平台、警用无人系统平台、工业巡检平台及远程运维和服务平台。
以大模型和多模态为主的第三代人工智能在基础模型作为感知模块的工作中,更多是基于视觉模型与具身智能的结合;而在基础模型作为规划模块的工作中,以ChatGPT为代表的生成式语言模型被用于对复杂指令进行拆解和规划;在动作执行模块,基础模型往往需要结合指令和对环境的观测结果等多模态数据,来实现精细动作的执行。
具身智能机器人首先要能够听懂人类语言,然后分解任务,规划子任务,在移动中识别物体,与环境交互,最终完成相应任务。GPT等大模型的出现提供了新思路——已有不少研究者尝试将多模态的大语言模型与机器人结合起来,通过将图像、文字、具身数据联合训练,并引入多模态输入,增强模型对现实中对象的理解,帮助机器人处理具身推理任务。
高新兴机器人与华为云、上海交通大学、重庆大学等高校和大型研发机构在行业大模型进行合作,高新兴机器人提供行业数据、语料库以及机器人底层软件和具身智能模型落地支持,共同面向巡逻机器人智能化开展具身智能大模型研发。
盘古大模型3.0是华为云推出的面向行业的大模型系列。它采用了”5+N+X”的三层架构。其中,”5″代表L0层的五个基础大模型,包括自然语言、视觉、多模态、预测和科学计算大模型,这些大模型可以满足行业场景中的多种技能需求。
盘古3.0提供了多种参数规模的大模型,如100亿参数、380亿参数、710亿参数和1000亿参数的系列化基础大模型,以满足不同场景和需求的客户。同时它还提供了一些新的能力集,如知识问答、文案生成、代码生成等能力,以及图像生成、图像理解等多模态大模型的能力。无论参数规模大小,盘古提供了一致的能力集。
在”5+N+X”这个架构中的”N”代表L1层的N个行业大模型,华为云可以提供使用行业公开数据训练的通用大模型,也可以根据行业客户的自有数据为其训练专有大模型。客户可以像华为生成盘古大模型一样,生成自己的行业大模型——”X”则代表L2层,为客户提供更多细化场景的模型,如政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景的模型服务,为客户提供”开箱即用”的模型。
通过这三层大模型,华为云构建了自己的大模型底座。在最底层,华为搭建了以鲲鹏和昇腾为基础的AI算力云平台,以及包括CANN、MindSpore和ModelArts在内的AI技术底层,为大模型的开发和运行提供支持。华为还与各个行业的伙伴合作,将各行各业的知识与大模型进行匹配和融合,通过”5+N+X”的三层架构,提供丰富的基础大模型、行业大模型和细化场景的模型,为客户在各个行业中的人工智能应用提供强大的支持。
高新兴机器人基于凤凰平台、梧桐平台和尚云平台构成的云边端一体化机器人2.0系统为基础,对系统架构和技术架构进行全面升级,打造全新的基于具身智能大模型框架的云边端一体化3.0系统“千巡问义”,采用分布实施分布上线的策略:首先巡逻机器人基于巡逻业务和行业数据库,使用现有GPT等多模态大语言模型让机器人听得懂人的语言指令,实现和人类进行“类人”交互模式转变,解决基于AIGC的人机交互问题,打造人机生成式大模型交互“千巡问警”;其次解决机器人的认知决策能力:深度学习、神经网络、强化学习等都是机器人重要的学习手段;最后解决机器人的执行能力,让机器人处理现实中的复杂任务。
广州高新兴机器人有限公司是全球领先的巡逻机器人(SPR)产品与服务提供商,致力于“机器人+安全”赛道,布局面向“公共安全”的警用巡逻机器人、面向“社会安全”的安保服务机器人及面向“工业安全”工业巡检机器人三大主营业务,为客户提供云边端一体化机器人系统解决方案,已广泛服务于公安、消防、边防、安防、仓储、工厂、石油化工、电力等领域客户。
高新兴机器人将有效利用大模型,突破巡逻机器人的感知、认知、决策和交互技术难题,并籍着我们已完成端到端全自研软硬件技术框架搭建的坚实基础,重点突破智能化3.0阶段,提高机器人的智能化水平和自主化能力,支撑其在警用巡逻、安保服务和工业巡检行业内多场景产品与应用落地,用机器人守护安全。