IT之家经过查询得知,英伟达研究院主导开发了Eureka,该AI系统可令开发者配合英伟达自家物理模拟软件Isaac Gym进行强化学习(reference learning)。
英伟达AI研究部门资深总监Anima Anandkumar认为,过去10年以来“强化式学习”虽然有所进展,但仍存在不少挑战,例如“奖赏设计”等环节,现在还停留在“试错”阶段。而目前英伟达公布的Eureka,则是为执行困难的任务而设计,结合生成式AI与强化式学习算法,进行首次尝试。
Eureka利用GPT-4生成出的“奖赏设计”方案可助力机器人的“试错(trial-and-error)”学习,并能够起到接替80%人类专家的任务,从而使机器人平均训练效率提升超过50%。
据悉,在Eureka生成“奖赏设计”方案时,开发者不需要额外输入任务提示或撰写预定义的奖赏范本,再结合人工修正奖赏,最终使机器人动作更符合开发人员的意图。
该AI系统配合Issac Gym时,可利用GPU加速进行模拟,并针对大量批次的候选回馈快速评估品质,从而提升训练效率,并根据训练结果的作出统计摘要,从而改良“奖赏方案”,在提升机器人反应水平的同时,令AI系统适用的机器人类型更为广泛,例如“走兽型”(四足)、“人型(两足)”、“四轴飞行器”、手臂型等机器人都可以搭载Eureka系统。
英伟达将Eureka进行了“开源灵敏性标竿测试”,在评估20种任务训练结果后,得出了令人满意的结果。
据此,英伟达认为Eureka可实现灵巧的机器人控制,并为动画作者提供“生成逼真实体动作”的新方法。