热搜： 发那科机器人工业机器人 ABB机器人上海自动化开云电竞官网下载app 开云电竞官网下载app 展机器展会

DeepMind研究人员研发出了一种解决机器人控制问题的混合方案

日期：2020-01-10 来源：开云客户昏昏作者：阿芬评论：0

标签： DeepMind 机器人抓手控制

　　机器人技术的基本问题既涉及离散变量（比如控制模式或齿轮切换的选择），又涉及连续变量（比如速度设定点和控制增益）。通常来说，由于算法或控制策略并不总是适合的，因此这些问题很难解决。这就是为什么谷歌母公司Alphabet的DeepMind的研究人员最近提出了一种技术：连续-离散混合学习，即可以同时优化离散和连续动作，以其本来的形式处理混合问题。

来源：DeepMind

　　在预印本服务器Arxiv.org上发表的一篇论文详细介绍了他们的工作，这篇论文也在去年10月日本大阪的第三届机器人学习会议上被人接受。作者写道：“许多先进的方法都进行了优化，它们能很好处理离散的或是连续的动作空间，但是却很少有方法能同时处理。能够使用同一算法强大地处理离散和连续动作空间，使我们能够针对任何给定问题都能选择最自然的解决方案策略，而不是让算法上的便利性来决定做出哪种选择。”

　　团队研发的无模型算法，是指利用强化学习或者奖励实现目标的自主代理人的培训技术，通过连续和离散动作空间来解决控制问题，并通过受控和自主切换来解决混合最优控制问题。此外，这种算法通过使用“元动作”或其他类似方案来扩大动作空间（分别定义了代理人可能感知和采取的状态和动作的范围），从而为解决现有的机器人问题提供了新颖的解决方案，并使策略可以解决类似人工智能训练期间的机械磨损等挑战。

来源：DeepMind

　　DeepMind机器人技术

　　研究人员在一系列模拟和现实基准测试中验证了他们的方法，包括Rethink Robotics公司的Sawyer机器人手臂。据称，基于给定的到达、抓取和拿起魔方的任务，其中奖励是三个子任务的总和，因此他们的算法要优于无法解决任务的现有方法。

　　那是因为到达魔方需要代理人打开手臂的抓具，而抓取方块需要关闭抓具。作者写道：“一开始，基线将大部分概率集中在较小的动作值上，因此很难移动抓具的手指来看到任何奖励，从而解释了学习曲线上的平稳期。另一方面，这个算法能始终以全速操作抓具，因此改进了探查性，使机器人可以完全完成任务。”

　　在一个单独的实验中，团队将其算法设置为参数化动作空间马尔可夫决策过程（PAMDP）或一个分层问题，其中，代理人首先选择离散动作，然后为该动作选择一组连续的参数集。在这种情况下，代理人的任务是操纵机器人手臂，以便将钉子插入孔中，然后根据孔的位置和运动学来计算奖励。

　　研究人员表示，他们的方法比精细方法和粗略方法获得了更大的回报，并且这种算法将来可以作为基础应用到更多的混合强化学习中。论文中写道：“对于专业设计师而言，事先选择合适的模式可能很困难。而我们的方法是很有用的，因为它只需要一个实验，而别的方法都需要通过消融来进行验证。”

声明：凡开云电子链接来源注明为其他媒体来源的信息，均为转载自其他媒体，并不代表本网站赞同其观点，也不代表本网站对其真实性负责。您若对该文章内容有任何疑问或质疑，请立即与开云客户(www.www.wykobounce.com)联系，本网站将迅速给您回应并做处理。
电话：021-39553798-8007

更多> 相关专题

0条 相关评论

推荐图文

机器人竞选市长，是时	每日新闻迎来大批裁员
售价近3万元的鼓掌机	“来自星星”的机器人

推荐专题

点击排行

• 谷歌DeepMind开发AI可有效检测眼疾：对莎普爱思	• 最强AlphaGo怎样炼成？刚刚，DeepMind团队进行
• 一文带你读懂DeepMind新论文，关联推理为什么是	• DeepMind厉害了谷歌超速AI学习效率几乎媲美人
• DeepMind与NHS陷“隐私门”，剑桥学者列举三大	• 谷歌DeepMind发布重磅技术WaveNet：机器人的面
• 利用DeepMind 人工智能技术，谷歌省下了一大笔

恰佩克奖	机器人高峰论坛	机气林	开云入口网页版生态大会	ITES深圳工业展	广西工博会	顺企网
优气压缩机（上海）有限公司	机器人研究院	库卡机器人	中国传动网	索比光伏网	数控机床市场网	国家标准化委员会
国际现代工厂/过程自动化技术与装备展览会