1
关注中国自动化产业发展的先行者!
2024中国自动化产业年会
2023
2023年工业安全大会
OICT公益讲堂
当前位置:首页 >> 资讯 >> 行业资讯

资讯频道

工业机器人运动规划研究进展
  • 作者:刘暾东,陈馨,吴晓敏,邵桂芳
  • 点击数:22407     发布时间:2020-05-08 13:35:00
  • 分享到:
由于工业机器人构型空间和工作环境的复杂性,传统运动规划算法难以在有限时间内进行路径求解,如何提高算法的规划效率与最优性成为研究热点。本文跟踪目前工业机器人运动规划算法的发展现状,针对主流随机采样算法的原理与发展脉络进行了细致分析与总结。在此基础上,详细阐述了基于强化学习的随机采样算法,该方法引入了规划学习机制,在保证求解速度的同时,还能不断提高求解质量。同时对当前运动规划算法存在的一些不足提出了建议与展望。
关键词:

摘要:由于工业机器人构型空间和工作环境的复杂性,传统运动规划算法难以在有限时间内进行路径求解,如何提高算法的规划效率与最优性成为研究热点。本文跟踪目前工业机器人运动规划算法的发展现状,针对主流随机采样算法的原理与发展脉络进行了细致分析与总结。在此基础上,详细阐述了基于强化学习的随机采样算法,该方法引入了规划学习机制,在保证求解速度的同时,还能不断提高求解质量。同时对当前运动规划算法存在的一些不足提出了建议与展望。

关键词:快速随机搜索树;运动规划;随机采样;强化学习

Abstract: Due to the complexity of configuration space and working environment of industrial robot, traditional motion planning algorithmsaredifficulttoobtainthepath inlimitedtime.Howto improvetheplanningefficiencyandoptimalityofthealgorithms become the current research focus. In view of the current development of industrial robot operation planning algorithms, this papermakesadetailedanalysisand summaryoftheprincipleand developmentofthemainstreamrandomsamplingalgorithm. On this basis, the random sampling algorithmbasedon reinforcement learning is described in detail. This method introduces the planning learning mechanism, which can not only ensure the speed of solution, but also improve the quality of solution. At the same time, somesuggestionsandprospectsareputforwardaccordingtothe shortcomings of the current motion planning algorithms.

Key words: Rapidly-exploringRandomTree; Motionplan; Random sampling; Reinforcement learning

1 引言

工业机器人运动规划是指在无人参与示教的情况下,通过算法搜索出一条符合约束的无碰撞路径,是实现工业机器人智能化的关键技术。传统运动规划方法需要建立机器人构型和障碍物的位姿空间模型,计算复杂度随着机器人自由度增加成指数增长,难以解决在复杂环境与高维构型空间下的运动规划问题[1]。针对上述问题,研究人员提出了随机采样方法,可避免在位形空间中复杂的障碍物建模运算,能够快速求解高维度运动规划问题[2]。其中最著名的两种算法是:随机路图法(PRM)[3]和快速随机搜索树(RRT)[4],两种算法都能快速获得可行解,但由于采样过程引入了随机性,使求解结果极不稳定,难以运用于实际场景,因此如何最大程度提高运动规划算法的搜索效率和可行解质量成为极具挑战的任务。

为了提高可行解质量,研究人员尝试将强化学习与随机采样算法相结合,以保证求解速度并不断提高求解质量,为解决运动规划问题提供了新思路,但该算法的性能取决于策略函数和奖励函数的优劣。因此,如何利用强化学习良好的自适应和自学习特性,将其与随机采样算法相结合成为了近年的研究热点。

本文针对工业机器人高维构型空间的运动规划问题,详细介绍了快速随机搜索树算法的基本原理,并分析其改进方法的特点。在此基础上,重点阐述了基于强化学习的随机采样算法,并对工业机器人运动规划未来的研究方向进行了展望。

2 基于随机采样的运动规划算法

由于工业机器人的运动规划所面临的任务环境往往是高维复杂的,传统搜索算法计算复杂度随着构型空间维度的增加成指数增长,无法解决高维运动规划问题。而随机采样算法可避免高维空间复杂环境的建模运算,能够快速求解高维度、复杂环境下的运动规划问题,已成为解决这类规划问题的主流算法。

2.1 快速随机搜索树算法及其扩展

为解决在复杂非完整约束与动态系统中的规划问题,LaValle[4~6]提出基于随机采样的快速扩展随机树(Rapidly-exploringRandomTree,简称为RRT)算法,该算法避免了对空间的建模,不需要任何预处理,具有高效的搜索特性,为多自由度机器人复杂约束下的运动规划问题提供了一种快速求解方法。同时LaValle也证明了该算法具有概率完备性[5],即只要保证足够的搜索时间,就一定能找到可行解。

由于随机采样的RRT算法随机性强、盲目性高,为了提高该算法在运动规划上的表现,DU Mingbo[7]等人借鉴启发式算法的思想,在随机扩展树的生长过程中引入一个目标概率偏置参数,使随机采样偏向目标节点,减少随机性,提高运动规划效率。在无障碍或障碍较少的环境中,引入目标偏置可以使规划出来的路径更接近于理想路径。但环境中障碍物较多时,上述方法的避障效果明显下降。为了解决此问题,王道威[8]等人提出一种动态步长技术,用于平衡目标导向性并保证避碰效果。另外,何兆楚[9]等人提出将RRT与人工势场法结合,利用人工势场法进行局部规划,当陷入局部最小点时,使用改进的RRT算法自适应选择临时目标点,使搜索过程跳出局部最小值。而康亮[1]等人则将滚动规划与RRT相结合,依靠滚动规划法实时探测到的局部信息生成优化子目标。由于规划问题压缩至滚动窗口内,计算量与全局规划相比大幅下降。

2.2 RRT-Connect算法及其扩展

由于单向搜索的RRT算法在扩展节点具有很强的随机性,即使在标准RRT基础上进行引导修正,算法的效率依然低下。因此,Kuffner与LaValle[10]提出了RRT-Connect算法,通过增加搜索树数目提高路径生成速度。算法分别以起始节点x_start和目标节点x_goal作为两棵随机扩展树的根节点,设计启发函数引导两棵树的搜索。

基于上述思路,王维[11]等人在虚拟人双臂运动规划问题上使用双向平衡的RRT规划算法,以一种近乎平衡的方式引导两棵树交替朝向对方快速扩展。而J Michael[12]等人提出的JT-RRT将RRT在位姿空间的探索与工作空间的偏置结合起来,高效地解决了在复杂环境中的规划问题。此外,Rosen[13]等人将双向RRT与JT-RRT结合,提出一种同时在位姿空间和工作空间进行扩展的双向RRT算法,该算法位于工作空间的扩展树可以给位姿空间的扩展树提供启发式信息,避免了整个位姿空间的搜索,极大提升了规划效率。而Chang-bae[14]等人则提出在不考虑机器人运动学的情况下,工作空间树在目标工作空间中寻找最近集合,而状态空间树则在考虑运动学和动态约束下生成机器人路径的双树形结构。

2.3 RRT*算法及其扩展

RRT算法虽然具有概率完备性,能处理高维复杂环境中的问题,但无法保证算法所得到的可行解质量,即由RRT算法所规划出来的路径往往都是非最优的。针对这一问题,一系列基于RRT的最优运动规划方法被提出[15]

根据RRT算法的表现情况,Karaman和 Frazzoli[16]指出,其收敛到最优的概率基本为零。同时,他们提出一种基于RRT且具有渐进最优性的算法:RRT*。该算法在每一次拓展时都进行优化处理:取拓展点附近的所有点逐一比较代价值,从而选取最小代价值的父节点。虽然该算法具有渐近最优的特性,但每次增加新节点时都要进行遍历以达到优化的目的,导致了搜索时长大幅增加[17]

在此基础上,Jonathan D[18]等人指出,用于提升解决方案的状态子集可以被描述成扁长的超球体,Informed RRT*可以通过直接采样这个子集来提升RRT*算法的效率,快速返回邻近的最优方案。而 P-RRT*-connect[19]则是将双向人工势场结合到RRT*中,两棵树按照采样点的人工势场法生成的引力场和斥力场同时相互前进直到二者相遇,该算法特别适用于窄通道问题。另外,J Wang[20~21]等人提出了一个基于RRT*的生物启发路径规划算法:Tropistic RRT*。该算法使用高斯混合模型来模仿植物的自然生长,减小抽样空间,提高了运动规划效率,但同时也导致了采样分布不均。而Reza[22]等人在双向RRT和Informed RRT*的基础上,提出Hybrid RRT,其将规划过程分为三个部分,基于双树搜索初始解,并将两棵树合并成一棵,再采用Informed RRT*优化路径。该方法用非最优搜索来发现初始解,不仅比最优规划速度更快,还能返回临近最优解。        

2.4 其他相关扩展算法

为了从各个方面更好地解决各式各样的机器人运动规划问题,研究人员在RRT变体的基础上做了广泛的尝试与结合。如BIT*通过在RRT中加入表搜索,将图表法与基于抽样的规划技术相结合,提升了返回初始解的速度[23]。为解决低效率和易陷入局部最小的问题,Haojian[24]等人在RRT的基础上提出使用衰退机制来避免过度搜索位姿空间,另外,算法通过优化关节空间的边界节点来持续地提升可到达的空间信息,避免重复搜索已扩展节点。而MT-RRT则是利用四个不同的多线程策略进行改进,减少了计算时间[25]。除此之外,Ariyan[26~27]等人则在RRT基础上提出CODES3算法,用以解决在高度受限的环境中的规划问题,此外,他们还提出了基于双向树搜索的6模型结构,每个模型中包含多个备选策略,根据环境背景信息从中寻找到最好的搭配来灵活地解决不同问题。

2.5 总结

到目前为止,从RRT的总体发展脉络来看,学者们主要是在规划效率与结果最优性两个方面对原始的RRT进行改进与提高。主要的改进手段是利用增加随机扩展树数目提升搜索效率的RRT-Connect和通过改进每次拓展方式来达到算法渐进最优性的RRT*。因此,如何在此基础上继续提升算法性能也成为研究人员陆续关注的热点。此外,结合其他技术或在算法结构上进行调整,也是工业机器人运动规划领域未来的研究方向。

3 基于强化学习的运动规划算法

强化学习的基本思想是智能体在与环境交互的过程中根据环境反馈得到奖励,并不断调整自身的策略以实现最佳决策,适用于现实中无法提供大量标签数据的决策优化类问题[28]。由于其具有自学习性与自适应性等优点,受到各领域专家学者们的广泛关注,近年来,也有不少学者们将强化学习应用在机器人运动规划问题上,为解决这一类问题提供了新思路。

3.1 基于传统强化学习的方法

提高机器人的自主决策与学习能力,仅依靠设计者的经验和知识是很难获得对复杂不确定环境的良好适应性。因此,如何在机器人的运动规划中引入学习机制,成为研究人员关注的热点[29]。如Jan Peters与Stefan Schaal[30]提出将动作基本体与随机策略梯度学习相结合,并证明了在强化学习中用动作基本体来生成参数化控制策略的合理性。而Evangelos Theodorou[31~32]等人提出一种基于具有路径积分的随机优化控制结构的强化学习参数化控制策略PI2,该方法中用于学习的更新式既不需要矩阵的逆解也不需要梯度学习率,因此从数学的角度而言其有简单且稳定的特点。在此基础上,MrinalKalakrishnan[33]等人,使用动觉示范初始化机器人的初始位置控制策略,且利用 PI2算法通过优化一个价值函数来学习末端感知器所需要的力、转矩等信息,从而在转动把手开门和拾取桌上的笔两个环境的实验中取得了良好的效果。另外,Yanan Li[34]等人则将强化学习应用在多机器人协作的任务上,解决每个机器人与所要操纵的物体之间未知的动力学问题。

3.2 基于深度强化学习的方法

虽然传统的强化学习在机器人运动规划问题上有所应用,但大多难以克服高维复杂环境,解决的规划问题也略为简单。随着深度强化学习的发展,通过庞大且深层的神经网络与强化学习结合,以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并通过端对端的学习方式实现从原始输入到输出的直接控制,在众多需要感知高维度原始输入数据和决策控制任务中取得实质性的突破[35]

沿着深度网络与强化学习结合的这一研究思路,也有许多经典的深度强化学习算法被陆续提出,如 TRPO[36],DDPG[37],NAF[38]等,虽然受现实系统中的采样复杂度影响,其能否灵活适用在现实环境中仍不明确,但这些算法的提出使机器人在人为操作很少的前提下学习复杂的技巧成为可能。在此基础上,Sergey Levine[39]等人提出利用一个7层、92,000个参数的深度卷积神经网络进行策略学习。策略学习过程中不再需要全部的状态信息即可掌握未知的位姿信息,并可使用随机梯度下降等的常规方法进行训练。而ShixiangGu[40]等人指出,由于高采样复杂度,深度强化学习的应用仅限于仿真与简单的实际任务中,因此他们提出一个适用于复杂3D机器人任务的基于深度Q网络的离线策略训练方法。实验证明该方法可以在不需要先验示范或人为设计的情况下学习一系列复杂的3D机器人运动技能。李广创与程良伦[41]则以点焊机器人为研究对象,将机器人在三维空间的自动点焊转化为机器人的避障路径规划问题,使用一个三层的DNN网络,经过离线训练后,自行训练出一条接近于最优的运动轨迹,成功地避开障碍物到达目标点。

3.3 强化学习与基于随机采样的方法结合

鉴于强化学习的自学习性与自适应性,以及随机采样方法的高效搜索与概率完备等优点,近年来,将二者结合应用在机器人运动规划问题上的全新思路开始涌现。

沿着这一研究方向,Kei Ota[42]等人将RRT所生成的路径作为强化学习的范例,指导其快速学习及收敛,且引入一个由浅入深的总课程学习模式来解决稀疏回报下训练困难的问题,该方法在6自由度机器人装配电脑部件的复杂实验环境下取得了良好效果。而 Hao-Tien Lewis Chiang[43]等人提出RL-RRT算法,使用深度强化学习来学习避障策略,将其作为局部优化器,再采用可达性估算器作为距离函数对树的生长方向进行偏置。另外,Aleksandra Faust[44]等人提出PRM-RL算法,使用强化学习来处理小范围内点到点的规划,再用PRM提供连接着机器人位姿的路标,成功解决了机器人远距离规划导航问题。而Philippe Morere[45]等人则提出先由RRT搜索初始可行解,再利用强化学习进行优化的R3L算法。该方法减少了算法的收敛时间,并且克服了稀疏回报下未获得第一个正回报前的盲目探索问题。除此之外,Binghong Chen[46]等人在处理高维状态-动作空间问题上,通过学习以前的经验来解决新的规划问题的一种神经探索利用树NEXT。相比起一些已有的基于学习的规划器,NEXT更加通用,并且可以在探索与利用之间找到平衡。

3.4 总结

随着强化学习技术的不断发展,专家学者们利用这个技术在工业机器人运动规划领域做了许多有价值的尝试。但无论是通过传统的强化学习或是结合深度网络的强化学习,要么难以克服高维复杂环境,要么需要利用非常庞大且复杂的网络,具有很强的不稳定性,难以应用在现实环境中。于是,研究人员开始把目光转向结合强化学习的自学习、自适应性与基于随机采样方法的高效搜索性、概率完备性的新思路上。这个方法不仅可以保证求解的速度,还可以逐步提高规划结果的质量,是一个值得深入发掘的方向。

4 目前存在问题及研究展望

根据目前工业机器人运动规划算法存在的不足和目前研究的现状,本文认为未来研究方向主要有:

(1)提高随机采样算法的求解稳定性。虽然随机采样算法求解效率高,但引入了随机性,导致有限时间内的求解结果极不稳定,这种不确定性使算法难以在实际中应用。因此,提高解的稳定性是未来的一个研究方向;

(2)提高强化学习算法训练效率。基于强化学习的随机采样算法保证了求解效率和质量,但强化学习算法本身也具有很强的随机性,如何提高探索效率、收敛速度也是未来重点考虑的问题;

(3)考虑实际场景下的环境约束、运动学约束和动力学约束等。目前工业机器人运动规划算法主要停留在实验室研究阶段,考虑实际工况约束的运动规划算法将是未来研究的重点。

参考文献:

[1] 康亮,赵春霞,郭剑辉.未知环境下改进的基于RRT算法的移动机器人路径规划[J].模式识别与人工智能,2009,22(3):337-343.

[2] 唐华斌,孙增圻.基于随机采样的机器人双臂协调运动规划[C].中国智能自动化会议论文集.2005.

[3] Amato N M,Wu Y.A Randomized Roadmap Method for Path and Manipulation Planning[C]. IEEE International Conference on Robotics&Automation.IEEE,1993.

[4] S M LaValle,J J Kuffner.Rapidly-exploring random trees:Progress and prospects[C].Proceedings Workshop on the Algorithmic Foundations of Robotics.2000.

[5] S M LaValle,J J Kuffner.Randomized Kinodynamic Planning[C].Proceedings of the 1999 IEEE International Conferenceon Robotics&Automation.USA,1999:473-479.

[6] S M LaValle.Rapidly-exploring random trees:A new tool for path planning[R].Ames,USA:Department of Computer Science,Iowa State University,1998.

[7] DU Mingbo,MEI Tao,CHEN Jiajia,etc.RRT-based Motion Planning Algorithm for Intelligent Vehicle in Complex Environments[J].Robot,2015,37(4):443-450.

[8] 王道威,朱明富,刘慧.动态步长的RRT路径规划算法[J].计算机技术与发展,2016,26(3):105-112.

[9] 何兆楚,何元烈,曾碧.RRT与人工势场法结合的机械臂避障规划[J].工业工程,2017,20(2):56-63.

[10] J J Kuffner,S M LaValle.RRT-connect:An efficient approach to single-query path planning[C].Proceedings of the 2000 IEEE International Conference on Robotics and Automation.USA:San Francisco,2000.1-7.

[11] 王维,李焱.基于RRT的虚拟人双臂操控规划方法[J].系统仿真学报,2009,21(20):6515-6518.

[12] J Michael Vandeweghe,David Ferguson,Siddhartha Srinivasa.Randomized Path Planning for Redundant Manipulators without Inverse Kinematics[C].Proceedings of IEEE-RAS International Conference on Humanoid Robots.USA,2007.

[13] Rosen Diankov,Nathan Ratliff,David Ferguson,etc.Proceedings of Robotics:Science and Systems[C].Proceedings of Robotics:Science and Systems.2008.

[14] Chang-bae Moon,Woojin Chung.Kinodynamic Planner Dual-Tree RRT(DT-RRT) for Two-Wheeled Mobile Robots Using the Rapidly Exploring Random Tree[J].IEEE Transactions on Industrial Electronics,2015,62(2):1080-1090.

[15] Sertac Karaman,Emilio Frazzoli.Sampling-based algorithms for optimal motion planning[J].The International Journal of Robotics Research,2011,30(7):846-894.

[16] Sertac Karaman,Emilio Frazzoli.Incremental Sampling-based Algorithms for Optimal Motion Planning[C].Robotics:Science and Systems 2010.Spain:Zaragoza,2010.

[17] Joshua John Bialkowski,Sertac Karaman,Emilio Frazzoli.Massily parallelizing the RRT and the RRT*[C].2011 IEEE/RSJ International Conference on Intelligent Robots and Systems.USA:San Francisco,2011:3513-3518.

[18] Jonathan D.Gammell,Siddhartha S.Sriivasa,Timothy D.Barfoot.Informed RRT*:Optimal sampling-based path planning focused via direct sampling of an admissible elnlipsoidal heuristic[C].2014 IEEE/RSJ International Conference on Intelligent Robots and Systems.USA:Chicago,2014.2997-3004.

[19] Wang Xinyu,Li Xiaojuan,Guan Yong,etc.Bidirectional Potential guided RRT* for motion planning[J].IEEE Access,2019,7:95034-95045.

[20] Jiankun Wang,Wenzheng Chi,Mingjie Shao etc.Finding a High-Quality Initial Solution for the RRTs Algorithms in 2D Environments[J].Robotica,2019,37(10):1677-1694.

[21] Jiankun Wang,Charles X.-T.Li,Wenzheng Chi,etc.Tropistic RRT*:An Efficient Planning Algorithm via Adaptive Restricted Sampling Space[C].2018 IEEE International Conference on Information and Automation.China:Wuyi Mountain,2018.1639-1646.

[22] Reza Mashayekhi,Mohd Yamani Idna Idris,Hossein Anisi,etc.Hybrid RRT:A Semi-dual-tree RRT-based Motion Planner[J].IEEE Access,2020,8:18658-18668.

[23] Jonathan D.Gammell,Siddhartha S.Srinivasa,Timothy D.Barfoot.Batch Informed Trees(BIT*):Sampling-based Optimal Planning via the Heuristilly Guided Search of Implicit Random Geometric Graphs[C].2015 IEEE International Conference on Robotics and Automation (ICcaRA).USA:Seattle,2015.3067–3074.

[24] Haojian Zhang,Yunkuan Wang,Jun Zheng,etc.Path Planning of Industrial Robot Based on Improved RRT Algorithm in Complex Environments[J].IEEE Access,2018,6:53296-53306.

[25] Andrea Casalino,Andrea Maria Zanchettin,Paolo Rocco.MT-RRT:a general purpose multithreading library for path planning[C].IEEE/RSJ IROS.China:Macau,2019.1510-1517.

[26] Ariyan M.Kabir,Brual C.Shah,Satyandra K.Gupta.Trajectory Planning for Manipulators Operating in Confined Workspaces[C].2018 IEEE 14th International Conference on Automation Science and Engineering.Germany:Munich,2018.84-91.

[27] Pradeep Rajendran,Shantanu Thakar,Ariyan M.Kabir,etc.Context-Dependent Search for Generating Paths for Redundant Manipulators in Cluttered Environments[C].2019 IEEE/RSJ International Conference on Intelligent Robots and Systems.China:Macau,2019.5573-5579.

[28] 马骋乾,谢伟,孙伟杰.强化学习研究综述[J].指挥控制与仿真,2018,40(6):68-72.

[29] 陈学松,杨宜民.强化学习研究综述[J].计算机应用研究,2010,27(8):2834-2844.

[30] Jan Peters,Stefan Schaal.Reinforcement learning of motor skills with policy gradients[J].Neural Networks,2008,21(4):682-697.

[31] Evangelos Theodorou,Jonas Buchli,Stefan Schaal.Reinforcement Learning of Motor Skills in High Dimensions:A Path Integral Approach[C].2010 IEEE International Conference on Robotics and Automation.USA:Anchorage,2010.2397-2403.

[32] Evangelos Theodorou,Jonas Buchli,Stefan Schaal.A Generalized Path Integral Control Approach to Reinforcement Learning[J].Journal of Machine Learning Research,2010,11:3137-3181.

[33] Mrinal Kalakrishnan,Ludovic Righetti,Peter Pastor,etc.Learning Force Control Policies for Compliant Manipulation[C].2011 IEEE/RSJ International Conference on Intelligent Robots and Systems. USA:San Francisco,2011.4639-4644.

[34] Yanan Li,Long Chen,Keng Peng Tee,etc.Reinforcement learning control for coordinated manipulation of multi-robots[J].Neurocomputing,2015(170):168-175.

[35] 刘全,翟建伟,章宗长,等.深度强化学习综述[J].计算机学报,2017,40(1):1-28.

[36] John Schulman,Sergey Levine,Pieter Abbeel,etc.Trust Region Policy Optimization[C].Proceedings of the 32nd International Conference on Machine Learning.France:Lille,2015.1889-1897.

[37] Timothy P.Lillicrap,Jonathan J.Hunt,Alexander Pritzel,etc.Continuous control with deep reinforcement learning[C].4th International Conference on Learning Representations,ICLR 2016-Conference Track Proceedings(2016).Puerto Rico:Caribe Hilton,2016.

[38] Shixiang Gu,Timothy Lillicrap,Ilya Sutskever,etc.Continuous deep Q-learning with model-based acceleration[C].International Conference on Machine Learning.USA:New York,2016.2829-2838.

[39] Sergey Levine,Chelsea Finn,Trevor Darrell,etc.End-to-End Training of Deep Visuomotor Policies[J].Journal of Machine Learning Research,2016(17):1-40.

[40] Shixiang Gu,Ethan Holly,Timothy Lillicrap,etc.Deep Reinforcement Learning for Robotic Manipulation with Asynchronous Off-Policy Updates[C].2017 IEEE International Conference on Robotics and Automation (ICRA).Singapore:Singapore,2017.3389-3396.

[41] 李广创,程良伦.基于深度强化学习的机械臂避障路径规划研究[J].软件工程,2019,22(3):12-15.

[42] Kei Ota,Devesh K.Jha,Tomoaki Oiki,etc. Trajectory Optimization for Unknown Constrained Systems using Reinforcement Learning[C].2019 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS).China:Macau,2019.3487-3494.

[43] Hao-Tien Lewis Chiang,Jasmine Hsu,Marek Fiser,etc.RL-RRT:Kinodynamic Motion Planning via Learning Reachability Estimators from RL Policies[J].Robotics and Automation Letters,2019,4:4298-4305.

[44] Aleksandra Faust,Oscar Ramirez,Marek Fiser,etc.PRM-RL:Long-range Robotic Navigation Tasks by Combining Reinforcement Learning and Sampling-based Planning[C].IEEE International Conference on Robotics and Automation(ICRA).Australia:Brisbane,2018.5113-5120.

[45] Philippe Morere,Gilad Francis,Tom Blau,etc.Reinforcement Learning with Probabilistically Complete Exploration.arXiv:2001.

[46] Binghong Chen,Bo Dai,Qingjie Lin,etc.Learning to Plan via Neural Exploration-Exploitation Trees[C].2020 International Conference on Learning Representations(ICLR).Ethiopia:Addis Ababa,2020.

作者简介:

刘暾东(1970-),山西原平人,教授,博士生导师,现任教于厦门大学航空航天学院自动化系,研究方向是工业机器人与机器视觉。

陈 馨(1997-),福建福州人,现就读于厦门大学航空航天学院自动化系,研究方向是工业机器人控制与规划。

吴晓敏(1992-),福建福州人,现就读于厦门大学航空航天学院自动化系,研究方向是工业机器人控制与强化学习。

邵桂芳(1978-),黑龙江阿城人,副教授,硕士生导师,现任教于厦门大学航空航天学院自动化系,研究方向是机器视觉与智能优化。

摘自《自动化博览》2020年4月刊


热点新闻

推荐产品

x
  • 在线反馈
1.我有以下需求:



2.详细的需求:
姓名:
单位:
电话:
邮件: