利用当前机器人自身状态以及环境信息直接控制机器人动作
更新日期:2022-02-16     浏览次数:133
核心提示:2.2 好奇心驱动的深度确定性策略梯度机器人路径规划算法 本文提出的好奇心驱动的深度确定性策略梯度(Intrinsic Curiosity Deep Deterministic Strate

2.2 好奇心驱动的深度确定性策略梯度机器人路径规划算法 本文提出的好奇心驱动的深度确定性策略梯度(Intrinsic Curiosity Deep Deterministic Strategy Gradient, ICDDPG)满足 自身运动模型和环境约束条件,可在连续的动作空间中找到最优策略,通过评估到达目标点。算法的优化目标为利用当前机器人自身状态以及环境信息直接控制机器人动作(线速 度、角速度)到达目标点,Actor 网络与 Target-Actor 网络输 出动作,Critic 网络与 Target-Critic 网络负责估计动作 Q 值, ICM 模块预测下一时刻状态给出内在奖励,经验回放池负责 存储探索数据,Gazebo 为仿真交互环境,奖励包括内在好奇 心奖励和外部任务奖励。