利用当前机器人自身状态以及环境信息直接控制机器人动作

2.2 好奇心驱动的深度确定性策略梯度机器人路径规划算法本文提出的好奇心驱动的深度确定性策略梯度（Intrinsic Curiosity Deep Deterministic Strategy Gradient, ICDDPG）满足自身运动模型和环境约束条件，可在连续的动作空间中找到最优策略，通过评估到达目标点。算法的优化目标为利用当前机器人自身状态以及环境信息直接控制机器人动作（线速度、角速度）到达目标点，Actor 网络与 Target-Actor 网络输出动作，Critic 网络与 Target-Critic 网络负责估计动作 Q 值， ICM 模块预测下一时刻状态给出内在奖励，经验回放池负责存储探索数据，Gazebo 为仿真交互环境，奖励包括内在好奇心奖励和外部任务奖励。