控制参数整定问题

控制参数整定问题一定意义上可以归结为参数优化问题。学习自动机(Learning automata，LA)是求解随机优化问题的有效工具，它借鉴了强化学习思想通过与环境的互动来实现对概率分布的学习，智能体在当前状态执行动作并与环境互动，收到环境的反馈(即回报)后进入下一个状态，并通过当前的回报对概率分布进行调整，以增大表现好的动作被选择的概率。 CARLA 算法是 LA 的一种，采用一种非参数化的概率模型，选取有限区间作为动作集，通过一个对称的、高斯型的“邻近函数”，将表现好的动作的奖赏“传播”给其相邻的动作[12]。由于 CARLA 算法本质上是一种基于概率的更新的算法，不可避免的存在一定方差，且多数情况下找到的解为较优解并非最优解。但控制参数整定问题区别于一般的优化问题，有以下特点：(1)控制参数不需要严格最优，满足一定的指标能够使控制器有较好的控制性能即可；(2)控制参数的小范围浮动对控制性能影响十分有限，对求解精度的要求可适当放宽；(3)假设最优控制参数为 a，那么实际选取的控制参数在靠近 a 的过程中系统对应的控制性能也会提高。这三个特点使得该算法十分适用于控制参数整定问题。