核心提示:控制参数整定问题一定意义上可以归结为参数 优化问题。学习自动机(Learning automata,LA)是求 解随机优化问题的有效工具,它借鉴了强化学习思 想通
控制参数整定问题一定意义上可以归结为参数 优化问题。学习自动机(Learning automata,LA)是求 解随机优化问题的有效工具,它借鉴了强化学习思 想通过与环境的互动来实现对概率分布的学习,智 能体在当前状态执行动作并与环境互动,收到环境 的反馈(即回报)后进入下一个状态,并通过当前的回 报对概率分布进行调整,以增大表现好的动作被选 择的概率。 CARLA 算法是 LA 的一种,采用一种非参数化 的概率模型,选取有限区间作为动作集,通过一个 对称的、高斯型的“邻近函数”,将表现好的动作的 奖赏“传播”给其相邻的动作[12]。由于 CARLA 算 法本质上是一种基于概率的更新的算法,不可避免 的存在一定方差,且多数情况下找到的解为较优解 并非最优解。但控制参数整定问题区别于一般的优 化问题,有以下特点:(1)控制参数不需要严格最优, 满足一定的指标能够使控制器有较好的控制性能即 可;(2)控制参数的小范围浮动对控制性能影响十分 有限,对求解精度的要求可适当放宽;(3)假设最优 控制参数为 a,那么实际选取的控制参数在靠近 a 的过程中系统对应的控制性能也会提高。这三个特 点使得该算法十分适用于控制参数整定问题。