避免连续变量在转换为离散变量时出现的精度损失问题
更新日期:2021-12-16     浏览次数:235
核心提示:2.1深度确定性策略梯度算法深度强化学习模型通过与环境的不断交互学习,获取并逐渐积累环境管理经验知识,持续改进其管理行为选择策略并提升其管理能

2.1深度确定性策略梯度算法

深度强化学习模型通过与环境的不断交互学习,获取并逐渐积累环境管理经验知识,持续改进其管理行为选择策略并提升其管理能力。同时,深度强化学习模型具有无须针对多能负荷、购能价格等不确定性要素进行精准预测的优势,并且具有系统实时决策、动态调整的能力。由于居民综合能源系统中多能负荷、能源购买与储放功率、购能价格信号等均为时序连续变量,同时为避免连续变量在转换为离散变量时出现的精度损失问题,本文采用深度确定性策略梯度算法构建居民综合能源系统管理模型。