避免连续变量在转换为离散变量时出现的精度损失问题

2.1深度确定性策略梯度算法

深度强化学习模型通过与环境的不断交互学习，获取并逐渐积累环境管理经验知识，持续改进其管理行为选择策略并提升其管理能力。同时，深度强化学习模型具有无须针对多能负荷、购能价格等不确定性要素进行精准预测的优势，并且具有系统实时决策、动态调整的能力。由于居民综合能源系统中多能负荷、能源购买与储放功率、购能价格信号等均为时序连续变量，同时为避免连续变量在转换为离散变量时出现的精度损失问题，本文采用深度确定性策略梯度算法构建居民综合能源系统管理模型。