(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211252375.8 (22)申请日 2022.10.13 (71)申请人 广西大学 地址 530004 广西壮 族自治区南宁市西乡 塘区大学东路10 0号 (72)发明人 刘辉 黄立冬 谢海敏 汪旎  马斯宇  (74)专利代理 机构 广西南宁公平知识产权代理 有限公司 45104 专利代理师 陆福达 (51)Int.Cl. G06Q 10/06(2012.01) G06Q 50/06(2012.01) G06N 20/00(2019.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种基于知识辅助深度强化学习的多能系 统经济调度方法 (57)摘要 本发明公开了一种基于知识辅助深度强化 学习的多能系统经济调度方法, 本方法的具体步 骤如下: 首先, 深度确定性策略梯度算法构建了 一个智能体用于接收环境传递来的状态信息并 探索对应的最优机组出力, 该算法可以获得最优 调度策略并且减轻维数灾难。 其次, 知识辅助强 化学习算法作为保护器处于智能体与环境的中 间层, 保护器可以加快深度确定性策略梯度算法 的收敛速度, 同时保证智能体在探索试错过程中 不会危害系统设备的安全。 最后, 在难以建立系 统精确模型的情况下, 基于知识辅助深度强化学 习的多能系统经济调度方法可以有效地获得系 统调度的最优 经济性与收敛性。 本发 明可以提高 系统的安全性, 增强系统经济高效运行的能力。 权利要求书3页 说明书8页 附图2页 CN 115456475 A 2022.12.09 CN 115456475 A 1.一种基于知识辅助深度强化学习的多能系统经济调度方法, 其特征在于, 包括如下 步骤: (1)获取多能系统初始状态量并传递给智能体; (2)智能体接收到状态量后通过自身策略获得对应的动作量, 并在动作量上增加一个 高斯噪声用于 探索; (3)保护器获取环境状态量与智能体所产生的动作量, 根据专家知识判断动作量是否 超出多能系统设备的安全工作区间, 如果动作量超 出系统安全工作区间, 则对其进 行校正, 并把校正后的动作传递给环境执行, 同时反馈给智能体一个大于零的惩罚成本; 如果动作 量处于设备安全工作区间内, 则直接将动作量传递给环境执行, 并反馈给智能体一个等于 零的惩罚成本; (4)环境在接收到保护器传来的动作量后, 执行动作得到系统的运行成本并获取下一 时刻状态的信息, 将运行成本与下一时刻状态量传递给智能体; (5)循环步骤(2)、 步骤(3)与步骤(4), 将每次得到的系统状态量、 智能体动作量、 惩罚 成本、 运行成本、 系统下一时刻状态 量存储在智能体的经验回放池中, 智能体随机抽取经验 回放池中的数据并依据深度确定性策略梯度算法更新自身策略。 2.根据权利要求1所述的基于知识辅助深度强化学习的多能系统经济调度方法, 其特 征在于, 所述智能体中包含四个神经网络, 分别为行为网络、 批判网络、 行为目标网络、 批判 目标网络; 行为网络与行为目标网络架构相同, 批判网络与批判目标网络架构相同, 四个网 络都采用随机初始化权重的方式生成; 所述行为网络以系统状态量st为输入, 并在网络输 出上叠加一个高斯噪声获得一个连续的动作, 行为网络模型如下: 式中at(st)为原始动作量叠加高斯噪声后产生的新动作量; 为行为网络输出的原 始动作量; Nt(0, λkσ2)为高斯噪声; λkσ2为高斯噪声的方差; λ∈(0,1)为衰减因子; k为当前迭 代次数。 3.根据权利要求2所述的基于知识辅助深度强化学习的多能系统经济调度方法, 其特 征在于, 所述行为网络产生的新动作量具体表示 为: 式中 为时刻t电锅炉输入功率占额定功率的百分比; 与 为{0,1}变量, 表示蓄电池充电, 表示蓄电池放电, 表示蓄热罐充热, 表示蓄热 罐放热; 为时刻t蓄电池充放电量占蓄电池容量的百分比, 充放电状态由 决定; 为时刻t蓄热罐充放热量占蓄热罐容量的百分比, 充放热状态由 决定; 智能体 初始策略为随机策略, 智能体的策略会随着迭代学习而更新。 4.根据权利要求1所述的基于知识辅助深度强化学习的多能系统经济调度方法, 其特 征在于, 所述 步骤(1)中的多能系统状态量 为: 式中st表示时刻t系统状态向量; t为系统所处的时刻; 为时刻t系统蓄电池所含能权 利 要 求 书 1/3 页 2 CN 115456475 A 2量占蓄电池额定容量的百分比; 为时刻t系统蓄热罐所含能量占蓄热罐额定容量的百 分比; 为时刻t系统电负荷; 为时刻t系统热负荷; 为时刻t系统与电网交易单位电 价, 系统可以从电网购电补足自身电力缺额, 也可以向电网售电获取收益; 为时刻t系 统从天然气网购气单位价格; PtPV为时刻t系统光伏出力; 八个状态 量中, 与 为系 统内因状态量, 由智能体所给出的动作决定, t、 PtPV为系统外因状 态量, 由环境中的智能电表读取。 5.根据权利要求1所述的基于知识辅助深度强化学习的多能系统经济调度方法, 其特 征在于, 所述步骤(3)的校正包括蓄电池充放电动作校正、 蓄热罐充放热动作校正以及电锅 炉输入功率校正, 所述蓄电池充放电动作校正按下式进行: 式中 为校正后蓄电池充放电量占蓄电池容量的百分比; 为蓄电池充电效率; 为蓄电池放电效率。 6.根据权利要求5所述的基于知识辅助深度强化学习的多能系统经济调度方法, 其特 征在于, 所述蓄热 罐充放热动作校正按下式进行: 式中 为校正后蓄热罐充放热量占蓄热罐容量的百分比; 为蓄热罐充热效率; 为蓄热罐放热效率。 7.根据权利要求5所述的基于知识辅助深度强化学习的多能系统经济调度方法, 其特 征在于, 所述电锅炉输入功率校正按下式进行: 式中 为校正后电锅炉输入功率占电锅炉额定容量的百分比; 为蓄热罐额定容 量; 为电锅炉额定容 量; ηeb为电锅炉能量 转换效率。 8.根据权利要求1所述的基于知识辅助深度强化学习的多能系统经济调度方法, 其特 征在于, 所述的惩罚成本为: 式中 为校正产生的惩罚成本; M为 惩罚系数。 9.根据权利要求1所述的基于知识辅助深度强化学习的多能系统经济调度方法, 其特 征在于, 所述 运行成本通过 下式计算: 式中 为时刻t系统运行成本; 为时刻t系统购售电量, 大于零时代 表系统从电网 购电, 小于零时代 表系统向电网售电; 为时刻t系统从天然气网购气量;权 利 要 求 书 2/3 页 3 CN 115456475 A 3

PDF文档 专利 一种基于知识辅助深度强化学习的多能系统经济调度方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于知识辅助深度强化学习的多能系统经济调度方法 第 1 页 专利 一种基于知识辅助深度强化学习的多能系统经济调度方法 第 2 页 专利 一种基于知识辅助深度强化学习的多能系统经济调度方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:25:14上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。