(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211252375.8
(22)申请日 2022.10.13
(71)申请人 广西大学
地址 530004 广西壮 族自治区南宁市西乡
塘区大学东路10 0号
(72)发明人 刘辉 黄立冬 谢海敏 汪旎
马斯宇
(74)专利代理 机构 广西南宁公平知识产权代理
有限公司 45104
专利代理师 陆福达
(51)Int.Cl.
G06Q 10/06(2012.01)
G06Q 50/06(2012.01)
G06N 20/00(2019.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种基于知识辅助深度强化学习的多能系
统经济调度方法
(57)摘要
本发明公开了一种基于知识辅助深度强化
学习的多能系统经济调度方法, 本方法的具体步
骤如下: 首先, 深度确定性策略梯度算法构建了
一个智能体用于接收环境传递来的状态信息并
探索对应的最优机组出力, 该算法可以获得最优
调度策略并且减轻维数灾难。 其次, 知识辅助强
化学习算法作为保护器处于智能体与环境的中
间层, 保护器可以加快深度确定性策略梯度算法
的收敛速度, 同时保证智能体在探索试错过程中
不会危害系统设备的安全。 最后, 在难以建立系
统精确模型的情况下, 基于知识辅助深度强化学
习的多能系统经济调度方法可以有效地获得系
统调度的最优 经济性与收敛性。 本发 明可以提高
系统的安全性, 增强系统经济高效运行的能力。
权利要求书3页 说明书8页 附图2页
CN 115456475 A
2022.12.09
CN 115456475 A
1.一种基于知识辅助深度强化学习的多能系统经济调度方法, 其特征在于, 包括如下
步骤:
(1)获取多能系统初始状态量并传递给智能体;
(2)智能体接收到状态量后通过自身策略获得对应的动作量, 并在动作量上增加一个
高斯噪声用于 探索;
(3)保护器获取环境状态量与智能体所产生的动作量, 根据专家知识判断动作量是否
超出多能系统设备的安全工作区间, 如果动作量超 出系统安全工作区间, 则对其进 行校正,
并把校正后的动作传递给环境执行, 同时反馈给智能体一个大于零的惩罚成本; 如果动作
量处于设备安全工作区间内, 则直接将动作量传递给环境执行, 并反馈给智能体一个等于
零的惩罚成本;
(4)环境在接收到保护器传来的动作量后, 执行动作得到系统的运行成本并获取下一
时刻状态的信息, 将运行成本与下一时刻状态量传递给智能体;
(5)循环步骤(2)、 步骤(3)与步骤(4), 将每次得到的系统状态量、 智能体动作量、 惩罚
成本、 运行成本、 系统下一时刻状态 量存储在智能体的经验回放池中, 智能体随机抽取经验
回放池中的数据并依据深度确定性策略梯度算法更新自身策略。
2.根据权利要求1所述的基于知识辅助深度强化学习的多能系统经济调度方法, 其特
征在于, 所述智能体中包含四个神经网络, 分别为行为网络、 批判网络、 行为目标网络、 批判
目标网络; 行为网络与行为目标网络架构相同, 批判网络与批判目标网络架构相同, 四个网
络都采用随机初始化权重的方式生成; 所述行为网络以系统状态量st为输入, 并在网络输
出上叠加一个高斯噪声获得一个连续的动作, 行为网络模型如下:
式中at(st)为原始动作量叠加高斯噪声后产生的新动作量;
为行为网络输出的原
始动作量; Nt(0, λkσ2)为高斯噪声; λkσ2为高斯噪声的方差; λ∈(0,1)为衰减因子; k为当前迭
代次数。
3.根据权利要求2所述的基于知识辅助深度强化学习的多能系统经济调度方法, 其特
征在于, 所述行为网络产生的新动作量具体表示 为:
式中
为时刻t电锅炉输入功率占额定功率的百分比;
与
为{0,1}变量,
表示蓄电池充电,
表示蓄电池放电,
表示蓄热罐充热,
表示蓄热
罐放热;
为时刻t蓄电池充放电量占蓄电池容量的百分比, 充放电状态由
决定;
为时刻t蓄热罐充放热量占蓄热罐容量的百分比, 充放热状态由
决定; 智能体
初始策略为随机策略, 智能体的策略会随着迭代学习而更新。
4.根据权利要求1所述的基于知识辅助深度强化学习的多能系统经济调度方法, 其特
征在于, 所述 步骤(1)中的多能系统状态量 为:
式中st表示时刻t系统状态向量; t为系统所处的时刻;
为时刻t系统蓄电池所含能权 利 要 求 书 1/3 页
2
CN 115456475 A
2量占蓄电池额定容量的百分比;
为时刻t系统蓄热罐所含能量占蓄热罐额定容量的百
分比;
为时刻t系统电负荷;
为时刻t系统热负荷;
为时刻t系统与电网交易单位电
价, 系统可以从电网购电补足自身电力缺额, 也可以向电网售电获取收益;
为时刻t系
统从天然气网购气单位价格; PtPV为时刻t系统光伏出力; 八个状态 量中,
与
为系
统内因状态量, 由智能体所给出的动作决定, t、
PtPV为系统外因状
态量, 由环境中的智能电表读取。
5.根据权利要求1所述的基于知识辅助深度强化学习的多能系统经济调度方法, 其特
征在于, 所述步骤(3)的校正包括蓄电池充放电动作校正、 蓄热罐充放热动作校正以及电锅
炉输入功率校正, 所述蓄电池充放电动作校正按下式进行:
式中
为校正后蓄电池充放电量占蓄电池容量的百分比;
为蓄电池充电效率;
为蓄电池放电效率。
6.根据权利要求5所述的基于知识辅助深度强化学习的多能系统经济调度方法, 其特
征在于, 所述蓄热 罐充放热动作校正按下式进行:
式中
为校正后蓄热罐充放热量占蓄热罐容量的百分比;
为蓄热罐充热效率;
为蓄热罐放热效率。
7.根据权利要求5所述的基于知识辅助深度强化学习的多能系统经济调度方法, 其特
征在于, 所述电锅炉输入功率校正按下式进行:
式中
为校正后电锅炉输入功率占电锅炉额定容量的百分比;
为蓄热罐额定容
量;
为电锅炉额定容 量; ηeb为电锅炉能量 转换效率。
8.根据权利要求1所述的基于知识辅助深度强化学习的多能系统经济调度方法, 其特
征在于, 所述的惩罚成本为:
式中
为校正产生的惩罚成本; M为 惩罚系数。
9.根据权利要求1所述的基于知识辅助深度强化学习的多能系统经济调度方法, 其特
征在于, 所述 运行成本通过 下式计算:
式中
为时刻t系统运行成本;
为时刻t系统购售电量,
大于零时代 表系统从电网
购电, 小于零时代 表系统向电网售电;
为时刻t系统从天然气网购气量;权 利 要 求 书 2/3 页
3
CN 115456475 A
3
专利 一种基于知识辅助深度强化学习的多能系统经济调度方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:25:14上传分享