专利一种基于知识辅助深度强化学习的多能系统经济调度方法 -在线下载 -pdf文件-ip.atghost.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211252375.8 (22)申请日 2022.10.13 (71)申请人广西大学地址 530004 广西壮族自治区南宁市西乡塘区大学东路10 0号 (72)发明人刘辉　黄立冬　谢海敏　汪旎　马斯宇　 (74)专利代理机构广西南宁公平知识产权代理有限公司 45104 专利代理师陆福达 (51)Int.Cl. G06Q 10/06(2012.01) G06Q 50/06(2012.01) G06N 20/00(2019.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种基于知识辅助深度强化学习的多能系统经济调度方法 (57)摘要本发明公开了一种基于知识辅助深度强化学习的多能系统经济调度方法，本方法的具体步骤如下：首先，深度确定性策略梯度算法构建了一个智能体用于接收环境传递来的状态信息并探索对应的最优机组出力，该算法可以获得最优调度策略并且减轻维数灾难。其次，知识辅助强化学习算法作为保护器处于智能体与环境的中间层，保护器可以加快深度确定性策略梯度算法的收敛速度，同时保证智能体在探索试错过程中不会危害系统设备的安全。最后，在难以建立系统精确模型的情况下，基于知识辅助深度强化学习的多能系统经济调度方法可以有效地获得系统调度的最优经济性与收敛性。本发明可以提高系统的安全性，增强系统经济高效运行的能力。权利要求书3页说明书8页附图2页 CN 115456475 A 2022.12.09 CN 115456475 A 1.一种基于知识辅助深度强化学习的多能系统经济调度方法，其特征在于，包括如下步骤： (1)获取多能系统初始状态量并传递给智能体； (2)智能体接收到状态量后通过自身策略获得对应的动作量，并在动作量上增加一个高斯噪声用于探索； (3)保护器获取环境状态量与智能体所产生的动作量，根据专家知识判断动作量是否超出多能系统设备的安全工作区间，如果动作量超出系统安全工作区间，则对其进行校正，并把校正后的动作传递给环境执行，同时反馈给智能体一个大于零的惩罚成本；如果动作量处于设备安全工作区间内，则直接将动作量传递给环境执行，并反馈给智能体一个等于零的惩罚成本； (4)环境在接收到保护器传来的动作量后，执行动作得到系统的运行成本并获取下一时刻状态的信息，将运行成本与下一时刻状态量传递给智能体； (5)循环步骤(2)、步骤(3)与步骤(4)，将每次得到的系统状态量、智能体动作量、惩罚成本、运行成本、系统下一时刻状态量存储在智能体的经验回放池中，智能体随机抽取经验回放池中的数据并依据深度确定性策略梯度算法更新自身策略。 2.根据权利要求1所述的基于知识辅助深度强化学习的多能系统经济调度方法，其特征在于，所述智能体中包含四个神经网络，分别为行为网络、批判网络、行为目标网络、批判目标网络；行为网络与行为目标网络架构相同，批判网络与批判目标网络架构相同，四个网络都采用随机初始化权重的方式生成；所述行为网络以系统状态量st为输入，并在网络输出上叠加一个高斯噪声获得一个连续的动作，行为网络模型如下：式中at(st)为原始动作量叠加高斯噪声后产生的新动作量；为行为网络输出的原始动作量； Nt(0, λkσ2)为高斯噪声； λkσ2为高斯噪声的方差； λ∈(0,1)为衰减因子； k为当前迭代次数。 3.根据权利要求2所述的基于知识辅助深度强化学习的多能系统经济调度方法，其特征在于，所述行为网络产生的新动作量具体表示为：式中为时刻t电锅炉输入功率占额定功率的百分比；与为{0,1}变量，表示蓄电池充电，表示蓄电池放电，表示蓄热罐充热，表示蓄热罐放热；为时刻t蓄电池充放电量占蓄电池容量的百分比，充放电状态由决定；为时刻t蓄热罐充放热量占蓄热罐容量的百分比，充放热状态由决定；智能体初始策略为随机策略，智能体的策略会随着迭代学习而更新。 4.根据权利要求1所述的基于知识辅助深度强化学习的多能系统经济调度方法，其特征在于，所述步骤(1)中的多能系统状态量为：式中st表示时刻t系统状态向量； t为系统所处的时刻；为时刻t系统蓄电池所含能权　利　要　求　书 1/3 页 2 CN 115456475 A 2量占蓄电池额定容量的百分比；为时刻t系统蓄热罐所含能量占蓄热罐额定容量的百分比；为时刻t系统电负荷；为时刻t系统热负荷；为时刻t系统与电网交易单位电价，系统可以从电网购电补足自身电力缺额，也可以向电网售电获取收益；为时刻t系统从天然气网购气单位价格； PtPV为时刻t系统光伏出力；八个状态量中，与为系统内因状态量，由智能体所给出的动作决定， t、 PtPV为系统外因状态量，由环境中的智能电表读取。 5.根据权利要求1所述的基于知识辅助深度强化学习的多能系统经济调度方法，其特征在于，所述步骤(3)的校正包括蓄电池充放电动作校正、蓄热罐充放热动作校正以及电锅炉输入功率校正，所述蓄电池充放电动作校正按下式进行：式中为校正后蓄电池充放电量占蓄电池容量的百分比；为蓄电池充电效率；为蓄电池放电效率。 6.根据权利要求5所述的基于知识辅助深度强化学习的多能系统经济调度方法，其特征在于，所述蓄热罐充放热动作校正按下式进行：式中为校正后蓄热罐充放热量占蓄热罐容量的百分比；为蓄热罐充热效率；为蓄热罐放热效率。 7.根据权利要求5所述的基于知识辅助深度强化学习的多能系统经济调度方法，其特征在于，所述电锅炉输入功率校正按下式进行：式中为校正后电锅炉输入功率占电锅炉额定容量的百分比；为蓄热罐额定容量；为电锅炉额定容量； ηeb为电锅炉能量转换效率。 8.根据权利要求1所述的基于知识辅助深度强化学习的多能系统经济调度方法，其特征在于，所述的惩罚成本为：式中为校正产生的惩罚成本； M为惩罚系数。 9.根据权利要求1所述的基于知识辅助深度强化学习的多能系统经济调度方法，其特征在于，所述运行成本通过下式计算：式中为时刻t系统运行成本；为时刻t系统购售电量，大于零时代表系统从电网购电，小于零时代表系统向电网售电；为时刻t系统从天然气网购气量；权　利　要　求　书 2/3 页 3 CN 115456475 A 3

专利 一种基于知识辅助深度强化学习的多能系统经济调度方法

专利一种基于知识辅助深度强化学习的多能系统经济调度方法