(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211252363.5
(22)申请日 2022.10.13
(71)申请人 广西大学
地址 530004 广西壮 族自治区南宁市西乡
塘区大学东路10 0号
(72)发明人 刘辉 马斯宇 谢海敏 汪旎
黄立冬
(74)专利代理 机构 广西南宁公平知识产权代理
有限公司 45104
专利代理师 陆福达
(51)Int.Cl.
G06F 30/27(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06Q 10/04(2012.01)G06Q 10/06(2012.01)
G06Q 50/06(2012.01)
G06F 111/08(2020.01)
G06F 111/10(2020.01)
(54)发明名称
一种考虑不完全信息的激励性需求响应双
层协同优化方法
(57)摘要
本发明提出一种考虑不完全信息的激励性
需求响应双层协同优化方法, 该方法包括模型和
优化算法: 即激励型需求响应马尔科夫决策双层
模型, 同时采用深度确定性策略梯度算法优化求
解。 具体步骤如下: 1.建立激励型需求响应数学
模型, 得到负荷聚合商和用户博弈方式; 2.建立
反映负荷聚合商和用户博弈的激励型需求响应
马尔科夫决策双层模型; 3.采用提出的马尔科夫
决策双层模型和深度确定性策略梯度算法生成
训练的样本; 4.利用已得到的样本, 采用提出的
深度确定性策略梯度算法作用于激励型需求响
应优化求解。 本发明可以避免获取用户的隐私信
息, 即使在不完全信息下也能达到最优解, 同时
避免由于决策变量离散化导致的局部最优解或
维数诅咒。
权利要求书2页 说明书5页 附图2页
CN 115510758 A
2022.12.23
CN 115510758 A
1.一种考虑不完全信息的激励性需求响应双层协同优化方法, 其特征在于, 包括以下
步骤:
(1)建立激励型需求响应数 学模型, 得到负荷聚合商和用户博 弈方式;
(2)建立反映负荷聚合商和用户博 弈的激励型需求响应马尔科 夫决策双 层模型;
(3)采用提出的马尔科 夫决策双 层模型和深度确定性策略梯度算法生成训练的样本;
(4)利用已得到的样本, 采用提出的深度确定性策略梯度算法作用于激励型需求响应
优化求解。
2.如权利要求1所述的考虑不完全信息的激励性需求响应双层协同优化方法, 其特征
在于, 所述 步骤(1)中激励型需求响应数 学模型为:
负荷聚合商:
λmin≤ λi,h≤ λmax (3)
ΔPmin≤ΔPi,h≤ΔPmax (4)
式中λG为电网运营商付给负荷聚合商的奖励价格, 一般是签订协议的固定价格; ΔPL,h
用户在h时刻总响应量之和; ph为h时刻电价; λi,h为负荷聚合商在h时刻给用户i的激励价
格; ΔPi,h为i用户在h时的响应量; λmin、 λmax分别为负荷聚合商激励价格的最低 下限和最高
上限, ΔPmin、 ΔPmax分别为用户响应量的最小值和最大值;
用户:
其中Di,h为用户i在t时刻的不满意度成本 。
3.如权利要求2所述的考虑不完全信息的激励性需求响应双层协同优化方法, 其特征
在于, 所述Di,h通过下式获得:
其中αi、 βi是代表不同类型用户在激励型需求响应中行为意愿的用户因素; αi代表用户
i的响应意愿, 当用户的α越大时, 就会产生更多的不满意成本; βi为用户i在激励型需求响
应中的最小激励价格。
4.如权利要求1或2或3所述的考虑不完全信息的激励性需求响应双层协同优化方法,
其特征在于, 步骤(2)所述的反映负荷聚合商和用户博弈 的激励型需求响应马尔科夫决策
双层模型为:
状态st: 我们将该时刻的负荷、 电价以及各个用户的响应量作为状态变量:
sh=(Lh,ph,ΔP1,...,ΔPI) (7)
动作ah: 动作变量ah为负荷聚合商在h时刻发布给 各个用户的激励价格;
ah=(ah,1,...,ah,I) (8)
奖励rh: 奖励指的是决策主体所得到的回报, 因此, 根据负荷聚合商的目标函数可以得权 利 要 求 书 1/2 页
2
CN 115510758 A
2出其奖励为:
式中, λG为电网运营商 付给负荷聚合商的奖励价格, 一般 是签订协议的固定价格; ΔPL,h
用户在h时刻总响应量之和; ph为h时刻电价; λi,h为负荷聚合商在h时刻给用户i的激励价
格; ΔPi,h为i用户在h时的响应量。
5.如权利要求1或2或3所述的考虑不完全信息的激励性需求响应双层协同优化方法,
其特征在于, 所述的深度确定性策略梯度算法包 含策略函数和状态行为 价值函数。
6.如权利要求5所述的考虑不完全信息的激励性需求响应双层协同优化方法, 其特征
在于, 所述的策略函数和状态行为价值函数用两种深度神经网络来近似, 行为神经网络代
表策略函数, 批判神经网络代 表状态行为 价值函数。
7.如权利要求6所述的考虑不完全信息的激励性需求响应双层协同优化方法, 其特征
在于, 所述批判神经网络是通过最小化下列损失函数实现参数的更新:
L=E[(yh‑Q(st,at))2] (10)
yh=rh+γQ(sh+1,ah+1) (11)
其中, 各参数的具体含义如下: L为损失函数; yh为目标价值; Q(sh+1,ah+1)为估计的价值
函数。
8.如权利要求7所述的考虑不完全信息的激励性需求响应双层协同优化方法, 其特征
在于, 所述批判神经网络的参数θQ通过下式进行 更新:
其中,
为批判神经网络学习参数。
9.如权利要求6所述的考虑不完全信息的激励性需求响应双层协同优化方法, 其特征
在于, 所述行为神经网络使用策略梯度
更新:
其中, 各参数的具体含义如下:
为策略梯度;
为状态价值函数
的梯度;
为策略对于神经网络参数的梯度; θQ和 θμ为批判神经网络和行为神经
网络参数。
10.如权利要求9所述的考虑不完全信息的激励性需求响应双层协同优化方法, 其特征
在于, 所述行为神经网络的参数θμ是通过梯度上升方法更新:
其中, 各参数的具体含义如下:
为行为神经网络学习速率;
为策略梯度。权 利 要 求 书 2/2 页
3
CN 115510758 A
3
专利 一种考虑不完全信息的激励性需求响应双层协同优化方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:25:13上传分享