(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211252363.5 (22)申请日 2022.10.13 (71)申请人 广西大学 地址 530004 广西壮 族自治区南宁市西乡 塘区大学东路10 0号 (72)发明人 刘辉 马斯宇 谢海敏 汪旎  黄立冬  (74)专利代理 机构 广西南宁公平知识产权代理 有限公司 45104 专利代理师 陆福达 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 10/04(2012.01)G06Q 10/06(2012.01) G06Q 50/06(2012.01) G06F 111/08(2020.01) G06F 111/10(2020.01) (54)发明名称 一种考虑不完全信息的激励性需求响应双 层协同优化方法 (57)摘要 本发明提出一种考虑不完全信息的激励性 需求响应双层协同优化方法, 该方法包括模型和 优化算法: 即激励型需求响应马尔科夫决策双层 模型, 同时采用深度确定性策略梯度算法优化求 解。 具体步骤如下: 1.建立激励型需求响应数学 模型, 得到负荷聚合商和用户博弈方式; 2.建立 反映负荷聚合商和用户博弈的激励型需求响应 马尔科夫决策双层模型; 3.采用提出的马尔科夫 决策双层模型和深度确定性策略梯度算法生成 训练的样本; 4.利用已得到的样本, 采用提出的 深度确定性策略梯度算法作用于激励型需求响 应优化求解。 本发明可以避免获取用户的隐私信 息, 即使在不完全信息下也能达到最优解, 同时 避免由于决策变量离散化导致的局部最优解或 维数诅咒。 权利要求书2页 说明书5页 附图2页 CN 115510758 A 2022.12.23 CN 115510758 A 1.一种考虑不完全信息的激励性需求响应双层协同优化方法, 其特征在于, 包括以下 步骤: (1)建立激励型需求响应数 学模型, 得到负荷聚合商和用户博 弈方式; (2)建立反映负荷聚合商和用户博 弈的激励型需求响应马尔科 夫决策双 层模型; (3)采用提出的马尔科 夫决策双 层模型和深度确定性策略梯度算法生成训练的样本; (4)利用已得到的样本, 采用提出的深度确定性策略梯度算法作用于激励型需求响应 优化求解。 2.如权利要求1所述的考虑不完全信息的激励性需求响应双层协同优化方法, 其特征 在于, 所述 步骤(1)中激励型需求响应数 学模型为: 负荷聚合商: λmin≤ λi,h≤ λmax                           (3) ΔPmin≤ΔPi,h≤ΔPmax                         (4) 式中λG为电网运营商付给负荷聚合商的奖励价格, 一般是签订协议的固定价格; ΔPL,h 用户在h时刻总响应量之和; ph为h时刻电价; λi,h为负荷聚合商在h时刻给用户i的激励价 格; ΔPi,h为i用户在h时的响应量; λmin、 λmax分别为负荷聚合商激励价格的最低 下限和最高 上限, ΔPmin、 ΔPmax分别为用户响应量的最小值和最大值; 用户: 其中Di,h为用户i在t时刻的不满意度成本 。 3.如权利要求2所述的考虑不完全信息的激励性需求响应双层协同优化方法, 其特征 在于, 所述Di,h通过下式获得: 其中αi、 βi是代表不同类型用户在激励型需求响应中行为意愿的用户因素; αi代表用户 i的响应意愿, 当用户的α越大时, 就会产生更多的不满意成本; βi为用户i在激励型需求响 应中的最小激励价格。 4.如权利要求1或2或3所述的考虑不完全信息的激励性需求响应双层协同优化方法, 其特征在于, 步骤(2)所述的反映负荷聚合商和用户博弈 的激励型需求响应马尔科夫决策 双层模型为: 状态st: 我们将该时刻的负荷、 电价以及各个用户的响应量作为状态变量: sh=(Lh,ph,ΔP1,...,ΔPI)                       (7) 动作ah: 动作变量ah为负荷聚合商在h时刻发布给 各个用户的激励价格; ah=(ah,1,...,ah,I)                          (8) 奖励rh: 奖励指的是决策主体所得到的回报, 因此, 根据负荷聚合商的目标函数可以得权 利 要 求 书 1/2 页 2 CN 115510758 A 2出其奖励为: 式中, λG为电网运营商 付给负荷聚合商的奖励价格, 一般 是签订协议的固定价格; ΔPL,h 用户在h时刻总响应量之和; ph为h时刻电价; λi,h为负荷聚合商在h时刻给用户i的激励价 格; ΔPi,h为i用户在h时的响应量。 5.如权利要求1或2或3所述的考虑不完全信息的激励性需求响应双层协同优化方法, 其特征在于, 所述的深度确定性策略梯度算法包 含策略函数和状态行为 价值函数。 6.如权利要求5所述的考虑不完全信息的激励性需求响应双层协同优化方法, 其特征 在于, 所述的策略函数和状态行为价值函数用两种深度神经网络来近似, 行为神经网络代 表策略函数, 批判神经网络代 表状态行为 价值函数。 7.如权利要求6所述的考虑不完全信息的激励性需求响应双层协同优化方法, 其特征 在于, 所述批判神经网络是通过最小化下列损失函数实现参数的更新: L=E[(yh‑Q(st,at))2]                      (10) yh=rh+γQ(sh+1,ah+1)                       (11) 其中, 各参数的具体含义如下: L为损失函数; yh为目标价值; Q(sh+1,ah+1)为估计的价值 函数。 8.如权利要求7所述的考虑不完全信息的激励性需求响应双层协同优化方法, 其特征 在于, 所述批判神经网络的参数θQ通过下式进行 更新: 其中, 为批判神经网络学习参数。 9.如权利要求6所述的考虑不完全信息的激励性需求响应双层协同优化方法, 其特征 在于, 所述行为神经网络使用策略梯度 更新: 其中, 各参数的具体含义如下: 为策略梯度; 为状态价值函数 的梯度; 为策略对于神经网络参数的梯度; θQ和 θμ为批判神经网络和行为神经 网络参数。 10.如权利要求9所述的考虑不完全信息的激励性需求响应双层协同优化方法, 其特征 在于, 所述行为神经网络的参数θμ是通过梯度上升方法更新: 其中, 各参数的具体含义如下: 为行为神经网络学习速率; 为策略梯度。权 利 要 求 书 2/2 页 3 CN 115510758 A 3

PDF文档 专利 一种考虑不完全信息的激励性需求响应双层协同优化方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种考虑不完全信息的激励性需求响应双层协同优化方法 第 1 页 专利 一种考虑不完全信息的激励性需求响应双层协同优化方法 第 2 页 专利 一种考虑不完全信息的激励性需求响应双层协同优化方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:25:13上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。