(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211237529.6 (22)申请日 2022.10.10 (71)申请人 清华大学 地址 100084 北京市海淀区清华园1号 (72)发明人 何方 白茜文 高畅 程靓琦  林犀  (74)专利代理 机构 中科专利商标代理有限责任 公司 11021 专利代理师 王文思 (51)Int.Cl. G06Q 10/06(2012.01) G06Q 50/30(2012.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于导师学生制框架的车船资源动态调度 方法及系统 (57)摘要 本发明提供一种基于导师学生制框架的车 船资源动态调度方法及系统, 涉及交通运输和资 源调度技术领域。 该导师学生制框架包含导师层 和学生层, 该方法包括: 步骤S110, 获取待调度资 源的多维状态信息; 步骤S120, 根据多维状态信 息, 设置待调度资源的基本假设, 基本假设包括 多个运营区域和多个运营时间段的划分; 步骤 S130, 在导师层, 根据基本假设, 利用马尔科夫决 策过程对待调度资源的运营规划过程建立神经 网络模型, 并通过强化学习优化神经网络模型, 生成当前运营时间段内的指导策略; 步骤S140, 在学生层, 根据指导策略, 利用预设的分配模型 对待调度资源 执行调度行动, 并将当前的行动执 行结果重新反馈 至上述步骤S130。 权利要求书6页 说明书14页 附图4页 CN 115545484 A 2022.12.30 CN 115545484 A 1.一种基于导师学生制框架的车船资源动态调度方法, 其特征在于, 所述导师学生制 框架包含导师层和学生层, 所述方法包括: 步骤S110, 获取待调度资源的多维状态信息; 步骤S120, 根据所述多维状态信息, 设置所述待调度资源的基本假设, 所述基本假设包 括多个运营区域和多个运营时间段的划分; 步骤S130, 在导师层, 根据所述基本假设, 利用马尔科夫决策过程对所述待调度资源的 运营规划过程建立神经网络模型, 并通过强化学习优化所述神经网络模型, 生成当前运营 时间段内的指导策略; 步骤S140, 在学生层, 根据所述指导策略, 利用预设的分配模型对所述待调度资源执行 调度行动, 并将当前的行动执 行结果重新反馈 至上述步骤S130。 2.根据权利要求1所述的基于导师学生制框架的车船资源动态调度方法, 其特征在于, 所述待调度资源 包括多辆电动网约车; 所述待调度资源的多维状态信息包括需求分布、 车辆分布、 车辆电量和充电桩占用情 况; 所述待调度资源的基本假设包括多个运营区域和多个运营时间段的设置; 所述指导策略包括在每个所述运营区域内的各种电量的电动网约车的调度数和充电 数, 所述调度数包括派遣至其他运营区域内的车辆数, 所述充电数包括需要去充电的车辆 数; 所述调度行动包括每一辆电动网约车的行动, 具体包括派遣服务某个特定的乘客、 调 度到另一个区域或者去某个充电站充电。 3.根据权利要求2所述的基于导师学生制框架的车船资源动态调度方法, 其特征在于, 所述待调度资源的基本假设具体包括: 获取所述多辆电动网约车的目标运营区域, 将所述目标运营区域划分为密铺且不相交 的多个六边形区域, 使得相邻两个六边形区域的中心点之间的距离相同, 将每个六边形区 域放入集合J; 从所述多个六边形区域中筛选出含有充电基础 设施的区域并记为充电服务区域, 将每 个充电服 务区域放入集合I; 获取所述多辆电动网约车的每日运营时间, 将所述每日运营时间划分成T个等间隔的 运营时间段; 在每个运营时间段内, 根据 所述需求分布和车辆分布, 设定乘客从所述集合J中的任意 第i个六边形区域到第j个六边形区域的出 行概率, i≠j, i∈J, j∈J。 4.根据权利要求1所述的基于导师学生制框架的车船资源动态调度方法, 其特征在于, 所述强化学习包括主体、 环境状态、 动作、 状态转移和奖励函数, 其中: 所述主体为车辆, 根据车辆所在的运营区域和电量划分不同的主体; 所述环境状态包括当前运营时间段t内的四种状态: 每个运营区域内每种电量的可用 车辆的数量 每个运营区域内等待服务的乘客数量 已经指派到某运营区域但仍处于 空驶状态未到 达的将来可用的车辆数量 充电站的位置和占用信息 权 利 要 求 书 1/6 页 2 CN 115545484 A 2所述动作是指导师层生成的指导策略, 包括运营区域j内有多少电量为e的车辆会被派 遣到另一 运营区域 以及运营区域j内有 多少辆电量 为e的车辆被派遣到充电站去 充电; 所述状态转移是指在学生层执行调度行动后, 将当前运营时间段t内的环境状态向下 一运营时间段t+1演化; 所述奖励函数是指学生层执行调度行动后产生的预期成本, 包括乘客的等待时间、 乘 客放弃需求的惩罚、 车辆的行驶成本以及车辆的充电和排队成本, 所述预期成本反馈至所 述主体。 5.根据权利要求4所述的基于导师学生制框架的车船资源动态调度方法, 其特征在于, 所述神经网络模型包 含底层、 中间层和上层, 其中: 所述底层输入环境状态、 动作以及表示没被考虑到的隐含要素的常数项; 所述中间层包括下隐含层和上隐含层, 所述底层的节点加权求和得到所述下隐含层, 所述下隐含层通过RELU激活函数产生所述上隐含层; 所述上层输出由所述上隐含层加权求和得到的奖励函数。 6.根据权利要求5所述的基于导师学生制框架的车船资源动态调度方法, 其特征在于, 在使用所述神经网络模型之前, 还包括对所述神经网络模型进行在线训练或者离线训练, 其中: 在训练过程中设置有不断迭代的内循环和外循环, 所述外循环用于进行神经网络模型 的参数的迭代, 包括两次加权和的权 重; 所述内循环用于推进当前运营时间段t; 在每一次内循环完成, 比较当前神经网络模型输出的奖励函数和真实决策带来的实际 成本的差异, 以对所述两次加权和的权 重进行校正。 7.根据权利要求6所述的基于导师学生制框架的车船资源动态调度方法, 其特征在于, 所述离线训练过程具体包括: 步骤S610, 获取 预设的迭代次数阈值M和运营时间段阈值T; 步骤S620, 判断当前迭代次数m是否小于所述迭代次数阈值M, 如果是, 则执行以下步骤 S630~步骤S670; 否则执 行以下步骤S680; 步骤S630, 在初始运营时间段t=0时, 初始化所述神经网络模型中的环境状态、 动作和 奖励函数之间的关系; 步骤S640, 判断当前运营时间段t是否小于所述运营时间段阈值T, 如果是, 则执行以下 步骤S650~步骤S6 60; 否则执 行以下步骤S670; 步骤S650, 将 当前运营 时间段t推进至下一个运营 时间段t+1, 获得该运营 时间段t+1内 的指导策略和预期成本, 根据该 预期成本优化该运营时间段t+1内的指导策略; 步骤S660, 更新所述神经网络模型中的环境状态, 并获得实际成本; 步骤S670, 根据运营时间段阈值T下的预期成本和实际成本, 更新所述神经网络模型中 的环境状态、 动作和奖励函数之间的关系, 并将当前迭代次数m推进至下一个迭代次数m+1; 步骤S680, 离线训练结束, 输出最新的神经网络模型中的环境状态、 动作和奖励函数之 间的关系。 8.根据权利要求6所述的基于导师学生制框架的车船资源动态调度方法, 其特征在于, 所述真实决策 带来的实际成本根据以下 方式模拟得 出: 建立一个仿真器来模拟所述待调度资源的运营规划过程, 在该仿真器 中, 设置N辆随机权 利 要 求 书 2/6 页 3 CN 115545484 A 3

PDF文档 专利 基于导师学生制框架的车船资源动态调度方法及系统

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于导师学生制框架的车船资源动态调度方法及系统 第 1 页 专利 基于导师学生制框架的车船资源动态调度方法及系统 第 2 页 专利 基于导师学生制框架的车船资源动态调度方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:25:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。