(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211256537.5
(22)申请日 2022.10.14
(71)申请人 青岛慧拓智能机 器有限公司
地址 266000 山东省青岛市高新 技术产业
开发区火炬路100号盘谷创客空间D座
206-1房间
(72)发明人 张晓彤 史磊石 张振良
(74)专利代理 机构 北京中强智尚知识产权代理
有限公司 1 1448
专利代理师 陈宇楠
(51)Int.Cl.
G06Q 10/04(2012.01)
G06Q 10/06(2012.01)
G06Q 50/02(2012.01)
G06K 9/62(2022.01)
(54)发明名称
矿车调度模型训练方法、 装置、 芯片、 终端、
设备及介质
(57)摘要
本发明公开了一种矿 车调度模 型训练方法、
装置、 芯片、 终端、 设备及介质, 涉及车辆调度及
智慧矿山技术领域。 其中, 所述方法应用于矿车
调度模型训练装置中, 该装置包括调度智能体和
交互环境, 交互环境包括仿真系统和人工系统,
该方法包括: 根据仿真系统中的矿区生产信息和
人工系统中的时间节点信息, 生成调度状态信
息; 根据调度状态信息, 在调度指令集合中选取
目标调度指令, 将目标调度指令发送至仿真系
统; 通过混合奖励函数, 基于矿区生产信息和时
间节点信息, 生成目标调度指令的动作奖励; 根
据矿区产量信息, 计算智 能体性能指标, 在智能
体性能指标达到预设条件时, 结束矿 车调度模型
的训练。 上述方法能够提高奖励获取的及时性,
降低训练时间成本 。
权利要求书4页 说明书17页 附图6页
CN 115330095 A
2022.11.11
CN 115330095 A
1.一种矿车调度模型训练方法, 应用于矿车调度模型训练装置 中, 其特征在于, 所述矿
车调度模型训练装置包括调度智能体和交互环境, 所述交互环境包括仿真系统和人工系
统, 所述方法包括:
S1: 获取所述仿真系统中的矿区生产信息和所述人工系统中的时间节点信息, 并根据
所述矿区生产信息和所述时间节点信息, 生成调度状态信息;
S2: 通过预设的强化学习算法, 根据所述调度状态信息, 在预设的调度指令集合中选取
出目标调度指令, 并将所述 目标调度指令发送至所述仿真系统, 以使所述仿真系统根据所
述目标调度指令更新所述矿区生产信息;
S3: 通过预设的混合奖励函数, 基于所述更新后的矿区生产信息和所述时间节点信息,
生成所述目标调 度指令的动作奖励, 应用所述动作奖励在所述调度指 令集合中选取优化后
的目标调度指 令, 重复执行步骤S1至步骤S 3, 不断选取优化后的目标调度指 令, 并将所述优
化后的目标调 度指令发送至所述仿 真系统, 以使 所述仿真系统根据所述优化后的目标调 度
指令更新所述矿区生产信息;
S4: 统计预设时间段内的所述仿真系统中的矿区产量信 息, 计算智能体性能指标, 并在
所述智能体性能指标达 到预设条件时, 结束矿车调度模型的训练。
2.根据权利要求1所述的方法, 其特征在于, 在所述获取所述仿真系统中的矿区生产信
息和所述人工系统中的时间节点信息之前, 所述方法还 包括:
在所述仿真系统中模拟生成所述矿区生产信息, 其中, 所述矿区生产信息包括仿真路
网信息、 至少一个仿 真装载设备、 每个所述仿 真装载设备的设备信息和设备状态、 至少一个
仿真卸载设备、 每个所述仿 真卸载设备的设备信息和设备状态、 至少一个仿 真矿车、 每个所
述仿真矿车的车辆信息和车辆状态、 以及每个所述仿真装载设备和每个所述仿 真卸载设备
之间的行驶时间中的至少一种信息;
在所述仿真系统中的仿真矿车发送车辆调度请求时, 根据所述矿区生产信息, 在所述
人工系统中生成针对所述仿真矿车 的时间节点信息, 其中, 所述时间节点信息包括所述调
度指令集合中的每个所述调 度指令对应的行驶时间、 每个所述调度指 令对应的预期等待时
间、 所述仿真系统中每个仿真装载设备 的剩余服务时间, 以及仿真系统中每个仿真卸 载设
备的剩余 服务时间中的至少一种信息 。
3.根据权利要求1或2所述的方法, 其特征在于, 所述获取所述仿真系统中的矿区生产
信息和所述人工系统中的时间节点信息, 并根据所述矿区生产信息和所述时间节点信息,
生成调度状态信息, 包括:
在所述仿真系统中的仿真矿车发送车辆调度请求 时, 获取所述仿真系统中的矿区生产
信息和所述人工系统中的时间节点信息, 其中, 所述车辆调度请求在所述仿真矿车 的车辆
状态更新 为装载完成状态或卸载完成状态时发送;
根据所述矿区生产信 息和所述人工系统中的时间节点信 息, 生成针对所述仿真矿车的
调度状态信息, 其中, 所述调度状态信息包括所述仿 真矿车的位置信息、 所述调 度指令集合
中的每个调度指令的动作可用性信息、 每个所述调度指令对应的行驶时间、 每个所述调度
指令对应的预期等待时间、 所述仿真系统中每个仿真装载设备的剩余服务时间和故障信
息, 以及仿真系统中每 个仿真卸载设备的剩余 服务时间和故障信息中的至少一种信息 。
4.根据权利要求3所述的方法, 其特征在于, 所述通过预设的强化学习算法, 根据所述权 利 要 求 书 1/4 页
2
CN 115330095 A
2调度状态信息, 在预设的调度指令集合中选取出目标调度指令, 并将所述 目标调度指令发
送至所述仿真系统, 以使所述仿真系统根据所述 目标调度指令更新所述矿区生产信息, 包
括:
针对所述调度指令集合中的每个调度指令, 通过预设的价值函数, 计算每个所述调度
指令在所述调度状态信息下 的价值数值, 其中, 所述调度指令由所述仿真矿车 的出发地和
目的地组成;
将数值最大的所述价值数值对应的调度指令确定为目标调度指令, 并将所述目标调度
指令发送至所述仿真系统中的仿真矿车中;
在所述仿真矿车 执行完成所述目标调度指令时, 更新所述矿区生产信息 。
5.根据权利要求4所述的方法, 其特征在于, 所述应用所述动作 奖励在所述调度指令集
合中选取优化后的目标调度指令, 包括:
根据所述目标调度指令的动作奖励, 对所述价值函数进行更新, 得到优化后的价值函
数, 应用所述优化后的价 值函数在所述调度指令集 合中选取优化后的目标调度指令 。
6.根据权利要求2所述的方法, 其特征在于, 所述混合奖励函数由人工奖励函数和仿真
奖励函数组成; 则所述通过预设的混合奖励函数, 基于所述更新后的矿区生产信息和所述
时间节点信息, 生成所述目标调度指令的动作奖励, 包括:
在所述时间节点信息中, 提取出所述目标调度指令对应的行驶时间和预期等待时间,
并根据所述行驶时间和所述预期等待时间之和, 得到所述目标调度指令对应的行程时间;
将所述目标调度指令对应的行程 时间输入至所述人工奖励函数中, 得到所述目标调度
指令的人工奖励值;
根据所述更新后的矿区生产信 息, 计算所述目标调度指令从执行开始至执行完成之间
的仿真装载设备利用率;
将所述仿真装载设备利用率输入至所述仿真奖励函数中, 得到所述目标调度指令的仿
真奖励值;
根据所述人工奖励值和所述仿真奖励值, 得到所述目标调度指令的动作奖励。
7.根据权利要求6所述的方法, 其特征在于, 所述根据所述人工奖励值和所述仿真奖励
值, 得到所述目标调度指令的动作奖励, 包括:
根据所述更新后的矿区生产信息, 计算智能体性能指标, 并根据 所述智能体性能指标,
确定人工奖励权 重系数;
根据所述人工奖励权重系数, 计算仿真奖励权重系数, 其中, 所述人工奖励权重系数和
所述仿真奖励权 重系数的和为预设值;
根据所述人工奖励权重系数与所述人工奖励值的乘积与所述仿真奖励权重系数与所
述仿真奖励值的乘积的和值, 得到所述目标调度指令的动作奖励。
8.根据权利要求7所述的方法, 其特征在于, 所述根据所述更新后的矿区生产信息, 计
算智能体性能指标, 并根据所述智能体性能指标, 确定人工奖励权 重系数, 包括:
在所述更新后的矿区生产信息中, 提取出预设时间段内的矿区产量信息, 并将所述预
设时间段内的矿区产量信息划分为多个子时间段内的矿区产量信息;
对所述多个子时间段内的矿区产量信息进行线性拟合, 得到性能指标拟合斜率, 并计
算所述多个子时间段内的矿区产量信息的平均值, 得到性能指标均值;权 利 要 求 书 2/4 页
3
CN 115330095 A
3
专利 矿车调度模型训练方法、装置、芯片、终端、设备及介质
文档预览
中文文档
28 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:25:11上传分享