(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211254835.0 (22)申请日 2022.10.13 (71)申请人 北京云迹科技股份有限公司 地址 100089 北京市海淀区北四环西路67 号7层702室 (72)发明人 兰婷婷 支涛  (74)专利代理 机构 北京嘉科知识产权代理事务 所(特殊普通 合伙) 11687 专利代理师 杨超 (51)Int.Cl. G06Q 10/06(2012.01) G06N 20/00(2019.01) (54)发明名称 基于强化学习的机器人自动选择电梯的方 法及装置 (57)摘要 本公开涉及机器人技术领域, 提供了一种基 于强化学习的机器人自动选择电梯的方法及装 置。 该方法包括: 获取目标机器人在当前时刻对 应的择梯相关信息; 基于择梯相关信息, 利用择 梯模型的近似值函数计算目标机器人乘坐每一 部电梯的近似值; 基于目标机器人乘 坐每部电梯 的近似值, 通过择梯模型为目标机器人选择最优 电梯; 在为目标机器人选择最优电梯之后, 利用 奖励值函数计算本次为目标机器人选择最优电 梯的奖励值; 根据奖励值和本次为目标机器人选 择的最优电梯的近似值, 利用择梯模 型的损失值 函数计算本次为目标机器人选择最优电梯所对 应的损失值, 并通过损失值更新近似值函数的参 数, 以为下一次目标机器人选择最优电梯提供支 持。 权利要求书2页 说明书7页 附图2页 CN 115330276 A 2022.11.11 CN 115330276 A 1.一种基于强化学习的机器人自动选择电梯的方法, 其特 征在于, 包括: 获取目标机器人在当前时刻对应的择梯相关信息; 基于所述择梯相关信 息, 利用择梯模型的近似值函数计算所述目标机器人乘坐每一部 电梯的近似值; 基于所述目标机器人乘坐每部电梯的近似值, 通过所述择梯模型为所述目标机器人选 择最优电梯; 在为所述目标机器人选择最优电梯之后, 利用奖励值函数计算本次为所述目标机器人 选择最优电梯的奖励值; 根据所述奖励值和本次为所述目标机器人选择的最优电梯的近似值, 利用所述择梯模 型的损失值函数计算本次为所述目标机器人选择最优电梯所对应的损失值, 并通过所述损 失值更新所述近似值 函数的参数, 以为下一次目标机器人选择最优电梯提供支持。 2.根据权利要求1所述的方法, 其特征在于, 所述择梯相关信 息, 包括: 各部电梯的运行 状态、 所述目标机器人的状态和时间信息; 每部电梯的运行状态, 包括: 电梯所在楼层、 电梯 当前的速度和电梯当前的方向和电梯 当前梯内人 数; 所述目标机器人的状态, 包括: 所述目标机器人的起始位置和目标位置、 所述目标机器 人的机器人参数; 所述时间信息, 包括: 不同时间段内各部电梯的使用频率、 不同时间段内各部电梯运行 状态以及不同时间段内各部电梯内的人 数。 3.根据权利要求1所述的方法, 其特 征在于, 所述奖励值 函数为: 其中, R为所述奖励值, Tac为当前时刻所述目标机器人从起始位置到目标位置所需的平 均时间, T1为所述目标机器人从所述起始位置出发到电梯所需的时间, T2为所述目标机器人 乘电梯到所述目标位置所需的时间, α 为预设的权 重参数。 4.根据权利要求1所述的方法, 其特征在于, 所述基于所述目标机器人乘坐每部电梯的 近似值, 通过 所述择梯模型为所述目标机器人选择最优电梯之后, 所述方法还 包括: 在所述目标机器人从起始位置开始并通过选择的最优电梯到达目标位置之后, 根据 所 述目标机器人从所述起始位置到达所述目标位置所花费 的时长, 利用所述奖励值函数计算 本次为所述目标机器人选择最优电梯的奖励值; 根据所述奖励值和本次为所述目标机器人选择的最优电梯的近似值, 利用所述择梯模 型的损失值函数计算本次为所述目标机器人选择最优电梯所对应的损失值, 并通过所述损 失值更新所述近似值 函数的参数, 以为下一次目标机器人选择最优电梯提供支持。 5.根据权利要求1所述的方法, 其特 征在于, 所述损失值 函数为: 其中, s为所述择梯相关信息, a  为所述目标机器人从起始位置到达所选择的最优电梯 的过程中所述目标机器人的动作, θ 为 所述近似值函数的参 数, 为所述近似值,权 利 要 求 书 1/2 页 2 CN 115330276 A 2R为所述奖励值, E[  ]为求数学期望的函数。 6.根据权利要求1所述的方法, 其特征在于, 所述基于所述目标机器人乘坐每部电梯的 近似值, 通过 所述择梯模型为所述目标机器人选择最优电梯之后, 所述方法还 包括: 当所述目标机器人到 达所选择的最优电梯时, 更新所述择梯相关信息; 基于更新后的择梯相关信 息, 通过所述择梯模型判断所述目标机器人是否 需要更换所 述最优电梯。 7.根据权利要求1所述的方法, 其特 征在于, 包括: 当所述目标机器人从起始位置到目标位置且需要乘电梯时, 为所述目标机器人规划任 务如下: 第一导航任务, 为所述目标机器人从所述 起始位置 到电梯提供导 航; 择梯决策任务, 根据所述择梯相关信息为所述目标机器人选择最优电梯; 感知任务, 通过判断电梯的开关, 确定所述目标机器人进入电梯的时机和出电梯的时 机; 第二导航任务, 为所述目标机器人从电梯到所述目标位置提供导 航。 8.一种基于强化学习的机器人自动选择电梯的装置, 其特 征在于, 包括: 获取模块, 被 配置为获取目标机器人在当前时刻对应的择梯相关信息; 第一计算模块, 被配置为基于所述择梯相关信息, 利用择梯模型的近似值函数计算所 述目标机器人乘坐每一部电梯的近似值; 择梯模块, 被配置为基于所述目标机器人乘坐每部电梯的近似值, 通过所述择梯模型 为所述目标机器人选择最优电梯; 第二计算模块, 被配置为在为所述目标机器人选择最优电梯之后, 利用奖励值函数计 算本次为所述目标机器人选择最优电梯的奖励值; 更新模块, 被配置为根据所述奖励值和本次为所述目标机器人选择的最优电梯的近似 值, 利用所述择梯 模型的损失值函数计算本次为所述目标机器人选择最优电梯所对应的损 失值, 并通过所述损失值更新所述近似值函数 的参数, 以为下一次目标机器人选择最优电 梯提供支持。 9.一种电子设备, 包括存储器、 处理器以及存储在所述存储器中并且可在所述处理器 上运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1至 7中任一项所述方法的步骤。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处 理器执行时实现如权利要求1至7中任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 115330276 A 3

PDF文档 专利 基于强化学习的机器人自动选择电梯的方法及装置

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于强化学习的机器人自动选择电梯的方法及装置 第 1 页 专利 基于强化学习的机器人自动选择电梯的方法及装置 第 2 页 专利 基于强化学习的机器人自动选择电梯的方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:25:12上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。