国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211254835.0 (22)申请日 2022.10.13 (71)申请人 北京云迹科技股份有限公司 地址 100089 北京市海淀区北四环西路67 号7层702室 (72)发明人 兰婷婷 支涛 (74)专利代理 机构 北京嘉科知识产权代理事务 所(特殊普通 合伙) 11687 专利代理师 杨超 (51)Int.Cl. G06Q 10/06(2012.01) G06N 20/00(2019.01) (54)发明名称 基于强化学习的机器人自动选择电梯的方 法及装置 (57)摘要 本公开涉及机器人技术领域, 提供了一种基 于强化学习的机器人自动选择电梯的方法及装 置。 该方法包括: 获取目标机器人在当前时刻对 应的择梯相关信息; 基于择梯相关信息, 利用择 梯模型的近似值函数计算目标机器人乘坐每一 部电梯的近似值; 基于目标机器人乘 坐每部电梯 的近似值, 通过择梯模型为目标机器人选择最优 电梯; 在为目标机器人选择最优电梯之后, 利用 奖励值函数计算本次为目标机器人选择最优电 梯的奖励值; 根据奖励值和本次为目标机器人选 择的最优电梯的近似值, 利用择梯模 型的损失值 函数计算本次为目标机器人选择最优电梯所对 应的损失值, 并通过损失值更新近似值函数的参 数, 以为下一次目标机器人选择最优电梯提供支 持。 权利要求书2页 说明书7页 附图2页 CN 115330276 A 2022.11.11 CN 115330276 A 1.一种基于强化学习的机器人自动选择电梯的方法, 其特 征在于, 包括: 获取目标机器人在当前时刻对应的择梯相关信息; 基于所述择梯相关信 息, 利用择梯模型的近似值函数计算所述目标机器人乘坐每一部 电梯的近似值; 基于所述目标机器人乘坐每部电梯的近似值, 通过所述择梯模型为所述目标机器人选 择最优电梯; 在为所述目标机器人选择最优电梯之后, 利用奖励值函数计算本次为所述目标机器人 选择最优电梯的奖励值; 根据所述奖励值和本次为所述目标机器人选择的最优电梯的近似值, 利用所述择梯模 型的损失值函数计算本次为所述目标机器人选择最优电梯所对应的损失值, 并通过所述损 失值更新所述近似值 函数的参数, 以为下一次目标机器人选择最优电梯提供支持。 2.根据权利要求1所述的方法, 其特征在于, 所述择梯相关信 息, 包括: 各部电梯的运行 状态、 所述目标机器人的状态和时间信息; 每部电梯的运行状态, 包括: 电梯所在楼层、 电梯 当前的速度和电梯当前的方向和电梯 当前梯内人 数; 所述目标机器人的状态, 包括: 所述目标机器人的起始位置和目标位置、 所述目标机器 人的机器人参数; 所述时间信息, 包括: 不同时间段内各部电梯的使用频率、 不同时间段内各部电梯运行 状态以及不同时间段内各部电梯内的人 数。 3.根据权利要求1所述的方法, 其特 征在于, 所述奖励值 函数为: 其中, R为所述奖励值, Tac为当前时刻所述目标机器人从起始位置到目标位置所需的平 均时间, T1为所述目标机器人从所述起始位置出发到电梯所需的时间, T2为所述目标机器人 乘电梯到所述目标位置所需的时间, α 为预设的权 重参数。 4.根据权利要求1所述的方法, 其特征在于, 所述基于所述目标机器人乘坐每部电梯的 近似值, 通过 所述择梯模型为所述目标机器人选择最优电梯之后, 所述方法还 包括: 在所述目标机器人从起始位置开始并通过选择的最优电梯到达目标位置之后, 根据 所 述目标机器人从所述起始位置到达所述目标位置所花费 的时长, 利用所述奖励值函数计算 本次为所述目标机器人选择最优电梯的奖励值; 根据所述奖励值和本次为所述目标机器人选择的最优电梯的近似值, 利用所述择梯模 型的损失值函数计算本次为所述目标机器人选择最优电梯所对应的损失值, 并通过所述损 失值更新所述近似值 函数的参数, 以为下一次目标机器人选择最优电梯提供支持。 5.根据权利要求1所述的方法, 其特 征在于, 所述损失值 函数为: 其中, s为所述择梯相关信息, a 为所述目标机器人从起始位置到达所选择的最优电梯 的过程中所述目标机器人的动作, θ 为 所述近似值函数的参 数, 为所述近似值,权 利 要 求 书 1/2 页 2 CN 115330276 A 2R为所述奖励值, E[ ]为求数学期望的函数。 6.根据权利要求1所述的方法, 其特征在于, 所述基于所述目标机器人乘坐每部电梯的 近似值, 通过 所述择梯模型为所述目标机器人选择最优电梯之后, 所述方法还 包括: 当所述目标机器人到 达所选择的最优电梯时, 更新所述择梯相关信息; 基于更新后的择梯相关信 息, 通过所述择梯模型判断所述目标机器人是否 需要更换所 述最优电梯。 7.根据权利要求1所述的方法, 其特 征在于, 包括: 当所述目标机器人从起始位置到目标位置且需要乘电梯时, 为所述目标机器人规划任 务如下: 第一导航任务, 为所述目标机器人从所述 起始位置 到电梯提供导 航; 择梯决策任务, 根据所述择梯相关信息为所述目标机器人选择最优电梯; 感知任务, 通过判断电梯的开关, 确定所述目标机器人进入电梯的时机和出电梯的时 机; 第二导航任务, 为所述目标机器人从电梯到所述目标位置提供导 航。 8.一种基于强化学习的机器人自动选择电梯的装置, 其特 征在于, 包括: 获取模块, 被 配置为获取目标机器人在当前时刻对应的择梯相关信息; 第一计算模块, 被配置为基于所述择梯相关信息, 利用择梯模型的近似值函数计算所 述目标机器人乘坐每一部电梯的近似值; 择梯模块, 被配置为基于所述目标机器人乘坐每部电梯的近似值, 通过所述择梯模型 为所述目标机器人选择最优电梯; 第二计算模块, 被配置为在为所述目标机器人选择最优电梯之后, 利用奖励值函数计 算本次为所述目标机器人选择最优电梯的奖励值; 更新模块, 被配置为根据所述奖励值和本次为所述目标机器人选择的最优电梯的近似 值, 利用所述择梯 模型的损失值函数计算本次为所述目标机器人选择最优电梯所对应的损 失值, 并通过所述损失值更新所述近似值函数 的参数, 以为下一次目标机器人选择最优电 梯提供支持。 9.一种电子设备, 包括存储器、 处理器以及存储在所述存储器中并且可在所述处理器 上运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1至 7中任一项所述方法的步骤。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处 理器执行时实现如权利要求1至7中任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 115330276 A 3
专利 基于强化学习的机器人自动选择电梯的方法及装置
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:25:12
上传分享
举报
下载
原文档
(497.4 KB)
分享
友情链接
GB-T 2315-2017 电力金具标称破坏载荷系列及连接型式尺寸.pdf
T-CES 138—2022 风电功率概率预测技术要求.pdf
GB-T 10001.1-2023 公共信息图形符号 第1部分:通用符号.pdf
T-SSITS 503—2022 工业应用移动机器人 复合机器人技术规范.pdf
GB-T 42461-2023 信息安全技术 网络安全服务成本度量指南.pdf
DB11-T 2046.2-2022 智慧停车系统技术要求 第2部分:停车场(库)外场设备 北京市.pdf
YD-T 4060-2022 云计算安全责任共担模型.pdf
GB-T 5751-2009 中国煤炭分类.pdf
中国电信 云网运营自智白皮书 2022.pdf
GB-T 42869-2023 机械产品三维模型简化与轻量化要求.pdf
GA 1800.1-2021 电力系统治安反恐防范要求 第1部分:电网企业.pdf
DB12-T 1220-2023 固定资产投资项目节能后评价规范 天津市.pdf
DB52-T 1124-2016 政府数据资源目录 第1部分:元数据描述规范 贵州省.pdf
DB34-T 3264-2018 公路泥岩路基施工及质量检验评定规范 安徽省.pdf
GBT 40861-2021 汽车信息安全通用技术要求.pdf
GB-T 32921-2016 信息安全技术 信息技术产品供应方行为安全准则.pdf
专利 一种知识图谱更新方法、装置、设备及存储介质.PDF
GB-T 36627-2018 信息安全技术 网络安全等级保护测试评估技术指南.pdf
禁止进口限制进口技术管理办法.pdf
GB-T 29716.2-2018 机械振动与冲击 信号处理 第2部分:傅里叶变换分析的时域窗.pdf
1
/
12
评价文档
赞助2.5元 点击下载(497.4 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。