专利基于强化学习的机器人自动选择电梯的方法及装置 -在线下载 -pdf文件-ip.atghost.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211254835.0 (22)申请日 2022.10.13 (71)申请人北京云迹科技股份有限公司地址 100089 北京市海淀区北四环西路67 号7层702室 (72)发明人兰婷婷　支涛　 (74)专利代理机构北京嘉科知识产权代理事务所(特殊普通合伙) 11687 专利代理师杨超 (51)Int.Cl. G06Q 10/06(2012.01) G06N 20/00(2019.01) (54)发明名称基于强化学习的机器人自动选择电梯的方法及装置 (57)摘要本公开涉及机器人技术领域，提供了一种基于强化学习的机器人自动选择电梯的方法及装置。该方法包括：获取目标机器人在当前时刻对应的择梯相关信息；基于择梯相关信息，利用择梯模型的近似值函数计算目标机器人乘坐每一部电梯的近似值；基于目标机器人乘坐每部电梯的近似值，通过择梯模型为目标机器人选择最优电梯；在为目标机器人选择最优电梯之后，利用奖励值函数计算本次为目标机器人选择最优电梯的奖励值；根据奖励值和本次为目标机器人选择的最优电梯的近似值，利用择梯模型的损失值函数计算本次为目标机器人选择最优电梯所对应的损失值，并通过损失值更新近似值函数的参数，以为下一次目标机器人选择最优电梯提供支持。权利要求书2页说明书7页附图2页 CN 115330276 A 2022.11.11 CN 115330276 A 1.一种基于强化学习的机器人自动选择电梯的方法，其特征在于，包括：获取目标机器人在当前时刻对应的择梯相关信息；基于所述择梯相关信息，利用择梯模型的近似值函数计算所述目标机器人乘坐每一部电梯的近似值；基于所述目标机器人乘坐每部电梯的近似值，通过所述择梯模型为所述目标机器人选择最优电梯；在为所述目标机器人选择最优电梯之后，利用奖励值函数计算本次为所述目标机器人选择最优电梯的奖励值；根据所述奖励值和本次为所述目标机器人选择的最优电梯的近似值，利用所述择梯模型的损失值函数计算本次为所述目标机器人选择最优电梯所对应的损失值，并通过所述损失值更新所述近似值函数的参数，以为下一次目标机器人选择最优电梯提供支持。 2.根据权利要求1所述的方法，其特征在于，所述择梯相关信息，包括：各部电梯的运行状态、所述目标机器人的状态和时间信息；每部电梯的运行状态，包括：电梯所在楼层、电梯当前的速度和电梯当前的方向和电梯当前梯内人数；所述目标机器人的状态，包括：所述目标机器人的起始位置和目标位置、所述目标机器人的机器人参数；所述时间信息，包括：不同时间段内各部电梯的使用频率、不同时间段内各部电梯运行状态以及不同时间段内各部电梯内的人数。 3.根据权利要求1所述的方法，其特征在于，所述奖励值函数为：其中， R为所述奖励值， Tac为当前时刻所述目标机器人从起始位置到目标位置所需的平均时间， T1为所述目标机器人从所述起始位置出发到电梯所需的时间， T2为所述目标机器人乘电梯到所述目标位置所需的时间， α 为预设的权重参数。 4.根据权利要求1所述的方法，其特征在于，所述基于所述目标机器人乘坐每部电梯的近似值，通过所述择梯模型为所述目标机器人选择最优电梯之后，所述方法还包括：在所述目标机器人从起始位置开始并通过选择的最优电梯到达目标位置之后，根据所述目标机器人从所述起始位置到达所述目标位置所花费的时长，利用所述奖励值函数计算本次为所述目标机器人选择最优电梯的奖励值；根据所述奖励值和本次为所述目标机器人选择的最优电梯的近似值，利用所述择梯模型的损失值函数计算本次为所述目标机器人选择最优电梯所对应的损失值，并通过所述损失值更新所述近似值函数的参数，以为下一次目标机器人选择最优电梯提供支持。 5.根据权利要求1所述的方法，其特征在于，所述损失值函数为：其中， s为所述择梯相关信息， a 为所述目标机器人从起始位置到达所选择的最优电梯的过程中所述目标机器人的动作， θ 为所述近似值函数的参数，为所述近似值，权　利　要　求　书 1/2 页 2 CN 115330276 A 2R为所述奖励值， E[ ]为求数学期望的函数。 6.根据权利要求1所述的方法，其特征在于，所述基于所述目标机器人乘坐每部电梯的近似值，通过所述择梯模型为所述目标机器人选择最优电梯之后，所述方法还包括：当所述目标机器人到达所选择的最优电梯时，更新所述择梯相关信息；基于更新后的择梯相关信息，通过所述择梯模型判断所述目标机器人是否需要更换所述最优电梯。 7.根据权利要求1所述的方法，其特征在于，包括：当所述目标机器人从起始位置到目标位置且需要乘电梯时，为所述目标机器人规划任务如下：第一导航任务，为所述目标机器人从所述起始位置到电梯提供导航；择梯决策任务，根据所述择梯相关信息为所述目标机器人选择最优电梯；感知任务，通过判断电梯的开关，确定所述目标机器人进入电梯的时机和出电梯的时机；第二导航任务，为所述目标机器人从电梯到所述目标位置提供导航。 8.一种基于强化学习的机器人自动选择电梯的装置，其特征在于，包括：获取模块，被配置为获取目标机器人在当前时刻对应的择梯相关信息；第一计算模块，被配置为基于所述择梯相关信息，利用择梯模型的近似值函数计算所述目标机器人乘坐每一部电梯的近似值；择梯模块，被配置为基于所述目标机器人乘坐每部电梯的近似值，通过所述择梯模型为所述目标机器人选择最优电梯；第二计算模块，被配置为在为所述目标机器人选择最优电梯之后，利用奖励值函数计算本次为所述目标机器人选择最优电梯的奖励值；更新模块，被配置为根据所述奖励值和本次为所述目标机器人选择的最优电梯的近似值，利用所述择梯模型的损失值函数计算本次为所述目标机器人选择最优电梯所对应的损失值，并通过所述损失值更新所述近似值函数的参数，以为下一次目标机器人选择最优电梯提供支持。 9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求 1至 7中任一项所述方法的步骤。 10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 115330276 A 3

专利 基于强化学习的机器人自动选择电梯的方法及装置

专利基于强化学习的机器人自动选择电梯的方法及装置