(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110646077.6
(22)申请日 2021.06.10
(65)同一申请的已公布的文献号
申请公布号 CN 113283013 A
(43)申请公布日 2021.08.20
(73)专利权人 北京邮电大 学
地址 100876 北京市海淀区西土城路10号
(72)发明人 赵东 马华东 曹铭喆 丁立戈
(74)专利代理 机构 北京挺立专利事务所(普通
合伙) 11265
专利代理师 高福勇
(51)Int.Cl.
G06F 30/15(2020.01)
G06F 30/27(2020.01)
G06Q 10/04(2012.01)G06Q 10/06(2012.01)
G06Q 50/06(2012.01)
G06N 20/00(2019.01)
G06F 111/08(2020.01)
(56)对比文件
CN 110488861 A,2019.1 1.22
CN 111752304 A,2020.10.09
CN 108846522 A,2018.1 1.20
CN 108846522 A,2018.1 1.20
US 2020372410 A1,2020.1 1.26
Jinwei Xu 等. “RF Aerialy C harging
Scheduling for UA V Fleet: A Q-Learn ing
Approach”. 《2019 15th I nternati onal
Conference o n Mobile Ad-hoc and Sensor
Networks》 .2019,194-19 9.
审查员 马晓宇
(54)发明名称
一种基于深度强化学习的多无人机充电及
任务调度方法
(57)摘要
一种基于深度强化学习的多无人机充电及
任务调度方法涉及无人机调度技术领域, 解决了
现有没有考虑充电站的负载和无人机的充电策
略对任务调度的影响的问题, 方法为: 根据待执
行任务和充电站的负载、 通过深度强化学习模型
对可调度无人机进行调度; 待无人机执行任务
后, 根据未执行任务的数量、 可调度无人机数量
和无人机剩余电量对停留在充电站上的待充电
无人机进行充电。 本发明有效解决了多无人机充
电及任务调度需要优化提高的问题, 能够在保证
无人机不会能量耗尽的前提下, 实现最小化执行
任务总体时间的目标, 最终得到各个无人机的调
度序列, 从而能够让相应的多无人机从出发点出
发按顺序遍历这些任务点, 并在对应的充电站进
行自适应充电。
权利要求书2页 说明书5页
CN 113283013 B
2022.07.19
CN 113283013 B
1.一种基于深度强化学习的多无 人机充电及任务调度方法, 其特 征在于,
根据待执 行任务和充电站的负载、 通过深度强化学习模型对可调度无 人机进行调度;
待无人机执行任务后, 根据未执行任务的数量、 可调度无人机数量和无人机剩余电量
对停留在充电站上的待 充电无人机进行充电;
所述调度方法的具体过程 为:
步骤一、 无人机调度模块根据所有待执行任务和充电站 的负载、 通过深度强化学习模
型对可调度无 人机进行调度, 所述无 人机调度模块上 载有训练好的深度强化学习模型;
步骤二、 待无人机执行任务后, 充电站判断所有待执行任务是否完成, 如未完成, 则充
电站根据未执行任务的数量、 可调 度无人机数量和无人机剩余电量对待充电无人机进 行充
电, 进行步骤三; 如已完成, 则充电站对其上 所有待充电无人机进行充电, 调度完成;
步骤三、 无人机调度模块根据未执行任务和充电站 的负载、 通过深度强化学习模型对
可调度无 人机进行调度, 返回步骤二;
所述深度强化学习模型的建立过程 为:
深度强化学习模型建模为一个由五元组<S,A,P,R,γ>表示的马尔可夫决策过程, 其中
S为状态空间, A为动作空间, P为状态转移 矩阵; R为即时奖励函数, γ为 折扣因子;
调度策略为π(a|s)=P[at=a|st=s], st表示时隙t时的状态, at表示状态st时对应的动
作, P[at=a|st=s]表示在状态s时选择动作a的概 率;
根据 π 能够得到动作at的长期收益Ut,
其中rt+m表示时隙t+m 时采取动
作at+m的即时奖励, m=t、 t+1、 …、 T, T表示 最后一个时隙;
在状态st时根据 π采取动作at的最大长期收益 为
Q(st,at)=maxπEπ[Ut|st,at]
其中, Eπ[Ut|st,at]表示在状态st时根据策略π采取动作at的长期收益;
根据Q(st,at), 得到在状态st下的具有最大长期收益的动作
其中, Q(st,a)为在状态st时选择动作a的预期未来获得的累计奖励的大小;
得到
则基础建模完成, 在得到
后无人机调度模块对基础建模进行进一步优化, 得
到最终的建模 模型, 所述无 人机调度模块对基础建模进行进一 步优化具体包括如下步骤:
设定动作有效性因子G(at)表示动作at是否满足能量约束的要求, 其取值定义如下:
根据G(at)和
得到引入动作有效因子G(at)的最优策略为:
然后对马尔可夫决策过程的状态S、 动作A和奖励R进行具体的设计, 所述马尔可夫决策
过程的状态 空间S为: 设充电站集合C={c1, c2, ..., cJ}, 任务集合D={d1, d2, ..., dK}, 无人权 利 要 求 书 1/2 页
2
CN 113283013 B
2机群U={ u1, u2, ..., uI}, ui表示无人机群中第i个无人机, 各无人机可进行调度的时刻T'=
[t1,t2,…,tI], ti表示无人机ui的可调度时间; 在无人机ui的可调度时间ti, ui的状态
表示各任务的位置和完成状态、 除无人机ui外其他无人机的位置和剩
余电量、 充电站位置和停靠的无人机数量;
表示无人机ui的位置和剩余电量、 无人机ui
与各个任务的相对距离、 无 人机ui与各个充电站的相对距离;
所述马尔可夫决策过程的动作A为: 动作描述无人机可以去哪里执行任务或者充电, A
={c1, c2, ..., cJ, d1, d2, ..., dK};
所述马尔可夫决策过程的奖励R为: 在状态
采取动作a后并转移到下一个状态, 无人
机ui获得一个即时奖励
当动作a是一个任务时, x=1, y=0, 否则x=0, y=1; β 表示当动作 a使得无人机电量耗
尽时的惩罚,
是无人机ui与各个任务的相对距离,
即无人机ui与相距最近任
务之间的距离,
是无人机ui与动作a对应的任务之间的距离,
是无人机ui与各个充
电站的相对距离,
即无人机ui与相距最远充电站之间的距离,
是无人机ui
与动作a对应 的充电站之间的距离,
是各个充电站停靠 的无人机数量,
即各
个充电站所停靠无人机数量中的最大值,
是停靠在动作a对应的充电站的无人机的
数量;
以训练好的
作为深度强化学习模型对无人机进行调度, 具体为: 所述无人机调度模
块根据任务、 无人机群U的可调度时刻T', 通过训练好的
按照时序规划无人机的访问任
务点的动作和返回充电站的动作, 直到 完成所有任务;
所述充电站对待充电无人机进行充电的具体方法为: 当剩余任务数量小于可调度 无人
机数量时, 充电站为待充电的可调度无人机充满电, 且充电站对待充电的无人机中剩余电
量最多的无人机优先进行充电; 当剩余任务数量大于等于可调度无人机数量时, 充电站为
待充电的无人机充电到其 足够完成最近的任务并返航的电量, 且充电站对待充电的无人机
中剩余电量 最多的无 人机优先进行充电;
当剩余任务数量大于等于可调度的无人机数量 时, 所述充电站为待充电的无人机充电
的充电电量e为
其中, v为当前待充电的无人机的飞行速度, P'为当前待充电的无人机的飞行功率, e
(dn)为当前待 充电的无 人机完成相距最近任务dn的能耗, ei为当前无人机ui的剩余电量。权 利 要 求 书 2/2 页
3
CN 113283013 B
3
专利 一种基于深度强化学习的多无人机充电及任务调度方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:54:15上传分享