(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202110847795.X
(22)申请日 2021.07.27
(71)申请人 北京理工大 学
地址 100081 北京市海淀区中关村南大街5
号
(72)发明人 赵乐 卢继华 冯立辉 闫磊
聂振钢 尹俪橦
(74)专利代理 机构 北京正阳理工知识产权代理
事务所(普通 合伙) 11639
代理人 张利萍
(51)Int.Cl.
G06F 30/23(2020.01)
G06F 30/27(2020.01)
G06F 119/02(2020.01)
(54)发明名称
一种基于上下文-MAB 的中继无人机路径规
划方法
(57)摘要
本发明涉及一种基于上下文 ‑MAB的中继无
人机路径规划方法, 属于基于强化学习的路径规
划技术领域。 所述方法, 先获取任务区域的用户
数据, 构建任务区域模型; 获取用户、 无人机与子
网格特征, 优化无人机与子网格特征权重矩阵,
得到无人机与子网格上下文特征; 而后对用户、
无人机与子网格进行聚类, 对无人机、 子网格特
征进行降维, 得到无人机与子网格降维特征; 随
后基于此进行上下文 ‑MAB推荐, 并依据用户分类
结果估计连接情况反馈值, 得到无人机路径; 所
述中继无人机路径规划方法, 有效减少了推荐目
标的数量; 减小了服务用户数目达到最大值需要
的无人机架次, 并提高了服务用户总数与平均收
益。
权利要求书4页 说明书12页 附图3页
CN 113919188 A
2022.01.11
CN 113919188 A
1.一种基于上 下文‑MAB的中继无 人机路径规划方法, 其特 征在于: 包括如下步骤:
步骤1、 划分任务区域并保存划分好的子网格位置信息, 初始化无 人机航行路径;
步骤2、 对用户、 无人机与子网格进行特征编码, 得到用户、 无人机与子网格的二进制特
征向量;
步骤3、 获取优化后的无 人机与子网格特 征的权重矩阵, 得到无 人机的交 互特征向量;
步骤3具体包括如下子步骤:
步骤3.1、 对无人机与子网格的二进制特征向量归一化, 得到无人机与子网格的归一化
特征向量;
步骤3.2、 基于步骤3.1得到的无人机与子网格的归一化特征向量建立目标函数并进行
优化, 获取优化后的无 人机与子网格特 征的权重矩阵;
步骤3.3、 获取无人机交互特征向量, 具体为: 无人机的归一化特征向量与优化后的无
人机与子网格特 征的权重矩阵融合得到无 人机交互特征向量;
步骤4、 对无人机交互特征向量进行特征降维, 得到降维交互特征向量, 具体包括: 确定
聚类中心, 对无 人机交互特征向量进行高斯核映射并归一 化; 具体包括如下子步骤:
步骤4.1、 对无人机交互特征向量进行K ‑means聚类, 得到无人机交互特征向量聚类中
心;
步骤4.2、 对步骤3得到的无人机交互特征向量进行高斯核映射, 得到无人机 映射距离
向量;
步骤4.3、 对无 人机映射距离向量归一 化, 得到降维交 互特征向量;
步骤5、 归一化步骤2得到的用户的二进制 特征向量, 并对用户进行K ‑means聚类, 得到
用户的聚类中心及用户簇;
步骤6、 根据步骤4得到的降维交互特征向量, 为执行任务的无人机推荐子网格, 保存无
人机路径; 具体包括如下子步骤:
步骤6.1、 获取每 个子网格的用户连网 效果收益的估计;
步骤6.2、 为执 行任务的无 人机推荐子网格, 作为该轮架次无 人机的任务区域;
其中, 各个用户连网效果 收益的估计通过步骤6.1得到, 在K2个子网格中选择用户连网
效果收益的估计最大的子网格
作为第t架次无人机的任务区域;
步骤6.3、 若用户连接情况可知, 更新反馈向量与训练矩阵, 若用户连接情况不可知, 则
根据步骤6.4估计用户的连接情况反馈值, 再 更新反馈向量与训练矩阵;
步骤6.4、 估计无人机在选中子网格内情况未知的用户的连接情况反馈值, 具体为: 计
算该子网格内各用户簇的平均连接情况反馈值, 得到该用户的连接情况反馈值;
步骤6.5、 保存无 人机路径, 具体为:
获取无人机任务中依次被 推荐的子网格集 合, 保存为该 无人机的航行路径;
至此, 完成了基于上 下文‑MAB的中继无 人机路径规划方法。
2.根据权利要求1所述的一种基于上下文 ‑MAB的中继无人机路径规划方法, 其特征在
于: 步骤1中, 任务区域即为空地网络的服务地域, 该区域被划分为K ×K个相等的子网格; 无
人机航行路径为 一列向量, 向量元 素是无人机服务过的子网格。
3.根据权利要求2所述的一种基于上下文 ‑MAB的中继无人机路径规划方法, 其特征在权 利 要 求 书 1/4 页
2
CN 113919188 A
2于: 步骤2、 具体为: 对用户、 无人机或子网格的特征按照大小分段, 对应分段的特征进行二
进制编码, 并将得到的二进制编码作为该特征对应的二进制特征向量, 连接不同特征所得
二进制编码得到 完整的二进制特 征向量;
其中, 用户特 征包括用户所在地理位置与用户终端收发功率;
无人机特征包括: 无人机电量、 无人机所在位置与 出发点距离、 无人机用户占有率以及
无人机传输功率;
子网格特征包括: 子网格 内用户数量、 子网格 内用户距离子网格中心距离、 子网格与出
发点距离及子网格用户连接率;
通过步骤2, 得到 了用户、 无 人机与子网格的二进制特 征向量。
4.根据权利要求3所述的一种基于上下文 ‑MAB的中继无人机路径规划方法, 其特征在
于: 步骤3.1中, 二进制特 征向量归一 化, 具体为: 特 征向量各 元素除以该向量的模值。
5.根据权利要求4所述的一种基于上下文 ‑MAB的中继无人机路径规划方法, 其特征在
于: 步骤3.2, 具体包括如下子步骤:
步骤3.2.1、 建立目标函数;
其中, 目标函数为式(3);
其中, W为无人机与子网格 特征的权重矩阵, 初 始化权重矩阵W为全 “1”矩阵;
为权重矩
阵的元素服从的高斯先验分布的方差, 即, 权重矩阵W的元素服从
||·||2为矩
阵·的L2范数; p(rij|sij)为在当前张量指示的参 考函数下交互数据rij的似然函数;
其中, rij为第i架无人机与第j个子网格的连接情况反馈值, 为维度为D ×C的交互矩阵r
中的第i行、 第 j列元素; 连接情况的集合表示为:
为根据不同特征
的无人机在不同特征的子网格提供服务时的连接效果得到的训练集, sij表示第i架无人机
与第j个子网格的加权特 征融合值, 计算为公式(4):
其中, xi|i∈[1,2,...,M]为第i架无人机的归一化特征向量;
为第j个子网格的归
一化特征向量;
步骤3.2.2、 对目标函数梯度下降优化, 得到优化后的无人机与子网格特征的权重矩阵
W。
6.根据权利要求5所述的一种基于上下文 ‑MAB的中继无人机路径规划方法, 其特征在
于: 步骤3.3中, 无人机交互特征为一种联合了子网格与无人机交互数据的无人机特征表
示, 通过式(5)得到,
其中,
为第i架无人机交互特征向量, 维度与参考函数中的zj一致, 为K2, W为步骤4.2
得到的优化后的无人机与子网格特征的权重矩阵, xi为步骤3.1得到的无人机的归一化特
征向量;
至此, 得到 了无人机交互特征向量。权 利 要 求 书 2/4 页
3
CN 113919188 A
3
专利 一种基于上下文-MAB的中继无人机路径规划方法
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:53:34上传分享