(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110582074.0
(22)申请日 2021.05.27
(65)同一申请的已公布的文献号
申请公布号 CN 113255218 A
(43)申请公布日 2021.08.13
(73)专利权人 电子科技大 学
地址 611731 四川省成 都市高新区 (西区)
西源大道 2006号
(72)发明人 胡杰 李雨婷 于秦 杨鲲
(74)专利代理 机构 成都虹盛汇泉专利代理有限
公司 51268
专利代理师 王伟
(51)Int.Cl.
G06F 30/27(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
H04W 4/38(2018.01)
H04W 16/22(2009.01)
H04W 28/02(2009.01)H04W 28/06(2009.01)
G06F 111/02(2020.01)
G06F 111/04(2020.01)
G06F 111/08(2020.01)
(56)对比文件
CN 111786713 A,2020.10.16
CN 112468205 A,2021.0 3.09
CN 112817327 A,2021.0 5.18
CN 112711271 A,2021.04.27
CN 110428115 A,2019.1 1.08
CN 110488861 A,2019.1 1.22
WO 2020079702 A1,2020.04.23
杨鲲 等.无线数能一体化 通信网络及其数
能联合接入 控制协议设计. 《吉林师 范大学学报
(自然科学版)》 .2019,第40卷(第1期),10 6-114.
伍芸荻.无人机通信系统中信息和能量传输
优化研究. 《中国优秀硕士学位 论文全文数据库
工程科技 Ⅱ辑》 .2019,(第8 期),C031-66. (续)
审查员 黄琦
(54)发明名称
无线自供电通信网络的无人机自主导航及
资源调度方法
(57)摘要
本发明公开了一种无线自供电通信网络的
无人机自主导航及资源调度方法, 包括以下步
骤: S1、 确定网络模型、 通信方式及信道模型; S2、
对下行无线功率传输和上行无线信息传输进行
建模, 并确定优化目标表达式及其约束条件; S3、
分析优化问题, 将优化问题建模为马尔科夫过
程; S4、 确定网络通信协议及无人机飞行决策模
型; S5、 定义神经网络输入状态、 无人机输出动作
以及奖励函数; S6、 根据深度强化学习算法求解
优化问题。 本发 明通过联合设计无线自供电通信
网络中无人机的飞行轨迹、 地面 设备的选择以及
与地面设备的通信模式三个部分, 不仅实现了对
地面多个设备的能量供应, 同时还兼顾了无线自供电通信网络中多个设备的平均数据量 最大化。
[转续页]
权利要求书2页 说明书7页 附图2页
CN 113255218 B
2022.05.31
CN 113255218 B
(56)对比文件
Jie Hu 等.Jo int Trajectory and
Scheduling Design for UA V Aided Secure
Backscat ter Communications. 《IEEE Wireless
Communications Letters》 .2020,第9卷(第12
期),2168-2172.Kai Li 等.Deep Reinforcement Learn ing
for Real-Time Trajectory Plan ning in UAV
Networks. 《2020 I nternati onal Wireless
Communications and Mobi le Computi ng
(IWCMC)》 .2020,958-96 3.2/2 页
2[接上页]
CN 113255218 B1.无线自供电通信网络的无人机自主导航及资源调度方法, 其特征在于, 包括以下步
骤:
S1、 确定网络模型、 通信方式及信道模型;
S2、 对下行无线功率传输和上行无线信息传输进行建模, 并确定优化目标表达式及其
约束条件;
S3、 分析优化问题, 将优化问题建模为马尔科 夫过程;
S4、 确定网络通信协议及无 人机飞行决策模型;
S5、 定义神经网络 输入状态、 无 人机输出动作以及奖励函数; 具体实现方法为:
S51、 确定网络状态集合: 定义网络状态为S={ei(t), ζi,q(t),hi(t)}, ei(t)表示覆盖范
围内t时刻第i个无源设备的电池电量等级, ζi表示无源设备i累 积上传数据量, q(t)表示无
人机在t时刻的位置, hi(t)表示无源设备i与无 人机在t时刻的信道增益;
S52、 确定输出的无人机动作集合A为: A={i, ρ(t), α(t),vUAV(t)}, 其中, ρ(t)表示无人
机的通信模式, ρ(t)=1表 示下行传输模式, ρ(t)=0表 示上行传输模; α(t)表 示无人机转向
角; vUAV(t)表示无 人机的飞行速度;
S53、 确定奖励机制: 定义奖励函数r=rdata+rpenalty,
表示网络平均数据量
的变化量, 一旦约束条件中的任一约束不满足时, 将执行相应的惩罚rpenalty, I表示无源设
备的总数量;
S6、 根据深度强化学习算法求 解优化问题; 具体包括以下分步骤:
S61、 初始化网络参数: 初始化所有的状态和动作对应的价值Q, 初始化当前神经网络的
所有参数ω, 目标神经网络的参数ω ′=ω, 清空经验回放的集 合D;
S62、 初始化st为当前状态, 得到当前状态的特 征向量φ(st);
S63、 在神经网络中使用φ(st)作为输入, 得到神经网络的所有状态对应的价值Q, 用 ε ‑
贪婪法在当前价 值Q中选择对应的动作at;
S64、 在状态st执行当前动作at, 得到新状态st+1, 以及新状态对应的特征向量φ(st+1)和
当前状态的奖励rt, 将{φ(st),at,rt,φ(st+1)}这个四元组存 入经验回放 集合D;
S65、 令t=t+1, 则st=st+1, 判断新状态st+1是否为终止飞行状态, 若否则返回步骤S63;
若是, 则继续判断迭代轮数t+1是否大于T, 若是, 则结束迭代, 反 之返回步骤S6 3;
S66、 从经验回放集合D中采样m个样本{φ(sj),aj,rj,φ(sj+1)},j=1,...,m, 根据以下
公式计算当前目标状态 ‑动作的价 值yj:
Q′(sj+1,aj+1; ω′)表示下一个状态的价值, 是通过目标神经网络计算得到的; γ表示折
扣因子;
S67、 计算均方差损失函数
通过神经网络的梯度反向传播来
更新神经网络的所有参数ω, 使得均方差损失函数最小化; yj表示在状态sj时通过S66的公权 利 要 求 书 1/2 页
2
CN 113255218 B
3
专利 无线自供电通信网络的无人机自主导航及资源调度方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:57:25上传分享