(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110769299.7
(22)申请日 2021.07.07
(65)同一申请的已公布的文献号
申请公布号 CN 113609755 A
(43)申请公布日 2021.11.05
(73)专利权人 中国科学院国家空间科 学中心
地址 100190 北京市海淀区中关村南 二条1
号
(72)发明人 张佳锋 马晓珊 杨震 彭晓东
唐文林 强丽娥 张玉珠 高辰
赵梦园
(74)专利代理 机构 北京方安思达知识产权代理
有限公司 1 1472
代理人 陈琳琳 李彪(51)Int.Cl.
G06F 30/27(2020.01)
G06N 20/00(2019.01)
(56)对比文件
CN 111241952 A,2020.0 6.05
CN 105093220 A,2015.1 1.25
CN 103513254 A,2014.01.15
CN 1024194 41 A,2012.04.18
段会宗.星间激光干涉测量 技术. 《中山大 学
学报》 .2021,162-17 7页.
王芸 等.空间应用激光干涉测距技 术发展
综述. 《航天返回与遥感》 .2021,68-78页.
张立华 等.空间引力波探测航天器系统及
平台技术. 《中山大 学学报》 .2021,12 9-137.
审查员 贾超
(54)发明名称
一种时序强化学习的星间激光干涉频率规
划仿真验证系统
(57)摘要
本发明公开了一种时序强化学习的星间激
光干涉频率规划仿真验证系统, 系统包括: 激光
干涉光学平台组、 存储组件和显示终端; 其中, 激
光干涉光学平台组包括六个结构相同的激光干
涉光学平台, 每两个平台为一对, 根据频率规划
方案实时调节激光的频率和相位, 并根据多普勒
干扰频率信息, 对入射激光进行频率移频, 以模
拟卫星在太空中由于多普勒现象所 发生的干扰;
所述存储组件, 用于存储预先建立和训练好的决
策模型, 由决策模型确定的频率规划方案, 对应
实验各个时刻的多普勒干扰频率信息, 并存储在
实验中所选择的频率规划方案; 决策模型采用时
序回溯式强化学习方法训练获得; 显示终端, 用
于实时显示多普勒干扰频率信息和激光拍频信
息。
权利要求书3页 说明书10页 附图4页
CN 113609755 B
2022.02.22
CN 113609755 B
1.一种时序强化学习的星 间激光干涉频率规划仿真验证系统, 用于对制定的星 间频率
规划方案进行仿真验证, 其特征在于, 所述系统包括: 激光干涉光学平台组、 存储组件和显
示终端; 其中,
所述激光干涉光学平台组包括六个结构相同的激光干涉光学平台, 每两个激光干涉光
学平台为一对, 用于模拟在同一卫星的两个光学平台, 根据存储组件提供 的频率规划方案
实时调节激光的频率和相位, 并根据存储组件提供 的指定时刻的多普勒干扰频率信息, 对
入射激光进行 频率移频, 以模拟卫星在太空时由于多普勒现象所发生的干扰;
所述存储组件, 用于存储预先建立和训练好的决策模型, 存储根据卫星轨道数据由决
策模型确定的频率规划方案, 用于存储对应仿真验证实验各个时刻的多普勒干扰频率信
息, 还用于存储在仿真验证实验过程中所选择 的频率规划方案; 所述决策模型采用时序回
溯式强化学习方法训练获得;
所述显示终端, 用于实时显示多普勒干扰频率信息和激光拍频信息;
所述六个结构相同的激光干涉光学平台按照逆时针方向设置, 分别为A1、 A2、 A3、 A4、 A5
和A6, 其中, A1与A6、 A2与A3以及A4与A5分别在一条直线上, 方 向相反, 形成一个三角环路;
A1与A2、 A3与A4以及A5与A6分别组成一对, 每对的两个激光干涉光学平台间的夹角均为60
度;
所述激光干涉光学平台包括: 激光发射器、 多普勒频移干扰发生器, 镜片组和两个四象
限光电探测器, 其中,
所述激光发射器, 用于发射特定频率的激光, 还用于根据存储组件提供的频率规划方
案实时调节激光的频率和相位; 所述激光发射器为可调谐激光器;
所述多普勒频移干扰发生器, 用于接收存储组件发送的指定时刻的频移干扰, 对入射
激光进行频率移频, 以模拟卫星在空间运行时由于多普勒现象所发生的频率干扰; 所述多
普勒频移干扰发生器包括电性连接的声光移频器和移频处理器, 所述声光移频器, 用于将
接收到的入射激光进行特定量的频率移频; 所述移频处理器, 用于指定声光移频器移频 的
量;
所述镜片组, 用于对激光进行反射或分束, 包括多个反射镜、 多个分束器和两个单向玻
璃;
所述两个四象限光电探测器, 用于收集本地激光与邻 近光学平台激光发生干涉后的激
光干涉信号, 并转换为电信号输入显示终端。
2.根据权利要求1所述的时序强化学习的星间激光干涉频率规划仿真验证系统, 其特
征在于, 所述存储组件包括强化学习 策略存储器、 多普勒频移干扰信息存储器和实时策略
存储器; 其中,
所述强化学习策略存储器, 用于存储预先建立和训练好的决策模型, 还用于存储根据
卫星轨道数据由决策模型确定的频率 规划方案;
所述多普勒频移干扰信 息存储器, 用于存储预先计算好的对应仿真验证实验各个时刻
的多普勒干扰频率信息, 并将各个时刻多普勒干扰频率信息传输给多普勒频移干扰发生
器;
所述实时策略存 储器, 用于存 储在仿真验证实验过程中所选择的频率 规划方案 。
3.根据权利要求2所述的时序强化学习的星间激光干涉频率规划仿真验证系统, 其特权 利 要 求 书 1/3 页
2
CN 113609755 B
2征在于, 所述决策模 型的输入为A1与A6 之间、 A2与 A3之间、 A4与A5 之间的多普勒频移干扰频
率, 输出为包括每个激光干涉光学平台待发射的激光频率的频率规划方案; 满足以下约束
条件:
其中, LB表示约束的下限, UB表示约束的上限, fd1(t),fd2(t),fd3(t)分别为t 时刻A1与
A6之间、 A2与A3之间以及A4与A5之间的多普勒频移干扰频率; f1(t),f2(t),f3(t),f4(t),f5
(t),f6(t)分别为t时刻六个激光干涉光学平台待发射的激光频率; 每两个激光频率之间的
差值Δf12,Δf34,Δf56,Δf16,Δf23满足下式:
Δf12=abs(f1(t)‑f2(t)), Δf34=abs(f3(t)‑f4(t)), Δf56=abs(f5(t)‑f6(t)), Δf16
=abs(f1(t)‑f6(t)), Δf23=abs(f2(t)‑f3(t)), 其中abs表示取绝对值操作。
4.根据权利要求3所述的时序强化学习的星间激光干涉频率规划仿真验证系统, 其特
征在于, 所述决策模型采用演绎网络, 用于输出针对当前星间多普勒频移的星间频率规划
方案, 所述演绎网络包括依次连接的第一全连接层、 第二全连接层、 第三全连接层和输出
层, 其中第一全连接层的输入为当前时刻六个多普勒频移干扰频率, 输出为 1×16的特征向
量, 采用ReLU激活函数; 第二全连接层输入为第一全连接层的输出, 输出为1 ×32的特征向
量, 采用ReLU激活函数; 第三全连接层的输入为第二全连接层的输出, 输出为1 ×32的特征
向量, 采用ReLU激活函数; 输出层用于将第三全连接层输出的特征向量转换成1 ×6的输出
向量, 分别对应A1 ‑A6中激光发射器的激光频率。
5.根据权利要求4所述的时序强化学习的星间激光干涉频率规划仿真验证系统, 其特
征在于, 所述决策模型的训练过程包括:
步骤1)在决策模型后增加评判网络, 用于输出当前策略的值函数; 所述评判网络包括
依次连接的两个全连接层和一个输出层, 其中, 两个全连接层分别包含32个隐层和16个隐
层, 所述评判网络的输入为一个1 ×12的向量, 该向量前6个数据表示当前时刻六个多普勒
频移干扰频率, 后6个数据为当前时刻演绎网络输出的六个激光频率, 输出为当前策略的值
函数Q;
步骤2)根据公式(1)构建频率 规划的约束 项, 确定训练数据的频率范围;
步骤3)基于空间引力波探测卫星动力学模型, 随机生成若干组训练数据, 每组训练数
据均包括1 ×1000时序的多普勒频率干扰信息, 每个多普勒频率干扰信息的数值均在[ ‑
10MHz,10MHz]之间, 且相邻时刻的多普勒频率干扰信息的数值差值在1MHz以内; 演绎网络
随机输出六个激光频率; 随机取 出一组训练数据, 依次输入演绎网络和评判网络;权 利 要 求 书 2/3 页
3
CN 113609755 B
3
专利 一种时序强化学习的星间激光干涉频率规划仿真验证系统
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:55:04上传分享