专利一种时序强化学习的星间激光干涉频率规划仿真验证系统 -在线下载 -pdf文件-doc.720life.cn

(19)中华人民共和国国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110769299.7 (22)申请日 2021.07.07 (65)同一申请的已公布的文献号申请公布号 CN 113609755 A (43)申请公布日 2021.11.05 (73)专利权人中国科学院国家空间科学中心地址 100190 北京市海淀区中关村南二条1 号 (72)发明人张佳锋　马晓珊　杨震　彭晓东　唐文林　强丽娥　张玉珠　高辰　赵梦园　 (74)专利代理机构北京方安思达知识产权代理有限公司 1 1472 代理人陈琳琳　李彪(51)Int.Cl. G06F 30/27(2020.01) G06N 20/00(2019.01) (56)对比文件 CN 111241952 A,2020.0 6.05 CN 105093220 A,2015.1 1.25 CN 103513254 A,2014.01.15 CN 1024194 41 A,2012.04.18 段会宗.星间激光干涉测量技术. 《中山大学学报》 .2021,162-17 7页. 王芸等.空间应用激光干涉测距技术发展综述. 《航天返回与遥感》 .2021,68-78页. 张立华等.空间引力波探测航天器系统及平台技术. 《中山大学学报》 .2021,12 9-137. 审查员贾超 (54)发明名称一种时序强化学习的星间激光干涉频率规划仿真验证系统 (57)摘要本发明公开了一种时序强化学习的星间激光干涉频率规划仿真验证系统，系统包括：激光干涉光学平台组、存储组件和显示终端；其中，激光干涉光学平台组包括六个结构相同的激光干涉光学平台，每两个平台为一对，根据频率规划方案实时调节激光的频率和相位，并根据多普勒干扰频率信息，对入射激光进行频率移频，以模拟卫星在太空中由于多普勒现象所发生的干扰；所述存储组件，用于存储预先建立和训练好的决策模型，由决策模型确定的频率规划方案，对应实验各个时刻的多普勒干扰频率信息，并存储在实验中所选择的频率规划方案；决策模型采用时序回溯式强化学习方法训练获得；显示终端，用于实时显示多普勒干扰频率信息和激光拍频信息。权利要求书3页说明书10页附图4页 CN 113609755 B 2022.02.22 CN 113609755 B 1.一种时序强化学习的星间激光干涉频率规划仿真验证系统，用于对制定的星间频率规划方案进行仿真验证，其特征在于，所述系统包括：激光干涉光学平台组、存储组件和显示终端；其中，所述激光干涉光学平台组包括六个结构相同的激光干涉光学平台，每两个激光干涉光学平台为一对，用于模拟在同一卫星的两个光学平台，根据存储组件提供的频率规划方案实时调节激光的频率和相位，并根据存储组件提供的指定时刻的多普勒干扰频率信息，对入射激光进行频率移频，以模拟卫星在太空时由于多普勒现象所发生的干扰；所述存储组件，用于存储预先建立和训练好的决策模型，存储根据卫星轨道数据由决策模型确定的频率规划方案，用于存储对应仿真验证实验各个时刻的多普勒干扰频率信息，还用于存储在仿真验证实验过程中所选择的频率规划方案；所述决策模型采用时序回溯式强化学习方法训练获得；所述显示终端，用于实时显示多普勒干扰频率信息和激光拍频信息；所述六个结构相同的激光干涉光学平台按照逆时针方向设置，分别为A1、 A2、 A3、 A4、 A5 和A6，其中， A1与A6、 A2与A3以及A4与A5分别在一条直线上，方向相反，形成一个三角环路； A1与A2、 A3与A4以及A5与A6分别组成一对，每对的两个激光干涉光学平台间的夹角均为60 度；所述激光干涉光学平台包括：激光发射器、多普勒频移干扰发生器，镜片组和两个四象限光电探测器，其中，所述激光发射器，用于发射特定频率的激光，还用于根据存储组件提供的频率规划方案实时调节激光的频率和相位；所述激光发射器为可调谐激光器；所述多普勒频移干扰发生器，用于接收存储组件发送的指定时刻的频移干扰，对入射激光进行频率移频，以模拟卫星在空间运行时由于多普勒现象所发生的频率干扰；所述多普勒频移干扰发生器包括电性连接的声光移频器和移频处理器，所述声光移频器，用于将接收到的入射激光进行特定量的频率移频；所述移频处理器，用于指定声光移频器移频的量；所述镜片组，用于对激光进行反射或分束，包括多个反射镜、多个分束器和两个单向玻璃；所述两个四象限光电探测器，用于收集本地激光与邻近光学平台激光发生干涉后的激光干涉信号，并转换为电信号输入显示终端。 2.根据权利要求1所述的时序强化学习的星间激光干涉频率规划仿真验证系统，其特征在于，所述存储组件包括强化学习策略存储器、多普勒频移干扰信息存储器和实时策略存储器；其中，所述强化学习策略存储器，用于存储预先建立和训练好的决策模型，还用于存储根据卫星轨道数据由决策模型确定的频率规划方案；所述多普勒频移干扰信息存储器，用于存储预先计算好的对应仿真验证实验各个时刻的多普勒干扰频率信息，并将各个时刻多普勒干扰频率信息传输给多普勒频移干扰发生器；所述实时策略存储器，用于存储在仿真验证实验过程中所选择的频率规划方案。 3.根据权利要求2所述的时序强化学习的星间激光干涉频率规划仿真验证系统，其特权　利　要　求　书 1/3 页 2 CN 113609755 B 2征在于，所述决策模型的输入为A1与A6 之间、 A2与 A3之间、 A4与A5 之间的多普勒频移干扰频率，输出为包括每个激光干涉光学平台待发射的激光频率的频率规划方案；满足以下约束条件：其中， LB表示约束的下限， UB表示约束的上限， fd1(t),fd2(t),fd3(t)分别为t 时刻A1与 A6之间、 A2与A3之间以及A4与A5之间的多普勒频移干扰频率； f1(t),f2(t),f3(t),f4(t),f5 (t),f6(t)分别为t时刻六个激光干涉光学平台待发射的激光频率；每两个激光频率之间的差值Δf12,Δf34,Δf56,Δf16,Δf23满足下式： Δf12＝abs(f1(t)‑f2(t))， Δf34＝abs(f3(t)‑f4(t))， Δf56＝abs(f5(t)‑f6(t))， Δf16 ＝abs(f1(t)‑f6(t))， Δf23＝abs(f2(t)‑f3(t))，其中abs表示取绝对值操作。 4.根据权利要求3所述的时序强化学习的星间激光干涉频率规划仿真验证系统，其特征在于，所述决策模型采用演绎网络，用于输出针对当前星间多普勒频移的星间频率规划方案，所述演绎网络包括依次连接的第一全连接层、第二全连接层、第三全连接层和输出层，其中第一全连接层的输入为当前时刻六个多普勒频移干扰频率，输出为 1×16的特征向量，采用ReLU激活函数；第二全连接层输入为第一全连接层的输出，输出为1 ×32的特征向量，采用ReLU激活函数；第三全连接层的输入为第二全连接层的输出，输出为1 ×32的特征向量，采用ReLU激活函数；输出层用于将第三全连接层输出的特征向量转换成1 ×6的输出向量，分别对应A1 ‑A6中激光发射器的激光频率。 5.根据权利要求4所述的时序强化学习的星间激光干涉频率规划仿真验证系统，其特征在于，所述决策模型的训练过程包括：步骤1)在决策模型后增加评判网络，用于输出当前策略的值函数；所述评判网络包括依次连接的两个全连接层和一个输出层，其中，两个全连接层分别包含32个隐层和16个隐层，所述评判网络的输入为一个1 ×12的向量，该向量前6个数据表示当前时刻六个多普勒频移干扰频率，后6个数据为当前时刻演绎网络输出的六个激光频率，输出为当前策略的值函数Q；步骤2)根据公式(1)构建频率规划的约束项，确定训练数据的频率范围；步骤3)基于空间引力波探测卫星动力学模型，随机生成若干组训练数据，每组训练数据均包括1 ×1000时序的多普勒频率干扰信息，每个多普勒频率干扰信息的数值均在[ ‑ 10MHz,10MHz]之间，且相邻时刻的多普勒频率干扰信息的数值差值在1MHz以内；演绎网络随机输出六个激光频率；随机取出一组训练数据，依次输入演绎网络和评判网络；权　利　要　求　书 2/3 页 3 CN 113609755 B 3

专利 一种时序强化学习的星间激光干涉频率规划仿真验证系统

专利一种时序强化学习的星间激光干涉频率规划仿真验证系统