(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110728541.6
(22)申请日 2021.06.29
(65)同一申请的已公布的文献号
申请公布号 CN 113239639 A
(43)申请公布日 2021.08.10
(73)专利权人 暨南大学
地址 519000 广东省珠海市香洲区前山路
206号
(72)发明人 郭洪飞 陈世帆 曾云辉 何智慧
任亚平 张锐 韩世林
(74)专利代理 机构 北京卓特专利代理事务所
(普通合伙) 11572
专利代理师 段宇
(51)Int.Cl.
G06F 30/27(2020.01)G06N 20/00(2019.01)
(56)对比文件
WO 2018212 918 A1,2018.1 1.22
审查员 黄剑飞
(54)发明名称
策略信息生成方法、 装置、 电子装置和存储
介质
(57)摘要
本申请涉及策略信息生成方法、 装置、 电子
装置和存储介质, 其中, 该策略信息生成方法包
括: 从预设仿真模型中, 获取对应的生产运行状
态数据, 其中, 预设仿真模型用于表征工业生产
线的运行; 对生产运行状态数据进行处理, 得到
工业生产线的设备所对应的设备状态信息及第
一动作策略信息, 其中, 第一动作策略信息用于
指示设备按预设的运行参数进行工作; 在接收到
策略信息生成请求的情况下, 获取工业生产线当
前设备状态信息, 并通过预设的强化训练模型对
当前设备状态信息进行处理, 生成对应的策略信
息。 通过本申请, 解决了相关技术中对包括离散
任务的生产线自动化优化配置效果差的问题, 实
现了利用人工智能进行各类不同生产线的优化
策略。
权利要求书3页 说明书10页 附图3页
CN 113239639 B
2022.08.26
CN 113239639 B
1.一种策略信息生成方法, 应用于 工业生产线, 其特 征在于, 包括:
从与工业生产线对应的预设仿真模型中, 获取对应的生产运行状态数据, 其中, 所述预
设仿真模型用于表征 所述工业 生产线的运行;
对所述生产运行状态数据进行处理, 得到所述工业生产线的设备所对应的设备状态信
息及第一动作策略信息, 其中, 所述第一动作策略信息用于指示所述设备按预设的运行参
数进行工作;
在接收到策略信息生成请求的情况下, 获取所述工业生产线当前设备状态信息, 并通
过预设的强化训练模 型对所述当前设备状态信息进 行处理, 生成对应的策略信息, 其中, 所
述强化训练模 型采用基于PPO算法的强化学习模 型, 并以预设的优化指标为奖励函数、 所述
设备状态信息为输入、 所述第一动作策略信息为输出进 行训练生成的; 其中, 所述 强化训练
模型的构建包括:
根据工业 生产线的设计要求建立仿真模型;
从仿真模型中提取出对应的生产运行状态数据, 并对生产运行状态数据进行处理, 得
到工业生产线的设备所对应的设备状态信息及第一动作策略信息; 还定义如下参数: 单位
时间内所生产的产品数reward; 在当前时刻, 生产线的总产出value function; 在总的工作
时间里, 生产线能到达的最大产出Q ‑function; 在当前时刻前, 生产线 所采取的一系 列动作
action中, 每个动作对生产线的产出造成的影 响history; 从history中提取, 并用以决定生
产线下一 步操作的相关信息state, 其中:
value function:
for all s∈S;
Q‑function:
History: Ht=A1,O1,R1,…,At,Ot,Rt;
state: St=f(Ht),At=h(St);
构建强化训练模型; 对构建的强化训练模型进行训练: 以预设的优化指标为奖励函数、
设备状态信息为输入、 第一动作策略信息为输出, 经过多次迭代更新, 得到训练好的强化训
练模型。
2.根据权利要求1所述的策略信息生成方法, 其特征在于, 所述基于PPO算法的强化学
习模型采用Actor ‑Critic架构, 包括: 价 值评估网络和动作策略网络 。
3.根据权利要求2所述的策略信息生成方法, 其特征在于, 所述基于PPO算法的强化学
习模型, 采用重要性采样方式, 并通过Clip函数方法限制不同状态下策略函数的参数的分
布差。
4.根据权利要求1所述的策略信 息生成方法, 其特征在于, 在接收到策略信 息生成请求
的情况下, 获取所述工业生产线当前设备状态信息, 并通过预设的强化训练模型对所述当
前设备状态信息进行处 理, 生成对应的策略信息, 包括:
获取所述工业 生产线当前设备状态信息;
将所述当前设备状态信息输入所述预设的强化训练模型, 得到一组第二动作策略信
息;
将所述当前设备状态信息重复多次输入迭代, 对应得到多组不同的第二动作策略信
息, 并结合生产线实际需求从所述多组不同的第二动作策略信息中选出一组最优的作为最权 利 要 求 书 1/3 页
2
CN 113239639 B
2终的策略信息 。
5.根据权利要求4所述的策略信 息生成方法, 其特征在于, 将所述当前设备状态信 息输
入所述预设的强化训练模型, 得到一组第二动作策略信息, 包括:
将所述当前设备状态信 息输入所述预设的强化训练模型, 通过价值评估 网络计算得到
当前状态的最优价 值;
利用所述价值评估网络提供的所述当前状态的最优价值迭代更新动作策略网络中策
略函数的参数, 进而以实现奖励函数为目标选择动作策略, 并得到一次即时奖励, 同时进入
新的状态; 使用所述新的状态更新所述价值评估网络中价值函数 的参数,并使用更新后的
价值函数计算 新的状态的最优价 值;
重复上述更新过程, 直至系统处于终止状态, 记录所述动作策略网络在各个状态的所
述动作策略, 即得到一组第二动作策略信息 。
6.根据权利要求1所述的策略信 息生成方法, 其特征在于, 所述预设的优化指标包括以
下其中一种: 生产线产能、 单位 生产时间、 设备利用率、 单位平均能耗。
7.根据权利要求1所述的策略信息生成方法, 其特征在于, 所述生产运行状态数据, 包
括不同时刻, 生产线中各个关键要素 所处状态。
8.一种策略信息生成装置, 其特 征在于, 包括:
获取模块, 用于从与工业生产线对应的预设仿真模型中, 获取对应的生产运行状态数
据, 其中, 所述预设仿真模型用于表征 所述工业 生产线的运行;
数据处理模块, 用于对所述生产运行状态数据进行处理, 得到所述工业生产线的设备
所对应的设备状态信息及第一动作策略信息, 其中, 所述第一动作策略信息用于指示所述
设备按预设的运行参数进行工作;
策略生成模块, 用于在接收到策略信息生成请求的情况下, 获取所述工业生产线当前
设备状态信息, 并通过预设的强化训练模型对所述当前设备状态信息进行处理, 生成对应
的策略信息, 其中, 所述强化训练模型采用基于PPO算法的强化学习模型, 并以预设的优化
指标为奖励函数、 所述设备状态信息为输入、 所述第一动作策略信息为输出进行训练生成
的; 其中, 所述强化训练模型的构建包括:
根据工业 生产线的设计要求建立仿真模型;
从仿真模型中提取出对应的生产运行状态数据, 并对生产运行状态数据进行处理, 得
到工业生产线的设备所对应的设备状态信息及第一动作策略信息; 还定义如下参数: 单位
时间内所生产的产品数reward; 在当前时刻, 生产线的总产出value function; 在总的工作
时间里, 生产线能到达的最大产出Q ‑function; 在当前时刻前, 生产线 所采取的一系 列动作
action中, 每个动作对生产线的产出造成的影 响history; 从history中提取, 并用以决定生
产线下一 步操作的相关信息state, 其中:
value function:
for all s∈S;
Q‑function:
History: Ht=A1,O1,R1,…,At,Ot,Rt;
state: St=f(Ht),At=h(St);
构建强化训练模型; 对构建的强化训练模型进行训练: 以预设的优化指标为奖励函数、权 利 要 求 书 2/3 页
3
CN 113239639 B
3
专利 策略信息生成方法、装置、电子装置和存储介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:57:52上传分享