(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211036708.3 (22)申请日 2022.08.29 (71)申请人 华东理工大 学 地址 200237 上海市徐汇区梅陇路13 0号 (72)发明人 栾伟玲 李松阳 王畅 庄子贤  (74)专利代理 机构 北京高沃 律师事务所 1 1569 专利代理师 万慧华 (51)Int.Cl. B60L 58/30(2019.01) G06F 30/20(2020.01) G06F 119/06(2020.01) G06F 119/08(2020.01) (54)发明名称 基于深度强化学习的车载燃料电池系统控 制方法及系统 (57)摘要 本发明涉及一种基于深度强化学习的车载 燃料电池系统控制方法及系统, 具体涉及氢燃料 电池技术领域。 所述方法包括构建燃料电池模 型, 所述燃料电池模型包括: 热管理系统模型和 输出功率系统模 型; 以车载燃料电池系统的需求 功率、 膜两侧氢氧压差和前后时刻电池内部温差 为状态, 以氢气、 空气入口压力和冷却水温度为 动作, 以功率之差构建奖励函数, 采用DDQN对各 动作的Q网络进行训练; 根据各动作训练后的Q网 络对所述燃料电池系统进行控制。 本发明可以提 高燃料电池的耐久性。 权利要求书3页 说明书8页 附图3页 CN 115534764 A 2022.12.30 CN 115534764 A 1.一种基于深度强化学习的车 载燃料电池系统控制方法, 其特 征在于, 包括: 构建燃料电池 模型, 所述燃料电池 模型包括: 热 管理系统模型和输出功率系统模型; 以车载燃料电池系统的需求功率、 膜两侧氢氧压差和前后 时刻电池内部温差为状态, 以氢气入口压力、 空气入口压力和冷却水温度为动作, 以实际输出功率与需求功率之差构 建奖励函数, 根据所述燃料电池模型, 采用深度强化学习算法对各动作的Q网络进 行训练得 到各动作训练后的Q网络; 根据待控制燃料电池系统当前时刻状态的值采用各动作训练后的Q网络对所述待控制 燃料电池系统进行控制。 2.根据权利要求1所述的一种基于深度强化学习的车载燃料电池系统控制方法, 其特 征在于, 所述输出功率系统模型 具体为: P=V×n×Ist×300/1000, 其中, P为实际输 出功率, V为输出电压, n是单体电池个 数, Ist 为负载电流。 3.根据权利要求1所述的一种基于深度强化学习的车载燃料电池系统控制方法, 其特 征在于, 所述以车载燃料电池系统的需求功率、 膜两侧氢氧压差和前后时刻电池内部温差 为状态, 以氢气入口压力、 空气入口压力和冷却水温度为动作, 以实际输出功 率与需求功 率 之差构建奖励函数, 根据所述燃料电池模型, 采用深度强化学习算法对各动作的Q网络进 行 训练得到各动作训练后的Q网络, 具体包括: 设置当前时刻状态的值; 在当前迭代次数下, 将所述当前时刻状态的值分别输入各动作的Q网络得到各动作的Q 值集合, 并选择各Q值集合中Q值最大的动作作为当前迭代次数下当前时刻状态的值对应的 最优动作集 合; 将当前迭代次数下当前时刻车载燃料电池系统的需求功率的值输入所述燃料电池模 型, 得到当前迭代次数下当前时刻的各动作的值, 并根据当前迭代次数下当前时刻下状态 的值对应的最优动作集合中各动作的值对车载燃料电池系统进行控制, 得到当前迭代次数 下下一时刻状态的值和当前迭代次数 下当前时刻车 载燃料电池系统的实际功率的值; 根据所述当前迭代次数下的当前时刻车载燃料电池系统的需求功率的值、 当前迭代次 数下当前时刻车载燃料电池系统的实际功率的值、 当前迭代次数下当前时刻状态的值和当 前迭代次数 下下一时刻状态的值得到当前迭代次数 下奖励函数值; 更新当前时刻并进入下次迭代, 直到达到迭代停止条件, 得到各迭代次数下的训练样 本向量, 所述训练样本向量包括状态的值、 各动作的值、 奖励函数值和下一时刻状态的值; 根据各迭代次数下的训练样本向量对各动作的Q网络进行训练得到各动作训练后的Q 网络。 4.根据权利要求1所述的一种基于深度强化学习的车载燃料电池系统控制方法, 其特 征在于, 所述根据待控制 燃料电池系统当前时刻状态的值采用各动作训练后的Q网络对所 述待控制燃料电池系统进行控制, 具体包括: 获取待控制燃料电池系统当前时刻状态的值; 将所述待控制燃料电池系统当前时刻状态的值输入各动作训练后的Q网络得到各动作 的值; 将各动作的值输入所述待控制燃料电池系统对应的车载控制器以对所述待控制燃料权 利 要 求 书 1/3 页 2 CN 115534764 A 2电池系统进行控制。 5.一种基于深度强化学习的车 载燃料电池系统控制系统, 其特 征在于, 包括: 模型构建模块, 用于构建燃料电池模型, 所述燃料电池模型包括: 热管理系统模型和输 出功率系统模型; 网络训练模块, 用于以车载燃料电池系统的需求功率、 膜两侧氢氧压差和前后 时刻电 池内部温差为状态, 以氢气入口压力、 空气入口压力和冷却水温度为动作, 以实际输出功 率 与需求功率之差构建奖励函数, 根据所述燃料电池模型, 采用深度强化学习算法对各动作 的Q网络进行训练得到各动作训练后的Q网络; 控制模块, 用于根据待控制燃料电池系统当前时刻状态的值采用各动作训练后的Q网 络对所述待控制燃料电池系统进行控制。 6.根据权利要求5所述的一种基于深度强化学习的车载燃料电池系统控制系统, 其特 征在于, 所述输出功率系统模型 具体为: P=V×n×Ist×300/1000, 其中, P为实际输 出功率, V为输出电压, n是单体电池个 数, Ist 为负载电流。 7.根据权利要求5所述的一种基于深度强化学习的车载燃料电池系统控制系统, 其特 征在于, 所述网络训练模块, 具体包括: 设置单元, 用于设置当前时刻状态的值; 动作值确定单元, 用于在当前迭代次数下, 将所述当前时刻状态的值分别输入各动作 的Q网络得到各动作的Q值集合, 并选择各Q值集合中Q值最大的动作作为当前迭代次数下当 前时刻状态的值对应的最优动作集 合; 下一时刻状态值和当前时刻的动作的值确定单元, 用于将当前迭代次数下当前时刻车 载燃料电池系统的需求功率的值输入所述燃料电池模型, 得到 当前迭代次数下当前时刻的 各动作的值, 并根据当前迭代次数下当前时刻下状态的值对应的最优动作集合中各动作的 值对车载燃料电池系统进 行控制, 得到 当前迭代次数下下一时刻状态的值和当前迭代次数 下当前时刻车 载燃料电池系统的实际功率的值; 奖励函数值计算单元, 用于根据所述当前迭代次数下的当前时刻车载燃料电池系统的 需求功率的值、 当前迭代 次数下当前时刻车载燃料电池系统的实际功率的值、 当前迭代 次 数下当前时刻状态的值和当前迭代次数下下一时刻状态的值得到当前迭代次数下奖励函 数值; 训练样本向量确定单元, 用于更新当前时刻并进入下次迭代, 直到达到迭代停止条件, 得到各迭代次数下的训练样 本向量, 所述训练样本向量包括状态的值、 各动作的值、 奖励函 数值和下一时刻状态的值; 网络训练单元, 用于根据各迭代次数下的训练样本向量对各动作的Q网络进行训练得 到各动作训练后的Q网络 。 8.根据权利要求5所述的一种基于深度强化学习的车载燃料电池系统控制系统, 其特 征在于, 所述控制模块, 具体包括: 状态获取 单元, 用于获取待控制燃料电池系统当前时刻状态的值; 动作确定单元, 用于将所述待控制燃料电池系统当前时刻状态的值输入各动作训练后 的Q网络得到各动作的值;权 利 要 求 书 2/3 页 3 CN 115534764 A 3

.PDF文档 专利 基于深度强化学习的车载燃料电池系统控制方法及系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度强化学习的车载燃料电池系统控制方法及系统 第 1 页 专利 基于深度强化学习的车载燃料电池系统控制方法及系统 第 2 页 专利 基于深度强化学习的车载燃料电池系统控制方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:42:17上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。