(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111029723.0
(22)申请日 2021.09.0 3
(71)申请人 国网甘肃省电力公司电力科 学研究
院
地址 730070 甘肃省兰州市安宁区万 新路
249号
申请人 国网甘肃省电力公司
中国人民大 学
(72)发明人 马彦宏 吕清泉 周强 王定美
高鹏飞 张珍珍 张睿骁 张健美
张彦琪 张孝 赵昊
(74)专利代理 机构 湖南楚墨知识产权代理有限
公司 43268
代理人 麦振声(51)Int.Cl.
G06F 30/27(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种面向新能源数据采集的模拟生成方法
(57)摘要
一种面向新能源 数据采集的模拟生成方法,
包括语义解析模块、 数据生 成模块和数据转换模
块, 本发明引入生成对抗网络来提高仿真数据的
效用和隐私保护, 并建立正则表达式规则用于数
据模式生 成。 利用生成对抗网络的无需广泛注释
训练数据就能学习深层表示, 通过一对网络的竞
争过程来获得反向传播信号的特点, 实现对复杂
信号例如风电/光伏等新能源并网监测数据的发
电功率预测。
权利要求书3页 说明书7页 附图5页
CN 114201909 A
2022.03.18
CN 114201909 A
1.一种面向新能源数据采集的模拟生成方法, 其特征在于: 包括语义解析模块、 数据生
成模块和数据转换模块。
2.根据权利要求1所述的一种面向新 能源数据采集的模拟生成方法, 其特征在于: 所述
语义解析模块包括非正则解析和正则解析。
3.根据权利要求1所述的一种面向新 能源数据采集的模拟生成方法, 其特征在于: 所述
数据生成模块包括 规则库模块和Smar t模块。
4.根据权利要求1所述的一种面向新 能源数据采集的模拟生成方法, 其特征在于: 所述
数据转换模块采用GAN训练算法生成场景生成方法, GAN训练算法如下 所示:
算法:VTRAI N(m, αd, αg,T)
输入:m:批量大小; α d:鉴别器D的学习率; α g:生成器G的学习率; T:
训练迭代次数
输出:生成器G; 鉴别器D;
a.分别对G和D初始参数
和
b.for t=1,2,3, ……,T do
c./*训练鉴别器D
d.从噪声pz(z)中采样生成噪声样本
并从中取样本m
e.从样本pdata(t)中采样生成样本
并从中取样本m
f.
g.
h./*训练生成器G
i.从噪声pz(z)中采样生成噪声样本
并从中取样本m
j.
k.
l.返回G,D
其中m是每批的大小和αd( αg)是鉴别器D(生成器G)的学习速率,在每次迭代中, 交替训
练D和G, 首先,固定G然后使用噪声样本
和真实样本
训练D, 使用
Adam优化 参数, 接下来, 固定D, 通过另一组噪声样本来更新 生成器的参数θg。
5.根据权利要求3、 4所述的一种面向新能源数据采集的模拟生成方法, 其特征在于: 所
述Smart模块采用基于 GAN的合成框架, 它以一个 关系表T作为输入, 分三个阶段生 成一个合
成数据表T`:
第一阶段 ——数据转换
这个阶段的目的是为后续的GAN模型训练准备输入数据, 具体来说, 它将具有混合属性
类型(连续、 离散、 分类)的每个记录t∈T,变换成数值t∈Rd的样本, 在 转换的过程中还要考
虑不同神经网络对输入的不同要求, 如卷积神经网络是矩阵, 全连通神经网络是向量, 并将
数值规范化为适当的范围, 然后将 样本t∈Rd输入到GAN神经网络中;权 利 要 求 书 1/3 页
2
CN 114201909 A
2第二阶段 ——GAN模型训练
本阶段的目标是训练一个深度生成模型G, 具体来说, G将随机噪声作为输入, 生成合成
样本, 同时, 采样 器从上一阶段准备的数据中提取样 本, 然后, 结合真实样 本和合成样 本, 我
们的鉴别器D决定给定样 本是真实样 本的概率, 通过迭代应用minibath随机梯度下降法, 对
G和D的参数进行优化, 从而提高G的性能, 生成欺骗D的难以分辨的样本;
将使用全连接神经网络(MLP)来实现生成器G和鉴别器D, 它使用神经层来将随机噪声z
转换为样 本t, 具体来说, G取一个先验噪声z作为输入, 也记作, 利用L个全连通层, 其中每一
层由计算:
Wl是权重, bl是偏差,φ是激活函数ReLu和BN是批标准化, BN作用是使模型在深度神经
网络训练过程每一层神经网络的输入保持相同分布, 激活函数Relu 可以缩小做和不做非监
督与训练的差距, 使模型能更 快学习特征, 使得学习周期大 大缩短, 效率 提升;
模型中采用one ‑hot和GMM ‑based数据转换方式, 因此采用如下的计算方式在输出层中
生成向量:
首先使用
生成vgmm,然后使用
生成一个one ‑hot向量,
表示vgmm属于哪个组件, 将所有属性的tj组合起来, 作为合成样本;
第三阶段 ——合成数据生成
此阶段利用在上一阶段中得到良好训练的G来生成合成表, 它反复向G输入先验噪声z
(以及目标标签), 生 成一组合成样 本{t}, 接下来, 它采用与第一阶段相同的数据转换方案,
将样本转换回组成;
对于电力场景生成来说此阶段利用t分布拟合预测误差分布情况, 对标准t分布进行了
改进使其带有位移和尺度参数, 取 得了好的拟合效果,
t分布的分布密度函数f(x)可表示 为:
其中v是自由度Γ( ·)为伽马函数;
改进的t分布在原有的基础上增 加了尺度和位移参数, 如下 所示:
其中 μ是位移参数; σ 是尺度参数。
6.根据权利要求3所述的一种面向新 能源数据采集的模拟生成方法, 其特征在于: 所述
规则库模块内置了很多数据生成小模块, 如Name、 Email、 Phone等等用于生成内置数据类
型, 如Name类可以生 成中文姓名, Email类可以生 成电子邮箱, 还包括以及自定义模块、 任意
概率分布模块, 如: 正则模块、 正态分布模块、 二项分布模块;权 利 要 求 书 2/3 页
3
CN 114201909 A
3
专利 一种面向新能源数据采集的模拟生成方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:55:48上传分享