(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210516062.2
(22)申请日 2022.05.12
(71)申请人 平安科技 (深圳) 有限公司
地址 518057 广东省深圳市福田区福田街
道福安社区益田路5033号平 安金融中
心23楼
(72)发明人 杜江楠 章林
(74)专利代理 机构 深圳市力道知识产权代理事
务所(普通 合伙) 44507
专利代理师 曹凤秀
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/289(2020.01)
G06F 40/284(2020.01)
G06F 16/28(2019.01)G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
关系数据增强方法、 装置、 设备及存 储介质
(57)摘要
本申请涉及人工智能技术领域, 公开了一种
关系数据增强方法、 装置、 设备及存储介质, 方法
包括: 获取起始数据集; 利用起始数据集对语言
表征模型进行有监督训练, 得到实体 关系识别模
型; 利用实体 关系识别模型从起始数据中筛选关
键词, 并获取与关键词对应的同义词; 拷贝起始
数据以得到起始副本数据, 并利用同义词替换起
始副本数据中的关键词, 得到起始数据对应的第
一增强数据集; 合并起始数据集以及第一增强数
据集, 得到第二增强数据集; 从第二增强数据集
中筛选具有相同实体关系的关系数据对, 并利用
关系数据对对生成式预训练语言模 型进行训练,
得到数据增强模 型; 利用数据增强模 型对第二增
强数据集进行 数据增强, 得到目标数据集。
权利要求书3页 说明书14页 附图3页
CN 114881034 A
2022.08.09
CN 114881034 A
1.一种关系数据增强方法, 其特 征在于, 所述方法包括:
获取起始数据集, 其中, 所述起始数据集中的每一个起始数据都标注有第一实体信息
以及与所述第一 实体信息关联的第二 实体信息, 且所述起始数据还标注有 所述第一 实体信
息与所述第二实体信息之间的实体关系;
利用所述 起始数据集对语言表征模型进行有监 督训练, 得到实体关系识别模型;
利用所述实体关系识别模型从所述起始数据中筛选得到关键词, 并获取与 所述关键词
对应的同义词;
拷贝所述起始数据以得到起始副本数据, 并利用所述同义词替换所述起始副本数据中
的关键词, 得到第一增强数据集;
将所述起始数据集和所述第一增强数据集进行合并处 理, 得到第二增强数据集;
从所述第二增强数据集中筛选具有相同实体关系的关系数据对, 并利用所述关系数据
对对预设的生成式预训练语言模型进行训练, 得到数据增强模型;
利用所述数据增强模型对所述第二增强数据集进行 数据增强, 得到目标 数据集。
2.根据权利要求1所述的方法, 其特征在于, 所述利用所述起始数据集对语言表征模型
进行有监 督训练, 得到实体关系识别模型, 包括:
将所述起始数据作为第一训练数据;
通过所述语言表征模型的池化层对所述第 一训练数据的第 一实体信 息进行池化处理,
得到第一信息, 并利用所述池化层对所述第一训练数据的第二实体信息进行池化处理, 得
到第二信息;
将所述第一训练数据的第 一实体信 息替换为所述第 一信息, 并将所述起始数据的第 二
实体信息替换为所述第二信息, 得到第二训练数据;
将所述第二训练数据传输给所述语言表征模型的全连接层进行关系分类训练, 直到所
述语言表征模型符合预设条件时, 确定所述语言表征模型为实体关系识别模型。
3.根据权利要求2所述的方法, 其特征在于, 所述利用所述实体关系识别模型从所述起
始数据中筛 选得到关键词, 包括:
获取与所述 起始数据对应的目标实体关系;
对所述起始数据进行分词处理, 得到除第 一实体信 息以及第 二实体信 息以外的若干个
目标分词信息;
拷贝所述起始数据以得到替换副本数据, 利用预设的第 一字符对所述替换副本数据中
的所述目标分词信息进行替换处 理, 得到若干个替换 结果;
利用所述实体关系识别模型获取 各个所述 替换结果与所述目标实体关系的匹配度;
选取所述匹配度满足预设匹配条件的所述目标分词信息作为关键词。
4.根据权利要求3所述的方法, 其特征在于, 所述对所述起始数据进行分词处理, 得到
除第一实体信息以及第二实体信息以外的若干个目标分词信息, 包括:
利用预训练好的命名实体识别模型获取 所述起始数据对应的序列标注信息;
根据所述序列标注信息对所述 起始数据进行分词处 理, 得到分词结果;
移除所述分词结果中的第一实体信息以及第二实体信息, 得到目标分词信息 。
5.根据权利要求1 ‑4中任一项所述的方法, 其特征在于, 所述获取与所述关键词对应的
同义词, 包括:权 利 要 求 书 1/3 页
2
CN 114881034 A
2通过预训练好的向量获取模型对所述关键词进行编码处理, 得到关键词向量, 并从预
设的词库中获取 备选词的备选词向量;
计算所述关键词向量与各个所述备选词向量的余弦相似度, 将所述余弦相似度满足预
设相似度的备选词向量对应的备选词, 作为同义词。
6.根据权利要求1 ‑4所述的方法, 其特征在于, 所述用所述关系数据对对预设的生成式
预训练语言模型进行训练, 包括:
从所述关系数据对中选取其中一个关系数据作为初始输入配置数据, 并确定另一个关
系数据作为初始输出配置数据;
利用预设的第二字符分别替换所述初始输入配置数据以及所述初始输出配置数据中
的第一实体信息, 且利用预设的第三字符分别替换所述初始输入配置数据以及所述初始输
出配置数据中的第二实体信息, 得到目标输入配置数据以及目标输出配置数据;
根据所述目标输入配置数据以及所述目标输出配置数据训练所述生成式预训练语言
模型。
7.根据权利要求1 ‑4中任一项所述的方法, 其特征在于, 所述利用所述数据增强模型对
所述第二增强数据集进行 数据增强, 得到目标 数据集, 包括:
从所述第二增强数据集中逐个获取待增强数据, 拷贝所述待增强数据以得到待处理数
据;
利用所述第 二字符替换所述待处理数据中的第 一实体信 息, 且利用所述第 三字符替换
所述待处 理数据中的第二实体信息, 得到第一 替换结果数据;
将所述第一替换结果数据输入所述数据增强模型, 以获取与 所述第一替换结果数据语
义相近的若干个输出 结果数据;
将所述输出结果数据中的所述第 二字符替换为第 一实体信 息, 并将所述输出结果数据
中的所述第三字符替换为第二实体信息, 得到目标 数据;
将各个所述目标 数据进行去重处 理, 得到增强结果数据集;
合并所述第二增强数据集以及所述增强结果数据集, 得到目标 数据集。
8.一种关系数据增强装置, 其特 征在于, 包括:
数据获取模块, 用于获取起始数据集, 其中, 所述起始数据集中的每一个起始数据都标
注有第一 实体信息以及与所述第一实体信息关联的第二 实体信息, 且所述起始数据还标注
有所述第一实体信息与所述第二实体信息之间的实体关系;
第一模型训练模块, 用于利用所述起始数据集对语言表征模型进行有监督训练, 得到
实体关系识别模型;
关键词识别模块, 用于利用所述实体关系识别模型从所述起始数据中筛选得到关键
词, 并获取与所述关键词对应的同义词;
同义词替换模块, 用于拷贝所述起始数据以得到起始副本数据, 并利用所述同义词替
换所述起始副本数据中的关键词, 得到第一增强数据集;
第一增强模块, 用于将所述起始数据集和所述第一增强数据集进行合并处理, 得到第
二增强数据集;
第二模型训练模块, 用于从所述第 二增强数据集中筛选具有相同实体关系的关系数据
对, 并利用所述关系数据对 对预设的生成式预训练语言模型进行训练, 得到数据增强模型;权 利 要 求 书 2/3 页
3
CN 114881034 A
3
专利 关系数据增强方法、装置、设备及存储介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:48:12上传分享