专利关系数据增强方法、装置、设备及存储介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210516062.2 (22)申请日 2022.05.12 (71)申请人平安科技（深圳）有限公司地址 518057 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人杜江楠　章林　 (74)专利代理机构深圳市力道知识产权代理事务所(普通合伙) 44507 专利代理师曹凤秀 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/289(2020.01) G06F 40/284(2020.01) G06F 16/28(2019.01)G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称关系数据增强方法、装置、设备及存储介质 (57)摘要本申请涉及人工智能技术领域，公开了一种关系数据增强方法、装置、设备及存储介质，方法包括：获取起始数据集；利用起始数据集对语言表征模型进行有监督训练，得到实体关系识别模型；利用实体关系识别模型从起始数据中筛选关键词，并获取与关键词对应的同义词；拷贝起始数据以得到起始副本数据，并利用同义词替换起始副本数据中的关键词，得到起始数据对应的第一增强数据集；合并起始数据集以及第一增强数据集，得到第二增强数据集；从第二增强数据集中筛选具有相同实体关系的关系数据对，并利用关系数据对对生成式预训练语言模型进行训练，得到数据增强模型；利用数据增强模型对第二增强数据集进行数据增强，得到目标数据集。权利要求书3页说明书14页附图3页 CN 114881034 A 2022.08.09 CN 114881034 A 1.一种关系数据增强方法，其特征在于，所述方法包括：获取起始数据集，其中，所述起始数据集中的每一个起始数据都标注有第一实体信息以及与所述第一实体信息关联的第二实体信息，且所述起始数据还标注有所述第一实体信息与所述第二实体信息之间的实体关系；利用所述起始数据集对语言表征模型进行有监督训练，得到实体关系识别模型；利用所述实体关系识别模型从所述起始数据中筛选得到关键词，并获取与所述关键词对应的同义词；拷贝所述起始数据以得到起始副本数据，并利用所述同义词替换所述起始副本数据中的关键词，得到第一增强数据集；将所述起始数据集和所述第一增强数据集进行合并处理，得到第二增强数据集；从所述第二增强数据集中筛选具有相同实体关系的关系数据对，并利用所述关系数据对对预设的生成式预训练语言模型进行训练，得到数据增强模型；利用所述数据增强模型对所述第二增强数据集进行数据增强，得到目标数据集。 2.根据权利要求1所述的方法，其特征在于，所述利用所述起始数据集对语言表征模型进行有监督训练，得到实体关系识别模型，包括：将所述起始数据作为第一训练数据；通过所述语言表征模型的池化层对所述第一训练数据的第一实体信息进行池化处理，得到第一信息，并利用所述池化层对所述第一训练数据的第二实体信息进行池化处理，得到第二信息；将所述第一训练数据的第一实体信息替换为所述第一信息，并将所述起始数据的第二实体信息替换为所述第二信息，得到第二训练数据；将所述第二训练数据传输给所述语言表征模型的全连接层进行关系分类训练，直到所述语言表征模型符合预设条件时，确定所述语言表征模型为实体关系识别模型。 3.根据权利要求2所述的方法，其特征在于，所述利用所述实体关系识别模型从所述起始数据中筛选得到关键词，包括：获取与所述起始数据对应的目标实体关系；对所述起始数据进行分词处理，得到除第一实体信息以及第二实体信息以外的若干个目标分词信息；拷贝所述起始数据以得到替换副本数据，利用预设的第一字符对所述替换副本数据中的所述目标分词信息进行替换处理，得到若干个替换结果；利用所述实体关系识别模型获取各个所述替换结果与所述目标实体关系的匹配度；选取所述匹配度满足预设匹配条件的所述目标分词信息作为关键词。 4.根据权利要求3所述的方法，其特征在于，所述对所述起始数据进行分词处理，得到除第一实体信息以及第二实体信息以外的若干个目标分词信息，包括：利用预训练好的命名实体识别模型获取所述起始数据对应的序列标注信息；根据所述序列标注信息对所述起始数据进行分词处理，得到分词结果；移除所述分词结果中的第一实体信息以及第二实体信息，得到目标分词信息。 5.根据权利要求1 ‑4中任一项所述的方法，其特征在于，所述获取与所述关键词对应的同义词，包括：权　利　要　求　书 1/3 页 2 CN 114881034 A 2通过预训练好的向量获取模型对所述关键词进行编码处理，得到关键词向量，并从预设的词库中获取备选词的备选词向量；计算所述关键词向量与各个所述备选词向量的余弦相似度，将所述余弦相似度满足预设相似度的备选词向量对应的备选词，作为同义词。 6.根据权利要求1 ‑4所述的方法，其特征在于，所述用所述关系数据对对预设的生成式预训练语言模型进行训练，包括：从所述关系数据对中选取其中一个关系数据作为初始输入配置数据，并确定另一个关系数据作为初始输出配置数据；利用预设的第二字符分别替换所述初始输入配置数据以及所述初始输出配置数据中的第一实体信息，且利用预设的第三字符分别替换所述初始输入配置数据以及所述初始输出配置数据中的第二实体信息，得到目标输入配置数据以及目标输出配置数据；根据所述目标输入配置数据以及所述目标输出配置数据训练所述生成式预训练语言模型。 7.根据权利要求1 ‑4中任一项所述的方法，其特征在于，所述利用所述数据增强模型对所述第二增强数据集进行数据增强，得到目标数据集，包括：从所述第二增强数据集中逐个获取待增强数据，拷贝所述待增强数据以得到待处理数据；利用所述第二字符替换所述待处理数据中的第一实体信息，且利用所述第三字符替换所述待处理数据中的第二实体信息，得到第一替换结果数据；将所述第一替换结果数据输入所述数据增强模型，以获取与所述第一替换结果数据语义相近的若干个输出结果数据；将所述输出结果数据中的所述第二字符替换为第一实体信息，并将所述输出结果数据中的所述第三字符替换为第二实体信息，得到目标数据；将各个所述目标数据进行去重处理，得到增强结果数据集；合并所述第二增强数据集以及所述增强结果数据集，得到目标数据集。 8.一种关系数据增强装置，其特征在于，包括：数据获取模块，用于获取起始数据集，其中，所述起始数据集中的每一个起始数据都标注有第一实体信息以及与所述第一实体信息关联的第二实体信息，且所述起始数据还标注有所述第一实体信息与所述第二实体信息之间的实体关系；第一模型训练模块，用于利用所述起始数据集对语言表征模型进行有监督训练，得到实体关系识别模型；关键词识别模块，用于利用所述实体关系识别模型从所述起始数据中筛选得到关键词，并获取与所述关键词对应的同义词；同义词替换模块，用于拷贝所述起始数据以得到起始副本数据，并利用所述同义词替换所述起始副本数据中的关键词，得到第一增强数据集；第一增强模块，用于将所述起始数据集和所述第一增强数据集进行合并处理，得到第二增强数据集；第二模型训练模块，用于从所述第二增强数据集中筛选具有相同实体关系的关系数据对，并利用所述关系数据对对预设的生成式预训练语言模型进行训练，得到数据增强模型；权　利　要　求　书 2/3 页 3 CN 114881034 A 3

专利 关系数据增强方法、装置、设备及存储介质

专利关系数据增强方法、装置、设备及存储介质