(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210350872.5 (22)申请日 2022.04.02 (71)申请人 辽宁工程技术大学 地址 123000 辽宁省阜新市细河区中华路 47号 申请人 临沂大学 (72)发明人 陶明阳 王星 陈吉 张鑫 刘亚  (74)专利代理 机构 北京华夏正 合知识产权代理 事务所(普通 合伙) 11017 专利代理师 韩登营 张丽萍 (51)Int.Cl. G06F 40/14(2020.01) G06F 40/284(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) (54)发明名称 一种基于BERT的自动分层树扩 展方法 (57)摘要 本发明公开了一种基于BERT的自动分层树 扩展方法, 包括通过语料库抽取出 实体集并生成 实体集的词向量, 对用户输入的分层树所对应的 每个实体空间进行初步补全; 使用BERT的MASK机 制, 为每个实体空间生成最佳类名, 并使用类名 指导扩展的方式为每个实体空间生成候选集, 通 过计算每个候选实体的得分及与种子集的相似 度得分后, 将高质量实体补充到对应的实体空 间; 进行实体消歧, 并得到分层树扩展结果。 本发 明的基于BERT的自动分层树扩展方法利用语言 模型, 将理解用户输入的分层树结果, 得到每个 位置的候选词, 并进行填充, 最终得到满足用户 输入结果要求的分层树。 权利要求书1页 说明书6页 附图1页 CN 114757147 A 2022.07.15 CN 114757147 A 1.一种基于BERT的自动分层树扩展方法, 其特 征在于, 包括以下步骤: S1: 通过语料库抽取出实体集并生成实体集的词向量, 对用户输入的分层树所对应的 每个实体空间进行初步补全; S2: 使用BERT的MASK机制, 为每个实体空间生成最佳类名, 并使用类名指导扩展的方式 为每个实体空间生成候选集, 通过计算每个候选实体的得分及与种子集的相似度得分后, 将高质量实体补充到对应的实体空间; S3: 进行实体消歧, 并得到分层树扩展结果。 2.如权利 要求1所述的基于BERT的自动分层树扩展方法, 其特征在于, 所述步骤S1的具 体步骤如下: 步骤S1.1: 使用数据 挖掘的方式, 对语料库中的实体进行抽取, 作为扩展实体集; 步骤S1.2: 使用W ord2Vec模型获取每 个实体所对应的词向量; 步骤S1.3: 对于每个实体空间, 使用ANNOY或词向量相似度进行初步扩展, 用于更准确 地表示其实体空间所代 表的语义信息 。 3.如权利 要求1所述的基于BERT的自动分层树扩展方法, 其特征在于, 所述步骤S2的具 体步骤如下: 步骤S2.1: 对于每个实体空间, 通过BERT的MLM任务, 找出该实体空间的可能的类名及 其得分, 并通过 得分生成该实体空间的最佳类名和负类名集; 步骤S2.2: 使用最佳类名和负类名集对每个实体空间进行扩展实体, 将扩展的实体作 为候选集, 并计算每 个候选实体的得分; 步骤S2.3: 使用ANNOY算法计算每个候选词与种子实体的相似度得分, 与类名扩展的得 分加权求和后, 得到每 个实体空间的扩展集。 4.如权利 要求1所述的基于BERT的自动分层树扩展方法, 其特征在于, 所述步骤S3的具 体步骤如下: 步骤S3.1: 统计出现过在不同实体空间2次以上的实体, 即具有歧义的实体; 步骤S3.2: 每 个实体只保留得分最后的一个位置, 生成最终的分层树扩展结果。 5.如权利 要求4所述的基于BERT的自动分层树扩展方法, 其特征在于, 所述步骤S3.2的 具体步骤为: 第一, 如果该实体在用户输入的实体中, 直接 丢弃此实体; 第二, 优先保留歧义实体中的祖 先实; 第三, 保留与实体空间中种子实体相似度得分更高的实体。权 利 要 求 书 1/1 页 2 CN 114757147 A 2一种基于BERT的 自动分层树扩展方 法 技术领域 [0001]本发明属于数据处理的技术领域, 尤其涉及一种基于BERT的自动分层树扩展方 法。 背景技术 [0002]分层树对许多下游自然语言处理任务中具有广泛的应用。 由于人工标注的成本较 高且数据质量参差不齐, 因此迫切需要自动 构建分层树的方法。 目前, 现有的分层树扩展方 法主要是“is‑a”的上下位关系, 这较大的限制了在现实各个任务中的适用性。 因此, 本发明 的目标是用户可以任务输入一个预先设定的分层树上下文格式, 系统根据该格式补 全整个 分层树。 但现在的扩展 方法并没有达到较高的精度, 且效率较低。 并不能很好的满足下游任 务的需要。 [0003]对分层树扩展的两个主要任务进行优化。 第一, 对于宽度 扩展, 使用B ERT预训练模 型, 为每个实体空间赋予一个类名, 并通过该类名得到候选实体, 最后再经过ANNOY过滤, 得 到宽度扩展结果。 第二, 对于深度扩展, 使用W ord2Vec计算两个节点的上 下位关系得分。 发明内容 [0004]针对现有技术中存在的不足, 本 发明所要解决的问题在于提供一种基于B ERT的自 动分层树扩展方法, 利用语言模型, 将理解用户输入的分层树结果, 得到每个位置的候选 词, 并进行填充, 最终得到满足用户输入结果要求的分层树。 [0005]为了解决上述 技术问题, 本发明通过以下技 术方案来实现: [0006]本发明提供的基于BERT的自动分层树扩展方法, 包括以下步骤: [0007]S1: 通过语料库抽 取出实体集并生成实体集的词向量, 对用户输入的分层树所对 应的每个实体空间进行初步补全; [0008]S2: 使用BE RT的MASK机制, 为每个 实体空间生成最佳类名, 并使用类名指导扩展的 方式为每个实体空间生成候选集, 通过计算每个候选实体的得分及与种子集的相似度得分 后, 将高质量实体补充到对应的实体空间; [0009]S3: 进行实体消歧, 并得到分层树扩展结果。 [0010]进一步的, 所述步骤S1中, 通过互联网搜索相关文档并通过人工审核将相关文档 确定为正样本、 强负样本、 无关样本与背景样本, 将样本分类加入敏感样本库、 非敏感样本 库、 无关样本库和背景样本库。 [0011]进一步的, 所述 步骤S1的具体步骤如下: [0012]步骤S1.1: 使用数据 挖掘的方式, 对语料库中的实体进行抽取, 作为扩展实体集; [0013]步骤S1.2: 使用W ord2Vec模型获取每 个实体所对应的词向量; [0014]步骤S1.3: 对于每个实体空间, 使用ANNOY或词向量相似度进行初步扩展, 用于更 准确地表示 其实体空间所代 表的语义信息 。 [0015]优选的, 所述 步骤S2的具体步骤如下:说 明 书 1/6 页 3 CN 114757147 A 3

.PDF文档 专利 一种基于BERT的自动分层树扩展方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于BERT的自动分层树扩展方法 第 1 页 专利 一种基于BERT的自动分层树扩展方法 第 2 页 专利 一种基于BERT的自动分层树扩展方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:44:41上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。