(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210375268.8 (22)申请日 2022.04.11 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 袁扬 朱运 乔建秀  (74)专利代理 机构 深圳市世联合知识产权代理 有限公司 4 4385 专利代理师 杨晖琼 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称 一种命名实体抽取方法、 装置、 计算机设备 及存储介质 (57)摘要 本申请实施例属于人工智能中的自然语言 处理技术领域, 涉及一种命名实体抽取方法、 装 置、 计算机设备及存储介质。 此外, 本申请 还涉及 区块链技术, 用户的目标 实体抽取模 型可存储于 区块链中。 本申请使用神经网络模 型进行保险领 域的实体名词自动抽取, 规避传统基于人工构建 和规则模板匹配方法存在的不足, 同时, 目标实 体抽取模型是根据与训练领域文本相关的语料 训练得到的, 使得本申请的实体抽取保持较高的 鲁棒性、 泛化能力以及执 行能力。 权利要求书3页 说明书15页 附图8页 CN 114742058 A 2022.07.12 CN 114742058 A 1.一种命名实体抽取 方法, 其特 征在于, 包括下述 步骤: 获取目标实体 类别; 根据所述目标实体 类别对现有领域词表进行实体 类别标注操作, 得到训练领域文本; 根据所述训练领域文本对预训练实体抽取模型进行第 一参数调整操作, 得到中间实体 抽取模型, 其中, 所述预训练实体抽取模型基于公开的命名实体抽取语料集训练得到, 所述 预训练实体抽取模型由Ber t模型、 Bi LSTM层以及CRF层组成; 根据所述中间实体抽取模型对目标数据库的查询语句进行实体初识别操作, 得到实体 初识别结果; 获取用户终端发送的与所述实体初识别结果相对应的修 正语料数据; 根据所述修正语料数据对所述中间实体抽取模型进行第 二参数调整操作, 得到目标实 体抽取模型; 根据所述目标实体抽取模型进行命名实体自动抽取操作。 2.根据权利要求1所述的命名实体抽取方法, 其特征在于, 所述根据所述目标实体类别 对现有领域词表进行实体 类别标注操作, 得到训练领域文本的步骤, 具体包括下述 步骤: 根据词汇长度由大到小的顺序对所述现有领域词表进行排序操作, 得到排序领域词 表; 根据字符串匹配方法对所述 排序领域词表进行实体词匹配操作, 得到词表实体词; 根据所述目标实体类别对所述词表实体词进行所述实体类别标注操作, 得到所述训练 领域文本 。 3.根据权利要求1所述的命名实体抽取方法, 其特征在于, 在所述根据 所述训练领域文 本对预训练实体抽取模型进行第一参数调整操作, 得到中间实体抽取模型 的步骤之前, 所 述方法还 包括: 根据通用语料样本和与所述通用语料样本相对应的实体标注对基于BERT语言模型的 实体抽取模型进行 预训练; 根据特定实体语料样本和所述特定实体语料样本对应的实体标注对预训练的BERT语 言模型进行微调, 获得 预训练实体抽取模型。 4.根据权利要求1所述的命名实体抽取方法, 其特征在于, 在所述根据 所述训练领域文 本对预训练实体抽取模型进行第一参数调整操作, 得到中间实体抽取模型 的步骤之前, 所 述方法还 包括: 读取训练数据库, 在所述训练数据库中获取训练文本数据集, 所述训练文本数据集至 少包括第一正例样本、 与所述第一正例样本类别相同的第二正例样本以及与所述第一正例 样本类别不同的随机样本; 将所述第一正例样本、 所述第二正例样本以及所述随机样本分别输入至原始BERT网络 进行所述特征转化操作, 得到第一特 征向量、 第二特 征向量以及随机特 征向量; 对所述第一特征向量以及所述第 二特征向量进行向量相似度计算操作, 得到同类向量 相似度; 对所述第一特征向量以及所述随机特征向量进行所述向量相似度计算操作, 得到非同 类向量相似度; 基于所述同类向量相似度、 所述非同类向量相似度以及所述三元组损失函数对所述原权 利 要 求 书 1/3 页 2 CN 114742058 A 2始BERT网络进行训练操作, 得到所述预训练实体抽取模型。 5.根据权利要求4所述的命名实体抽取方法, 其特征在于, 所述基于所述同类向量相似 度、 所述非同类 向量相似度以及所述三元组损失函数对所述原始BERT网络进行训练操作, 得到所述预训练实体抽取模型的步骤, 具体包括下述 步骤: 计算所述同类相似度的平均值, 得到平均同类向量; 计算所述非同类相似度的平均值, 得到平均非同类向量; 基于所述第一特征向量、 所述平均同类向量、 所述平均非同类向量以及所述三元组损 失函数对所述原 始BERT网络进行反向更新操作, 得到所述预训练实体抽取模型。 6.根据权利要求4所述的命名实体抽取方法, 其特征在于, 所述基于所述同类向量相似 度、 所述非同类 向量相似度以及所述三元组损失函数对所述原始BERT网络进行训练操作, 得到所述预训练实体抽取模型的步骤, 具体包括下述 步骤: 基于所述同类相似度在所述第二特 征向量中获取相似度最大的最大同类向量; 基于所述非同类相似度在所述随机特 征向量中获取相似度最小的最小随机向量; 基于所述第一特征向量、 所述最大同类向量、 所述最小随机向量以及所述三元组损 失 函数对所述原 始BERT网络进行反向更新操作, 得到所述预训练实体抽取模型。 7.一种命名实体抽取装置, 其特 征在于, 包括: 目标实体 类别获取模块, 用于获取目标实体 类别; 实体类别标注模块, 用于根据 所述目标实体类别对现有领域词表进行实体类别标注操 作, 得到训练领域文本; 第一参数调 整模块, 用于根据 所述训练领域文本对预训练实体抽取模型进行第 一参数 调整操作, 得到中间实体抽取模 型, 其中, 所述预训练实体抽取模型基于公开的命名实体抽 取语料集训练得到, 所述预训练实体抽取模型由Ber t模型、 Bi LSTM层以及CRF层组成; 实体初识别模块, 用于根据 所述中间实体抽取模型对目标数据库的查询语句进行实体 初识别操作, 得到实体初识别结果; 修正语料获取模块, 用于获取用户终端发送的与 所述实体初识别结果相对应的修正语 料数据; 第二参数调 整模块, 用于根据 所述修正语料数据对所述中间实体抽取模型进行第 二参 数调整操作, 得到目标实体抽取模型; 模型应用模块, 用于根据所述目标实体抽取模型进行命名实体自动抽取操作。 8.根据权利要求7所述的命名实体抽取装置, 其特征在于, 所述实体类别标注模块包 括: 排序子模块, 用于根据词汇长度由大到小的顺序对所述现有领域词表进行排序操作, 得到排序领域词表; 实体词匹配子模块, 用于根据字符串 匹配方法对所述排序 领域词表进行实体词匹配操 作, 得到词表实体词; 实体类别标注子模块, 用于根据所述目标实体类别对所述词表实体词进行所述实体类 别标注操作, 得到所述训练领域文本 。 9.一种计算机设备, 其特征在于, 包括存储器和处理器, 所述存储器中存储有计算机可 读指令, 所述处理器执行所述计算机可读指 令时实现如权利要求 1至6中任一项 所述的命名权 利 要 求 书 2/3 页 3 CN 114742058 A 3

.PDF文档 专利 一种命名实体抽取方法、装置、计算机设备及存储介质

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种命名实体抽取方法、装置、计算机设备及存储介质 第 1 页 专利 一种命名实体抽取方法、装置、计算机设备及存储介质 第 2 页 专利 一种命名实体抽取方法、装置、计算机设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:44:34上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。