专利一种命名实体抽取方法、装置、计算机设备及存储介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210375268.8 (22)申请日 2022.04.11 (71)申请人平安科技（深圳）有限公司地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人袁扬　朱运　乔建秀　 (74)专利代理机构深圳市世联合知识产权代理有限公司 4 4385 专利代理师杨晖琼 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称一种命名实体抽取方法、装置、计算机设备及存储介质 (57)摘要本申请实施例属于人工智能中的自然语言处理技术领域，涉及一种命名实体抽取方法、装置、计算机设备及存储介质。此外，本申请还涉及区块链技术，用户的目标实体抽取模型可存储于区块链中。本申请使用神经网络模型进行保险领域的实体名词自动抽取，规避传统基于人工构建和规则模板匹配方法存在的不足，同时，目标实体抽取模型是根据与训练领域文本相关的语料训练得到的，使得本申请的实体抽取保持较高的鲁棒性、泛化能力以及执行能力。权利要求书3页说明书15页附图8页 CN 114742058 A 2022.07.12 CN 114742058 A 1.一种命名实体抽取方法，其特征在于，包括下述步骤：获取目标实体类别；根据所述目标实体类别对现有领域词表进行实体类别标注操作，得到训练领域文本；根据所述训练领域文本对预训练实体抽取模型进行第一参数调整操作，得到中间实体抽取模型，其中，所述预训练实体抽取模型基于公开的命名实体抽取语料集训练得到，所述预训练实体抽取模型由Ber t模型、 Bi LSTM层以及CRF层组成；根据所述中间实体抽取模型对目标数据库的查询语句进行实体初识别操作，得到实体初识别结果；获取用户终端发送的与所述实体初识别结果相对应的修正语料数据；根据所述修正语料数据对所述中间实体抽取模型进行第二参数调整操作，得到目标实体抽取模型；根据所述目标实体抽取模型进行命名实体自动抽取操作。 2.根据权利要求1所述的命名实体抽取方法，其特征在于，所述根据所述目标实体类别对现有领域词表进行实体类别标注操作，得到训练领域文本的步骤，具体包括下述步骤：根据词汇长度由大到小的顺序对所述现有领域词表进行排序操作，得到排序领域词表；根据字符串匹配方法对所述排序领域词表进行实体词匹配操作，得到词表实体词；根据所述目标实体类别对所述词表实体词进行所述实体类别标注操作，得到所述训练领域文本。 3.根据权利要求1所述的命名实体抽取方法，其特征在于，在所述根据所述训练领域文本对预训练实体抽取模型进行第一参数调整操作，得到中间实体抽取模型的步骤之前，所述方法还包括：根据通用语料样本和与所述通用语料样本相对应的实体标注对基于BERT语言模型的实体抽取模型进行预训练；根据特定实体语料样本和所述特定实体语料样本对应的实体标注对预训练的BERT语言模型进行微调，获得预训练实体抽取模型。 4.根据权利要求1所述的命名实体抽取方法，其特征在于，在所述根据所述训练领域文本对预训练实体抽取模型进行第一参数调整操作，得到中间实体抽取模型的步骤之前，所述方法还包括：读取训练数据库，在所述训练数据库中获取训练文本数据集，所述训练文本数据集至少包括第一正例样本、与所述第一正例样本类别相同的第二正例样本以及与所述第一正例样本类别不同的随机样本；将所述第一正例样本、所述第二正例样本以及所述随机样本分别输入至原始BERT网络进行所述特征转化操作，得到第一特征向量、第二特征向量以及随机特征向量；对所述第一特征向量以及所述第二特征向量进行向量相似度计算操作，得到同类向量相似度；对所述第一特征向量以及所述随机特征向量进行所述向量相似度计算操作，得到非同类向量相似度；基于所述同类向量相似度、所述非同类向量相似度以及所述三元组损失函数对所述原权　利　要　求　书 1/3 页 2 CN 114742058 A 2始BERT网络进行训练操作，得到所述预训练实体抽取模型。 5.根据权利要求4所述的命名实体抽取方法，其特征在于，所述基于所述同类向量相似度、所述非同类向量相似度以及所述三元组损失函数对所述原始BERT网络进行训练操作，得到所述预训练实体抽取模型的步骤，具体包括下述步骤：计算所述同类相似度的平均值，得到平均同类向量；计算所述非同类相似度的平均值，得到平均非同类向量；基于所述第一特征向量、所述平均同类向量、所述平均非同类向量以及所述三元组损失函数对所述原始BERT网络进行反向更新操作，得到所述预训练实体抽取模型。 6.根据权利要求4所述的命名实体抽取方法，其特征在于，所述基于所述同类向量相似度、所述非同类向量相似度以及所述三元组损失函数对所述原始BERT网络进行训练操作，得到所述预训练实体抽取模型的步骤，具体包括下述步骤：基于所述同类相似度在所述第二特征向量中获取相似度最大的最大同类向量；基于所述非同类相似度在所述随机特征向量中获取相似度最小的最小随机向量；基于所述第一特征向量、所述最大同类向量、所述最小随机向量以及所述三元组损失函数对所述原始BERT网络进行反向更新操作，得到所述预训练实体抽取模型。 7.一种命名实体抽取装置，其特征在于，包括：目标实体类别获取模块，用于获取目标实体类别；实体类别标注模块，用于根据所述目标实体类别对现有领域词表进行实体类别标注操作，得到训练领域文本；第一参数调整模块，用于根据所述训练领域文本对预训练实体抽取模型进行第一参数调整操作，得到中间实体抽取模型，其中，所述预训练实体抽取模型基于公开的命名实体抽取语料集训练得到，所述预训练实体抽取模型由Ber t模型、 Bi LSTM层以及CRF层组成；实体初识别模块，用于根据所述中间实体抽取模型对目标数据库的查询语句进行实体初识别操作，得到实体初识别结果；修正语料获取模块，用于获取用户终端发送的与所述实体初识别结果相对应的修正语料数据；第二参数调整模块，用于根据所述修正语料数据对所述中间实体抽取模型进行第二参数调整操作，得到目标实体抽取模型；模型应用模块，用于根据所述目标实体抽取模型进行命名实体自动抽取操作。 8.根据权利要求7所述的命名实体抽取装置，其特征在于，所述实体类别标注模块包括：排序子模块，用于根据词汇长度由大到小的顺序对所述现有领域词表进行排序操作，得到排序领域词表；实体词匹配子模块，用于根据字符串匹配方法对所述排序领域词表进行实体词匹配操作，得到词表实体词；实体类别标注子模块，用于根据所述目标实体类别对所述词表实体词进行所述实体类别标注操作，得到所述训练领域文本。 9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求 1至6中任一项所述的命名权　利　要　求　书 2/3 页 3 CN 114742058 A 3

专利 一种命名实体抽取方法、装置、计算机设备及存储介质

专利一种命名实体抽取方法、装置、计算机设备及存储介质