专利基于自然语言处理的数量提取方法和系统 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210254037.1 (22)申请日 2022.03.15 (71)申请人灵犀量子（北京）医疗科技有限公司地址 100161 北京市丰台区南四环西路186 号四区5号楼5层09室 (72)发明人王则远　刘鹏　任丽军　张震　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 专利代理师乔慧 (51)Int.Cl. G06F 40/253(2020.01) G06F 40/30(2020.01) (54)发明名称基于自然语言处理的数量提取方法和系统 (57)摘要本发明涉及自然语言处理技术领域，提供一种基于自然语言处理的数量提取方法和系统。其中方法包括：获取包括数量的自然语言文本；基于自然语言文本运行数量提取模型，得到数量结果；数量提取模型的输入包括第一前缀语句、第一后缀语句以及自然语言文本，输出包括第二后缀语句。本发明通过将原始模型经过无监督的第一训练得到的中间模型具有更好的自然语言理解能力，中间模型经过有监督的第二训练得到的数量提取模型具有更好的数量提取能力，解决了现有技术中无法针对特定待提取目标和类型进行数量提取的问题，能够更为高效的完成数量提取任务。权利要求书2页说明书11页附图3页 CN 114707491 A 2022.07.05 CN 114707491 A 1.一种基于自然语言处理的数量提取方法，其特征在于，包括：获取包括数量的自然语言文本；基于所述自然语言文本运行数量提取模型，得到数量结果；所述数量提取模型的输入包括第一前缀语句、第一后缀语句以及所述自然语言文本，输出包括第二后缀语句；所述第一前缀语句是基于待提取目标设置的字符或字符串；所述第一后缀语句是基于待提取目标类型设置的字符或字符串；所述第二后缀语句包括与所述待提取目标类型一一对应的数量；所述数量提取模型是将原始模型依次以第一样本执行第一训练、以第二样本和对应于所述第二样本的标签执行第二训练后得到的；所述原始模型为自然语言处理模型；所述第一训练为无监督训练；所述第二训练为有监督训练。 2.根据权利要求1所述的基于自然语言处理的数量提取方法，其特征在于，所述原始模型是以源序列为输入，以目标序列为输出，包括编码器和解码器的注意力模型；所述源序列和所述目标序列均为自然语言语素序列；所述编码器能够以所述源序列为输入，基于预设的注意力分配参数得到语义编码；所述解码器能够根据所述语义编码得到目标序列中的自然语言语素；所述注意力分配参数是针对所述源序列和/或所述目标序列中自然语言语素的计算权重。 3.根据权利要求2所述的基于自然语言处理的数量提取方法，其特征在于，所述第一训练包括：以掩码替换所述第一样本中的自然语言语素并输入所述原始模型，预测被所述掩码替换的自然语言语素的训练；和/或，将所述第一样本中的至少两个自然语言语素输入所述原始模型，预测所述至少两个自然语言语素是否为相邻语素的训练。 4.根据权利要求2所述的基于自然语言处理的数量提取方法，其特征在于：所述编码器能够以所述源序列为输入，基于预设的注意力分配参数得到至少两个源序列语义编码；所述至少两个源序列语义编码对应的注意力分配参数不同；所述解码器能够：以所述源序列语义编码为输入得到所述目标序列的第1个自然语言语素的语素语义编码；以所述源序列语义编码，和所述目标序列的第1个自然语言语素至第 i‑1个自然语言语素的语素语义编码集合为输入，得到所述目标序列的第i个自然语言语素的语素语义编码； i为大于1的整数；根据所述目标序列的自然语言语素的语素语义编码，得到所述目标序列的自然语言语素。 5.根据权利要求3所述的基于自然语言处理的数量提取方法，其特征在于，将经过第一训练后的原始模型记为中间模型，所述第二训练包括：以包括第一前缀语句和第一后缀语句的第二样本作为源序列，输入中间模型得到包括第二后缀语句的目标序列，并基于所述目标序列和第二标签调整所述中间模型参数，从而得到所述数量提取模型的训练；权　利　要　求　书 1/2 页 2 CN 114707491 A 2所述第一后缀语句包括待提取目标类型和数量掩码；所述第二后缀语句是在所述第一后缀语句的基础上，以预测数量替换所述数量掩码得到的；所述第二标签包括数量真值。 6.根据权利要求5所述的基于自然语言处理的数量提取方法，其特征在于，所述目标序列还包括第二前缀语句；所述编码器能够以所述源序列和所述自然语言文本为输入，基于预设的注意力分配参数得到至少两个源序列语义编码；所述至少两个源序列语义编码对应的注意力分配参数不同；所述解码器能够：以所述源序列语义编码为输入得到所述目标序列中第二前缀语句的语素语义编码；以所述源序列语义编码为输入得到所述目标序列中第二后缀语句的第1个自然语言语素的语素语义编码；以所述源序列语义编码，和所述目标序列中第二后缀语句的第1个自然语言语素至第 j‑1个自然语言语素的语素语义编码集合为输入，得到所述目标序列的第 j个自然语言语素的语素语义编码； j为大于1的整数；根据所述目标序列的自然语言语素的语素语义编码，得到所述目标序列的自然语言语素。 7.一种基于自然语言处理的数量提取系统，其特征在于，包括：获取模块，用于获取包括数量的自然语言文本；数量模块，用于基于所述自然语言文本运行数量提取模型，得到数量结果；所述数量提取模型的输入包括第一前缀语句、第一后缀语句以及所述自然语言文本，输出包括第二后缀语句；所述第一前缀语句是基于待提取目标设置的字符或字符串；所述第一后缀语句是基于待提取目标类型设置的字符或字符串；所述第二后缀语句包括与所述待提取目标类型一一对应的数量；所述数量提取模型是将原始模型依次以第一样本执行第一训练、以第二样本和对应于所述第二样本的标签执行第二训练后得到的；所述原始模型为自然语言处理模型；所述第一训练为无监督训练；所述第二训练为有监督训练。 8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述基于自然语言处理的数量提取方法的步骤。 9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于自然语言处理的数量提取方法的步骤。 10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至 6任一项所述基于自然语言处理的数量提取方法的步骤。权　利　要　求　书 2/2 页 3 CN 114707491 A 3

专利 基于自然语言处理的数量提取方法和系统

专利基于自然语言处理的数量提取方法和系统