(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210254037.1
(22)申请日 2022.03.15
(71)申请人 灵犀量子 (北京) 医疗科技有限公司
地址 100161 北京市丰台区南四环西路186
号四区5号楼5层09室
(72)发明人 王则远 刘鹏 任丽军 张震
(74)专利代理 机构 北京路浩知识产权代理有限
公司 11002
专利代理师 乔慧
(51)Int.Cl.
G06F 40/253(2020.01)
G06F 40/30(2020.01)
(54)发明名称
基于自然语言处 理的数量 提取方法和系统
(57)摘要
本发明涉及自然语 言处理技术领域, 提供一
种基于自然语 言处理的数量提取方法和系统。 其
中方法包括: 获取包括数量的自然语言文本; 基
于自然语言文本运行数量提取模 型, 得到数量结
果; 数量提取模型的输入包括第一前缀语句、 第
一后缀语句以及自然语言文本, 输出包括第二后
缀语句。 本发 明通过将原始模型经过无监督的第
一训练得到的中间模型具有更好的自然语言理
解能力, 中间模 型经过有监督的第二训练得到的
数量提取模 型具有更好的数量提取能力, 解决了
现有技术中无法针对特定待提取目标和类型进
行数量提取的问题, 能够更为高效的完成数量提
取任务。
权利要求书2页 说明书11页 附图3页
CN 114707491 A
2022.07.05
CN 114707491 A
1.一种基于自然语言处 理的数量 提取方法, 其特 征在于, 包括:
获取包括数量的自然语言文本;
基于所述自然语言文本运行 数量提取模型, 得到数量结果;
所述数量提取模型的输入包括第一前缀语句、 第一后缀语句以及所述自然语言文本,
输出包括第二后缀语句; 所述第一前缀语句是基于待提取目标设置的字符或字符串; 所述
第一后缀语句是基于待提取目标类型设置的字符或字符串; 所述第二后缀语句包括与所述
待提取目标类型一 一对应的数量;
所述数量提取模型是将原始模型依次以第 一样本执行第 一训练、 以第 二样本和对应于
所述第二样本的标签执行第二训练后得到的; 所述原始模型为自然语言处理模型; 所述第
一训练为无监 督训练; 所述第二训练为有监 督训练。
2.根据权利要求1所述的基于自然语言处理 的数量提取方法, 其特征在于, 所述原始模
型是以源序列为输入, 以目标序列为输出, 包括编 码器和解码器的注意力模型; 所述源序列
和所述目标序列 均为自然语言语素序列;
所述编码器能够以所述源序列为输入, 基于预设的注意力分配参数得到语义编码; 所
述解码器能够根据所述语义编码得到目标序列中的自然语言语素;
所述注意力分配参数是针对所述源序列和/或所述目标序列中自然语言语素的计算权
重。
3.根据权利要求2所述的基于自然语言处理 的数量提取方法, 其特征在于, 所述第 一训
练包括:
以掩码替换所述第 一样本中的自然语言语素并输入所述原始模型, 预测被所述掩码替
换的自然语言语素的训练;
和/或, 将所述第一样本中的至少两个自然语言语素输入所述原始模型, 预测所述至少
两个自然语言语素 是否为相邻语素的训练。
4.根据权利要求2所述的基于自然语言处 理的数量 提取方法, 其特 征在于:
所述编码器能够以所述源序列为输入, 基于预设的注意力分配参数得到至少两个源序
列语义编码; 所述至少两个源序列语义编码对应的注意力分配参数不同;
所述解码器能够:
以所述源序列语义编码为输入得到所述目标序列的第1个自然语言语素的语素语义编
码;
以所述源序列语义编码, 和所述目标序列的第1个自然语言语素至第 i‑1个自然语言语
素的语素语义编 码集合为输入, 得到所述目标序列的第i个自然语言语素的语素语义编 码;
i为大于1的整数;
根据所述目标序列的自然语言语素的语素语义编码, 得到所述目标序列的自然语言语
素。
5.根据权利要求3所述的基于自然语言处理 的数量提取方法, 其特征在于, 将经过第 一
训练后的原 始模型记为中间模型, 所述第二训练包括:
以包括第一前缀语句和第 一后缀语句的第 二样本作为源序列, 输入中间模型得到包括
第二后缀语句的目标序列, 并基于所述 目标序列和第二标签调整所述中间模型参数, 从而
得到所述数量 提取模型的训练;权 利 要 求 书 1/2 页
2
CN 114707491 A
2所述第一后缀语句包括待提取目标类型和数量掩码; 所述第 二后缀语句是在所述第 一
后缀语句的基础上, 以预测数量 替换所述数量掩码得到的; 所述第二标签包括数量真值。
6.根据权利要求5所述的基于自然语言处理 的数量提取方法, 其特征在于, 所述目标序
列还包括第二前缀语句;
所述编码器能够以所述源序列和所述自然语言文本为输入, 基于预设的注意力分配参
数得到至少两个源序列语义编 码; 所述至少两个源序列语义编 码对应的注意力分配参数不
同;
所述解码器能够:
以所述源序列语义编码为输入得到所述目标序列中第二前缀语句的语素语义编码;
以所述源序列语义编码为输入得到所述目标序列中第 二后缀语句的第1个自然语言语
素的语素语义编码;
以所述源序列语义编码, 和所述目标序列中第二后缀语句的第1个自然语言语素至第
j‑1个自然语言语素的语素语义编 码集合为输入, 得到所述目标序列的第 j个自然语 言语素
的语素语义编码; j为大于1的整数;
根据所述目标序列的自然语言语素的语素语义编码, 得到所述目标序列的自然语言语
素。
7.一种基于自然语言处 理的数量 提取系统, 其特 征在于, 包括:
获取模块, 用于获取包括数量的自然语言文本;
数量模块, 用于基于所述自然语言文本运行 数量提取模型, 得到数量结果;
所述数量提取模型的输入包括第一前缀语句、 第一后缀语句以及所述自然语言文本,
输出包括第二后缀语句; 所述第一前缀语句是基于待提取目标设置的字符或字符串; 所述
第一后缀语句是基于待提取目标类型设置的字符或字符串; 所述第二后缀语句包括与所述
待提取目标类型一 一对应的数量;
所述数量提取模型是将原始模型依次以第 一样本执行第 一训练、 以第 二样本和对应于
所述第二样本的标签执行第二训练后得到的; 所述原始模型为自然语言处理模型; 所述第
一训练为无监 督训练; 所述第二训练为有监 督训练。
8.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运
行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至6任一项所
述基于自然语言处 理的数量 提取方法的步骤。
9.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机
程序被处理器执行时实现如权利要求1至6任一项所述基于自然语言处理的数量提取方法
的步骤。
10.一种计算机程序产品, 包括计算机程序, 其特征在于, 所述计算机程序被处理器执
行时实现如权利要求1至 6任一项所述基于自然语言处 理的数量 提取方法的步骤。权 利 要 求 书 2/2 页
3
CN 114707491 A
3
专利 基于自然语言处理的数量提取方法和系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:45上传分享