专利信息检索方法、装置、设备及计算机可读介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210316547.7 (22)申请日 2022.03.28 (71)申请人北京明略昭辉科技有限公司地址 100098 北京市海淀区北三环西路25 号27号楼二层2020室 (72)发明人唐广法　董世鹏　 (74)专利代理机构北京华夏泰和知识产权代理有限公司 1 1662 专利代理师曾军 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/338(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称信息检索方法、装置、设备及计算机可读介质 (57)摘要本申请涉及一种信息检索方法、装置、设备及计算机可读介质。该方法包括：获取目标对象针对目标领域输入的检索文本；采用多级信息抽取策略在检索文本中抽取出与目标领域关联的领域信息；将领域信息作为关键词进行信息检索，并按照关键词在召回文档中的提及频率从大到小的顺序对召回文档进行排序；将目标排序位置之前的召回文档作为检索结果展示给目标对象。本申请通过多级信息抽取策略从用户输入的检索文本中抽取出特定领域的领域信息作为关键词进行信息检索，从而提高了用户对该特定领域的信息检索需求的信息检索准确度和检索效率，提升了用户体验，解决了信息检索效率低、准确度低的技术问题。权利要求书3页说明书12页附图2页 CN 114706949 A 2022.07.05 CN 114706949 A 1.一种信息检索方法，其特征在于，包括：获取目标对象针对目标领域输入的检索文本；采用多级信息抽取策略在所述检索文本中抽取出与所述目标领域关联的领域信息；将所述领域信息作为关键词进行信息检索，并按照所述关键词在召回文档中的提及频率从大到小的顺序对所述召回文档进行排序；将目标排序位置之前的所述召回文档作为检索结果展示给所述目标对象。 2.根据权利要求1所述的方法，其特征在于，采用多级信息抽取策略在所述检索文本中抽取出与所述目标领域关联的领域信息包括：将所述检索文本输入第一实体识别模型，以利用所述第一实体识别模型识别并抽取出所述检索文本中属于所述目标领域的目标实体，其中，所述第一实体识别模型为预先使用所述目标领域的领域实体知识对预训练语言模型进行二次训练得到的，所述领域实体知识包括所述目标领域的关联文档，所述目标领域的所述领域信息包括所述目标实体；在所述第一实体识别模型未抽取到所述目标实体的情况下，将所述检索文本输入第一名词抽取模型，以利用所述第一名词抽取模型抽取出所述检索文本中属于所述目标领域的目标名词，其中，所述第一名词抽取模型为预先使用所述目标领域的领域名词知识对预训练名词抽取模型进行二次训练得到的，所述领域名词知识包括所述目标领域的关联文档，所述目标领域的所述领域信息包括所述目标名词；在所述第一名词抽取模型未抽取到所述目标名词的情况下，将所述检索文本输入第一摘要抽取模型，以用所述第一摘要抽取模型抽取出所述检索文本的目标摘要，其中，所述第一摘要抽取模型为预先使用所述目标领域的领域事件知识对预训练摘要抽取模型进行二次训练得到的，所述领域事件知识包括所述目标领域的关联文档，所述目标领域的所述领域信息包括所述目标摘要。 3.根据权利要求2所述的方法，其特征在于，将所述检索文本输入第一实体识别模型，以利用所述第一实体识别模型识别并抽取出所述检索文本中属于所述目标领域的目标实体包括：遍历所述检索文本，并在遍历到当前字符时，将所述当前字符作为起始字符，将所述当前字符以及所述当前字符之后的字符逐一作为结束字符，得到多个候选实体；将遍历所述检索文本的所有字符后得到的所有候选实体输入所述第一实体识别模型，以利用所述第一实体识别模型从所述候选实体中抽取出属于所述目标领域的所述目标实体。 4.根据权利要求3所述的方法，其特征在于，将所述检索文本输入第一实体识别模型之前，所述方法还包括按照如下方式训练得到所述第一实体识别模型：采集所述目标领域的所述领域实体知识，并基于预设知识库搭建远程监督任务，以通过所述远程监督任务对所述领域实体知识中属于所述目标领域的实体进行标注，得到第一训练数据；对所述第一训练数据进行数据增强，得到第二训练数据；使用所述第二训练数据微调第二实体识别模型的参数，直至所述第二实体识别模型对所述目标领域的测试数据的实体识别准确度达到目标阈值时，将训练后的所述第二实体识别模型保存得到所述第一实体识别模型，其中，所述第二实体识别模型为基于所述预训练权　利　要　求　书 1/3 页 2 CN 114706949 A 2语言模型构建得到的。 5.根据权利要求4所述的方法，其特征在于，对所述第一训练数据进行数据增强，得到第二训练数据包括：确定所述第一训练数据中标注实体的最长实体长度；遍历所述第一训练数据，并在遍历到当前字符时，将所述当前字符作为起始字符，将所述当前字符至所述当前字符之后所述最长实体长度位置的字符逐一作为结束字符，得到多个候选实体；将遍历所述第一训练数据的所有字符得到的所有候选实体与所述第一训练数据中的所述标注实体进行匹配；将匹配到对应的所述标注实体的所述候选实体作为正样本，其中，所述正样本的样本标签为对应的所述标注实体的实体标签和类型标签；将未匹配到对应的所述标注实体的所述候选实体作为负样本，其中，所述负样本的样本标签为非实体标签和空类型标签；将所述正样本和所述负样本作为所述第二训练数据。 6.根据权利要求2所述的方法，其特征在于，将所述检索文本输入第一名词抽取模型之前，所述方法还包括按照如下方式训练得到所述第一名词抽取模型：采集所述目标领域的所述领域名词知识，并基于预设知识库搭建远程监督任务，以通过所述远程监督任务对所述领域名词知识中属于所述目标领域的名词进行标注，得到第三训练数据；使用所述第三训练数据微调第二名词抽取模型的参数，直至所述第二名词抽取模型对所述目标领域的测试数据的名词抽取准确度达到目标阈值时，将训练后的所述第二名词抽取模型保存得到所述第一名词抽取模型，其中，所述第二名词抽取模型为所述预训练名词抽取模型；将所述检索文本输入第一摘要抽取模型之前，所述方法还包括按照如下方式训练得到所述第一摘要抽取模型：采集所述目标领域的所述领域事件知识，并基于所述预设知识库搭建远程监督任务，以通过所述远程监督任务对所述领域事件知识中属于所述目标领域的事件进行标注，得到第四训练数据；使用所述第四训练数据微调第二摘要抽取模型的参数，直至所述第二摘要抽取模型对所述目标领域的测试数据的摘要抽取准确度达到所述目标阈值时，将训练后的所述第二摘要抽取模型保存得到所述第一摘要抽取模型，其中，所述第二摘要抽取模型为所述预训练摘要抽取模型。 7.根据权利要求1至 6任一所述的方法，其特征在于，所述方法还包括：获取所述目标对象输入的未指定领域的目标检索文本；将所述目标检索文本输入业务领域识别模型，以利用所述业务领域识别模型确定所述目标检索文本所属的所述目标领域，其中，所述业务领域识别模型为预先使用带有标注数据的训练数据对预训练语义识别模型进行二次训练得到的，所述标注数据用于标注所述训练数据的所属业务领域；按照所述多级信息抽取策略调取出与所述目标领域匹配的实体识别模型、名词抽取模型以及摘要抽取模型三者至少之一进行信息抽取。 8.一种信息检索装置，其特征在于，包括：获取模块，用于获取目标对象针对目标领域输入的检索文本；权　利　要　求　书 2/3 页 3 CN 114706949 A 3

专利 信息检索方法、装置、设备及计算机可读介质

专利信息检索方法、装置、设备及计算机可读介质