(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210316547.7
(22)申请日 2022.03.28
(71)申请人 北京明略昭辉科技有限公司
地址 100098 北京市海淀区北三环西路25
号27号楼二层2020室
(72)发明人 唐广法 董世鹏
(74)专利代理 机构 北京华夏泰和知识产权代理
有限公司 1 1662
专利代理师 曾军
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/338(2019.01)
G06F 40/295(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
(54)发明名称
信息检索方法、 装置、 设备及计算机可读介
质
(57)摘要
本申请涉及一种信息检索方法、 装置、 设备
及计算机可读介质。 该方法包括: 获取目标对象
针对目标领域输入的检索文本; 采用多级信息抽
取策略在检索文本中抽取出与 目标领域关联的
领域信息; 将领域信息作为关键词进行信息检
索, 并按照关键词在召回文档中的提及频率从大
到小的顺序对召回文档进行排序; 将目标排序位
置之前的召回文档作为检索结果展示给目标对
象。 本申请通过多级信息抽取策略从用户输入的
检索文本中抽取出特定领域的领域信息作为关
键词进行信息检索, 从而提高了用户对该特定领
域的信息检索需求的信息检索准确度和检索效
率, 提升了用户体验, 解决了信息检索效率低、 准
确度低的技 术问题。
权利要求书3页 说明书12页 附图2页
CN 114706949 A
2022.07.05
CN 114706949 A
1.一种信息检索方法, 其特 征在于, 包括:
获取目标对象针对目标 领域输入的检索文本;
采用多级信息抽取 策略在所述检索文本中抽取 出与所述目标 领域关联的领域信息;
将所述领域信 息作为关键词进行信 息检索, 并按照所述关键词在召回文档中的提及频
率从大到小的顺序对所述召回文档进行排序;
将目标排序位置之前的所述召回文档作为检索结果展示给 所述目标对象。
2.根据权利要求1所述的方法, 其特征在于, 采用多级信 息抽取策略在所述检索文本中
抽取出与所述目标 领域关联的领域信息包括:
将所述检索文本输入第 一实体识别模型, 以利用所述第 一实体识别模型识别并抽取出
所述检索文本中属于所述 目标领域的目标实体, 其中, 所述第一实体识别模型为预先使用
所述目标领域的领域 实体知识对预训练语言模型进行二次训练得到的, 所述领域 实体知识
包括所述目标 领域的关联文档, 所述目标 领域的所述领域信息包括所述目标实体;
在所述第一实体识别模型未抽取到所述目标实体的情况下, 将所述检索文本输入第 一
名词抽取模型, 以利用所述第一名词抽取模型抽取出所述检索文本中属于所述目标领域的
目标名词, 其中, 所述第一名词抽取模型为预先使用所述 目标领域的领域名词知识对预训
练名词抽取模型进行二次训练得到的, 所述领域名词知识包括所述 目标领域的关联文档,
所述目标 领域的所述领域信息包括所述目标名词;
在所述第一名词抽取模型未抽取到所述目标名词的情况下, 将所述检索文本输入第 一
摘要抽取模型, 以用所述第一摘要抽取模型抽取出所述检索 文本的目标摘要, 其中, 所述第
一摘要抽取模型为预先使用所述目标领域的领域事件知识对预训练摘要抽取模型进行二
次训练得到的, 所述领域事件知识包括所述 目标领域的关联文档, 所述 目标领域的所述领
域信息包括所述目标摘要。
3.根据权利要求2所述的方法, 其特征在于, 将所述检索文本输入第一实体识别模型,
以利用所述第一实体识别模型识别并抽取出所述检索文本中属于所述目标领域的目标实
体包括:
遍历所述检索文本, 并在遍历到当前字符时, 将所述当前字符作为起始字符, 将所述当
前字符以及所述当前字符 之后的字符逐一作为结束字符, 得到多个候选实体;
将遍历所述检索文本的所有字符后得到的所有候选实体输入所述第 一实体识别模型,
以利用所述第一实体识别模型从所述候选实体中抽取出属于所述目标领域的所述目标实
体。
4.根据权利要求3所述的方法, 其特征在于, 将所述检索文本输入第 一实体识别模型之
前, 所述方法还 包括按照如下 方式训练得到所述第一实体识别模型:
采集所述目标领域的所述领域实体知识, 并基于预设知识库搭建远程监督任务, 以通
过所述远程监督任务对所述领域 实体知识中属于所述目标领域的实体进 行标注, 得到第一
训练数据;
对所述第一训练数据进行 数据增强, 得到第二训练数据;
使用所述第 二训练数据微调第 二实体识别模型的参数, 直至所述第 二实体识别模型对
所述目标领域的测试数据的实体识别准确度达到目标阈值时, 将训练后的所述第二 实体识
别模型保存得到所述第一实体识别模型, 其中, 所述第二实体识别模型为基于所述预训练权 利 要 求 书 1/3 页
2
CN 114706949 A
2语言模型构建得到的。
5.根据权利要求4所述的方法, 其特征在于, 对所述第一训练数据进行数据增强, 得到
第二训练数据包括:
确定所述第一训练数据中标注实体的最长实体长度;
遍历所述第 一训练数据, 并在遍历到当前字符时, 将所述当前字符作为起始字符, 将所
述当前字符至所述当前字符之后所述最长实体长度位置的字符逐一作为结束字符, 得到多
个候选实体;
将遍历所述第一训练数据的所有字符得到的所有候选实体与所述第一训练数据中的
所述标注实体进行匹配;
将匹配到对应的所述标注实体的所述候选实体作为正样本, 其中, 所述正样本的样本
标签为对应的所述标注实体的实体标签和类型 标签;
将未匹配到对应的所述标注实体的所述候选实体作为负样本, 其中, 所述负样本的样
本标签为非 实体标签和空类型 标签;
将所述正样本和所述负 样本作为所述第二训练数据。
6.根据权利要求2所述的方法, 其特 征在于,
将所述检索文本输入第 一名词抽取模型之前, 所述方法还包括按照如下方式训练得到
所述第一名词抽取模型: 采集所述 目标领域的所述领域名词知识, 并基于预设知识库搭建
远程监督任务, 以通过所述远程监督任务对所述领域名词知识中属于所述目标领域的名词
进行标注, 得到第三训练数据; 使用所述第三训练数据微调第二名词抽取模型的参数, 直至
所述第二名词抽取模型对所述目标领域的测试数据的名词抽取准确度达到目标阈值时, 将
训练后的所述第二名词抽取模型保存得到所述第一名词抽取模型, 其中, 所述第二名词抽
取模型为所述预训练名词抽取模型;
将所述检索文本输入第 一摘要抽取模型之前, 所述方法还包括按照如下方式训练得到
所述第一摘要抽取模型: 采集所述 目标领域的所述领域事件知识, 并基于所述预设知识库
搭建远程监督任务, 以通过所述远程监督任务对所述领域事件知识中属于所述目标领域的
事件进行标注, 得到第四训练数据; 使用所述第四训练数据微调第二摘要抽取模 型的参数,
直至所述第二摘要抽取模型对所述目标领域的测试数据的摘要抽取准确度达到所述目标
阈值时, 将训练后的所述第二摘要抽取模型保存得到所述第一摘要抽取模型, 其中, 所述第
二摘要抽取模型为所述预训练摘要抽取模型。
7.根据权利要求1至 6任一所述的方法, 其特 征在于, 所述方法还 包括:
获取所述目标对象输入的未指定领域的目标检索文本;
将所述目标检索文本输入业务领域识别模型, 以利用所述业务领域识别模型确定所述
目标检索文本所属的所述 目标领域, 其中, 所述业务领域识别模型为预先使用带有标注数
据的训练数据对预训练语义识别模型进行二次训练得到的, 所述标注数据用于标注所述训
练数据的所属业 务领域;
按照所述多级信 息抽取策略调取出与所述目标领域匹配的实体识别模型、 名词抽取模
型以及摘要抽取模型三 者至少之一进行信息抽取。
8.一种信息检索装置, 其特 征在于, 包括:
获取模块, 用于获取目标对象针对目标 领域输入的检索文本;权 利 要 求 书 2/3 页
3
CN 114706949 A
3
专利 信息检索方法、装置、设备及计算机可读介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:48:08上传分享