(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210204838.7 (22)申请日 2022.03.03 (71)申请人 数魔方 (北京) 医药 科技有限公司 地址 100102 北京市朝阳区阜通 东大街12 号楼13层(14)13 08 (72)发明人 周立运  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 程琛 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/33(2019.01) G06F 40/30(2020.01) G06Q 50/26(2012.01) G06N 3/08(2006.01) (54)发明名称 信息结构化和检索方法及装置 (57)摘要 本发明提供一种信息结构化和检索方法及 装置, 其中信息结构化方法包括: 获取针对企业 的扶持政策文本; 对所述扶持政 策文本进行结构 化, 得到所述扶持政策文本中各语段的结构类 型; 对所述各语段的语段内容进行分类, 得到所 述各语段的内容类型, 所述内容类型包括支持方 式、 支持方向、 申报条件、 政策方和申请时间中的 至少一种; 基于所述各语段的结构类型和内容类 型, 确定所述扶持政策文本的结构化信息。 本发 明提供的信息结构化和检索方法及装置, 可靠准 确地实现了扶持政策文本的信息结构化, 由此得 到的结构化信息对于信息查找定位和信息匹配 提供了便利。 权利要求书2页 说明书12页 附图4页 CN 115062141 A 2022.09.16 CN 115062141 A 1.一种信息结构化方法, 其特 征在于, 包括: 获取针对企业的扶持政策文本; 对所述扶持政策文本进行 结构化, 得到所述扶持政策文本中各语段的结构类型; 对所述各语段的语段内容进行分类, 得到所述各语段的内容类型, 所述内容类型包括 支持方式、 支持方向、 申报条件、 政策 方和申请时间中的至少一种; 基于所述各语段的结构类型和内容类型, 确定所述扶持政策文本的结构化信息 。 2.根据权利要求1所述的信 息结构化方法, 其特征在于, 所述对所述各语段的语段内容 进行分类, 得到所述各语段的内容类型, 之后还 包括: 在任一语段的内容类型为申报条件的情况下, 提取所述任一语段的语段关键词, 并基 于所述语段关键词, 对所述任一语段所指示申报条件的限制对 象进行分类, 得到所述任一 语段的限制对象类型, 并将所述限制对象类型加入所述任一语段的内容类型。 3.根据权利要求1所述的信 息结构化方法, 其特征在于, 所述获取针对企业的扶持政策 文本, 包括: 获取候选政策文本; 基于文本分类器, 以扶持政策文本中存在申请条件和申请程序的相关内容为分类依 据, 对所述 候选政策文本进行文本分类; 将文本分类结果 为扶持政策的候选政策文本确定为针对企业的扶持政策文本 。 4.一种检索方法, 其特 征在于, 包括: 接收用户终端发送的目标支持方向; 从各扶持政策文本的结构化信 息中, 确定出支持方向与 所述目标支持方向匹配的扶持 政策文本, 作为目标扶持政策文本, 并将所述 目标扶持政策文本的结构化信息返回至所述 用户终端; 所述结构化信息是基于如权利要求1至 3中任一项所述的信息结构化方法确定的。 5.根据权利要求4所述的检索方法, 其特征在于, 所述从各扶持政策文本的结构化信 息 中, 确定出支持方向与所述目标支持方向匹配的扶持政策文本, 包括: 基于语义模型, 对所述目标支持方向进行语义编码, 得到目标支持方向特 征; 将所述目标支持方向特征与 各扶持政策文本的支持方向特征进行匹配, 得到支持方向 特征与所述目标支持方向特 征匹配的扶持政策文本; 所述各扶持政策文本的支持方向特征是基于所述语义模型, 对所述各扶持政策文本中 内容类型为支持方向的语段进行语义编码得到的。 6.根据权利要求5所述的检索方法, 其特征在于, 所述语义模型是基于正例 样本和反例 样本, 对初始语义模型进行 无监督训练得到的; 所述正例 样本包括第 一支持方向语段和第 二支持方向语段, 所述第 二支持方向语段是 对所述第一支持方向语段进行微调得到的; 所述反例 样本包括所述第 一支持方向语段和第 三支持方向语段, 所述第 三支持方向语 段与所述第一支持方向语段表征不同的支持方向。 7.根据权利要求4至6中任一项所述的检索方法, 其特征在于, 所述接收用户终端发送 的目标支持方向, 包括: 接收用户终端发送的目标支持方向和目标申报条件;权 利 要 求 书 1/2 页 2 CN 115062141 A 2所述从各扶持政策文本的结构化信 息中, 确定出支持方向与 所述目标支持方向匹配的 扶持政策文本, 作为 目标扶持政策文本, 并将所述 目标扶持政策文本的结构化信息返回至 所述用户终端, 包括: 基于所述目标申报条件, 所述目标扶持政策文本的申报条件公式和申报条件限制类 型, 确定所述目标扶持政策文本的匹配度; 将所述目标扶持政策文本以及所述匹配度返回至所述用户终端; 其中, 所述申报条件公式是对所述目标扶持政策文本 中内容类型为申报条件的语段进 行分句, 并基于预设模板将分句所 得的子句进行公式转换 得到的; 所述申报条件限制类型基于所述目标扶持政策文本中内容类型为申报条件的段落中 的关键词确定 。 8.一种信息结构化装置, 其特 征在于, 包括: 文本获取 单元, 用于获取针对企业的扶持政策文本; 结构化单元, 用于对所述扶持政策文本进行结构化, 得到所述扶持政策文本中各语段 的结构类型; 分类单元, 用于对所述各语段的语段内容进行分类, 得到所述各语段的内容类型, 所述 内容类型包括支持方式、 支持方向、 申报条件、 政策 方和申请时间中的至少一种; 信息确定单元, 用于基于所述各语段的结构类型和内容类型, 确定所述扶持政策文本 的结构化信息 。 9.一种检索装置, 其特 征在于, 包括: 方向接收单 元, 用于接收用户终端发送的目标支持方向; 文本确定单元, 用于从各扶持政策文本的结构化信息中, 确定出支持方向与所述目标 支持方向匹配的扶持政策文本, 作为 目标扶持政策文本, 并将所述 目标扶持政策文本的结 构化信息返回至所述用户终端, 所述结构化信息是基于如权利要求 1至3中任一项 所述的信 息结构化方法确定的。 10.根据权利要求9所述的检索装置, 其特征在于, 所述方向接收单元包括条件接收子 单元, 用于: 接收用户终端发送的目标支持方向和目标申报条件; 相应地, 文本确定单 元包括匹配度确定 子单元, 用于: 基于所述目标申报条件, 所述目标扶持政策文本的申报条件公式和申报条件限制类 型, 确定所述目标扶持政策文本的匹配度; 将所述目标扶持政策文本以及所述匹配度返回至所述用户终端; 其中, 所述申报条件公式是对所述目标扶持政策文本 中内容类型为申报条件的语段进 行分句, 并基于预设模板将分句所 得的子句进行公式转换 得到的; 所述申报条件限制类型基于所述目标扶持政策文本中内容类型为申报条件的段落中 的关键词确定 。权 利 要 求 书 2/2 页 3 CN 115062141 A 3

.PDF文档 专利 信息结构化和检索方法及装置

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 信息结构化和检索方法及装置 第 1 页 专利 信息结构化和检索方法及装置 第 2 页 专利 信息结构化和检索方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:48:09上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。