国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210375178.9 (22)申请日 2022.04.11 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 洪赛丁 (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 赵翠香 (51)Int.Cl. G06F 16/335(2019.01) G06F 16/33(2019.01) G06F 40/258(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06F 40/186(2020.01) G06V 30/14(2022.01) G06F 16/338(2019.01) (54)发明名称 信息提取方法、 装置、 电子设备和介质 (57)摘要 本公开提供了一种信息提取方法、 装置、 电 子设备和介质, 涉及数据处理技术领域, 尤其涉 及信息抽取、 云计算及知识图谱技术领域, 可应 用在智慧城市和 智慧政务场景下。 具体实现方案 为: 根据获取的查询请求, 从候选文本原文中确 定目标文本原文; 根据获取的目标内容类型, 从 所述目标文本原文中提取属于所述目标内容类 型的目标内容信息。 本公开实现了自动从文本原 文中提取用户感兴趣的内容信息的效果, 无需用 户通过人工方式在文本原文中进行信息筛选, 节 省了人力成本, 且提高了信息提取的效率, 改善 了用户体验。 权利要求书3页 说明书11页 附图5页 CN 114661891 A 2022.06.24 CN 114661891 A 1.一种信息提取 方法, 包括: 根据获取的查询请求, 从候选文本原文中确定目标文本原文; 根据获取的目标内容类型, 从所述目标文本原文中提取属于所述目标内容类型的目标 内容信息 。 2.根据权利要求1所述的方法, 其中, 所述根据获取的目标内容类型, 从所述目标文本 原文中提取属于所述目标内容类型的目标内容信息, 包括: 将所述目标内容类型与候选 内容类型和候选内容模板之间的关联关系 进行匹配, 确定 所述目标内容类型关联的目标内容模板; 根据所述目标内容模板, 从所述目标文本原文中提取属于所述目标内容类型的目标内 容信息。 3.根据权利要求2所述的方法, 其中, 所述根据所述目标内容模板, 从所述目标文本原 文中提取属于所述目标内容类型的目标内容信息, 包括: 将所述目标内容模板中的模板关键词与 所述目标文本原文进行匹配, 确定包含有所述 模板关键词的候选文本段落; 根据所述候选文本段落的字符总数量和包含的模板关键词的字符数量, 从所述候选文 本中确定目标文本段落, 并将所述目标文本段落作为所述目标内容信息 。 4.根据权利要求3所述的方法, 其中, 所述根据所述候选文本段落的字符总数量和包含 的模板关键词的字符数量, 从所述 候选文本中确定目标文本段落, 包括: 根据所述字符数量以及所述字符总数量, 确定所述候选文本段落包含的模板关键词的 字符占比; 根据所述字符占比以及字符占比门限值, 从所述 候选文本段落中确定目标文本段落。 5.根据权利要求2所述的方法, 其中, 所述根据所述目标内容模板, 从所述目标文本原 文中提取属于所述目标内容类型的目标内容信息, 包括: 将所述目标内容模板中的起始模板句式和结束模板句式分别与所述目标文本原文进 行匹配, 确定属于所述起始模板句式的起始文本语句以及属于所述结束模板句式的结束文 本语句; 根据所述目标文本原文中处于所述起始文本语句和所述结束文本语句之间的文本原 文, 确定所述目标内容信息 。 6.根据权利要求1所述的方法, 所述从所述目标文本原文中提取属于所述目标内容类 型的目标内容信息之后, 还 包括: 确定各所述目标内容信息之间的文本相似性; 将文本相似性大于相似性门限值的至少两条目标内容信息, 作为相似内容信息, 并将 除所述相似内容信息之外的目标内容信息作为非相似内容信息; 根据各所述相似内容信息的字符数量, 从所述相似内容信息中确定 筛选内容信息; 将所述筛选 内容信息和所述非相似内容信 息作为待展示内容信 息, 并将所述待展示内 容信息进行展示。 7.根据权利要求6所述的方法, 其中, 所述将所述待 展示内容信息进行展示, 包括: 确定各所述待展示内容信 息的发布时间, 并按照所述发布时间对各所述待展示内容信 息进行顺序展示。权 利 要 求 书 1/3 页 2 CN 114661891 A 28.根据权利要求1 ‑7中任一所述的方法, 其中, 所述根据获取的查询请求, 从候选文本 原文中确定目标文本原文, 包括: 将所述查询请求中包括的查询关键词, 与所述候选文本原文的文本标题和/或文本正 文进行匹配, 并根据匹配结果从所述 候选文本原文中确定目标文本原文。 9.一种信息提取装置, 包括: 文本原文确定模块, 用于根据获取的查询请求, 从候选文本原文中确定目标文本原文; 信息提取模块, 用于根据获取的目标内容类型, 从所述目标文本原文中提取属于所述 目标内容类型的目标内容信息 。 10.根据权利要求9所述的装置, 其中, 所述信息提取模块, 具体用于: 将所述目标内容类型与候选 内容类型和候选内容模板之间的关联关系 进行匹配, 确定 所述目标内容类型关联的目标内容模板; 根据所述目标内容模板, 从所述目标文本原文中提取属于所述目标内容类型的目标内 容信息。 11.根据权利要求10所述的装置, 其中, 所述信息提取模块, 具体还用于: 将所述目标内容模板中的模板关键词与 所述目标文本原文进行匹配, 确定包含有所述 模板关键词的候选文本段落; 根据所述候选文本段落的字符总数量和包含的模板关键词的字符数量, 从所述候选文 本中确定目标文本段落, 并将所述目标文本段落作为所述目标内容信息 。 12.根据权利要求1 1所述的装置, 其中, 所述信息提取模块, 具体还用于: 根据所述字符数量以及所述字符总数量, 确定所述候选文本段落包含的模板关键词的 字符占比; 根据所述字符占比以及字符占比门限值, 从所述 候选文本段落中确定目标文本段落。 13.根据权利要求10所述的装置, 其中, 所述信息提取模块, 具体用于: 将所述目标内容模板中的起始模板句式和结束模板句式分别与所述目标文本原文进 行匹配, 确定属于所述起始模板句式的起始文本语句以及属于所述结束模板句式的结束文 本语句; 根据所述目标文本原文中处于所述起始文本语句和所述结束文本语句之间的文本原 文, 确定所述目标内容信息 。 14.根据权利要求9所述的装置, 所述装置还 包括信息展示模块, 具体用于: 确定各所述目标内容信息之间的文本相似性; 将文本相似性大于相似性门限值的至少两条目标内容信息, 作为相似内容信息, 并将 除所述相似内容信息之外的目标内容信息作为非相似内容信息; 根据各所述相似内容信息的字符数量, 从所述相似内容信息中确定 筛选内容信息; 将所述筛选 内容信息和所述非相似内容信 息作为待展示内容信 息, 并将所述待展示内 容信息进行展示。 15.根据权利要求14所述的装置, 其中, 所述信息展示模块, 具体还用于: 确定各所述待展示内容信 息的发布时间, 并按照所述发布时间对各所述待展示内容信 息进行顺序展示。 16.根据权利要求9 ‑15中任一所述的装置, 其中, 所述文本原文确定模块, 具体用于:权 利 要 求 书 2/3 页 3 CN 114661891 A 3
专利 信息提取方法、装置、电子设备和介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:48:07
上传分享
举报
下载
原文档
(739.5 KB)
分享
友情链接
DB3301-T 0322.3—2020 数据资源管理 第3部分:政务数据分类分级 杭州市.pdf
GB-T 30825-2014 热处理温度测量.pdf
GB-T 41772-2022 信息技术 生物特征识别 人脸识别系统技术要求.pdf
DL-T 2015-2019 电力信息化软件工程度量规范.pdf
SANS 应急响应处理手册 incident-handlers-handbook 英文版.pdf
数据安全管理总纲.pdf
JR-T 0257—2022 金融行业信息系统商用密码应用 测评过程指南.pdf
SN-T 0987.3-2013 出口危险货物中型散装容器检验规程 第3部分:复合中型散装容器.pdf
DB42-T 2226.1-2024 自然资源政务一张图应用规范 第1部分:数据编目与元数据 湖北省.pdf
GB-T 22040-2008 公路沿线设施塑料制品耐候性要求及测试方法.pdf
360 企业个人信息合规思路与实践报告 2021.pdf
GB-T 9491-2021 锡焊用助焊剂.pdf
DB23-T 2979—2021 大豆对大豆拟茎点种腐病抗病性鉴定技术规程 黑龙江省.pdf
ISO 21448 2022 Road vehicles — Safety of the intended functionality.pdf
T-AIITRE 10004—2023 数字化转型 成熟度模型.pdf
网络信息安全法律法规汇编 2020.pdf
LY-T 3104-2019 沟眶象和臭椿沟眶象防治技术规程.pdf
T-CSAE 236—2021 质子交换膜燃料电池发动机 台架可靠性试验方法.pdf
JR-T 0071.5—2020 金融行业网络安全等级保护实施指引 第5部分:审计要求.pdf
T-SZUAVIA 009.8—2019 多旋翼无人机系统实验室环境试验方法 第 8 部分:振动试验.pdf
1
/
3
20
评价文档
赞助2.5元 点击下载(739.5 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。