国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210250569.8 (22)申请日 2022.03.15 (71)申请人 电子科技大 学 地址 611731 四川省成 都市高新区 (西区) 西源大道 2006号 (72)发明人 贾海涛 刘桐 李家伟 黄婧 邢增桓 林思远 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/34(2019.01) G06F 40/211(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 40/216(2020.01) (54)发明名称 一种基于摘要生成算法的突发事件时间序 列自动构建方法 (57)摘要 本发明提供了一种基于摘要生成算法的突 发事件时间序列自动构建的方法, 将事件文档输 入后, 即可获得事件发生经过的详细且简洁的描 述。 该方法通过文本聚类、 摘要生成技术以及消 除冗余等自然语 言处理技术, 将互联网上繁杂冗 长的事件报道, 以简练的且有时间逻辑组织的事 件序列呈现给用户, 极大地减少了用户了解某一 事件消耗的时间和精力。 因突发事件对人类社会 通常有着直接的影 响, 所需时间成本小的事件时 序信息, 也更利于传播, 利于群众了解状况的同 时做好相应的举措。 权利要求书2页 说明书5页 附图4页 CN 114722194 A 2022.07.08 CN 114722194 A 1.突发事件时间序列构建主要包含四个步骤: 爬虫、 文本预处理、 文本聚类及去重、 突 发事件时间序列生成。 本发明主要针对突发事件时间序列构建, 提出一种基于摘要生成算 法融合冗余消除的多 文档摘要生成方法。 方法的具体步骤如下: 步骤1首先爬取中文互联网上的突发事 件新闻报道 步骤2完成文本的分词、 去停用词、 指代消解的预处 理工作; 步骤3获取文本特 征, 完成文本聚类及去重 工作; 步骤4对去重后的文本根据时间信息进行段落再分处理, 并抽取出每个段落的时间信 息; 步骤5对文本的段落进行摘要生成, 并将生成结果按照时间顺序排列起来, 得到候选摘 要时间序列; 步骤6利用基于语义角色标注的句子相似度计算消除候选摘要时间序列中的冗余信 息, 得到最终的突发事 件时间序列。 2.根据权利要求1所述的基于摘要生成算法的突发事件时间序列自动构建方法, 所述 步骤2中的指代消解具体指的是: 在人们的日常用语及 书面写作中, 为了不使文章阅读起来 枯燥冗长且死板, 会尽量规避同一词语重复使用的情况。 尤其是那些文中可能会反复出现 的人名、 地名、 时间等名词, 往往通常会使用相应的代词来指代前文中已经出现过的此类名 词。 这种语言现象则被称为指代。 然而这对于机器来讲却非容易的事。 比如 “昨日”, 对于机 器来讲, 并不能像人类那样, 在阅读时能够直接把 “昨日”转换成具体日期 。 特别是当 “昨日” 等指代词出现在后一个段落, 且所在段落没有其所指代的具体时间分词时, 在后续以段落 为单位生成摘要的时候将没法知晓具体日期, 给事件时序的构建带来干扰。 由此, 需将这类 指代词替换成与其含义相同的具体的词语, 这个过程就被称为指代消 解。 特征标点符号同 义化具体为以下步骤: 2.1.对文本做分句处 理; 2.2.对分好的句子做分词、 去停用词、 词性标注处理, 得到该句的分词列表以及对应的 词性标注列表 2.3.根据词性标注, 得到每句时间分词有关列表 2.4.判断这些时间分词是否为汉字日期, 若是则统一转化成阿拉伯数字日期, 并将所 有分词按照年月日拼接好, 得到最终日期, 存 储至全文日期列表中。 2.5.判断句子分词列表中是否存在 “上月”、“昨日”等时间指代词。 若存在接下步骤 2.6; 若不存在, 存 入最终输出列表里处 理下一句。 2.6.在全文日期列表中找到最近存储的日期作为步骤2.5中指代词指代的时间对象, 并根据指代词类别做对应的日期计算, 替换掉指代词, 将完成消解的句子存 入最终列表里。 3.根据权利要求2所述的基于摘要生成算法的突发事件时间序列自动构建方法, 其特 征在于, 所述 步骤3中进行的文本聚类及去重包括以下三个步骤: 3.1.计算TF ‑TDF权重实现文本向量 化 3.2.利用K ‑means文档聚类 3.3.各类簇利用Doc2 Vec去重处 理。 4.根据权利要求3所述的基于摘要生成算法的突发事件时间序列自动构建方法, 其特 征在于, 所述步骤4中的对去重后的文本根据时间信息进行段落再分处理, 并抽取出每个段权 利 要 求 书 1/2 页 2 CN 114722194 A 2落的时间信息的具体步骤为: 4.1.循环处 理文本中的每 个段落 4.2.循环处理每段中的所有句子。 判断每段各句子中是否存在时间名词, 若存在, 则将 某句的时间名词存入时间列表中, 若某段多个句子出现时间名词, 则根据具体情况判断该 段是否需要再分处 理。 4.3.若某段所有句子处理完后, 没发现时间信息, 则将此段与前一段合并成一段。 否则 继续处理下一个段落。 4.4.循环结束后得到新的自然段划分和每段对应的时间信息 。 5.根据权利要求4所述的基于摘要生成算法的突发事件时间序列自动构建方法, 其特 征在于, 所述 步骤5中的候选摘要时间序列生成包括以下 具体步骤: 5.1.将重新划分后的段落列表作为输入, 输入到摘要生成模型中, 得到每段的生成结 果; 5.2.利用每段的时间信息将生成结果 排序, 得到候选摘要时间序列。 6.根据权利要求5所述的基于摘要生成算法的突发事件时间序列自动构建方法, 其特 征在于, 所述 步骤6中的突发事 件时间序列包括以下 具体步骤: 6.1.计算 候选摘要句子相似度并聚类 6.2.循环处 理每个类簇。 初始所有句皆为带定句, 并对待定句进行语义角色标注 6.3.随机 选取一条句子保留至最终确定集中 6.4.剩余待定句与确定集中的句子 镜像核心角色对比 6.5.若待定句与确定集中的句子为核心角色的所有分词序列存在公共部分, 转到步骤 6.4, 否则, 将该待定句放入确定集中。 6.6.最终将确定集中的句子按照时间顺序排列起 来, 获得突发事 件时间序列。权 利 要 求 书 2/2 页 3 CN 114722194 A 3
专利 一种基于摘要生成算法的突发事件时间序列自动构建方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:45:28
上传分享
举报
下载
原文档
(831.1 KB)
分享
友情链接
GB-T 43439-2023 信息技术服务 数字化转型 成熟度模型与评估.pdf
GB-T 41621-2022 科学技术研究项目评价实施指南 开发研究项目.pdf
GB-T 3624-2023 钛及钛合金无缝管.pdf
GB-T 38408-2019 皮革 材质鉴别 显微镜法.pdf
GB-T 33024-2016 柳编制品.pdf
JR-T0213-2021 金融网络安全 Web 应用服务安全测试通用 规范.pdf
GB-T 42005.2-2022 轨道交通 储能式电车 第2部分:地面充电系统.pdf
GBT 41575-2022 未成年人互联网不健康内容分类与代码.pdf
GB-T 18916.54-2021 取水定额 第54部分:罐头食品.pdf
GB-T 28454-2020 信息技术 安全技术 入侵检测和防御系统(IDPS)的选择、部署和操作.pdf
GB-T 26558-2011 桅杆起重机.pdf
GB-T 3536-2008 石油产品 闪点和燃点的测定 克利夫兰开口杯法.pdf
GBT 24159-2022 焊接绝热气瓶.pdf
T-CI 103—2023 红树林抗低温生态修复技术规程.pdf
DB31-T 540-2022 重点单位消防安全管理要求 上海市.pdf
T-ACEF 107—2023 公民绿色低碳行为温室气体减排量化指南 行:地铁出行.pdf
DB4403-T 422.1—2024 诚信计量管理规范 第1部分:通则 深圳市.pdf
AIGC行业投资手册:挖掘美股“七巨头”外的AI软件核心标的-浦银国际证券 2024.pdf
TB-T 2604-2016 机车车辆车钩缓冲装置计量器具 货车钩尾框量具.pdf
DB37-T 3642-2019 全氟己酮灭火系统设计、施工及验收规范 山东省.pdf
1
/
3
12
评价文档
赞助2.5元 点击下载(831.1 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。