(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210275509.1 (22)申请日 2022.03.21 (71)申请人 北京理工大 学 地址 100081 北京市海淀区中关村南大街5 号 (72)发明人 张隽驰 张华平 商建云  (74)专利代理 机构 北京正阳理工知识产权代理 事务所(普通 合伙) 11639 专利代理师 张利萍 (51)Int.Cl. G06F 16/34(2019.01) G06F 16/35(2019.01) G06F 40/30(2020.01) G06F 40/216(2020.01) G06F 40/211(2020.01)G06K 9/62(2022.01) (54)发明名称 一种基于多句压缩的无监督科技情报摘要 自动生成方法 (57)摘要 本发明涉及一种基于多句压缩的无监督科 技情报摘要自动生成方法, 属于自然语 言生成技 术领域。 针对科技情报领域的多文档文本生成, 首先基于LDA主题相似度词库扩展方法的主题爬 虫来获取源数据。 通过文本信息的权威性、 时效 性、 内容相关性三个指标的文本信息价值评估模 型, 对所有文本段落进行排序。 选取得分较高段 落的作为生成最终科技情报的原始文本。 最后, 采用基于谱聚类和多句压缩的无监督多文档摘 要方法, 自动生成科技情报摘要。 本方法有效解 决了在数据筛选过程中, 科技情报生成对于数据 时效性以及权威性要求较高的问题, 以及科技情 报领域由于数据集缺乏导致传统基于神经网络 多文档生成方法无法应用的问题。 权利要求书5页 说明书8页 附图4页 CN 114706972 A 2022.07.05 CN 114706972 A 1.一种基于多句压缩的无监督科技情报摘要自动生成方法, 其特征在于, 包括以下步 骤: 步骤1: 采用基于LDA主题相似度词库扩展方法的主题爬虫方式, 进行文本内容抓取, 获 取源数据; 步骤2: 对爬取的文本, 根据其内容与关键词的相关性以及该源文本的时效性和权威 性, 进行评估排序; 通过提炼出文本信息的权威性、 时效性、 内容相关性这三个特征维度, 构 建文本信息价 值评估模型; 包括以下步骤: 步骤2.1: 将所有 文本按照段落进行分割; 在后续计算中, 以段落 为单位进行; 其中, 对论文、 专利、 期刊类的价 值评估的方法如下: 针对论文、 专利、 期刊类文本, 将影响因子、 第一作者总发文量和总下载量、 该文本下载 量、 引用量作为权威性评判指标, 将发布时间作为时效性指标, 将摘要与主题词 库的相似性 作为内容相关性指标, 并为每个指标设定相应参数, 构建文本信息价值评估模型, 综合计算 文本的价 值评分; 步骤2.3: 对智库文章的价值进行评估; 针对智库文章类文本, 将文章作者的粉丝数、 发 文数量作为权威性指标, 将发布 时间作为时效性指标, 将文章摘要与主题词库的相似性作 为内容相关性指标, 并为每 个指标设定相应的参数, 构建智库文章文本信息价 值评估模型; 步骤2.4: 计算文本的信息价 值; 将文本信息价值定义为新的权威性特征、 时效性特征和内容相关性特征的线性组合; 同时, 考虑到时效性的乘数效应, 得到测算信息价 值为: X=[ δ1( α1x11+α2x12+α3x13)+δ2( β x3)]x2          (10) 其中, X表示此段文本信息的价值, α1、 α2、 α3、 δ1、 δ2表示不同特征对文本价值的影响因 子, 其值根据实际需要 进行选择; 步骤2.5: 将每个段落按照其文本信息价值评分进行排序, 选择排序结果的之多前40条 段落, 作为后续进行多 文档摘要的文本数据; 步骤3: 以步骤2中得到的结果文本作为模型的输入, 采用基于谱聚类和多句压缩的无 监督多文档摘要模型, 得到摘要结果; 首先, 将原始文档转换为句子图, 同时考虑语言和深度表示, 然后应用谱聚类得到多个 句子簇, 最后对每 个簇进行压缩生成最终摘要。 2.如权利要求1所述的一种基于多句压缩的无监督科技情报摘要自动生成方法, 其特 征在于, 步骤1包括以下步骤: 步骤1.1: 根据给定的初始关键词, 爬取相应结果网页, 将这些新增的网页提取摘要, 作 为LDA新的训练语料; 步骤1.2: 对训练预 料做词嵌入; 步骤1.3: 结合原有的语料库, 经LDA训练得到新的主题文档, 用于覆盖更新原有主题爬 虫的主题文档。 3.如权利要求1所述的一种基于多句压缩的无监督科技情报摘要自动生成方法, 其特 征在于, 步骤2中, 针对论文、 专利、 期刊类文本的价 值评分计算方法, 包括以下步骤: 第一步: 计算权威 性x1;权 利 要 求 书 1/5 页 2 CN 114706972 A 2对于权威性x1, 与权威性相关的因素包 括文本的发表期刊权威性、 作者在本 领域中的权 威性, 以本领域 其他研究者对该文本的评价; 其中, 期刊类的权威性x11, 采用该期刊影响因子与所有文献影响因子的最大值的 比值 表示, 如式1所示: 论文、 专利类的权威性, 由作者作为第一作者在该领域发表文章数量以及该作者作为 第一作者发表的文章被下 载的总量决定, 如式2所示: 论文本身的价 值, 由该论文的下 载量和引用量 来决定, 如式3所示: 第二步: 计算时效性x2; 设文本信息价值随时间的衰减系数为μ, 信息获取时刻与信息发布时刻的时间间隔为 Δt, 则信息价值随时间变化的计算如式4所示: x2=e‑μ Δt                         (4) 其中, e为自然常数; 第三步: 计算内容相关性x3; 将主题爬虫获取到的主题词库中的每个词看为qi; 对于该文本的摘要a, 计算每个词qi 与a的相关度得分, 将qi与a的相关性得分进行加权求和, 得到当前文本与主题词库的相关 性得分Score(Q,a), 如式5所示: 其中Wi表示第i个词qi的权重, 使用TF ‑IDF算法计算; n表示词库中单词总数; R(qi,a)表 示单词qi与a的相关性, 通过式6、 式7计算: 其中, tfta是单词t在a中的词频; La是a的长度, Lave是所有文本的平均长度, 变量k是一 个正的参数, 用来标准化文章词频的范围; b 是一个可调的参数, 0<b<1, 表示用决定使用文 档长度来表示信息量的范围; K为计算时的中间结果; 针对智库文章类文本的价 值评分计算方法, 包括以下步骤: 第一步: 计算权威 性x1; 对于智库文章, 以该文章作者的粉丝数以及发文数量作为其权威性的衡量指标, 采用 式8、 式9计算: 权 利 要 求 书 2/5 页 3 CN 114706972 A 3

.PDF文档 专利 一种基于多句压缩的无监督科技情报摘要自动生成方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多句压缩的无监督科技情报摘要自动生成方法 第 1 页 专利 一种基于多句压缩的无监督科技情报摘要自动生成方法 第 2 页 专利 一种基于多句压缩的无监督科技情报摘要自动生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:05上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。