(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221021482 9.6 (22)申请日 2022.03.04 (71)申请人 贵州大学 地址 550025 贵州省贵阳市花溪区花溪大 道南段2708号 (72)发明人 黄瑞章 翁彬月 秦永彬 陈艳平  (74)专利代理 机构 哈尔滨市阳光惠远知识产权 代理有限公司 2321 1 专利代理师 刘景祥 (51)Int.Cl. G06F 16/35(2019.01) G06K 9/62(2022.01) G06F 40/216(2020.01) G06F 40/226(2020.01) G06F 40/284(2020.01)G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于多维度文本特征的新闻网页信息 提取方法、 系统、 设备及 介质 (57)摘要 本发明提出一种基于多维度文本特征的新 闻网页信息提取方法、 系统、 设备及介质, 该方法 可以有效获取新闻信息。 在新闻信息提取任务 中, 传统的模型依赖于HTML标签, 难以扩展至不 同来源的新闻网页中使用。 且只能将新闻内容整 体提取, 不能提取多种类新闻属性信息。 基于上 述两个难点, 本发明提出了基于多维度文本特征 模型MTFE, 该方法通过分析新闻网页的纯文本内 容得到写作特征、 位置特征和语义特征, 通过卷 积神经网络和长短期记忆模型学习出多维度的 文本特征, 从而提高文本特征的置信度。 实验显 示, 本发明中的方法显著提高了多来源新闻网页 提取多种属性新闻信息的效果, 在10个中文数据 集和5个英文数据集上均取得9 0%以上的F值, 这 证明了该方法的有效性。 权利要求书2页 说明书6页 附图1页 CN 114647726 A 2022.06.21 CN 114647726 A 1.一种基于多维度文本特征的新闻网页信息提取方法, 其特征在于, 所述方法具体包 括: 步骤1: 通过新闻网页的纯文本信 息获得三种不同维度的文本特征, 所述文本特征包括 写作特征、 位置特 征和语义特 征; 步骤2: 利用CNN ‑BiLSTM模型, 获取不同粒度的、 带依赖关系的文本信息, 将不同的文本 特征融合为一个多维度的文本特 征; 步骤3: 通过神经网络多分类 器, 进行不同新闻属性信息预测; 步骤4: 使用真实数据验证方法的有效性。 2.根据权利要求1所述的方法, 其特征在于, 运用统计的方法获取新闻不同属性, 自然 段落的文字长度变化作为写作特征, 将自然段落的相对位置这一全局信息作为位置特征, 将自然段落文字自身的语义内容作为语义特 征。 3.根据权利要求2所述的方法, 其特征在于, 语义特征分为字级别与词级别, 分别进入 CNN和BiLSTM模型学习, 并且预先通过Word2Vec学习出词向量; 设置不同大小的隐藏层, 构 建CNN‑BiLSTM模型, 该模 型能获取不同粒度的、 带依赖关系的文本特征, 融合出一个多维度 的文本特 征。 4.根据权利要求3所述的方法, 其特征在于, 模型的输入层由初始化获得的三类不同的 查找表映射成的特征向量组成; 1)写作特征向量: 将一组少量标记好属性的新闻网页纯文 本, 根据自然段落文本的字符长进行分析对比, 并记录不同属 性相似文本段落的最小值和 最大值, 由当前段落的字 符长、 相似段落字 符长的最小值和最大值, 三个数值共同构成当前 段落的写作特征值; 通过Embedding层生成三个表示ewi、 ewmin和ewmax, 都是预设的dw维的向 量, 连接这三个表示得到写作特征的表达: ew=[ewi; ewmin; exmax], 所述写作特征ew是一个3dw 维的向量; 2)位置特征向量: 将新闻网页文本中的自然段落所在位置的序号作为该段落的 位置特征, 通过Embedding层生成位置特征表示ep, 所述位置特征表示ep是一个预设的dp维 向量; 3)语义特征向量: 将新闻纯文本内容分词后放入Word2Vec进 行训练分析, 得到和上下 文相关的词向量表达, 作为初步的语义特 征向量gw。 5.根据权利要求4所述的方法, 其特征在于, 利用卷积神经网络CNN对每个单词w进行编 码, 得到 将 与学习到的初步的语义特征向量gw连接起来, 得到 再利用 双向长短记忆神 经网络BiLSTM学习序列数据的潜在表示, 即获得真正 的语义特征表示es; 在实现这些文本特征之后, 通过全连接层将它们连接成一个多维度文本特征向量en, en= [ew; ep; es], 其维度为dn, dn=dw+dp+M; M表示语义特 征向量的维度。 6.根据权利要求5所述的方法, 其特征在于, 使用softmax层对全连接层的输出结果进 行归一化处理, 得最后分类结果。 7.根据权利要求6所述的方法, 其特征在于, 在步骤4中, 注释一系列的数据集, 该数据 集包含10个中文数据集和 5个英文数据集, 其来源于新浪新闻、 新华网、 光明网、 腾讯新闻、 央广网、 搜狐新闻、 网易新闻、 南方网、 新京报、 中国青年网、 美国有线电视新闻网(CNN)、 谷 歌新闻、 纽约时报、 卫报和英国广播公司(B BC)。 8.一种基于多维度文本特征的新闻网页信息提取系统, 其特征在于, 所述系统具体包 括: 文本特征单元: 用于通过新闻网页的纯文本信息获得三种不同维度的文本特征, 所述权 利 要 求 书 1/2 页 2 CN 114647726 A 2文本特征包括写作特 征、 位置特 征和语义特 征; 多维度文本特征模块: 用于利用CNN ‑BiLSTM模型, 获取不同粒度的、 带依赖关系的文本 信息, 将不同的文本特 征融合为一个多维度的文本特 征; 属性预测模块: 用于通过神经网络多分类 器, 进行不同新闻属性信息预测; 方法验证模块: 用于使用真实数据验证方法的有效性。 9.一种电子设备, 包括存储器和 处理器, 所述存储器存储有计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1 ‑7任一项所述方法的步骤。 10.一种计算机可读存储介质, 用于存储计算机指令, 其特征在于, 所述计算机指令被 处理器执行时实现权利要求1 ‑7任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114647726 A 3

.PDF文档 专利 一种基于多维度文本特征的新闻网页信息提取方法、系统、设备及介质

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多维度文本特征的新闻网页信息提取方法、系统、设备及介质 第 1 页 专利 一种基于多维度文本特征的新闻网页信息提取方法、系统、设备及介质 第 2 页 专利 一种基于多维度文本特征的新闻网页信息提取方法、系统、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:10上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。