(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210329550.2 (22)申请日 2022.03.28 (71)申请人 同方知网数字出版技 术股份有限公 司 地址 100192 北京市海淀区西小口路6 6号 东升科技园B2 楼 (72)发明人 冯晓燕 吴晨  (74)专利代理 机构 北京天奇智新知识产权代理 有限公司 1 1340 专利代理师 陈新胜 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/216(2020.01) G06K 9/62(2022.01) (54)发明名称 一种主题分层建模中主题词/序列的提取方 法 (57)摘要 本发明公开了一种主题分层建模中主题词/ 序列的提取方法, 包括: 获取主题分层建模的模 型输出; 根据模型输出提取主题词/序列; 展 示主 题的词/序列特征表示结果。 本发明可 以在挖掘 层次化主题结构的过程中更好的表 示主题, 既体 现了上下层级主题间的相关性, 也凸显出了上下 层级主题间的差异性和同层 主题间的差异性, 使 主题不仅在结构上呈现出层次性, 在表示上也体 现了层次化。 权利要求书2页 说明书3页 附图1页 CN 114757197 A 2022.07.15 CN 114757197 A 1.一种主题分层建模中主题词/序列的提取 方法, 其特 征在于, 包括: A、 获取主题分层建模的模型输出; B、 根据模型输出提取主题词/序列; C、 展示主题的词/序列特 征表示结果。 2.如权利要求1所述的主题分层 建模中主题词/序列的提取方法, 其特征在于, 所述A主 要包括获取已经挖掘好的分层主题结果, 包括主题间的层级关系和主题对应文献集 合。 3.如权利要求1所述的主题分层 建模中主题词/序列的提取方法, 其特征在于, 所述B具 体包括: 提取根节点下所有子节点的主题词/序列, 以及提取非根节点子节点的主题词/序 列。 4.如权利要求3所述的主题分层建模中主题词/序列的提取方法, 其特征在于, 根节点 下子节点主题词/序列的提取包括: 计算每个主题对应文献集 合的词/序列频次, 并倒序排列; 取top_n个词/序列 作为该主题的词/序列; 输出提取的主题的词/序列。 5.如权利要求3所述的主题分层建模中主题词/序列的提取方法, 其特征在于, 所述非 根节点子节点主题词/序列的提取包括: 计算词/序列频次并倒序提取主题特 征; 根据c‑tf‑idf提取主题特 征; 提取主题的词/序列; 输出主题的词/序列。 6.如权利要求5所述的主题分层建模中主题词/序列的提取方法, 其特征在于, 所述主 题的词/序列提取包括: 提取主题的相关性特征即从主题的sims_features_candidate中选取1个跟父节点主 题最相似的特 征; 提取主题的差异性特征即从主题的diffs_features_candidate中选取2个跟父节点主 题差异性大于阈值的特 征; 将跟父节点主题最相似的特征与跟父节点主题差异性大于阈值的特征组成主题的词/ 序列。 7.如权利要求6所述的主题分层建模中主题词/序列的提取方法, 其特征在于, 所述主 题的相关性特 征的提取包括: 提取父节点主题词/序列的语义特征f_f和sims_features_candidate 的语义特征fs_ c; 计算相似性; 从sims_features_candidate中取相似性 最大的特 征记作f_s_max=[ws_0]。 8.如权利要求6所述的主题分层建模中主题词/序列的提取方法, 其特征在于, 所述主 题的差异性特 征提取包括: 提取父节点主题词/序列的语义特征f_f和diffs_fe atures_candidate的语义特征fd_ c; 计算差异性;权 利 要 求 书 1/2 页 2 CN 114757197 A 2从sims_features_candidate中依次取差异性值大于差异性阈值的前2个特征记作f_ d_max=[ws_1,ws_2]。权 利 要 求 书 2/2 页 3 CN 114757197 A 3

.PDF文档 专利 一种主题分层建模中主题词 序列的提取方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种主题分层建模中主题词 序列的提取方法 第 1 页 专利 一种主题分层建模中主题词 序列的提取方法 第 2 页 专利 一种主题分层建模中主题词 序列的提取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:44:16上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。