(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210190041.6 (22)申请日 2022.02.28 (71)申请人 山西大学 地址 030006 山西省太原市坞城路9 2号 (72)发明人 牛奉高 王思佳 苏雅  (74)专利代理 机构 太原申立德知识产权代理事 务所(特殊普通 合伙) 14115 专利代理师 孙乐 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/216(2020.01) (54)发明名称 一种基于最优运输的动态主题质 量评价方 法 (57)摘要 本发明公开了一种基于最优运输的动态主 题质量评价方法, 属于文本挖掘技术领域。 结合 主题一致性和最优运输理论, 使用最优运输距离 (OT距离)来计算主题转移距离, 用来评估在整个 演化过程中的主题相关性; 同时计算每一个主题 下的主题一致性, 用来评价整个模型的可解释 性。 最后结合两个指标提出一种新的主题演化质 量评价方法来评价动态模型的演化效果。 本发明 通过最优传输距离来判断该主题是否朝着最相 关的主题进行了演化, 同时结合主题 一致性对模 型综合评价。 本发明基于最优运输动态主题的质 量评价方法在文本内容主题的挖掘和演化中对 于文本建模和分类及推荐效果提升具有重要作 用。 权利要求书3页 说明书8页 附图2页 CN 114580431 A 2022.06.03 CN 114580431 A 1.一种基于最优运输的动态主题质量评价方法, 其特 征在于: 包括以下步骤: 步骤1, 对每篇文本进行 预处理; 步骤2, 通过W ord2vec模型对步骤1预处 理后文本中的词进行训练, 得到词嵌入矩阵ρ; 步骤3, 然后使用欧氏距离的计算方法对得到的词嵌入矩阵ρ 求内积, 得到成本矩阵C, 即: C=Eucl idean( ρ ); 步骤4, 确定主题个数; 步骤5, 建立动态主题模型和动态嵌入式主题模型; 步骤6, 计算 不同时刻主题之间的转移 距离; 设X={x1,…,xn}和Y={y1,…,ym}是一组度量空间中 的两组点, x1,…,xn表示X的坐标, y1,…,ym表示Y的坐标, 表示n个元素上的概率, 表示m个元素上的概率, p,q是两个在x,y上的离散的概率分布, 即p∈Δn,q∈Δm, 所以有p,q之间 的1‑Wasserstein 距离为: 其中, W1表示1‑Wasserstein距离, C表示的是成本矩阵, Cij=L(xi,yj)表示距离, 通过表 达式中的约束, Γ表示传输矩阵; 计算主题转移 距离: 其中, 表示的是在t时刻第k个主题在词上分布的第i个分量; 步骤7, 通过遍历所有 主题, 计算出 所有主题的演化距离, 通过归一 化并求平均, 即: 其中, s表示演化距离, 即主题k在t时刻到t+1时刻的转移距离; K表示主题个数, k表示 主题, T表示时刻个数, t表示时刻, 表示归一化后的值, β 表示在t时刻词在 主题k上的分布比例; 步骤8, 计算主题一 致性, 表示为:权 利 要 求 书 1/3 页 2 CN 114580431 A 2其中Topic‑coherence表示主题一致性, K表示主题个数, n表示选取的每个主题下的前 n个词, C表示成本矩阵, f表示 与 的函数, 表示第k个主题的第i个词, 表示第k 个主题的第j个词; P(wi,wj)表示词wi和wj之间的点互信息; 步骤9, 将两种指标相结合 来综合评价主题模型的质量, 表示 为: 2.根据权利要求1所述的一种基于最优运输的动态主题质量评价方法, 其特征在于: 所 述步骤5建立动态主题模型和动态嵌入式主题模型, 具体方法是: 步骤5.1: 建立动态主题模型: 步骤5.1.1, 对每 个文档d生成主题比例 其中, θd表示每个文档d的主题比例, θd的先验取决于文档d的时间戳; LN表示渐近正态 分布, 是一个潜在的变量, 它控制着在t时刻文档d对主题比例的先验平均值, t∈{1, 2,…,T}: t表示时刻, T表示时刻个数; a表示模型的超参数; I表示单位矩阵; 步骤5.1.2, 对于文档d中的第n个词生成主题分配和生成词; zdn~Cat( θd) 其中, zdn表示文档d中的第n个词的主题分配, Cat( ·)表示分类分布; wdn表示文档d的第 n个词, 表示在t时刻文档d中的词在主题zdn上的分布比例; 步骤5.1.3, 将主题在时间上的演化 通过马尔科 夫链表示: ηt| ηt+1~N( ηt+1, δ2I); 其中, 表示转换后的主题, R表示实数向量空间, V表示表示维数, 将 映射到权 利 要 求 书 2/3 页 3 CN 114580431 A 3

.PDF文档 专利 一种基于最优运输的动态主题质量评价方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于最优运输的动态主题质量评价方法 第 1 页 专利 一种基于最优运输的动态主题质量评价方法 第 2 页 专利 一种基于最优运输的动态主题质量评价方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:32上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。