(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210190041.6
(22)申请日 2022.02.28
(71)申请人 山西大学
地址 030006 山西省太原市坞城路9 2号
(72)发明人 牛奉高 王思佳 苏雅
(74)专利代理 机构 太原申立德知识产权代理事
务所(特殊普通 合伙) 14115
专利代理师 孙乐
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/216(2020.01)
(54)发明名称
一种基于最优运输的动态主题质 量评价方
法
(57)摘要
本发明公开了一种基于最优运输的动态主
题质量评价方法, 属于文本挖掘技术领域。 结合
主题一致性和最优运输理论, 使用最优运输距离
(OT距离)来计算主题转移距离, 用来评估在整个
演化过程中的主题相关性; 同时计算每一个主题
下的主题一致性, 用来评价整个模型的可解释
性。 最后结合两个指标提出一种新的主题演化质
量评价方法来评价动态模型的演化效果。 本发明
通过最优传输距离来判断该主题是否朝着最相
关的主题进行了演化, 同时结合主题 一致性对模
型综合评价。 本发明基于最优运输动态主题的质
量评价方法在文本内容主题的挖掘和演化中对
于文本建模和分类及推荐效果提升具有重要作
用。
权利要求书3页 说明书8页 附图2页
CN 114580431 A
2022.06.03
CN 114580431 A
1.一种基于最优运输的动态主题质量评价方法, 其特 征在于: 包括以下步骤:
步骤1, 对每篇文本进行 预处理;
步骤2, 通过W ord2vec模型对步骤1预处 理后文本中的词进行训练, 得到词嵌入矩阵ρ;
步骤3, 然后使用欧氏距离的计算方法对得到的词嵌入矩阵ρ 求内积, 得到成本矩阵C,
即: C=Eucl idean( ρ );
步骤4, 确定主题个数;
步骤5, 建立动态主题模型和动态嵌入式主题模型;
步骤6, 计算 不同时刻主题之间的转移 距离;
设X={x1,…,xn}和Y={y1,…,ym}是一组度量空间中 的两组点, x1,…,xn表示X的坐标,
y1,…,ym表示Y的坐标,
表示n个元素上的概率,
表示m个元素上的概率,
p,q是两个在x,y上的离散的概率分布, 即p∈Δn,q∈Δm, 所以有p,q之间 的1‑Wasserstein
距离为:
其中, W1表示1‑Wasserstein距离, C表示的是成本矩阵, Cij=L(xi,yj)表示距离, 通过表
达式中的约束, Γ表示传输矩阵;
计算主题转移 距离:
其中,
表示的是在t时刻第k个主题在词上分布的第i个分量;
步骤7, 通过遍历所有 主题, 计算出 所有主题的演化距离, 通过归一 化并求平均, 即:
其中, s表示演化距离, 即主题k在t时刻到t+1时刻的转移距离; K表示主题个数, k表示
主题, T表示时刻个数, t表示时刻,
表示归一化后的值, β 表示在t时刻词在
主题k上的分布比例;
步骤8, 计算主题一 致性, 表示为:权 利 要 求 书 1/3 页
2
CN 114580431 A
2其中Topic‑coherence表示主题一致性, K表示主题个数, n表示选取的每个主题下的前
n个词, C表示成本矩阵, f表示
与
的函数,
表示第k个主题的第i个词,
表示第k
个主题的第j个词; P(wi,wj)表示词wi和wj之间的点互信息;
步骤9, 将两种指标相结合 来综合评价主题模型的质量, 表示 为:
2.根据权利要求1所述的一种基于最优运输的动态主题质量评价方法, 其特征在于: 所
述步骤5建立动态主题模型和动态嵌入式主题模型, 具体方法是:
步骤5.1: 建立动态主题模型:
步骤5.1.1, 对每 个文档d生成主题比例
其中, θd表示每个文档d的主题比例, θd的先验取决于文档d的时间戳; LN表示渐近正态
分布,
是一个潜在的变量, 它控制着在t时刻文档d对主题比例的先验平均值, t∈{1,
2,…,T}: t表示时刻, T表示时刻个数; a表示模型的超参数; I表示单位矩阵;
步骤5.1.2, 对于文档d中的第n个词生成主题分配和生成词;
zdn~Cat( θd)
其中, zdn表示文档d中的第n个词的主题分配, Cat( ·)表示分类分布; wdn表示文档d的第
n个词,
表示在t时刻文档d中的词在主题zdn上的分布比例;
步骤5.1.3, 将主题在时间上的演化 通过马尔科 夫链表示:
ηt| ηt+1~N( ηt+1, δ2I);
其中,
表示转换后的主题, R表示实数向量空间, V表示表示维数, 将
映射到权 利 要 求 书 2/3 页
3
CN 114580431 A
3
专利 一种基于最优运输的动态主题质量评价方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:45:32上传分享