(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210478004.5
(22)申请日 2022.05.05
(71)申请人 昆明理工大 学
地址 650093 云南省昆明市五华区一 二—
大街文昌巷68号
(72)发明人 王红斌 李瑞辉 线岩团 文永华
(74)专利代理 机构 池州市卓燊知识产权代理事
务所(普通 合伙) 3421 1
专利代理师 徐雪
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/216(2020.01)
G06F 40/279(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种基于对比学习融入动态调整机制的文
本聚类方法
(57)摘要
本发明公开了一种基于对比学习融入动态
调整机制的文本聚类方法, 其特征在于, 基于语
境增强的方法得到一组增强文本, 通过预训练模
型得到增 强文本的特征表示, 通过K ‑Means聚类
方法得到语义集群的初始簇心; 提高文本聚类分
布的置信度, 进行动态筛选; 最后得到模型总损
失函数, 并通过动态调整函数不断动态调整, 使
模型训练重量从对比学习平滑过渡到聚类任务。
本发明缓和对比学习和聚类目标不一致的问题;
实现对比学习到聚类的平滑过渡; 通过为簇分配
概率的置信度高的数据分配伪标签对负例进行
筛选, 以此解决同一簇数据互为负例的问题, 有
效提高了负例质量; 对比学习得到的数据表示对
聚类更友好; 在大部分数据集上优于现有的短文
本聚类方法。
权利要求书3页 说明书10页 附图2页
CN 114817543 A
2022.07.29
CN 114817543 A
1.一种基于对比学习融入动态调整机制的文本聚类方法, 其特征在于: 具体算法流程
如下所示:
Step1、 首先基于语境增强方法通过两个不同的掩词预测模型获得文本的增强文本对,
然后传入共享参数的预训练Bert模型中得到特征表示, 最后通过K ‑Means聚类方法得到初
始语义簇心;
Step2、 首先计算特征表示与语义簇心的学生T分布得到文本的簇软分配概率分布, 然
后将其锐化得到 辅助分布, 最后交叉优化增强文本对之间的概 率分布和辅助分布;
Step3、 首先通过由Step2得到的高置信度的簇软分配概率分布为文本分配伪标签, 然
后将与正例对同一伪标签的数据从负例中剔除, 最后最大化正例对之间的相似度, 最小化
与负例的相似度;
Step4、 首先通过动态调整函数得到当前迭代次数下的聚类损失和对比学习损失各自
的权重比例, 然后按权 重相加得到模型总损失, 最后根据损失更新模型参数;
Step5、 迭代多次重复Step2 ‑Step4的过程, 直到训练结束。
2.根据权利要求1所述的一种基于对比学习 融入动态调整机制的文本聚类方法, 其特
征在于: 所述Step1的具体步骤为:
Step1.1、 随机将文本xi中的单词用掩词MASK替换;
Step1.2、 将文本输入两个不同掩词预测模型Ta和Tb中得到两个被替换词的预测词集
合;
Step1.3、 按预测相似度 排名分别从两个预测词集合中选择预测词替换掩词MASK, 得到
增强后的文本对
和
Step1.4、 将增强文本对传入预训练Bert模型f( ·)得到其特征表示
和
Step1.5、 在特征空间中对特征表示进行K ‑Means聚类得到初始语义簇心μk,k∈{1,
2,…,K}, 其中K为预期划分簇的个数。
3.根据权利要求1所述的一种基于对比学习 融入动态调整机制的文本聚类方法, 其特
征在于: 所述Step2的具体步骤为:
Step2.1、 计算文本特征在特征空间中的学生T分布评估文本特征hi与语义簇心 μk之间
的相似度, 具体如下:
其中, α 为学生T分布中的自由度;
然后, qik可以看作数据xi分配给k簇的概率, 于是得到数据的簇软分配概率的分布如
下,
qi=gC(hi)=[qik],k∈{1,2, …,K} (2)
Step2.2、 为了通过从高置信度赋值中学习来优化数据表示, 设置辅助目标分布函数如
下:权 利 要 求 书 1/3 页
2
CN 114817543 A
2该目标分布函数首先通过将软分配概率qik提高到二次幂来使其锐化, 然后通过关联的
群集频率对其进行归一 化;
Step2.3、 通过公式(1)和公式(3)我们得到增强文本对
和
各自的簇分配分布和辅
助分布qa、 qb、 pa、 pb, 然后交叉优化它 们之间的KL发散度得到聚类损失, 具体如下:
其中M为一个批次中文本数量。
4.根据权利要求1所述的一种基于对比学习 融入动态调整机制的文本聚类方法, 其特
征在于: 所述Step3的具体步骤为:
Step3.1、 将来自同一文本的增强文本对
和
的特征表示组成正例对
Step3.2、 通过公式(2)得到的簇软分配概 率分布qi为数据分配伪标签, 具体如下:
其中, ∈为置信度阈值, 用于避免错误的伪标签起到反作用; 然后检验正例对之间伪标
签的一致性, 具体如下:
最后将同一批次中的其他文本视作 该文本的负例集合, 并基于伪标签对负例集合进行
筛选, 将具有相同伪标签的数据将被视为 假负例移除该文本的负例, 得到负例集 合如下:
Si={j,yi=‑1‖ yi≠yj} (7)
Step3.3、 使用非线性多层感知机gI(·)将文本特征映射到一个子空间, 得到文本子空
间表示zi=gI(hi);
Step3.4、 在子空间中计算文本的i nfoNCE损失, 具体如下:
其中τ为温度参数, sim( ·)为相似度度量; 在本发明中, sim( ·)通过输出之间的归一
化点积计算, 具体如下:
权 利 要 求 书 2/3 页
3
CN 114817543 A
3
专利 一种基于对比学习融入动态调整机制的文本聚类方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:45:20上传分享