专利一种基于对比学习融入动态调整机制的文本聚类方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210478004.5 (22)申请日 2022.05.05 (71)申请人昆明理工大学地址 650093 云南省昆明市五华区一二— 大街文昌巷68号 (72)发明人王红斌　李瑞辉　线岩团　文永华　 (74)专利代理机构池州市卓燊知识产权代理事务所(普通合伙) 3421 1 专利代理师徐雪 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/279(2020.01) G06F 40/30(2020.01) (54)发明名称一种基于对比学习融入动态调整机制的文本聚类方法 (57)摘要本发明公开了一种基于对比学习融入动态调整机制的文本聚类方法，其特征在于，基于语境增强的方法得到一组增强文本，通过预训练模型得到增强文本的特征表示，通过K ‑Means聚类方法得到语义集群的初始簇心；提高文本聚类分布的置信度，进行动态筛选；最后得到模型总损失函数，并通过动态调整函数不断动态调整，使模型训练重量从对比学习平滑过渡到聚类任务。本发明缓和对比学习和聚类目标不一致的问题；实现对比学习到聚类的平滑过渡；通过为簇分配概率的置信度高的数据分配伪标签对负例进行筛选，以此解决同一簇数据互为负例的问题，有效提高了负例质量；对比学习得到的数据表示对聚类更友好；在大部分数据集上优于现有的短文本聚类方法。权利要求书3页说明书10页附图2页 CN 114817543 A 2022.07.29 CN 114817543 A 1.一种基于对比学习融入动态调整机制的文本聚类方法，其特征在于：具体算法流程如下所示： Step1、首先基于语境增强方法通过两个不同的掩词预测模型获得文本的增强文本对，然后传入共享参数的预训练Bert模型中得到特征表示，最后通过K ‑Means聚类方法得到初始语义簇心； Step2、首先计算特征表示与语义簇心的学生T分布得到文本的簇软分配概率分布，然后将其锐化得到辅助分布，最后交叉优化增强文本对之间的概率分布和辅助分布； Step3、首先通过由Step2得到的高置信度的簇软分配概率分布为文本分配伪标签，然后将与正例对同一伪标签的数据从负例中剔除，最后最大化正例对之间的相似度，最小化与负例的相似度； Step4、首先通过动态调整函数得到当前迭代次数下的聚类损失和对比学习损失各自的权重比例，然后按权重相加得到模型总损失，最后根据损失更新模型参数； Step5、迭代多次重复Step2 ‑Step4的过程，直到训练结束。 2.根据权利要求1所述的一种基于对比学习融入动态调整机制的文本聚类方法，其特征在于：所述Step1的具体步骤为： Step1.1、随机将文本xi中的单词用掩词MASK替换； Step1.2、将文本输入两个不同掩词预测模型Ta和Tb中得到两个被替换词的预测词集合； Step1.3、按预测相似度排名分别从两个预测词集合中选择预测词替换掩词MASK，得到增强后的文本对和 Step1.4、将增强文本对传入预训练Bert模型f( ·)得到其特征表示和 Step1.5、在特征空间中对特征表示进行K ‑Means聚类得到初始语义簇心μk,k∈{1, 2,…,K}，其中K为预期划分簇的个数。 3.根据权利要求1所述的一种基于对比学习融入动态调整机制的文本聚类方法，其特征在于：所述Step2的具体步骤为： Step2.1、计算文本特征在特征空间中的学生T分布评估文本特征hi与语义簇心 μk之间的相似度，具体如下：其中， α 为学生T分布中的自由度；然后， qik可以看作数据xi分配给k簇的概率，于是得到数据的簇软分配概率的分布如下， qi＝gC(hi)＝[qik],k∈{1,2, …,K} (2) Step2.2、为了通过从高置信度赋值中学习来优化数据表示，设置辅助目标分布函数如下：权　利　要　求　书 1/3 页 2 CN 114817543 A 2该目标分布函数首先通过将软分配概率qik提高到二次幂来使其锐化，然后通过关联的群集频率对其进行归一化； Step2.3、通过公式(1)和公式(3)我们得到增强文本对和各自的簇分配分布和辅助分布qa、 qb、 pa、 pb，然后交叉优化它们之间的KL发散度得到聚类损失，具体如下：其中M为一个批次中文本数量。 4.根据权利要求1所述的一种基于对比学习融入动态调整机制的文本聚类方法，其特征在于：所述Step3的具体步骤为： Step3.1、将来自同一文本的增强文本对和的特征表示组成正例对 Step3.2、通过公式(2)得到的簇软分配概率分布qi为数据分配伪标签，具体如下：其中， ∈为置信度阈值，用于避免错误的伪标签起到反作用；然后检验正例对之间伪标签的一致性，具体如下：最后将同一批次中的其他文本视作该文本的负例集合，并基于伪标签对负例集合进行筛选，将具有相同伪标签的数据将被视为假负例移除该文本的负例，得到负例集合如下： Si＝{j,yi＝‑1‖ yi≠yj} (7) Step3.3、使用非线性多层感知机gI(·)将文本特征映射到一个子空间，得到文本子空间表示zi＝gI(hi)； Step3.4、在子空间中计算文本的i nfoNCE损失，具体如下：其中τ为温度参数， sim( ·)为相似度度量；在本发明中， sim( ·)通过输出之间的归一化点积计算，具体如下：权　利　要　求　书 2/3 页 3 CN 114817543 A 3

专利 一种基于对比学习融入动态调整机制的文本聚类方法

专利一种基于对比学习融入动态调整机制的文本聚类方法