专利一种基于有监督对比学习的细粒度文本分类方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210430095.5 (22)申请日 2022.04.22 (71)申请人中国电子科技集团公司第二十八研究所地址 210000 江苏省南京市栖霞区灵山南路1号 (72)发明人徐建　李晓冬　阮国庆　王羽　 (74)专利代理机构江苏圣典律师事务所 32 237 专利代理师黄振华 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 40/289(2020.01) (54)发明名称一种基于有监督对比学习的细粒度文本分类方法 (57)摘要本发明公开了一种基于有监督对比学习的细粒度文本分类方法，包括：步骤1，构建文本分类模型，并定义层级分类体系，细粒度刻画类别；步骤2，选取样本，并对于每个样本合理构建正负例，进行数据增广；步骤3，基于交叉熵损失和对比损失对文本分类模型进行联合训练，实现细粒度文本分类。针对细粒度文本分类的实际需求，定义层级分类体系；为了区分细粒度文本分类，引入基于对比学习的损失函数；为了构建样本的正例，提出了一种基于随机替换的数据增广方式；提出一种基于对比损失和交叉熵损失相结合的细粒度文本分类方法，引入了对比学习的思想解决细粒度文本分类问题，保证同类别样本较近的语义距离。权利要求书3页说明书6页附图1页 CN 114757289 A 2022.07.15 CN 114757289 A 1.一种基于有监督对比学习的细粒度文本分类方法，其特征在于，包括以下步骤：步骤1，构建文本分类模型，并定义层级分类体系，细粒度刻画类别；步骤2，选取样本，并对于每个样本合理构建正负例，进行数据增广；步骤3，基于交叉熵损失和对比损失对文本分类模型进行联合训练，实现细粒度文本分类。 2.根据权利要求1所述的一种基于有监督对比学习的细粒度文本分类方法，其特征在于，步骤1包括：定义层级分类体系，刻画类别之间的层次化关系，不同层次的标签之间通过符号 ‑隔开，通过定义该标签提供文档级的分类功能。 3.根据权利要求2所述的一种基于有监督对比学习的细粒度文本分类方法，其特征在于，步骤2包括：从文本数据集中选取一批样本作为训练样本，即定义批处理内的样本个数为K，该批处理batch内正样本集合为P，负样本集合为N，定义该批处理batch内的样本xi及其标签yi为集合{xi,yi}i∈I,其中集合I＝{1,…,K}；步骤2‑1，构建训练数据集；步骤2‑2，正负例构建；步骤2‑3，基于随机词替换的数据增广。 4.根据权利要求3所述的一种基于有监督对比学习的细粒度文本分类方法，其特征在于，步骤2 ‑1包括：对于选取的样本，构建训练语料；所述训练语料包括文章标题、文章内容和文章的层级分类标签；对训练语料进行预处理；所述预处理包括：将繁体字转换为简体字，全角数字和全角字母转为半角数字和半角字母；将文章标题与正文采用句号拼接起来，判断长度是否超过预设的长度阈值；如果没有超过，将拼接结果作为文章；如果超过预设的长度阈值，对文章进行截断处理，将截断后的内容作为文章；对每个样本进行上述操作得到训练数据集。 5.根据权利要求4所述的一种基于有监督对比学习的细粒度文本分类方法，其特征在于，步骤2 ‑2所述正负例构建方法包括: 针对步骤2 ‑1得到的每个训练数据集中的数据，即每个训练样本xi,其正例定义为具有相同类别标签的样本及其增广后的样本，负例定义为不同类别标签的样本及其增广后的样本： P＝{p:p∈I,yp＝yi∧p≠i} N＝{p:p∈I,yp≠yi} 其中， I表示所有样本下标集合， p为集合I中的元素， yp为其对应的标签， yi表示样本xi 的类别， P表示样本xi的正样本集合， N表示其负样本集合；步骤2‑3所述基于随机词替换的数据增广方法包括：对步骤2‑2中经过正负例构建的训练数据集中的数据利用jieba分词器进行分词，并随机选择如下4种替换方式：权　利　要　求　书 1/3 页 2 CN 114757289 A 2替换方式1，同义词替换：随机选择n个单词，对于选中的每个单词利用同义词进行替换；替换方式2，随机插入：句子中随机选择1个单词，查找到其同义词，将该同义词插入到句子随机一个位置，该过程重复n次；替换方式3，随机替换：句子中随机选择两个单词，然后相互交换位置，该过程重复n次；替换方式4，随机删除：针对句子中每个单词依概率p进行删除，总计删除的单词个数记作m； m＝p(del)l 其中， l表示句子长度， p(del)表示每个位置做单词删除的概率；经过替换后得到数据增广后的训练数据集。 6.根据权利要求5所述的一种基于有监督对比学习的细粒度文本分类方法，其特征在于，步骤3包括：步骤3‑1，通过ber t编码得到语义向量；步骤3‑2，计算对比损失拉近同类别样本距离；步骤3‑3，计算文本分类交叉熵损失；步骤3‑4，构建联合损失函数，对文本分类模型进行联合训练，实现细粒度文本分类。 7.根据权利要求6所述的一种基于有监督对比学习的细粒度文本分类方法，其特征在于，步骤3 ‑1所述通过bert编码得到语义向量，方法包括：对于数据增广后的训练样本通过bert分词号首位添加两个特殊标记[CLS]和[EOS],标记为： xi＝[CLS],t1,t2,…,tL,[EOS] 其中L为文档长度，对于该样本序列xi经过bert特征抽取后的向量标记为hi。 8.根据权利要求7所述的一种基于有监督对比学习的细粒度文本分类方法，其特征在于，步骤3 ‑2所述计算对比损失拉近同类别样本距离Lcl，方法包括：其中， i是取值为1至K的自然数， xi表示增广后批处理内每个样本； τ是取值0到1之间的温度参数， hp表示当前样本的正样本xp经过bert编码后的向量表示， hi是当前样本xi经过 bert编码号的向量归一化后的表示， k是集合中去除当前训练样本i以后的其他训练样本， hk是其bert语义编码。 9.根据权利要求8所述的一种基于有监督对比学习的细粒度文本分类方法，其特征在于，步骤3 ‑3所述计算文本分类交叉熵损失的方法包括：对于经过增广后的样本xi计算交叉熵损失LCE，方法包括：其中， C表示类别个数， yi,c是样本真实标签，是模型输出，表示样本xi于类别c的概率。权　利　要　求　书 2/3 页 3 CN 114757289 A 3

专利 一种基于有监督对比学习的细粒度文本分类方法

专利一种基于有监督对比学习的细粒度文本分类方法