(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210430095.5
(22)申请日 2022.04.22
(71)申请人 中国电子科技 集团公司第二十八研
究所
地址 210000 江苏省南京市栖霞区灵山 南
路1号
(72)发明人 徐建 李晓冬 阮国庆 王羽
(74)专利代理 机构 江苏圣典律师事务所 32 237
专利代理师 黄振华
(51)Int.Cl.
G06K 9/62(2022.01)
G06F 40/30(2020.01)
G06F 40/289(2020.01)
(54)发明名称
一种基于有监督对比学习的细粒度文本分
类方法
(57)摘要
本发明公开了一种基于有监督对比学习的
细粒度文本分类方法, 包括: 步骤1, 构建文本分
类模型, 并定义层级分类体系, 细粒度刻画 类别;
步骤2, 选 取样本, 并对于每个样本合理构建正负
例, 进行数据增广; 步骤3, 基于交叉熵损失和对
比损失对文本分类模型进行联合训练, 实现细粒
度文本分类。 针对细粒度文本分类的实际需求,
定义层级分类体系; 为了区分细粒度文本分类,
引入基于对比学习的损失函数; 为了构建样本的
正例, 提出了一种基于随机替换的数据增广方
式; 提出一种基于对比损失和交叉熵损失相结合
的细粒度文本分类方法, 引入了对比学习的思想
解决细粒度文本分类问题, 保证同类别样本较近
的语义距离 。
权利要求书3页 说明书6页 附图1页
CN 114757289 A
2022.07.15
CN 114757289 A
1.一种基于有监 督对比学习的细粒度文本分类方法, 其特 征在于, 包括以下步骤:
步骤1, 构建文本分类模型, 并定义层级分类 体系, 细粒度刻画类别;
步骤2, 选取样本, 并对于每 个样本合理构建正负例, 进行 数据增广;
步骤3, 基于交叉熵损失和对比损失对文本分类模型进行联合训练, 实现细粒度文本分
类。
2.根据权利要求1所述的一种基于有监督对比学习的细粒度文本分类方法, 其特征在
于, 步骤1包括:
定义层级分类体系, 刻画类别之间的层次化关系, 不同层次的标签之间通过符号 ‑隔
开, 通过定义该 标签提供文档级的分类功能。
3.根据权利要求2所述的一种基于有监督对比学习的细粒度文本分类方法, 其特征在
于, 步骤2包括:
从文本数据集中选取一批样本作为训练样本, 即定义批处理内的样本个数为K, 该批处
理batch内正样本集合为P, 负样本集合为N, 定义 该批处理batch内的样本xi及其标签yi为集
合{xi,yi}i∈I,其中集合I={1,…,K};
步骤2‑1, 构建训练数据集;
步骤2‑2, 正负例构建;
步骤2‑3, 基于随机词替换的数据增广。
4.根据权利要求3所述的一种基于有监督对比学习的细粒度文本分类方法, 其特征在
于, 步骤2 ‑1包括:
对于选取的样本, 构建训练语料; 所述训练语料包括文章标题、 文章内容和文章的层级
分类标签;
对训练语料进行预处理; 所述预处理包括: 将繁体字转换为简体字, 全角数字和全角字
母转为半角数字和半角字母;
将文章标题与正文采用句号拼接起来, 判断长度是否超过预设的长度阈值; 如果没有
超过, 将拼接结果作为文章; 如果超过预设的长度阈值, 对文章进行截断处理, 将截断后的
内容作为文章;
对每个样本进行 上述操作得到训练数据集。
5.根据权利要求4所述的一种基于有监督对比学习的细粒度文本分类方法, 其特征在
于, 步骤2 ‑2所述正负例构建方法包括:
针对步骤2 ‑1得到的每个训练数据集中的数据, 即每个训练样本xi,其正例定义为具有
相同类别标签的样本及其增广后的样本, 负例定义为不同类别标签的样本及其增广后的样
本:
P={p:p∈I,yp=yi∧p≠i}
N={p:p∈I,yp≠yi}
其中, I表示所有样本下标集合, p为集合I中的元素, yp为其对应 的标签, yi表示样本xi
的类别, P表示样本xi的正样本集 合, N表示 其负样本集合;
步骤2‑3所述基于随机词替换的数据增广方法包括:
对步骤2‑2中经过正负例构建的训练数据集中的数据利用jieba分词器进行分词, 并随
机选择如下4种替换 方式:权 利 要 求 书 1/3 页
2
CN 114757289 A
2替换方式1, 同义词替换: 随机选择n个单词, 对于选中的每个单词利用同义词进行替
换;
替换方式2, 随机插入: 句子中随机选择1个单词, 查找到其同义词, 将该同义词插入到
句子随机一个位置, 该 过程重复n次;
替换方式3, 随机替换: 句子中随机 选择两个单词, 然后相互 交换位置, 该 过程重复n次;
替换方式4, 随机删除: 针对句子 中每个单词依概率p进行删除, 总计删除的单词个数记
作m;
m=p(del)l
其中, l表示句子 长度, p(del)表示每 个位置做单词删除的概 率;
经过替换后得到数据增广后的训练数据集。
6.根据权利要求5所述的一种基于有监督对比学习的细粒度文本分类方法, 其特征在
于, 步骤3包括:
步骤3‑1, 通过ber t编码得到语义向量;
步骤3‑2, 计算对比损失拉近同类别样本距离;
步骤3‑3, 计算文本分类交叉熵损失;
步骤3‑4, 构建联合损失函数, 对文本分类模型进行 联合训练, 实现细粒度文本分类。
7.根据权利要求6所述的一种基于有监督对比学习的细粒度文本分类方法, 其特征在
于, 步骤3 ‑1所述通过bert编码得到语义向量, 方法包括:
对于数据增广后的训练样本通过bert分词号首位添加两个特殊标记[CLS]和[EOS],标
记为:
xi=[CLS],t1,t2,…,tL,[EOS]
其中L为文档长度, 对于该样本序列xi经过bert特征抽取后的向量标记为hi。
8.根据权利要求7所述的一种基于有监督对比学习的细粒度文本分类方法, 其特征在
于, 步骤3 ‑2所述计算对比损失拉近同类别样本距离Lcl, 方法包括:
其中, i是取值为1至K的自然数, xi表示增广后批处理内每个样本; τ是取值0到1之间的
温度参数, hp表示当前样本的正样本xp经过bert编码后的向量表示, hi是当前样本xi经过
bert编码号的向量归一化后的表示, k是集合中去除当前训练样本i以后的其他训练样本,
hk是其bert语义编码。
9.根据权利要求8所述的一种基于有监督对比学习的细粒度文本分类方法, 其特征在
于, 步骤3 ‑3所述计算文本分类交叉熵损失的方法包括:
对于经过增广后的样本xi计算交叉熵损失LCE, 方法包括:
其中, C表示类别个数, yi,c是样本真实标签,
是模型输出, 表示样本xi于类别c的概
率。权 利 要 求 书 2/3 页
3
CN 114757289 A
3
专利 一种基于有监督对比学习的细粒度文本分类方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:45:33上传分享