(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210430095.5 (22)申请日 2022.04.22 (71)申请人 中国电子科技 集团公司第二十八研 究所 地址 210000 江苏省南京市栖霞区灵山 南 路1号 (72)发明人 徐建 李晓冬 阮国庆 王羽  (74)专利代理 机构 江苏圣典律师事务所 32 237 专利代理师 黄振华 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 40/289(2020.01) (54)发明名称 一种基于有监督对比学习的细粒度文本分 类方法 (57)摘要 本发明公开了一种基于有监督对比学习的 细粒度文本分类方法, 包括: 步骤1, 构建文本分 类模型, 并定义层级分类体系, 细粒度刻画 类别; 步骤2, 选 取样本, 并对于每个样本合理构建正负 例, 进行数据增广; 步骤3, 基于交叉熵损失和对 比损失对文本分类模型进行联合训练, 实现细粒 度文本分类。 针对细粒度文本分类的实际需求, 定义层级分类体系; 为了区分细粒度文本分类, 引入基于对比学习的损失函数; 为了构建样本的 正例, 提出了一种基于随机替换的数据增广方 式; 提出一种基于对比损失和交叉熵损失相结合 的细粒度文本分类方法, 引入了对比学习的思想 解决细粒度文本分类问题, 保证同类别样本较近 的语义距离 。 权利要求书3页 说明书6页 附图1页 CN 114757289 A 2022.07.15 CN 114757289 A 1.一种基于有监 督对比学习的细粒度文本分类方法, 其特 征在于, 包括以下步骤: 步骤1, 构建文本分类模型, 并定义层级分类 体系, 细粒度刻画类别; 步骤2, 选取样本, 并对于每 个样本合理构建正负例, 进行 数据增广; 步骤3, 基于交叉熵损失和对比损失对文本分类模型进行联合训练, 实现细粒度文本分 类。 2.根据权利要求1所述的一种基于有监督对比学习的细粒度文本分类方法, 其特征在 于, 步骤1包括: 定义层级分类体系, 刻画类别之间的层次化关系, 不同层次的标签之间通过符号 ‑隔 开, 通过定义该 标签提供文档级的分类功能。 3.根据权利要求2所述的一种基于有监督对比学习的细粒度文本分类方法, 其特征在 于, 步骤2包括: 从文本数据集中选取一批样本作为训练样本, 即定义批处理内的样本个数为K, 该批处 理batch内正样本集合为P, 负样本集合为N, 定义 该批处理batch内的样本xi及其标签yi为集 合{xi,yi}i∈I,其中集合I={1,…,K}; 步骤2‑1, 构建训练数据集; 步骤2‑2, 正负例构建; 步骤2‑3, 基于随机词替换的数据增广。 4.根据权利要求3所述的一种基于有监督对比学习的细粒度文本分类方法, 其特征在 于, 步骤2 ‑1包括: 对于选取的样本, 构建训练语料; 所述训练语料包括文章标题、 文章内容和文章的层级 分类标签; 对训练语料进行预处理; 所述预处理包括: 将繁体字转换为简体字, 全角数字和全角字 母转为半角数字和半角字母; 将文章标题与正文采用句号拼接起来, 判断长度是否超过预设的长度阈值; 如果没有 超过, 将拼接结果作为文章; 如果超过预设的长度阈值, 对文章进行截断处理, 将截断后的 内容作为文章; 对每个样本进行 上述操作得到训练数据集。 5.根据权利要求4所述的一种基于有监督对比学习的细粒度文本分类方法, 其特征在 于, 步骤2 ‑2所述正负例构建方法包括: 针对步骤2 ‑1得到的每个训练数据集中的数据, 即每个训练样本xi,其正例定义为具有 相同类别标签的样本及其增广后的样本, 负例定义为不同类别标签的样本及其增广后的样 本: P={p:p∈I,yp=yi∧p≠i} N={p:p∈I,yp≠yi} 其中, I表示所有样本下标集合, p为集合I中的元素, yp为其对应 的标签, yi表示样本xi 的类别, P表示样本xi的正样本集 合, N表示 其负样本集合; 步骤2‑3所述基于随机词替换的数据增广方法包括: 对步骤2‑2中经过正负例构建的训练数据集中的数据利用jieba分词器进行分词, 并随 机选择如下4种替换 方式:权 利 要 求 书 1/3 页 2 CN 114757289 A 2替换方式1, 同义词替换: 随机选择n个单词, 对于选中的每个单词利用同义词进行替 换; 替换方式2, 随机插入: 句子中随机选择1个单词, 查找到其同义词, 将该同义词插入到 句子随机一个位置, 该 过程重复n次; 替换方式3, 随机替换: 句子中随机 选择两个单词, 然后相互 交换位置, 该 过程重复n次; 替换方式4, 随机删除: 针对句子 中每个单词依概率p进行删除, 总计删除的单词个数记 作m; m=p(del)l 其中, l表示句子 长度, p(del)表示每 个位置做单词删除的概 率; 经过替换后得到数据增广后的训练数据集。 6.根据权利要求5所述的一种基于有监督对比学习的细粒度文本分类方法, 其特征在 于, 步骤3包括: 步骤3‑1, 通过ber t编码得到语义向量; 步骤3‑2, 计算对比损失拉近同类别样本距离; 步骤3‑3, 计算文本分类交叉熵损失; 步骤3‑4, 构建联合损失函数, 对文本分类模型进行 联合训练, 实现细粒度文本分类。 7.根据权利要求6所述的一种基于有监督对比学习的细粒度文本分类方法, 其特征在 于, 步骤3 ‑1所述通过bert编码得到语义向量, 方法包括: 对于数据增广后的训练样本通过bert分词号首位添加两个特殊标记[CLS]和[EOS],标 记为: xi=[CLS],t1,t2,…,tL,[EOS] 其中L为文档长度, 对于该样本序列xi经过bert特征抽取后的向量标记为hi。 8.根据权利要求7所述的一种基于有监督对比学习的细粒度文本分类方法, 其特征在 于, 步骤3 ‑2所述计算对比损失拉近同类别样本距离Lcl, 方法包括: 其中, i是取值为1至K的自然数, xi表示增广后批处理内每个样本; τ是取值0到1之间的 温度参数, hp表示当前样本的正样本xp经过bert编码后的向量表示, hi是当前样本xi经过 bert编码号的向量归一化后的表示, k是集合中去除当前训练样本i以后的其他训练样本, hk是其bert语义编码。 9.根据权利要求8所述的一种基于有监督对比学习的细粒度文本分类方法, 其特征在 于, 步骤3 ‑3所述计算文本分类交叉熵损失的方法包括: 对于经过增广后的样本xi计算交叉熵损失LCE, 方法包括: 其中, C表示类别个数, yi,c是样本真实标签, 是模型输出, 表示样本xi于类别c的概 率。权 利 要 求 书 2/3 页 3 CN 114757289 A 3

.PDF文档 专利 一种基于有监督对比学习的细粒度文本分类方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于有监督对比学习的细粒度文本分类方法 第 1 页 专利 一种基于有监督对比学习的细粒度文本分类方法 第 2 页 专利 一种基于有监督对比学习的细粒度文本分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:33上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。