(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210454737.5
(22)申请日 2022.04.24
(71)申请人 中国电子科技 集团公司第二十八研
究所
地址 210000 江苏省南京市栖霞区灵山 南
路1号
(72)发明人 徐建 张桂林 阮国庆 李晓冬
王羽
(74)专利代理 机构 江苏圣典律师事务所 32 237
专利代理师 黄振华
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/258(2020.01)
G06F 40/279(2020.01)
G06F 40/30(2020.01)G06K 9/62(2022.01)
(54)发明名称
一种引入关键词特征的不均衡文本分类方
法
(57)摘要
本发明提供了一种引入关键词特征的不均
衡文本分类方法, 首先针对军事新闻领域定义层
级分类体系, 包括32个叶子类别; 利用归一化点
互信息和改进信息增益抽取每个类别的关键词;
融合关键词特征和神经网络语义特征进行训练。
经过以上步骤, 本发明针对不均衡文本分类问
题, 将类标签 分布作为一种先验信息引入文本分
类模型, 训练过程同时利用文本内容和类别关键
词信息; 利用归一化点互信息和改进的信息增益
作为类别关键词选择的统计量, 进行类别关键词
选择; 利用关键词信息和文本信息进行联合训练
文本分类模 型, 有效的解决文本分类中的类别不
均衡问题。
权利要求书3页 说明书8页 附图1页
CN 114860933 A
2022.08.05
CN 114860933 A
1.一种引入关键词特 征的不均衡文本分类方法, 其特 征在于, 包括如下步骤:
步骤1, 构建文本分类模型, 定义层级分类 体系, 构建类别标签, 构建训练数据集;
步骤2, 抽取文本中各类别关键词, 得到关键词信息;
步骤3, 融合关键词信息和文本语义信息进行模型训练。
2.根据权利要求1所述的一种引入关键词特征的不均衡文本分类方法, 其特征在于, 步
骤1包括:
步骤1‑1, 定义层级分类体系, 刻画类别之间的层次化关系, 不同层次的标签之间通过
符号‑隔开, 进行文章级分类;
步骤1‑2, 构建训练数据集, 包括如下步骤:
采集训练语料; 所述训练语料包括文章标题、 文章内容以及文章的层级分类标签;
对训练语料进行预处理; 所述预处理包括: 将繁体字转换为简体字, 全角数字和全角字
母转为半角数字和半角字母;
将文章标题与正文采用句号拼接起来, 判断长度是否超过预设的长度阈值; 如果没有
超过, 将拼接结果作为文章; 如果超过预设的长度阈值, 对文章进行截断处理, 将截断后的
内容作为文章。
3.根据权利要求2所述的一种引入关键词特征的不均衡文本分类方法, 其特征在于, 步
骤2包括:
步骤2‑1: 基于归一 化点互信息, 进行类别关键词选择;
步骤2‑2: 基于改进信息增益 IG+, 进行类别关键词选择;
步骤2‑3: 针对每 个类别选择关键词集 合。
4.根据权利要求3所述的一种引入关键词特征的不均衡文本分类方法, 其特征在于, 步
骤2‑1所述基于归一 化点互信息进行类别关键词选择 方法包括:
对步骤1‑2中构建的训练数据集中的文本进行分词, 形成单词序列, 统计每个单词和文
本类别的出现情况, 单词w和类别y的归一 化点互信息npmi(w,y)计算方法如下:
其中, p(w,y)表示单词w和类别y的共现次数除以训练文本总数; p(w)和p(y)分别表示
单词和类别出现总数除以训练文本总数。
5.根据权利要求4所述的一种引入关键词特征的不均衡文本分类方法, 其特征在于, 步
骤2‑2所述基于改进信息增益进行类别关键词选择 方法包括:
引入类内分散程度DI和类间集中程度CI, 采用改进信息增益IG+方法计算类别的关键
词的IG+得分IG+(w,c), 方法包括:
IG+(w,c)=(DI(w,c) ‑CI(w,c))IG(w,c)
其中, DI表示类内分散程度, 表示单词w在类别为c的文本中的出现次数与该类文本出
现总次数的占比, 计算方法为:
其中df(w,c)表示类别c中包 含单词w的文本数目, df(c)表示类别c中包 含的文本数目;权 利 要 求 书 1/3 页
2
CN 114860933 A
2其中, CI(w,c)表示类间集中程度, 即单词w出现类别数与总类别数的占比, 其中|C|表
示类别总数目, cf(w)表示单词w出现的类别数目;
单词w的信息增益IG(w)用来衡量单词w出现与否对于文本分类不确定性的较少程度,
其计算方法包括:
其中, n表示文本类别总数, i表示遍历每个类别的文本; p(w)表示单词w在文本中出现
的概率; p(Ci|w)表示针对单词的后验概率, 即包含单词w的文本属于类比Ci的概率;
表
示文本中不含单词w的概 率;
表示文本不含单词w时属于类别Ci的后验概 率。
6.根据权利要求5所述的一种引入关键词特征的不均衡文本分类方法, 其特征在于, 步
骤2‑3所述针对每 个类别选择关键词集 合方法包括:
遍历每个类别, 计算每个单词的npmi和IG+得分, 并按照降序排列, 分别选择得分最高
的前10个单词作为该类别的单词表示, 每 个类别得到20个关键词表示。
7.根据权利要求6所述的一种引入关键词特征的不均衡文本分类方法, 其特征在于, 步
骤3所述融合关键词信息和文本信息的模型训练过程中, 对于每 个批处理batch:
步骤3‑1, 计算单个批处 理batch内文本交叉熵损失函数;
步骤3‑2, 随机选 择NC个类别, 遍历每个类别, 对于每个类别采样K个关键词, 并将关键词
拼接组成该类别的关键词文本;
步骤3‑3, 对于关键词文本计算交叉熵损失;
步骤3‑4, 计算联合损失。
8.根据权利要求7所述的一种引入关键词特征的不均衡文本分类方法, 其特征在于, 步
骤3‑1所述计算单个批处 理batch内文本分类的交叉熵损失函数, 包括:
对原始文本经 过bert分词后首尾添加特殊标记[CLS]和[EOS], 记为:
xdoc=[CLS],t1,t2,…tj,…,tL,[EOS]
其中L为文本长度, tL表示bert分词后的词元; 对于序列xdoc, 经过bert特征抽取后计算
交叉熵损失Ldoc, 方法包括:
其中, C表示类别个数, yj,c是样本真实标签,
是文本分类模型输出样本xj属于类别c
的概率, j是样本编号。
9.根据权利要求8所述的一种引入关键词特征的不均衡文本分类方法, 其特征在于, 步
骤3‑2中所述随机 选择NC个类别, 类别数量 Nc的计算方法包括:权 利 要 求 书 2/3 页
3
CN 114860933 A
3
专利 一种引入关键词特征的不均衡文本分类方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:46:17上传分享