(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210454737.5 (22)申请日 2022.04.24 (71)申请人 中国电子科技 集团公司第二十八研 究所 地址 210000 江苏省南京市栖霞区灵山 南 路1号 (72)发明人 徐建 张桂林 阮国庆 李晓冬  王羽  (74)专利代理 机构 江苏圣典律师事务所 32 237 专利代理师 黄振华 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/258(2020.01) G06F 40/279(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) (54)发明名称 一种引入关键词特征的不均衡文本分类方 法 (57)摘要 本发明提供了一种引入关键词特征的不均 衡文本分类方法, 首先针对军事新闻领域定义层 级分类体系, 包括32个叶子类别; 利用归一化点 互信息和改进信息增益抽取每个类别的关键词; 融合关键词特征和神经网络语义特征进行训练。 经过以上步骤, 本发明针对不均衡文本分类问 题, 将类标签 分布作为一种先验信息引入文本分 类模型, 训练过程同时利用文本内容和类别关键 词信息; 利用归一化点互信息和改进的信息增益 作为类别关键词选择的统计量, 进行类别关键词 选择; 利用关键词信息和文本信息进行联合训练 文本分类模 型, 有效的解决文本分类中的类别不 均衡问题。 权利要求书3页 说明书8页 附图1页 CN 114860933 A 2022.08.05 CN 114860933 A 1.一种引入关键词特 征的不均衡文本分类方法, 其特 征在于, 包括如下步骤: 步骤1, 构建文本分类模型, 定义层级分类 体系, 构建类别标签, 构建训练数据集; 步骤2, 抽取文本中各类别关键词, 得到关键词信息; 步骤3, 融合关键词信息和文本语义信息进行模型训练。 2.根据权利要求1所述的一种引入关键词特征的不均衡文本分类方法, 其特征在于, 步 骤1包括: 步骤1‑1, 定义层级分类体系, 刻画类别之间的层次化关系, 不同层次的标签之间通过 符号‑隔开, 进行文章级分类; 步骤1‑2, 构建训练数据集, 包括如下步骤: 采集训练语料; 所述训练语料包括文章标题、 文章内容以及文章的层级分类标签; 对训练语料进行预处理; 所述预处理包括: 将繁体字转换为简体字, 全角数字和全角字 母转为半角数字和半角字母; 将文章标题与正文采用句号拼接起来, 判断长度是否超过预设的长度阈值; 如果没有 超过, 将拼接结果作为文章; 如果超过预设的长度阈值, 对文章进行截断处理, 将截断后的 内容作为文章。 3.根据权利要求2所述的一种引入关键词特征的不均衡文本分类方法, 其特征在于, 步 骤2包括: 步骤2‑1: 基于归一 化点互信息, 进行类别关键词选择; 步骤2‑2: 基于改进信息增益 IG+, 进行类别关键词选择; 步骤2‑3: 针对每 个类别选择关键词集 合。 4.根据权利要求3所述的一种引入关键词特征的不均衡文本分类方法, 其特征在于, 步 骤2‑1所述基于归一 化点互信息进行类别关键词选择 方法包括: 对步骤1‑2中构建的训练数据集中的文本进行分词, 形成单词序列, 统计每个单词和文 本类别的出现情况, 单词w和类别y的归一 化点互信息npmi(w,y)计算方法如下: 其中, p(w,y)表示单词w和类别y的共现次数除以训练文本总数; p(w)和p(y)分别表示 单词和类别出现总数除以训练文本总数。 5.根据权利要求4所述的一种引入关键词特征的不均衡文本分类方法, 其特征在于, 步 骤2‑2所述基于改进信息增益进行类别关键词选择 方法包括: 引入类内分散程度DI和类间集中程度CI, 采用改进信息增益IG+方法计算类别的关键 词的IG+得分IG+(w,c), 方法包括: IG+(w,c)=(DI(w,c) ‑CI(w,c))IG(w,c) 其中, DI表示类内分散程度, 表示单词w在类别为c的文本中的出现次数与该类文本出 现总次数的占比, 计算方法为: 其中df(w,c)表示类别c中包 含单词w的文本数目, df(c)表示类别c中包 含的文本数目;权 利 要 求 书 1/3 页 2 CN 114860933 A 2其中, CI(w,c)表示类间集中程度, 即单词w出现类别数与总类别数的占比, 其中|C|表 示类别总数目, cf(w)表示单词w出现的类别数目; 单词w的信息增益IG(w)用来衡量单词w出现与否对于文本分类不确定性的较少程度, 其计算方法包括: 其中, n表示文本类别总数, i表示遍历每个类别的文本; p(w)表示单词w在文本中出现 的概率; p(Ci|w)表示针对单词的后验概率, 即包含单词w的文本属于类比Ci的概率; 表 示文本中不含单词w的概 率; 表示文本不含单词w时属于类别Ci的后验概 率。 6.根据权利要求5所述的一种引入关键词特征的不均衡文本分类方法, 其特征在于, 步 骤2‑3所述针对每 个类别选择关键词集 合方法包括: 遍历每个类别, 计算每个单词的npmi和IG+得分, 并按照降序排列, 分别选择得分最高 的前10个单词作为该类别的单词表示, 每 个类别得到20个关键词表示。 7.根据权利要求6所述的一种引入关键词特征的不均衡文本分类方法, 其特征在于, 步 骤3所述融合关键词信息和文本信息的模型训练过程中, 对于每 个批处理batch: 步骤3‑1, 计算单个批处 理batch内文本交叉熵损失函数; 步骤3‑2, 随机选 择NC个类别, 遍历每个类别, 对于每个类别采样K个关键词, 并将关键词 拼接组成该类别的关键词文本; 步骤3‑3, 对于关键词文本计算交叉熵损失; 步骤3‑4, 计算联合损失。 8.根据权利要求7所述的一种引入关键词特征的不均衡文本分类方法, 其特征在于, 步 骤3‑1所述计算单个批处 理batch内文本分类的交叉熵损失函数, 包括: 对原始文本经 过bert分词后首尾添加特殊标记[CLS]和[EOS], 记为: xdoc=[CLS],t1,t2,…tj,…,tL,[EOS] 其中L为文本长度, tL表示bert分词后的词元; 对于序列xdoc, 经过bert特征抽取后计算 交叉熵损失Ldoc, 方法包括: 其中, C表示类别个数, yj,c是样本真实标签, 是文本分类模型输出样本xj属于类别c 的概率, j是样本编号。 9.根据权利要求8所述的一种引入关键词特征的不均衡文本分类方法, 其特征在于, 步 骤3‑2中所述随机 选择NC个类别, 类别数量 Nc的计算方法包括:权 利 要 求 书 2/3 页 3 CN 114860933 A 3

.PDF文档 专利 一种引入关键词特征的不均衡文本分类方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种引入关键词特征的不均衡文本分类方法 第 1 页 专利 一种引入关键词特征的不均衡文本分类方法 第 2 页 专利 一种引入关键词特征的不均衡文本分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:46:17上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。