专利一种引入关键词特征的不均衡文本分类方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210454737.5 (22)申请日 2022.04.24 (71)申请人中国电子科技集团公司第二十八研究所地址 210000 江苏省南京市栖霞区灵山南路1号 (72)发明人徐建　张桂林　阮国庆　李晓冬　王羽　 (74)专利代理机构江苏圣典律师事务所 32 237 专利代理师黄振华 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/258(2020.01) G06F 40/279(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) (54)发明名称一种引入关键词特征的不均衡文本分类方法 (57)摘要本发明提供了一种引入关键词特征的不均衡文本分类方法，首先针对军事新闻领域定义层级分类体系，包括32个叶子类别；利用归一化点互信息和改进信息增益抽取每个类别的关键词；融合关键词特征和神经网络语义特征进行训练。经过以上步骤，本发明针对不均衡文本分类问题，将类标签分布作为一种先验信息引入文本分类模型，训练过程同时利用文本内容和类别关键词信息；利用归一化点互信息和改进的信息增益作为类别关键词选择的统计量，进行类别关键词选择；利用关键词信息和文本信息进行联合训练文本分类模型，有效的解决文本分类中的类别不均衡问题。权利要求书3页说明书8页附图1页 CN 114860933 A 2022.08.05 CN 114860933 A 1.一种引入关键词特征的不均衡文本分类方法，其特征在于，包括如下步骤：步骤1，构建文本分类模型，定义层级分类体系，构建类别标签，构建训练数据集；步骤2，抽取文本中各类别关键词，得到关键词信息；步骤3，融合关键词信息和文本语义信息进行模型训练。 2.根据权利要求1所述的一种引入关键词特征的不均衡文本分类方法，其特征在于，步骤1包括：步骤1‑1，定义层级分类体系，刻画类别之间的层次化关系，不同层次的标签之间通过符号‑隔开，进行文章级分类；步骤1‑2，构建训练数据集，包括如下步骤：采集训练语料；所述训练语料包括文章标题、文章内容以及文章的层级分类标签；对训练语料进行预处理；所述预处理包括：将繁体字转换为简体字，全角数字和全角字母转为半角数字和半角字母；将文章标题与正文采用句号拼接起来，判断长度是否超过预设的长度阈值；如果没有超过，将拼接结果作为文章；如果超过预设的长度阈值，对文章进行截断处理，将截断后的内容作为文章。 3.根据权利要求2所述的一种引入关键词特征的不均衡文本分类方法，其特征在于，步骤2包括：步骤2‑1：基于归一化点互信息，进行类别关键词选择；步骤2‑2：基于改进信息增益 IG+，进行类别关键词选择；步骤2‑3：针对每个类别选择关键词集合。 4.根据权利要求3所述的一种引入关键词特征的不均衡文本分类方法，其特征在于，步骤2‑1所述基于归一化点互信息进行类别关键词选择方法包括：对步骤1‑2中构建的训练数据集中的文本进行分词，形成单词序列，统计每个单词和文本类别的出现情况，单词w和类别y的归一化点互信息npmi(w,y)计算方法如下：其中， p(w,y)表示单词w和类别y的共现次数除以训练文本总数； p(w)和p(y)分别表示单词和类别出现总数除以训练文本总数。 5.根据权利要求4所述的一种引入关键词特征的不均衡文本分类方法，其特征在于，步骤2‑2所述基于改进信息增益进行类别关键词选择方法包括：引入类内分散程度DI和类间集中程度CI，采用改进信息增益IG+方法计算类别的关键词的IG+得分IG+(w,c)，方法包括： IG+(w,c)＝(DI(w,c) ‑CI(w,c))IG(w,c) 其中， DI表示类内分散程度，表示单词w在类别为c的文本中的出现次数与该类文本出现总次数的占比，计算方法为：其中df(w,c)表示类别c中包含单词w的文本数目， df(c)表示类别c中包含的文本数目；权　利　要　求　书 1/3 页 2 CN 114860933 A 2其中， CI(w,c)表示类间集中程度，即单词w出现类别数与总类别数的占比，其中|C|表示类别总数目， cf(w)表示单词w出现的类别数目；单词w的信息增益IG(w)用来衡量单词w出现与否对于文本分类不确定性的较少程度，其计算方法包括：其中， n表示文本类别总数， i表示遍历每个类别的文本； p(w)表示单词w在文本中出现的概率； p(Ci|w)表示针对单词的后验概率，即包含单词w的文本属于类比Ci的概率；表示文本中不含单词w的概率；表示文本不含单词w时属于类别Ci的后验概率。 6.根据权利要求5所述的一种引入关键词特征的不均衡文本分类方法，其特征在于，步骤2‑3所述针对每个类别选择关键词集合方法包括：遍历每个类别，计算每个单词的npmi和IG+得分，并按照降序排列，分别选择得分最高的前10个单词作为该类别的单词表示，每个类别得到20个关键词表示。 7.根据权利要求6所述的一种引入关键词特征的不均衡文本分类方法，其特征在于，步骤3所述融合关键词信息和文本信息的模型训练过程中，对于每个批处理batch：步骤3‑1，计算单个批处理batch内文本交叉熵损失函数；步骤3‑2，随机选择NC个类别，遍历每个类别，对于每个类别采样K个关键词，并将关键词拼接组成该类别的关键词文本；步骤3‑3，对于关键词文本计算交叉熵损失；步骤3‑4，计算联合损失。 8.根据权利要求7所述的一种引入关键词特征的不均衡文本分类方法，其特征在于，步骤3‑1所述计算单个批处理batch内文本分类的交叉熵损失函数，包括：对原始文本经过bert分词后首尾添加特殊标记[CLS]和[EOS]，记为： xdoc＝[CLS],t1,t2,…tj,…,tL,[EOS] 其中L为文本长度， tL表示bert分词后的词元；对于序列xdoc，经过bert特征抽取后计算交叉熵损失Ldoc，方法包括：其中， C表示类别个数， yj,c是样本真实标签，是文本分类模型输出样本xj属于类别c 的概率， j是样本编号。 9.根据权利要求8所述的一种引入关键词特征的不均衡文本分类方法，其特征在于，步骤3‑2中所述随机选择NC个类别，类别数量 Nc的计算方法包括：权　利　要　求　书 2/3 页 3 CN 114860933 A 3

专利 一种引入关键词特征的不均衡文本分类方法

专利一种引入关键词特征的不均衡文本分类方法