专利一种文本分类方法、装置以及存储介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210441429.9 (22)申请日 2022.04.25 (71)申请人桂林电子科技大学地址 541004 广西壮族自治区桂林市七星区金鸡路1号 (72)发明人单禹辰　张红梅　蔡晓东　 (74)专利代理机构北京轻创知识产权代理有限公司 11212 专利代理师冯瑛琪 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/242(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种文本分类方法、装置以及存储介质 (57)摘要本发明提供一种文本分类方法、装置以及存储介质，属于文本分类领域，方法包括： S1：对多个原始文本数据进行划分得到训练集和测试集； S2：分别对训练集和测试集进行数据预处理得到多个单词训练矩阵以及多个单词测试矩阵； S3：分别对各个单词训练矩阵进行向量化处理得到词向量矩阵； S4：构建训练模型，根据多个词向量矩阵对训练模型进行训练得到待测试模型； S5：根据多个单词测试矩阵对待测试模型进行测试得到分类模型； S6：导入待分类文本数据，通过分类模型对待分类文本数据进行分类得到分类结果。本发明能够突出文本中的关键信息，同时增强文本上下文语义信息，更准确的表示文本语义，从而提高了文本分类的准确度。权利要求书4页说明书10页附图2页 CN 114860930 A 2022.08.05 CN 114860930 A 1.一种文本分类方法，其特征在于，包括如下步骤： S1：导入多个原始文本数据，并对多个所述原始文本数据进行划分，得到训练集和测试集； S2：分别对所述训练集和所述测试集进行数据预处理，得到与所述训练集对应的多个单词训练矩阵以及与所述测试集对应的多个单词测试矩阵； S3：分别对各个所述单词训练矩阵进行向量化处理，得到与各个所述单词训练矩阵对应的词向量矩阵； S4：构建训练模型，根据多个所述词向量矩阵对所述训练模型进行训练，得到待测试模型； S5：根据多个所述单词测试矩阵对所述待测试模型进行测试，得到分类模型； S6：导入待分类文本数据，通过所述分类模型对所述待分类文本数据进行分类，得到分类结果。 2.根据权利要求1所述的文本分类方法，其特征在于，所述训练集包括多个原始文本训练数据，所述测试集包括多个原始文本测试数据，所述步骤S2的过程包括：利用python工具分别对各个所述原始文本训练数据以及各个所述原始文本测试数据进行分词处理，得到与各个所述原始文本训练数据对应的多个待筛选单词训练数据以及与各个所述原始文本测试数据对应的多个待筛选单词测试数据；利用所述python工具分别对各个所述待筛选单词训练数据以及各个所述待筛选单词测试数据进行停用词的筛选，得到与各个所述原始文本训练数据对应的多个单词训练数据以及与各个所述原始文本测试数据对应的多个单词测试数据，并根据多个所述单词训练数据得到与各个所述原始文本训练数据对应的单词训练矩阵，并根据多个所述单词测试数据得到与各个所述原始文本测试数据对应的单词测试矩阵。 3.根据权利要求1所述的文本分类方法，其特征在于，所述S3的过程包括：通过预设语言模型分别对各个所述单词训练矩阵进行向量化处理，得到与各个所述单词训练矩阵对应的词向量矩阵。 4.根据权利要求2所述的文本分类方法，其特征在于，所述训练模型包括卷积神经网络和双向循环神经网络，所述步骤S4的过程包括：通过所述卷积神经网络分别对各个所述词向量矩阵进行特征提取分析，得到与各个所述词向量矩阵对应的局部特征向量；通过所述双向循环神经网络分别对各个所述词向量矩阵进行目标隐藏层状态向量的计算，得到与各个所述词向量矩阵对应的多个目标隐藏层状态向量；通过第一式分别对与各个所述词向量矩阵对应的多个目标隐藏层状态向量进行上下文语义向量的计算，得到与各个所述词向量矩阵对应的上下文语义向量，所述第一式为：权　利　要　求　书 1/4 页 2 CN 114860930 A 2其中，其中， ut＝tanh(Wwht+bw)，其中， Fglobal为上下文语义向量， at为第t时刻单词归一化权重， ht为第t时刻的目标隐藏层状态向量， uw为词级上下文向量， ut为第t时刻单词词向量，为ut的转置， Ww为可训练参数， bw为偏置项；分别对各个所述上下文语义向量进行句子语义特征的计算，得到与各个所述词向量矩阵对应的句子语义特征向量；通过第二式分别对各个所述局部特征向量以及与各个所述词向量矩阵对应的句子语义特征向量进行拼接，得到与各个所述词向量矩阵对应的全局语义特征向量，所述第二式为：其中， Fglobal为句子语义特征向量， Flocal为局部特征向量， F'为全局语义特征向量；通过第三式分别对各个所述全局语义特征向量进行预测，得到与各个所述词向量矩阵对应的类别预测概率，所述第三式为； p＝softmax(WgF'+bg)，其中， p为类别预测概率， Wg为可训练权重， F'为全局语义特征向量， bg为偏置项；导入多个与所述原始文本训练数据对应的真实标签，对所有的类别预测概率和所有的真实标签进行损失值分析，得到待测试模型。 5.根据权利要求4所述的文本分类方法，其特征在于，所述卷积神经网络包括第一卷积核、第二卷积核、第三卷积核和第四卷积核，所述通过所述卷积神经网络分别对各个所述词向量矩阵进行特征提取分析，得到与各个所述词向量矩阵对应的局部特征向量的过程包括：通过所述第一卷积核分别对各个所述词向量矩阵进行第一次特征提取，得到与各个所述词向量矩阵对应的第一特征图；通过所述第二卷积核分别对各个所述词向量矩阵进行第二次特征提取，得到与各个所述词向量矩阵对应的第二特征图；通过所述第三卷积核分别对各个所述词向量矩阵进行第三次特征提取，得到与各个所述词向量矩阵对应的第三特征图；通过所述第四卷积核分别对各个所述词向量矩阵进行第四次特征提取，得到与各个所述词向量矩阵对应的第四特征图；分别对各个所述第一特征图进行第一特征图的特征筛选，得到与各个所述词向量矩阵对应的筛选后第一特征图；分别对各个所述第二特征图进行第二特征图的特征筛选，得到与各个所述词向量矩阵对应的筛选后第二特征图；分别对各个所述第三特征图进行第三特征图的特征筛选，得到与各个所述词向量矩阵权　利　要　求　书 2/4 页 3 CN 114860930 A 3

专利 一种文本分类方法、装置以及存储介质

专利一种文本分类方法、装置以及存储介质