专利一种基于Transformer模型的中文文本情感分析方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210444836.5 (22)申请日 2022.04.26 (71)申请人哈尔滨理工大学地址 150080 黑龙江省哈尔滨市南岗区学府路52号 (72)发明人徐军　王高飞　 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/126(2020.01) G06F 40/284(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于Tran sformer模型的中文文本情感分析方法 (57)摘要本发明公开了一种基于改进Tran sformer模型的中文文本情感分析方法，涉及自然语言处理领域，该方法在中文文本数据预处理时考虑到了标点符号和中文文本情感的关联，保留了中文文本中正常的标点符号，然后通过把RNN和 Transformer进行结合来实现把强大的全局特征提取能力和序列特征提取能力结合起来，进而实现充分提取特征信息，从而提高对中文文本进行情感分析的效果。权利要求书1页说明书3页附图1页 CN 114936562 A 2022.08.23 CN 114936562 A 1.一种基于Transformer模型的中文文本情感分析方法，其特征在于，所述方法包括：步骤1：对原始中文文本数据进行预处理，并统一文本序列的长度；步骤2：将步骤1中得到的中文文本序列进行向量化得到原始向量序列；步骤3：将步骤2中得到的原始向量序列输入进Transformer的Encoder，来提取文本向量特征并输出；步骤4：将Transfor mer的Encoder的输出作为RNN的输入来生成状态序列，并把RNN生成的状态序列的最终状态作为RN N的输出，最后使用分类来实现中文文本情感分析。 2.根据权利要求1所述一种基于Transformer模型的中文文本情感分析方法，其特征在于，所述步骤1中对文本序列进行处理的过程具体为：先过滤中文文本数据中不规则的标点符号和字符等，保留文本中的正常标点符号，然后对中文文本进行分词操作，最后以文本序列数据中序列最长的文本序列为标准，对达不到标准长度的文本序列采用在其末尾补零的方式来扩充长度。 3.根据权利要求1所述一种基于Transformer模型的中文文本情感分析方法，其特征在于，所述步骤2中对中文文本序列进行向量化的过程为：采用词嵌入的表示方法来将中文文本序列向量化，通过对文本划分得到的每个词进行编码生成词向量来表示对应的主要语义信息，同时对于文本中的保留的标点符号也进行编码，来得到其对应的向量表示，最后该步骤得到的为词向量和标点符号表示的原始向量序列。 4.根据权利要求2所述一种基于Transformer模型的中文文本情感分析方法，其特征在于，通过Transformer和RNN来对步骤2中得到的原始向量序列进行重新处理，并进行全局特征信息和序列特征信息的提取，最后通过Linear层和Softmax层来最终得到文本情感分析的结果。权　利　要　求　书 1/1 页 2 CN 114936562 A 2一种基于 Transformer模型的中文文本情感分析方法技术领域 [0001]本发明涉及自然语言处理领域，具体涉及一种基于Transformer模型的中文文本情感分析方法。背景技术 [0002]情感分析已经成为自然语言处理中最活跃的领域之一，特别是随着互联网和大数据的发展，其潜在的商业价值引起了社会各界的关注。应用情感分析技术不仅可以用来帮助检测社会网络舆情走向，还能够帮助商家及时了解顾客对于产品的评价，更进一步的还可以帮助预测社交用户的心理健康状态以便其能及时得到情感干预。 [0003]尽管近年来情感分析取得了令人瞩目的成就，但它们大多数都是基于英语的，而同英文相比，中文自然语言处理更具挑战性，一方面是因为汉语的词汇和语义更加丰富一些，另一方面是因为汉语的语篇语义更依赖于语境。 [0004]最早的中文情感分析方法是基于情感词典的，它是通过文本的词汇来判断文本的情感倾向，但是不具备捕获序列特征的能力。后来出现了循环神经网络 RNN能够解决这一缺陷，但是其又伴随着梯度消失/爆炸问题，随后基于RNN的一系列递归模型被提出以解决这些问题，如长短期记忆网络(LSTM)、门控循环神经网络(GRU)等。但是当处理较长的文本时仍然会出现梯度消失或爆炸的问题，而随后出现的注意力机制则能够有效解决此问题，它通过对输入序列赋予权重，让模型更加关注关键词，而充分应用注意力机制的 Transformer及其变体模型在文本情感分析领域取得了比较好的性能。但是， Transformer 是通过位置编码去实现序列特征的提取，其和RNN等自然序列特征提取方法还是有一定的差距的。发明内容 [0005]针对现有技术中存在的问题，本发明提出了一种基于Transformer模型的中文文本情感分析方法，该方法主要是通过将Transformer中注意力机制的强大的全局特征提取能力和RNN强大的序列特征提取能力结合起来，从而来对中文文本进行情感分析，来实现更好的性能。 [0006]为实现上述目的，本发明采用以下技术方案予以实现： [0007]一种基于Transformer模型的中文文本情感分析方法，包括以下步骤： [0008]步骤1：对原始中文文本数据进行预处理，并统一文本序列的长度； [0009]步骤2：将步骤1中得到的中文文本序列进行向量化得到相应的原始向量序列； [0010]步骤3：将步骤2中得到的原始向量序列输入Transformer的Encoder，来提取文本向量特征并输出； [0011]步骤4：将Transformer的Encoder的输出作为 RNN的输入来生成状态序列，并把RNN 生成的状态序列的最终状态作为RN N的输出，最后使用分类来实现中文文本情感分析。 [0012]进一步地，步骤1中对文本序列进行处理的过程具体为：先过滤中文文本数据中不说　明　书 1/3 页 3 CN 114936562 A 3

专利 一种基于Transformer模型的中文文本情感分析方法

专利一种基于Transformer模型的中文文本情感分析方法