(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210444836.5 (22)申请日 2022.04.26 (71)申请人 哈尔滨理工大 学 地址 150080 黑龙江省哈尔滨市南岗区学 府路52号 (72)发明人 徐军 王高飞  (51)Int.Cl. G06F 40/30(2020.01) G06F 40/126(2020.01) G06F 40/284(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于Tran sformer模型的中文文本情感 分析方法 (57)摘要 本发明公开了一种基于改进Tran sformer模 型的中文文本情感分析方法, 涉及自然语言处理 领域, 该方法在中文文本数据预处理时考虑到了 标点符号和中文文本情感的关联, 保留了中文文 本中正常的标点符号 , 然后通过把RNN和 Transformer进行结合来实现把强大的全局特征 提取能力和序列特征提取能力结合起来, 进而实 现充分提取特征信息, 从而提高对中文文本进行 情感分析的效果。 权利要求书1页 说明书3页 附图1页 CN 114936562 A 2022.08.23 CN 114936562 A 1.一种基于Transformer模型的中文 文本情感分析 方法, 其特 征在于, 所述方法包括: 步骤1: 对原 始中文文本数据进行 预处理, 并统一文本序列的长度; 步骤2: 将步骤1中得到的中文 文本序列进行向量 化得到原 始向量序列; 步骤3: 将步骤2中得到的原始向量序列输入进Transformer的Encoder, 来提取文本向 量特征并输出; 步骤4: 将Transfor mer的Encoder的输出作为RNN的输入来生成状态序列, 并把RNN生成 的状态序列的最终状态作为RN N的输出, 最后使用分类来实现中文 文本情感分析。 2.根据权利要求1所述一种基于Transformer模型的中文文本情感分析方法, 其特征在 于, 所述步骤1中对文本序列进 行处理的过程具体为: 先过滤中文文本数据中不规则的标点 符号和字符等, 保留文本中的正常标点符号, 然后对中文文本进 行分词操作, 最后以文本序 列数据中序列最长的文本序列为标准, 对达不到标准长度的文本序列采用在其末 尾补零的 方式来扩充长度。 3.根据权利要求1所述一种基于Transformer模型的中文文本情感分析方法, 其特征在 于, 所述步骤2中对中文文本序列进 行向量化的过程为: 采用词嵌入的表示方法来将中文文 本序列向量化, 通过对文本划分得到的每个词进 行编码生成词向量来表示对应的主要语义 信息, 同时对于文本中的保留的标点符号也进行编 码, 来得到其对应的向量表 示, 最后该步 骤得到的为词向量和标点符号表示的原 始向量序列。 4.根据权利要求2所述一种基于Transformer模型的中文文本情感分析方法, 其特征在 于, 通过Transformer和RNN来对步骤2中得到的原始向量序列进行重新处理, 并进行全局特 征信息和序列特征信息的提取, 最后通过Linear层和Softmax层来最终得到文本情感分析 的结果。权 利 要 求 书 1/1 页 2 CN 114936562 A 2一种基于 Transformer模型的中文 文本情感分析方 法 技术领域 [0001]本发明涉及自然语言处理领域, 具体涉及一种基于Transformer模型的中文文本 情感分析 方法。 背景技术 [0002]情感分析已经成为自然语言处理中最活跃的领域之一, 特别是随着互联 网和大数 据的发展, 其潜在的商业价值引起了社会各界的关注。 应用情感分析技术不仅可以用来帮 助检测社会网络舆情走向, 还能够帮助商家及时了解顾客对于产品的评价, 更进一步的还 可以帮助预测社交用户的心理健康状态以便其能及时得到情感干预。 [0003]尽管近年来情感分析取得了令人瞩目的成就, 但它们大多数都是基于英语的, 而 同英文相比, 中文自然语言处理更具挑战性, 一方面是因为汉语的词汇和语义更加丰富一 些, 另一方面是因为汉语的语篇语义更依赖 于语境。 [0004]最早的中文情感分析方法是基于情感词典的, 它是通过文本的词汇来判断文本的 情感倾向, 但是不具备捕获序列特征的能力。 后来出现了循环神经网络  RNN能够解决这一 缺陷, 但是其又伴随着梯度消失/爆炸问题, 随后基于RNN的一系列递归模型被提出以解决 这些问题, 如长短期记忆网络(LSTM)、 门控循环神经网络(GRU)等。 但是当处理较长的文本 时仍然会出现梯度消失或爆炸的问题, 而随后出现的注意力机制则能够有效解决此问题, 它通过对输入序列赋予权重, 让模型更加关注关键词, 而充分应用注意力机制的 Transformer及其变体模型在文本情感分析领域取得了比较好的性能。 但是, Transformer 是通过位置编码去实现序列特征的提取, 其和RNN等自然序列特征提取方法还是有一定的 差距的。 发明内容 [0005]针对现有技术中存在的问题, 本发明提出了一种基于Transformer模型  的中文文 本情感分析方法, 该方法主要是通过将Transformer中注 意力机制的强  大的全局特征提取 能力和RNN强大的序列特征提取能力结合起来, 从而来对中  文文本进行情感分析, 来实现 更好的性能。 [0006]为实现上述目的, 本发明采用以下技 术方案予以实现: [0007]一种基于Transformer模型的中文 文本情感分析 方法, 包括以下步骤: [0008]步骤1: 对原 始中文文本数据进行 预处理, 并统一文本序列的长度; [0009]步骤2: 将步骤1中得到的中文 文本序列进行向量 化得到相应的原 始向量序列; [0010]步骤3: 将步骤2中得到的原始向量序列输入Transformer的Encoder, 来提取文本 向量特征并输出; [0011]步骤4: 将Transformer的Encoder的输出作为 RNN的输入来生成状态序列, 并把RNN 生成的状态序列的最终状态作为RN N的输出, 最后使用分类来实现中文 文本情感分析。 [0012]进一步地, 步骤1中对文本序列 进行处理的过程具体为: 先过滤中文文本数据中不说 明 书 1/3 页 3 CN 114936562 A 3

.PDF文档 专利 一种基于Transformer模型的中文文本情感分析方法

文档预览
中文文档 6 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于Transformer模型的中文文本情感分析方法 第 1 页 专利 一种基于Transformer模型的中文文本情感分析方法 第 2 页 专利 一种基于Transformer模型的中文文本情感分析方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:44:47上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。