国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210444836.5 (22)申请日 2022.04.26 (71)申请人 哈尔滨理工大 学 地址 150080 黑龙江省哈尔滨市南岗区学 府路52号 (72)发明人 徐军 王高飞 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/126(2020.01) G06F 40/284(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于Tran sformer模型的中文文本情感 分析方法 (57)摘要 本发明公开了一种基于改进Tran sformer模 型的中文文本情感分析方法, 涉及自然语言处理 领域, 该方法在中文文本数据预处理时考虑到了 标点符号和中文文本情感的关联, 保留了中文文 本中正常的标点符号 , 然后通过把RNN和 Transformer进行结合来实现把强大的全局特征 提取能力和序列特征提取能力结合起来, 进而实 现充分提取特征信息, 从而提高对中文文本进行 情感分析的效果。 权利要求书1页 说明书3页 附图1页 CN 114936562 A 2022.08.23 CN 114936562 A 1.一种基于Transformer模型的中文 文本情感分析 方法, 其特 征在于, 所述方法包括: 步骤1: 对原 始中文文本数据进行 预处理, 并统一文本序列的长度; 步骤2: 将步骤1中得到的中文 文本序列进行向量 化得到原 始向量序列; 步骤3: 将步骤2中得到的原始向量序列输入进Transformer的Encoder, 来提取文本向 量特征并输出; 步骤4: 将Transfor mer的Encoder的输出作为RNN的输入来生成状态序列, 并把RNN生成 的状态序列的最终状态作为RN N的输出, 最后使用分类来实现中文 文本情感分析。 2.根据权利要求1所述一种基于Transformer模型的中文文本情感分析方法, 其特征在 于, 所述步骤1中对文本序列进 行处理的过程具体为: 先过滤中文文本数据中不规则的标点 符号和字符等, 保留文本中的正常标点符号, 然后对中文文本进 行分词操作, 最后以文本序 列数据中序列最长的文本序列为标准, 对达不到标准长度的文本序列采用在其末 尾补零的 方式来扩充长度。 3.根据权利要求1所述一种基于Transformer模型的中文文本情感分析方法, 其特征在 于, 所述步骤2中对中文文本序列进 行向量化的过程为: 采用词嵌入的表示方法来将中文文 本序列向量化, 通过对文本划分得到的每个词进 行编码生成词向量来表示对应的主要语义 信息, 同时对于文本中的保留的标点符号也进行编 码, 来得到其对应的向量表 示, 最后该步 骤得到的为词向量和标点符号表示的原 始向量序列。 4.根据权利要求2所述一种基于Transformer模型的中文文本情感分析方法, 其特征在 于, 通过Transformer和RNN来对步骤2中得到的原始向量序列进行重新处理, 并进行全局特 征信息和序列特征信息的提取, 最后通过Linear层和Softmax层来最终得到文本情感分析 的结果。权 利 要 求 书 1/1 页 2 CN 114936562 A 2一种基于 Transformer模型的中文 文本情感分析方 法 技术领域 [0001]本发明涉及自然语言处理领域, 具体涉及一种基于Transformer模型的中文文本 情感分析 方法。 背景技术 [0002]情感分析已经成为自然语言处理中最活跃的领域之一, 特别是随着互联 网和大数 据的发展, 其潜在的商业价值引起了社会各界的关注。 应用情感分析技术不仅可以用来帮 助检测社会网络舆情走向, 还能够帮助商家及时了解顾客对于产品的评价, 更进一步的还 可以帮助预测社交用户的心理健康状态以便其能及时得到情感干预。 [0003]尽管近年来情感分析取得了令人瞩目的成就, 但它们大多数都是基于英语的, 而 同英文相比, 中文自然语言处理更具挑战性, 一方面是因为汉语的词汇和语义更加丰富一 些, 另一方面是因为汉语的语篇语义更依赖 于语境。 [0004]最早的中文情感分析方法是基于情感词典的, 它是通过文本的词汇来判断文本的 情感倾向, 但是不具备捕获序列特征的能力。 后来出现了循环神经网络 RNN能够解决这一 缺陷, 但是其又伴随着梯度消失/爆炸问题, 随后基于RNN的一系列递归模型被提出以解决 这些问题, 如长短期记忆网络(LSTM)、 门控循环神经网络(GRU)等。 但是当处理较长的文本 时仍然会出现梯度消失或爆炸的问题, 而随后出现的注意力机制则能够有效解决此问题, 它通过对输入序列赋予权重, 让模型更加关注关键词, 而充分应用注意力机制的 Transformer及其变体模型在文本情感分析领域取得了比较好的性能。 但是, Transformer 是通过位置编码去实现序列特征的提取, 其和RNN等自然序列特征提取方法还是有一定的 差距的。 发明内容 [0005]针对现有技术中存在的问题, 本发明提出了一种基于Transformer模型 的中文文 本情感分析方法, 该方法主要是通过将Transformer中注 意力机制的强 大的全局特征提取 能力和RNN强大的序列特征提取能力结合起来, 从而来对中 文文本进行情感分析, 来实现 更好的性能。 [0006]为实现上述目的, 本发明采用以下技 术方案予以实现: [0007]一种基于Transformer模型的中文 文本情感分析 方法, 包括以下步骤: [0008]步骤1: 对原 始中文文本数据进行 预处理, 并统一文本序列的长度; [0009]步骤2: 将步骤1中得到的中文 文本序列进行向量 化得到相应的原 始向量序列; [0010]步骤3: 将步骤2中得到的原始向量序列输入Transformer的Encoder, 来提取文本 向量特征并输出; [0011]步骤4: 将Transformer的Encoder的输出作为 RNN的输入来生成状态序列, 并把RNN 生成的状态序列的最终状态作为RN N的输出, 最后使用分类来实现中文 文本情感分析。 [0012]进一步地, 步骤1中对文本序列 进行处理的过程具体为: 先过滤中文文本数据中不说 明 书 1/3 页 3 CN 114936562 A 3
专利 一种基于Transformer模型的中文文本情感分析方法
文档预览
中文文档
6 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:44:47
上传分享
举报
下载
原文档
(297.0 KB)
分享
友情链接
T-GIEHA 050—2022 国际健康驿站 规划建设.pdf
T-CSTM 00837—2022 材料基因工程数据 元数据标准化基本原则与方法.pdf
GB-T 42582-2023 信息安全技术 移动互联网应用程序(App)个人信息安全测评规范.pdf
GB-Z 43030-2023 低压开关设备和控制设备 网络安全.pdf
GB-T 29409-2012 木材储存保管技术规范.pdf
GB-T 38625-2020 信息安全技术 密码模块安全检测要求.pdf
商用密码应用安全性评估报告模板-中国密码学会密评联委会-202112.pdf
飞驰云联 企业数据防泄密产品选型指南 2021.pdf
GB-T 1981.1-2007 电气绝缘用漆 第1部分:定义和一般要求.pdf
GB-T 33745-2017 物联网 术语.pdf
GM-T 0004-2012 SM3密码杂凑算法.pdf
专利 基于排序的开源软件安全漏洞补丁定位方法.PDF
T-CSA -TR008—2019 类太阳光LED术语定义及相关问题研究.pdf
关键信息基础设施安全保护条例-关基保护条例正式版.pdf
GB-T 33134-2023 信息安全技术 公共域名服务系统安全要求.pdf
DB13-T 3035-2023 建筑消防设施维护保养技术规范 河北省.pdf
信通院 大模型治理蓝皮报告 2023年 ——从规则走向实践.pdf
T-ISC 0022—2023 数字孪生城市平台技术要求.pdf
GB-T 37956-2019 信息安全技术 网站安全云防护平台技术要求.pdf
GA-T 1561-2019 移动警务系统 总体技术要求.pdf
1
/
3
6
评价文档
赞助2.5元 点击下载(297.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。