(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210302985.8
(22)申请日 2022.03.24
(71)申请人 燕山大学
地址 066004 河北省秦皇岛市海港区河北
大街438号
(72)发明人 侯培国 夏宇同
(74)专利代理 机构 石家庄众志华清知识产权事
务所(特殊普通 合伙) 13123
专利代理师 张建
(51)Int.Cl.
G06F 40/169(2020.01)
G06F 40/30(2020.01)
G06F 16/35(2019.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种基于迁移学习的方面级别情感分析方
法及装置
(57)摘要
本发明公开一种基于迁移学习的方面级别
情感分析方法及装置, 属于自然语 言处理技术领
域, 该方法包括获取方面级别的情感分析数据集
并进行预处理, 得到包含 方面级别评价实体和上
下文的样本序列, 作为无标签 数据; 构建RoBERTa
模型, 使用无标签数据做掩码预测任务训练
RoBERTa模型, 得到完成此阶段训练任务的
RoBERTa模型; 获取文档级别情感数据集; 对完成
掩码预测预训练任务的RoBERTa模型, 做文档级
别情感分析任务训练此模型; 构建融合评论文本
信息、 方面信息的句子对作为第二样本序列; 将
第二样本序列输入已完成文档级别情感分析任
务的RoBERTa模型, 输 出情感类别标签, 使 其可以
获得准确率更高的精度表现。
权利要求书2页 说明书9页 附图1页
CN 114912423 A
2022.08.16
CN 114912423 A
1.一种基于 迁移学习的方面级别情感分析 方法, 其特 征在于, 包括:
获取方面级别的情感分析数据集并进行预处理, 去掉情感极性标签, 得到包含方面级
别评价实体和上 下文的第一样本序列, 作为无 标签数据;
构建RoBERTa模型, 使用无标签数据做掩码预测任务训练RoBERTa模型, 得到完成此阶
段训练任务的RoBERTa模型;
获取与方面级别情感分析相同场景 下的文档级别情感数据集;
对完成自监督掩码预测训练任务的RoBERTa模型, 做文档级别情感分析任务训练此模
型;
再次获取方面级别情感分析数据集, 构建融合评论文本信息、 方面信息的句子对作为
第二样本序列;
将第二样本序列输入已完成文档级别情感分析任务的RoBERTa模型, 进行方面级别情
感分析, 输出情感类别标签。
2.根据权利要求1所述的一种基于迁移学习的方面级别情感分析方法, 其特征在于, 将
所述第一样本序列中的每条评论文本转换为表格 格式。
3.根据权利要求1所述的一种基于迁移学习的方面级别情感分析方法, 其特征在于, 所
述掩码预测任务训练RoBERTa模型包括:
获取无标签数据的评论文本序列{w1,w2,.....wn‑1,wn}以百分十五的概率做随机掩码,
得到掩码标志位; 构建RoBERTa模 型, 做掩码预测的预训练任务训练RoBERTa模 型, 得到训练
好的RoBERTa模型。
4.根据权利要求1所述的一种基于迁移学习的方面级别情感分析方法, 其特征在于, 所
述获取与方面级别情感分析相同场景下的文档级别情感数据集包括: 获取文档级别情感分
析数据集, 根据评论对应的评分区间划分出情感极性类别, 筛除空标签和评论文本乱码的
样本, 得到数据处 理后相同场景 下的文档级别情感分析 数据集。
5.根据权利要求1所述的一种基于迁移学习的方面级别情感分析方法, 其特征在于, 所
述对完成自监督掩码预测训练任务的RoBERTa模型, 做文档级别情感分析任务训练此模型
包括: 通过Transformer编码器的语 言模型, 捕获文档级别情感分析数据中评论文本不同层
次的结构知识和 语义信息, 使用文档级别情感分析任务训练RoBERTa模型过程中设置分层
学习率, 用于优化模型参数。
6.根据权利要求1所述的一种基于迁移学习的方面级别情感分析方法, 其特征在于, 所
述将第二样本序列输入已完成文档级别情感分析任务的RoBERTa模型, 进行方面级别情感
分析, 输出情感类别标签包括:
第二样本序列输入过程包括以句子对的形式融合评论文本的语义信息和方面信息作
为输入RoBERTa模型的样本序列, 表达式如下:
input={<s>w1,w2,...,wn‑1,wn,</s>t1,t2,...tm}
式中, <s>为分类标志位, {w1,w2,.....wn‑1,wn}为评论文本序列, </s>为分隔符, {t1,
t2,.....,tm}为方面词序列;
在分类标志位上接入Softmax分类器, 判别方面级别评价对象所对应的情感极性, 使用
交叉熵函数计算学习模型分布与训练分布之间的差异, 得到最终的方面级别情感分析模
型, 将样本序列输入此模型进行情感极性预测, 输出情感类别标签。权 利 要 求 书 1/2 页
2
CN 114912423 A
27.一种基于 迁移学习的方面级别情感分析装置, 其特 征在于, 包括:
数据获取模块, 用于获取方面级别的情感分析数据集并进行预处理, 去掉情感极性标
签, 得到包 含方面级别评价实体和上 下文的第一样本序列, 作为无 标签数据;
RoBERTa模块, 用于构建RoBERTa模型, 使用无标签数据做掩码预测任务训练RoBERTa模
型, 得到完成此阶段训练任务的RoBERTa模型;
训练模块, 用于获取与方面级别情感分析相同场景下的文档级别情感数据集, 对完成
自监督掩掩码预测训练任务的RoBERTa模型, 做文档级别情感分析任务训练此模型;
输出模块, 用于再次获取方面级别情 感分析数据集, 构建融合评论文本信息、 方面信 息
的句子对作为第二样本序列, 将第二样本序列输入已完成文档级别情感分析任务的
RoBERTa模型, 进行 方面级别情感分析, 输出情感类别标签。权 利 要 求 书 2/2 页
3
CN 114912423 A
3
专利 一种基于迁移学习的方面级别情感分析方法及装置
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:45:59上传分享