(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210373901.X
(22)申请日 2022.04.11
(71)申请人 北京理工大 学
地址 100081 北京市海淀区中关村南大街5
号
(72)发明人 宋大为 马放 张辰 杨艺
(74)专利代理 机构 北京正阳理工知识产权代理
事务所(普通 合伙) 11639
专利代理师 张利萍
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06F 16/35(2019.01)
(54)发明名称
一种基于对比对齐网络的跨领域情感分类
方法
(57)摘要
本发明涉及一种基于对比对齐网络的跨领
域情感分析方法, 属于自然语言处理中的细粒度
情感分析技术领域。 本发明研究了跨领域情感分
类的一个未充分探索的场景, 即目标领域是少样
本的场景。 在此场景下, 本发明提出了一种名为
对比对齐网络(CAN)的神经网络模型。 模型首先
从原领域和目标领域中随机抽取两个实例, 然后
根据组合目标领域和原领域的实例对其进行训
练。 第一个目标是最小化原领域上的分类错误。
第二个是成对对比目标, 其中一对中的目标领域
实例和原领域实例之间的距离度量, 如果它们表
达相同的情感, 则最小化, 否则该度量以恒定的
上限最大化。 本方法解决了跨领域情感分类任务
中目标领域数据资源受限的问题, 提高了用户的
使用体验。
权利要求书2页 说明书6页 附图2页
CN 114757183 A
2022.07.15
CN 114757183 A
1.一种基于对比对齐网络的跨领域情感分类方法, 其特 征在于, 包括以下步骤:
步骤1: 加载评论语料集和预训练语言模型, 并对评论语料集中的评论文本数据进行文
本预处理和文本数据格式化;
步骤2: 构建基于对比对齐网络的跨领域情感分类模型;
其中, 基于对比对齐网络的跨领域情感分类模型f, 包 括编码器gθ和分类器hφ, 在该架构
基础上, 引入原领域分类目标损失函数
和对比目标 领域分类目标损失函数
编码器gθ使用预训练语言模型作为基底, 用于编码评论语句的上下文信息; 分类器hφ由
多层感知器MLP和softmax层组成; 将经过多层感知器的输出表示送至softmax层, 由此计算
相应的损失;
步骤3: 计算判别性原领域 风险;
对于判别性原领域风险, 采用原领域的经验分类损 失项, 将分类目标建模为基于交叉
熵的损失
其中, ns为原领域数据样 本数量; yi为原领域数据第i条样 本的标签,
为模型在原领域
数据第i条样本上的预测标签;
步骤4: 以实例级分类信息对比对齐原领域与目标 领域;
给定任意对
特定的对比损失
计算为:
其中, Xis表示原领域s第i条样本评论语句, Xjt表示目标领域t第j条样本评论语句, yis
表示原领域s第i 条样本评论语句所对 应的标签, yjt表示目标领域t第j条样本评 论语句所对
应的标签;
表示原领域实例和目标领域实例之间的距离
度量;
为等式指示 函数; m是一个预定义的常量;
步骤5: 进行正则化 领域转移; 总体目标包括原领域 数据的交叉熵损失函数
对比对齐
原领域与目标领域损失函数
并通过
正则化最小化原领域数据的交叉熵损失函数
和
对比对齐原领域与目标 领域损失函数
其中, 总体目标函数为:
其中, α 是分类和对比目标之间的权衡项, λ是 所有模型参数Θ={ θ, φ }的正则化系数;
步骤6: 使用标准批量随机梯度下降算法, 对总体目标函数
进行训练, 得到训练好的基
于对比对齐网络的跨领域情感分类模型;
步骤7: 利用训练好的基于对比对齐网络的跨领域情感分类模型, 进行跨领域情感分
类。
2.一种基于对比对齐网络的跨领域情感分类方法, 其特征在于, 编码器使用经过预训权 利 要 求 书 1/2 页
2
CN 114757183 A
2练语言模型的CLS全句表示, 作为整个评论语句的上下文隐藏状态表示向量H, H={h1,
h2,…,hn}, hn表示第n个to ken的隐藏状态 表示向量。
3.一种基于对比对齐网络的跨领域情感分类方法, 其特征在于, 步骤2中, 多层感知器
包括四层, 依次为: 一层全连接层、 一层ReLU激活函数层、 一层dropout层和一层全连接层。
4.一种基于对比对齐网络的跨领域情感分类方法, 其特 征在于, 步骤1包括以下步骤:
步骤1.1: 对每条评论语句 抽取出其中的属性词、 观点词及其 位置信息;
步骤1.2: 使用n ltk分词器对评论语句预分词, 将分好的to ken词用空格隔开;
步骤1.3: 在评论语句分词token序列后增加两个特殊token词: [CLS]、 [SEP], 由此构造
成通用输入形式: S={[CLS],w1,w2…,wn,[SEP]}, n表示评论语句的token词总个数, wn表示
评论语句的第n个to ken;
步骤1.4: 进行文本数据格式化;
对每条评论语句token词序列做补齐处理, 使其长度均为128; 使用预训练语言模型的
分词器tokenizer, 对评论语句中的每个token词进行tokenize操作; 将 处理好的数据集分
为训练集、 验证集和 测试集, 并构造成批数据形式。
5.一种基于对比对齐网络的跨领域情感分类方法, 其特征在于, 当训练集中完成训练
后, 在所使用的验证集中进行验证测试, 评价指标包括:
对于跨领域情感分类, 使用准确率和F1值作为评价指标;
对于每轮验证更新 最优模型并保存。权 利 要 求 书 2/2 页
3
CN 114757183 A
3
专利 一种基于对比对齐网络的跨领域情感分类方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:45:20上传分享