(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210212946.9
(22)申请日 2022.03.05
(71)申请人 昆明理工大 学
地址 650500 云南省昆明市呈贡区景明南
路727号
(72)发明人 余正涛 马梅希
(74)专利代理 机构 昆明隆合知识产权代理事务
所(普通合伙) 53220
专利代理师 何娇
(51)Int.Cl.
G06K 9/62(2022.01)
G06F 40/30(2020.01)
G06F 40/284(2020.01)
G06N 3/08(2006.01)
G06F 16/9035(2019.01)G06F 16/951(2019.01)
(54)发明名称
基于对比学习的自监督舆情评论观点对象
分类方法
(57)摘要
本发明涉及基于对比学习的自监督舆情评
论观点对象分类方法, 属自然语言处理领域。 本
发明包括: 构建微博评论观点对象分类的数据
集; 在基于Word2Vec词向量的基础上进行K ‑
means聚类, 融入特殊自注意力机制得到评论的
向量表征并重构评论句表征, 由评论句词向量表
征和重构方面句子表征构建评论句子正负例, 通
过对比学习的方法增强与评论观点对象相关的
文本特征, 拉大句子与非观点对象不相关的距
离, 使得模型对评论句进行推断与分类。 最后将
评论文本分类为四个案件 方面: 某机构、 当事人、
某名称、 其他, 为后续的微博评论摘要提供了支
撑。
权利要求书2页 说明书6页 附图1页
CN 114548321 A
2022.05.27
CN 114548321 A
1.基于对比学习的自监督舆情评论观点对象分类方法, 其特征在于: 所述方法的具体
步骤如下:
Step1、 通过爬虫技术爬取近年来多个涉及到案件的微博评论, 并对数据进行清洗过
滤;
Step2、 利用Word2Vec对新闻微博评论训练词向量, 通过K ‑means对词向量进行聚类初
始化方面向量; 引入注意力机制获得微博评论句向量表征和评论句方面表征, 对评论句的
这两种向量表征构建正负例, 分别计算余弦相似度, 计算正例的对比损失函数, 模型推断及
映射评论句子 到观点对象类别中。
2.根据权利要求1所述的基于对比学习的自监督舆情评论观点对象分类方法, 其特征
在于: 所述Step1的具体步骤为:
Step1.1、 采用基于Scrapy框架的爬虫爬取 热点案件的评论;
Step1.2、 对微博正文及评论进行过滤筛选, 过滤筛选 的方式如下所示: (1)、 删除微博
评论里“回复@+用户名 ”的结构, 且删除无关超链接广告(2)、 根据标点符号进 行分句后去除
标点符号, 利用jieba分词工具进行分词, 并去停止词; (3)、 删除微博评论中的表情符号;
Step1.3、 人工标注微博评论观点对象分类数据集 ‑测试集和验证集: 对每一条微博评
论进行标注, 属于某机构, 标注 为1; 属于某名称, 标注 为2; 属于当事 人, 标注为3; 属于其他,
标注为4。
3.根据权利要求1所述的基于对比学习的自监督舆情评论观点对象分类方法, 其特征
在于: 所述Step2的具体步骤如下:
Step2.1、 对微博评论引入注意力机制, 使其能够关注句子中词级更关键信息, 得到引
入注意力机制的评论sx,E;
其中, wt表示评论句子中的单词, t∈[0,T ‑1], T表示微博评论句子的最大长度, q为一个
评论句平均词向量, 在此处为查询向量, λ表示平滑系数, WE为参数矩阵, bE是偏置项, 是训练
参数, ut是单词级上下文向量, αt为评论句中单词的权重矩阵, x表示评 论句子, E表示 单词嵌
入空间矩阵, sx,E为加权求和的评论句向量, E∈RV*M, V为词表大小;
Step2.2、 由K ‑means簇心初始化方面向量矩阵A, 将方面映射到单词嵌入空间矩阵E; A
与E计算相似矩阵G后推断出句子最具代 表性的前若干个关键词来表示方面向量矩阵A;
G=AET (2)
其中, A∈RN*M,G∈RN*V, N为聚类的簇心数量, 即初始化方面数。权 利 要 求 书 1/2 页
2
CN 114548321 A
2Step2.3、 惩罚方面向量矩阵A, 降低不同方面向量之间 的冗余性, 增加方面的丰富多样
性, 由K‑means簇心初始化方面向量矩阵A, 学习更 具代表性的向量表示A1;
Ω=||A1A1T‑I|| (3)
其中, A1表示A每一行归一 化的结果;
Step2.4、 利用另一种注意力机制和全局方面嵌入{A1,A2,A3…AN}重建评论片段x的向量
表征sx,A:
其中, vn,A∈RM, bn,A∈R, 均是可学习的参数, β =( β1, β2…βN)表示一个句子被推断为某个
方面项n的概 率分布;
Step2.5、 采样样本X, 对同一新 闻评论句的两种表征进行对比学习, 以增强评论文本的
方面表征, 正例(si,E,si,A)对比损失函数li:
其中, sim(sj,E,si,A)表示负例的余弦相似度, si,A为第i个句子加权求和的方面向量表
示, sj,E为第j个句子的加权求和向量表示, || ·||表示2范数, Π[j≠i]是指示函数, μ表示一
个温度超参数;
Step2.6、 整个模型的损失函数由重构损失li和正则化方面嵌入矩阵Ω得到L:
Step2.7、 给定模型对评论句方面的概率分布β, 计算人工映射后的方面标签γ=(γ1,
γ2,γ3…γK);
其中, f( βn)表示模型推断方面n映射为预定义方面, k表示为预定义的微博评论观点对
象类别, k∈[0,K ‑1];
Step2.8、 采用argmax分类函数决策 出最大概 率的类别;
权 利 要 求 书 2/2 页
3
CN 114548321 A
3
专利 基于对比学习的自监督舆情评论观点对象分类方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:20上传分享