(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210212946.9 (22)申请日 2022.03.05 (71)申请人 昆明理工大 学 地址 650500 云南省昆明市呈贡区景明南 路727号 (72)发明人 余正涛 马梅希  (74)专利代理 机构 昆明隆合知识产权代理事务 所(普通合伙) 53220 专利代理师 何娇 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 40/284(2020.01) G06N 3/08(2006.01) G06F 16/9035(2019.01)G06F 16/951(2019.01) (54)发明名称 基于对比学习的自监督舆情评论观点对象 分类方法 (57)摘要 本发明涉及基于对比学习的自监督舆情评 论观点对象分类方法, 属自然语言处理领域。 本 发明包括: 构建微博评论观点对象分类的数据 集; 在基于Word2Vec词向量的基础上进行K ‑ means聚类, 融入特殊自注意力机制得到评论的 向量表征并重构评论句表征, 由评论句词向量表 征和重构方面句子表征构建评论句子正负例, 通 过对比学习的方法增强与评论观点对象相关的 文本特征, 拉大句子与非观点对象不相关的距 离, 使得模型对评论句进行推断与分类。 最后将 评论文本分类为四个案件 方面: 某机构、 当事人、 某名称、 其他, 为后续的微博评论摘要提供了支 撑。 权利要求书2页 说明书6页 附图1页 CN 114548321 A 2022.05.27 CN 114548321 A 1.基于对比学习的自监督舆情评论观点对象分类方法, 其特征在于: 所述方法的具体 步骤如下: Step1、 通过爬虫技术爬取近年来多个涉及到案件的微博评论, 并对数据进行清洗过 滤; Step2、 利用Word2Vec对新闻微博评论训练词向量, 通过K ‑means对词向量进行聚类初 始化方面向量; 引入注意力机制获得微博评论句向量表征和评论句方面表征, 对评论句的 这两种向量表征构建正负例, 分别计算余弦相似度, 计算正例的对比损失函数, 模型推断及 映射评论句子 到观点对象类别中。 2.根据权利要求1所述的基于对比学习的自监督舆情评论观点对象分类方法, 其特征 在于: 所述Step1的具体步骤为: Step1.1、 采用基于Scrapy框架的爬虫爬取 热点案件的评论; Step1.2、 对微博正文及评论进行过滤筛选, 过滤筛选 的方式如下所示: (1)、 删除微博 评论里“回复@+用户名 ”的结构, 且删除无关超链接广告(2)、 根据标点符号进 行分句后去除 标点符号, 利用jieba分词工具进行分词, 并去停止词; (3)、 删除微博评论中的表情符号; Step1.3、 人工标注微博评论观点对象分类数据集 ‑测试集和验证集: 对每一条微博评 论进行标注, 属于某机构, 标注 为1; 属于某名称, 标注 为2; 属于当事 人, 标注为3; 属于其他, 标注为4。 3.根据权利要求1所述的基于对比学习的自监督舆情评论观点对象分类方法, 其特征 在于: 所述Step2的具体步骤如下: Step2.1、 对微博评论引入注意力机制, 使其能够关注句子中词级更关键信息, 得到引 入注意力机制的评论sx,E; 其中, wt表示评论句子中的单词, t∈[0,T ‑1], T表示微博评论句子的最大长度, q为一个 评论句平均词向量, 在此处为查询向量, λ表示平滑系数, WE为参数矩阵, bE是偏置项, 是训练 参数, ut是单词级上下文向量, αt为评论句中单词的权重矩阵, x表示评 论句子, E表示 单词嵌 入空间矩阵, sx,E为加权求和的评论句向量, E∈RV*M, V为词表大小; Step2.2、 由K ‑means簇心初始化方面向量矩阵A, 将方面映射到单词嵌入空间矩阵E; A 与E计算相似矩阵G后推断出句子最具代 表性的前若干个关键词来表示方面向量矩阵A; G=AET               (2) 其中, A∈RN*M,G∈RN*V, N为聚类的簇心数量, 即初始化方面数。权 利 要 求 书 1/2 页 2 CN 114548321 A 2Step2.3、 惩罚方面向量矩阵A, 降低不同方面向量之间 的冗余性, 增加方面的丰富多样 性, 由K‑means簇心初始化方面向量矩阵A, 学习更 具代表性的向量表示A1; Ω=||A1A1T‑I||            (3) 其中, A1表示A每一行归一 化的结果; Step2.4、 利用另一种注意力机制和全局方面嵌入{A1,A2,A3…AN}重建评论片段x的向量 表征sx,A: 其中, vn,A∈RM, bn,A∈R, 均是可学习的参数, β =( β1, β2…βN)表示一个句子被推断为某个 方面项n的概 率分布; Step2.5、 采样样本X, 对同一新 闻评论句的两种表征进行对比学习, 以增强评论文本的 方面表征, 正例(si,E,si,A)对比损失函数li: 其中, sim(sj,E,si,A)表示负例的余弦相似度, si,A为第i个句子加权求和的方面向量表 示, sj,E为第j个句子的加权求和向量表示, || ·||表示2范数, Π[j≠i]是指示函数, μ表示一 个温度超参数; Step2.6、 整个模型的损失函数由重构损失li和正则化方面嵌入矩阵Ω得到L: Step2.7、 给定模型对评论句方面的概率分布β, 计算人工映射后的方面标签γ=(γ1, γ2,γ3…γK); 其中, f( βn)表示模型推断方面n映射为预定义方面, k表示为预定义的微博评论观点对 象类别, k∈[0,K ‑1]; Step2.8、 采用argmax分类函数决策 出最大概 率的类别; 权 利 要 求 书 2/2 页 3 CN 114548321 A 3

.PDF文档 专利 基于对比学习的自监督舆情评论观点对象分类方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于对比学习的自监督舆情评论观点对象分类方法 第 1 页 专利 基于对比学习的自监督舆情评论观点对象分类方法 第 2 页 专利 基于对比学习的自监督舆情评论观点对象分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:49:20上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。