专利基于对比学习的自监督舆情评论观点对象分类方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210212946.9 (22)申请日 2022.03.05 (71)申请人昆明理工大学地址 650500 云南省昆明市呈贡区景明南路727号 (72)发明人余正涛　马梅希　 (74)专利代理机构昆明隆合知识产权代理事务所(普通合伙) 53220 专利代理师何娇 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 40/284(2020.01) G06N 3/08(2006.01) G06F 16/9035(2019.01)G06F 16/951(2019.01) (54)发明名称基于对比学习的自监督舆情评论观点对象分类方法 (57)摘要本发明涉及基于对比学习的自监督舆情评论观点对象分类方法，属自然语言处理领域。本发明包括：构建微博评论观点对象分类的数据集；在基于Word2Vec词向量的基础上进行K ‑ means聚类，融入特殊自注意力机制得到评论的向量表征并重构评论句表征，由评论句词向量表征和重构方面句子表征构建评论句子正负例，通过对比学习的方法增强与评论观点对象相关的文本特征，拉大句子与非观点对象不相关的距离，使得模型对评论句进行推断与分类。最后将评论文本分类为四个案件方面：某机构、当事人、某名称、其他，为后续的微博评论摘要提供了支撑。权利要求书2页说明书6页附图1页 CN 114548321 A 2022.05.27 CN 114548321 A 1.基于对比学习的自监督舆情评论观点对象分类方法，其特征在于：所述方法的具体步骤如下： Step1、通过爬虫技术爬取近年来多个涉及到案件的微博评论，并对数据进行清洗过滤； Step2、利用Word2Vec对新闻微博评论训练词向量，通过K ‑means对词向量进行聚类初始化方面向量；引入注意力机制获得微博评论句向量表征和评论句方面表征，对评论句的这两种向量表征构建正负例，分别计算余弦相似度，计算正例的对比损失函数，模型推断及映射评论句子到观点对象类别中。 2.根据权利要求1所述的基于对比学习的自监督舆情评论观点对象分类方法，其特征在于：所述Step1的具体步骤为： Step1.1、采用基于Scrapy框架的爬虫爬取热点案件的评论； Step1.2、对微博正文及评论进行过滤筛选，过滤筛选的方式如下所示： (1)、删除微博评论里“回复@+用户名 ”的结构，且删除无关超链接广告(2)、根据标点符号进行分句后去除标点符号，利用jieba分词工具进行分词，并去停止词； (3)、删除微博评论中的表情符号； Step1.3、人工标注微博评论观点对象分类数据集 ‑测试集和验证集：对每一条微博评论进行标注，属于某机构，标注为1；属于某名称，标注为2；属于当事人，标注为3；属于其他，标注为4。 3.根据权利要求1所述的基于对比学习的自监督舆情评论观点对象分类方法，其特征在于：所述Step2的具体步骤如下： Step2.1、对微博评论引入注意力机制，使其能够关注句子中词级更关键信息，得到引入注意力机制的评论sx,E；其中， wt表示评论句子中的单词， t∈[0,T ‑1]， T表示微博评论句子的最大长度， q为一个评论句平均词向量，在此处为查询向量， λ表示平滑系数， WE为参数矩阵， bE是偏置项，是训练参数， ut是单词级上下文向量， αt为评论句中单词的权重矩阵， x表示评论句子， E表示单词嵌入空间矩阵， sx,E为加权求和的评论句向量， E∈RV*M， V为词表大小； Step2.2、由K ‑means簇心初始化方面向量矩阵A，将方面映射到单词嵌入空间矩阵E； A 与E计算相似矩阵G后推断出句子最具代表性的前若干个关键词来表示方面向量矩阵A； G＝AET (2) 其中， A∈RN*M,G∈RN*V， N为聚类的簇心数量，即初始化方面数。权　利　要　求　书 1/2 页 2 CN 114548321 A 2Step2.3、惩罚方面向量矩阵A，降低不同方面向量之间的冗余性，增加方面的丰富多样性，由K‑means簇心初始化方面向量矩阵A，学习更具代表性的向量表示A1； Ω＝||A1A1T‑I|| (3) 其中， A1表示A每一行归一化的结果； Step2.4、利用另一种注意力机制和全局方面嵌入{A1,A2,A3…AN}重建评论片段x的向量表征sx,A：其中， vn,A∈RM， bn,A∈R，均是可学习的参数， β ＝( β1, β2…βN)表示一个句子被推断为某个方面项n的概率分布； Step2.5、采样样本X，对同一新闻评论句的两种表征进行对比学习，以增强评论文本的方面表征，正例(si,E,si,A)对比损失函数li：其中， sim(sj,E,si,A)表示负例的余弦相似度， si,A为第i个句子加权求和的方面向量表示， sj,E为第j个句子的加权求和向量表示， || ·||表示2范数， Π[j≠i]是指示函数， μ表示一个温度超参数； Step2.6、整个模型的损失函数由重构损失li和正则化方面嵌入矩阵Ω得到L： Step2.7、给定模型对评论句方面的概率分布β，计算人工映射后的方面标签γ＝(γ1, γ2,γ3…γK)；其中， f( βn)表示模型推断方面n映射为预定义方面， k表示为预定义的微博评论观点对象类别， k∈[0,K ‑1]； Step2.8、采用argmax分类函数决策出最大概率的类别；权　利　要　求　书 2/2 页 3 CN 114548321 A 3

专利 基于对比学习的自监督舆情评论观点对象分类方法

专利基于对比学习的自监督舆情评论观点对象分类方法