(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210511507.8
(22)申请日 2022.05.12
(71)申请人 昆明理工大 学
地址 650500 云南省昆明市呈贡区景明南
路727号
(72)发明人 余正涛 王静赟 相艳
(74)专利代理 机构 昆明隆合知识产权代理事务
所(普通合伙) 53220
专利代理师 何娇
(51)Int.Cl.
G06F 40/211(2020.01)
G06F 40/253(2020.01)
G06F 40/284(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
G06K 9/62(2022.01)
(54)发明名称
基于图注意力网络的案件微博属性级观点
挖掘方法
(57)摘要
本发明涉及基于图注意力网络的案件微博
属性级观 点挖掘方法, 属于自然语 言处理技术领
域。 本发明首先使用斯坦福工具得到涉案微博评
论句的句法依存关系; 然后, 重塑评论句的句法
依存关系, 只保留属性词与观 点词之间的主要句
法信息, 丢 弃次要句法信息; 最后, 使用关系图注
意力网络模 型进行编码, 对属性词对应的观点词
和情感倾向性进行联合抽取。 本发 明解决了现有
方法不能有效的对案件微博评论的属性词和观
点词的关系进行建模, 从而利用抽取的观点词预
测情感极性的问题。
权利要求书1页 说明书11页 附图3页
CN 114943216 A
2022.08.26
CN 114943216 A
1.基于图注意力网络的案件微博属性级观点挖掘方法, 其特征在于: 所述基于图注意
力网络的案件微博属性级观点挖掘方法的具体步骤如下:
Step1、 收集用于案件微博属性级观点挖掘的微博评论文本, 对微博评论文本进行去重
与筛选;
Step2、 定制案件微博属性级观点挖掘的标注体系, 标记微博评论文本, 将标记好的微
博评论语料分为训练语料、 验证 语料和测试语料;
Step3、 获取评论语句对应的词向量, 训练数据经过预处理后输入斯坦福工具, 得到评
论的句法依存关系;
Step4、 对评论的句法依存关系进行重塑, 只保留属性词与观点词之间的直接句法关
系, 丢弃属性词与观点词之间的间接句法关系;
Step5、 使用关系图注意力网络模型进行编码, 对属性词对应的观点词和 情感倾向性进
行联合抽取。
2.根据权利要求1所述的基于图注意力网络的案件微博属性级观点挖掘方法, 其特征
在于: 所述 步骤Step1的具体步骤为:
Step1.1、 使用Scrapy作为爬取工具, 收集用于案件微博属性级观点挖掘的微博评论文
本;
Step1.2、 对收集到的微博评论文本进行去重与筛 选。
3.根据权利要求1所述的基于图注意力网络的案件微博属性级观点挖掘方法, 其特征
在于: 所述 步骤Step2的具体步骤为:
Step2.1、 定制的案件微博属性级观点挖掘的标注体系采用了XML的可扩展标记语言组
织文本, 分别针对属性词文本、 属性词的开始 位置、 属性词的结束位置、 观点词文本、 观 点词
的开始位置、 观点词的结束位置及属性词的情感极性对收集到的微博评论文本进行 标记;
Step2.2、 再将实验数据分为训练语料、 验证 语料和测试语料。
4.根据权利要求1所述的基于图注意力网络的案件微博属性级观点挖掘方法, 其特征
在于: 所述步骤Step3的具体步骤为: 将评论句
输入斯坦福工具, 得到评
论句的句法依存树T。
5.根据权利要求1所述的基于图注意力网络的案件微博属性级观点挖掘方法, 其特征
在于: 所述 步骤Step4的具体步骤:
Step4.1、 将属性词放在依存树的根部;
Step4.2、 对于依存树中节点与节点之间的依存关系, 只保留属性词与观点词之间的直
接句法关系, 丢弃属性词与观点词之间的间接句法关系;
Step4.3、 如果一个评论句子包含多个属性词, 将把句中每个属性词分别作为根, 构造
一棵唯一的树, 减少无关节点和关系的影响。
6.根据权利要求1所述的基于图注意力网络的案件微博属性级观点挖掘方法, 其特征
在于: 所述 步骤Step5的具体步骤为:
Step5.1、 将依存关系分别映射到两个向量空间: E[rij]和U[rij]; 其中, E[rij]用于预测
属性词的情感倾向性, U[rij]用于抽取观点词;
Step5.2、 分别利用关系图注意力网络对隐状态节点进行更新, 以此对属性词情感极性
和观点词进行 联合抽取。权 利 要 求 书 1/1 页
2
CN 114943216 A
2基于图注意力网 络的案件微博属性级观点挖掘方 法
技术领域
[0001]本发明涉及基于图注意力网络的案件微博属性级观点挖掘方法, 属于自然语言处
理技术领域。
背景技术
[0002]微博等社交媒体的蓬勃发展让人们 获得更丰富、 更及时的信息, 同时每天也会产
生大量评论。 其中, 与案件相关的评论在网络上迅速传播, 所产生的舆论会干扰有关机构的
工作。 为此, 获取案件微博评论属性词对应的观 点词并判断其情感倾向性, 有助于司法机关
掌握大众的舆论走势, 降低舆情事件带来的风险。 案件微博观点挖掘主要包括观点词抽取
和属性级情感分类, 其 目的是针对从微博用户评论文本中识别出 的属性词, 提取其对应的
观点词并判断网友的情感倾向性。 在这一任务中, 本发明将情感倾向性分为三类: 积极、 消
极、 中性。 由于涉案微博评论的属 性词和观点词之间存在一定的句法关系, 同时, 观点词抽
取和属性词情感分析是两个相互促进的任务。 但是现有方法存在对属性词和观点词之 间的
关系利用不 足的问题, 因此, 该任务的难点在于如何对属性词和观 点词的关系进 行建模, 从
而利用抽取的观点词预测情感极性。 例如在 “这个品牌也太嚣张了, 大家一定要持续关注
啊”这句评论中, 出现了 “了、 啊”等这样的语气词, 这些词包含的句法信息往往是无关紧要
的, 有时甚至会对模型造成负面影响。 显然, 这些次要的句法信息是需要被丢弃的。 因此, 可
以对涉案微博评论的句法关系进行重塑, 即只保留属 性词与观点词之间的主要句法信息,
丢弃次要句法信息。 同时, 直观来看, 网友的情感倾向性往往是由观点词决定的, 观点词抽
取和属性级情感分类是两个相互促进的子任务, 将它们的损失函数进行联合学习, 可以进
一步提升观点词抽取和 属性级情感分类的性能。
发明内容
[0003]本发明提供了基于图注意力网络的案件微博属性级观点挖掘方法, 以用于解决现
有方法不能有效的对案件微博评论的属性词和观点词的关系进行建模, 从而利用抽取的观
点词预测情感极性 等问题, 本发明提升观点挖掘的精度。
[0004]本发明的技术方案是: 基于图注意力网络 的案件微博属性级观点挖掘 方法, 所述
基于图注意力网络的案件微博属性级观点挖掘方法的具体步骤如下:
[0005]Step1、 收集用于案件微博属性级观点挖掘的微博评论文本, 对微博评论文本进行
去重与筛 选;
[0006]作为本发明的优选方案, 所述Step1中, 使用Scrapy作为爬取工具, 收集用于案件
微博属性级观点挖掘的微博评论文本, 然后对其进行去重和筛 选。
[0007]此优选方案设计是本发明的重要组成部分, 主要为本发明收集语料过程, 为本发
明抽取涉案微博评价对象提供了数据支撑 。
[0008]Step2、 对涉案微博评论文本进行分词等预处理, 定制案件微博属性级观点挖掘的
标注体系, 标记微博评价文本, 将标记好的微博评论语料按照8: 1: 1的比例分配训练语料、说 明 书 1/11 页
3
CN 114943216 A
3
专利 基于图注意力网络的案件微博属性级观点挖掘方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:05上传分享