(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210371266.1
(22)申请日 2022.04.08
(65)同一申请的已公布的文献号
申请公布号 CN 114444516 A
(43)申请公布日 2022.05.06
(73)专利权人 四川大学
地址 610065 四川省成 都市武侯区一环路
南一段24号
(72)发明人 王海舟 陈欣雨 柯亮 方怡萱
王森 蔡易成 王文贤
(74)专利代理 机构 成都禾创知家知识产权代理
有限公司 51284
专利代理师 刘凯
(51)Int.Cl.
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06F 40/289(2020.01)
G06F 16/35(2019.01)(56)对比文件
CN 113919440 A,202 2.01.11
CN 113343126 A,2021.09.0 3
CN 112035669 A,2020.12.04
CN 112256945 A,2021.01.2 2
WO 2019183191 A1,2019.09.26
王昕岩 等.一种加权图卷积神经网络的新
浪微博谣言检测方法. 《小型微型计算机系统》
.2021,第42卷(第8 期),
Liang Ke 等.A N ovel Approach for
Cantonese Rumor Detecti on based o n Deep
Neural Netw ork. 《2020 IE EE Internati onal
Conference o n System s, Man, and
Cybernetics (SM C)》 .2020,
Lei Zhong 等.Integrati ng Semantic and
Structural I nformati on with Graph
Convolutional Netw ork for Co ntroversy
Detection. 《arXiv:20 05.07886v1 [cs.CL]》
.2020,
审查员 吴姝泓
(54)发明名称
一种基于深度语义感知图卷积网络的粤语
谣言检测方法
(57)摘要
本发明涉及谣 言检测技术领域, 具体公开了
一种基于深度语义感知图卷积网络的粤语谣言
检测方法, 首先构造多组健康类粤语谣言关键
词, 并构建Web爬虫对相关的推文、 用户、 转发及
评论信息进行 获取, 在完成数据标注后构造出数
据集Net‑CR‑Dataset; 其次, 设计一个深度语义
感知图卷积神经网络模型SA ‑GCN; 根据 粤语独特
的语言特征对BERT中文预训练模型进行优化, 同
时运用收集的大量粤语语料对BERT预训练模型
进行进一步预训练和微调, 从而提取出推文的语
义特征向量; 并运用改进的GCN网络, 从而 提取出
推文的结构特征, 生成结构特征向量; 最终, SA ‑
GCN模型将结构特征向量和语义特征向量进行融合, 获得最终的分类结果。 本发明在检测 效果与
早期检测能力方面都优于其 他常用的检测方法。
权利要求书3页 说明书13页 附图4页
CN 114444516 B
2022.07.05
CN 114444516 B
1.一种基于深度语义感知图卷积网络的粤语谣言检测方法, 其特征在于, 包括以下步
骤:
步骤1: 构造多组健康类粤语谣言关键词, 对相关的推文、 用户、 转发及评论信息进行获
取, 构建具备图结构信息的粤语谣言数据集Net ‑CR‑Dataset, 即根据社交网络中的实体及
其之间的关系建模为图G=<V,E>;
步骤2: 融合BERT模型、 GCN网络以及注意力机制, 提出社交网络粤语谣言检测模型SA ‑
GCN: 运用改进的GCN网络提取推文的结构特 征向量;
根据粤语独特的语言特征对BERT中文预训练模型进行优化, 同时运用收集的大量粤语
语料对BERT中文预训练模型进行进一步预训练和微调, 从而提取出推文的语义特征向量;
最终对这两类特 征进行融合, 获得最终的分类结果;
所述步骤2包括:
步骤2.1: 提取结构特征: 将Net ‑CR‑Dataset中的原推文、 转推、 评论作为节点, 将转发
和评论关系作为边进行建模, 将社交网络中推文的传播路径转化为图结构数据, 并运用改
进的GCN网络来对推文的传播路径上的信息进行聚合, 从而生成推文的高级结构特 征向量;
所述步骤2.1提取 结构特征具体包括:
步骤2.1.1: 运用多头注意力机制来挖掘顶点之间的潜在结构相关性, 包括非直连的节
点, 以及之间经 过多跳的节点; 具体过程如下:
先使用fastText提供的粤语预训练词向量来生成节点的特征U={u1,u2,...,uN}, 其中
N为所有的节点数;
再通过构建注意力邻接矩阵A将原始推文的传播树转化为以权重边全连接的图, 从而
综合考虑各个推文节点之间的结构关系; 第m个头相关的第m个注意力邻接矩阵的计算如
下:
其中, Q和K等同于节点特 征, 即为提取的节点特 征U; d是特征向量的维度;
和
分别为Q和K的传递矩阵;
步骤2.1.2: 使用紧密连接层来捕获本地和远距离的节点特征, 解决浅层GCN无法学习
到深层关联节点信息的问题, 并生成更好的节点表示;
每一个紧密连接层都包含L个子层; 对于节点i来说, 其经过第 l个子层的输出如下式所
示:
其中, ρ 为ReLU函数, 权重矩阵
和偏置
取决于A(m); A(m)为第m个头相关的第m个注
意力邻接矩阵;
表示节点i和节点j的连接情况, 为矩阵A(m)中的元素;
为节点j在第l
个子层的输入特征, 由h(0)和{1,2,...,l ‑1}子层更新产生的节点特征h(1),...,h(l‑1)拼接而
成, 计算方式如下式所示:
权 利 要 求 书 1/3 页
2
CN 114444516 B
2步骤2.1.3: 引入线性组合层来整合来自不同密集连接层的表示, 线性组合层的输出定
义如下式所示:
S=Wcombhout+bcomb (6)
其中, hout=[h(1); ...; h(M)], h(M)表示第M个紧密连接层输出的特征向量; Wcomb为各特征
向量的权 重矩阵, bcomb为偏置向量。
2.根据权利要求1所述的基于深度语义感知图卷积网络的粤语谣言检测方法, 其特征
在于, 所述 根据社交网络中的实体及其之间的关系建模为图G=<V,E>具体为:
用T={t1,t2,...,tm}表示原推文集合, m为原推文数; 用
表示原推文ti
的转推与评论 集合, 其中
为ti的转推/评论, n为转推与评论的数量;
V={V1,V2,...,Vm}, 其中Vi={ti,Ri}为原推文ti的节点集合, 包含原推文ti的节点和转
推与评论 集合Ri的节点;
E={E1,E2,...,Em}, 其中
为原推文ti的边集合, 表示节点之间的
转发/评论关系;
X={x1,x2,...,xm}表示原推文集 合T的特征矩阵,
k为特征xi的维度; xi表示节
点ti的特征向量;
A∈{0,1}|V|×|V|为图G的邻接矩阵, 表示节点之间相邻关系的矩阵, 指示图中任意两个
节点之间是否有边相连;
假设转推与评论节点ric与
之间存在边
则邻接矩阵A的表现形式如下 所示:
其中, Ec为原推文tc的边集合;
将谣言检测任务考虑为一个二分类问题, 原推文ti对应标签yi∈{0,1}, 0表示非谣言, 1
表示谣言; 则谣言检测目标即为学习分类 器f:
f:T→Y (2)
其中, Y为标签集 合。
3.根据权利要求1所述的基于深度语义感知图卷积网络的粤语谣言检测方法, 其特征
在于, 所述 步骤2还包括:
步骤2.2: 提取语义特征: 构建一张映射表, 将粤语中的异体字转换为其在普通话中对
应的字符, 并将罕见字进 行拆分; 并对BERT中文预训练模型的词表进 行扩充; 使用采集到的
粤语语料对BERT ‑Base‑Chinese模 型进行进一步预训练, 使其学习到更多粤语的特征, 并用
Net‑CR‑Dataset数据集对BERT中文预训练模型进行微调, 得到BERT粤语预训练模型, 据此
提取推文的语义特 征向量;
步骤2.3: SA ‑GCN模型将结构特征向量和语义特征向量进行融合, 获得最终的分类结
果。
4.根据权利要求3所述的基于深度语义感知图卷积网络的粤语谣言检测方法, 其特征
在于, 所述步骤2.2中对BERT中文预训练模型的词表进行扩充包括: 采用PyCantonese库提
供的词表和fastText粤语预训练词向量, 在词表中加入粤语中常用的英文词, 并对其权重权 利 要 求 书 2/3 页
3
CN 114444516 B
3
专利 一种基于深度语义感知图卷积网络的粤语谣言检测方法
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:45:40上传分享