(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210371266.1 (22)申请日 2022.04.08 (65)同一申请的已公布的文献号 申请公布号 CN 114444516 A (43)申请公布日 2022.05.06 (73)专利权人 四川大学 地址 610065 四川省成 都市武侯区一环路 南一段24号 (72)发明人 王海舟 陈欣雨 柯亮 方怡萱  王森 蔡易成 王文贤  (74)专利代理 机构 成都禾创知家知识产权代理 有限公司 51284 专利代理师 刘凯 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06F 40/289(2020.01) G06F 16/35(2019.01)(56)对比文件 CN 113919440 A,202 2.01.11 CN 113343126 A,2021.09.0 3 CN 112035669 A,2020.12.04 CN 112256945 A,2021.01.2 2 WO 2019183191 A1,2019.09.26 王昕岩 等.一种加权图卷积神经网络的新 浪微博谣言检测方法. 《小型微型计算机系统》 .2021,第42卷(第8 期), Liang Ke 等.A N ovel Approach for Cantonese Rumor Detecti on based o n Deep Neural Netw ork. 《2020 IE EE Internati onal Conference o n System s, Man, and Cybernetics (SM C)》 .2020, Lei Zhong 等.Integrati ng Semantic and Structural I nformati on with Graph Convolutional Netw ork for Co ntroversy Detection. 《arXiv:20 05.07886v1 [cs.CL]》 .2020, 审查员 吴姝泓 (54)发明名称 一种基于深度语义感知图卷积网络的粤语 谣言检测方法 (57)摘要 本发明涉及谣 言检测技术领域, 具体公开了 一种基于深度语义感知图卷积网络的粤语谣言 检测方法, 首先构造多组健康类粤语谣言关键 词, 并构建Web爬虫对相关的推文、 用户、 转发及 评论信息进行 获取, 在完成数据标注后构造出数 据集Net‑CR‑Dataset; 其次, 设计一个深度语义 感知图卷积神经网络模型SA ‑GCN; 根据 粤语独特 的语言特征对BERT中文预训练模型进行优化, 同 时运用收集的大量粤语语料对BERT预训练模型 进行进一步预训练和微调, 从而提取出推文的语 义特征向量; 并运用改进的GCN网络, 从而 提取出 推文的结构特征, 生成结构特征向量; 最终, SA ‑ GCN模型将结构特征向量和语义特征向量进行融合, 获得最终的分类结果。 本发明在检测 效果与 早期检测能力方面都优于其 他常用的检测方法。 权利要求书3页 说明书13页 附图4页 CN 114444516 B 2022.07.05 CN 114444516 B 1.一种基于深度语义感知图卷积网络的粤语谣言检测方法, 其特征在于, 包括以下步 骤: 步骤1: 构造多组健康类粤语谣言关键词, 对相关的推文、 用户、 转发及评论信息进行获 取, 构建具备图结构信息的粤语谣言数据集Net ‑CR‑Dataset, 即根据社交网络中的实体及 其之间的关系建模为图G=<V,E>; 步骤2: 融合BERT模型、 GCN网络以及注意力机制, 提出社交网络粤语谣言检测模型SA ‑ GCN: 运用改进的GCN网络提取推文的结构特 征向量; 根据粤语独特的语言特征对BERT中文预训练模型进行优化, 同时运用收集的大量粤语 语料对BERT中文预训练模型进行进一步预训练和微调, 从而提取出推文的语义特征向量; 最终对这两类特 征进行融合, 获得最终的分类结果; 所述步骤2包括: 步骤2.1: 提取结构特征: 将Net ‑CR‑Dataset中的原推文、 转推、 评论作为节点, 将转发 和评论关系作为边进行建模, 将社交网络中推文的传播路径转化为图结构数据, 并运用改 进的GCN网络来对推文的传播路径上的信息进行聚合, 从而生成推文的高级结构特 征向量; 所述步骤2.1提取 结构特征具体包括: 步骤2.1.1: 运用多头注意力机制来挖掘顶点之间的潜在结构相关性, 包括非直连的节 点, 以及之间经 过多跳的节点; 具体过程如下: 先使用fastText提供的粤语预训练词向量来生成节点的特征U={u1,u2,...,uN}, 其中 N为所有的节点数; 再通过构建注意力邻接矩阵A将原始推文的传播树转化为以权重边全连接的图, 从而 综合考虑各个推文节点之间的结构关系; 第m个头相关的第m个注意力邻接矩阵的计算如 下: 其中, Q和K等同于节点特 征, 即为提取的节点特 征U; d是特征向量的维度; 和 分别为Q和K的传递矩阵; 步骤2.1.2: 使用紧密连接层来捕获本地和远距离的节点特征, 解决浅层GCN无法学习 到深层关联节点信息的问题, 并生成更好的节点表示; 每一个紧密连接层都包含L个子层; 对于节点i来说, 其经过第 l个子层的输出如下式所 示: 其中, ρ 为ReLU函数, 权重矩阵 和偏置 取决于A(m); A(m)为第m个头相关的第m个注 意力邻接矩阵; 表示节点i和节点j的连接情况, 为矩阵A(m)中的元素; 为节点j在第l 个子层的输入特征, 由h(0)和{1,2,...,l ‑1}子层更新产生的节点特征h(1),...,h(l‑1)拼接而 成, 计算方式如下式所示: 权 利 要 求 书 1/3 页 2 CN 114444516 B 2步骤2.1.3: 引入线性组合层来整合来自不同密集连接层的表示, 线性组合层的输出定 义如下式所示: S=Wcombhout+bcomb    (6) 其中, hout=[h(1); ...; h(M)], h(M)表示第M个紧密连接层输出的特征向量; Wcomb为各特征 向量的权 重矩阵, bcomb为偏置向量。 2.根据权利要求1所述的基于深度语义感知图卷积网络的粤语谣言检测方法, 其特征 在于, 所述 根据社交网络中的实体及其之间的关系建模为图G=<V,E>具体为: 用T={t1,t2,...,tm}表示原推文集合, m为原推文数; 用 表示原推文ti 的转推与评论 集合, 其中 为ti的转推/评论, n为转推与评论的数量; V={V1,V2,...,Vm}, 其中Vi={ti,Ri}为原推文ti的节点集合, 包含原推文ti的节点和转 推与评论 集合Ri的节点; E={E1,E2,...,Em}, 其中 为原推文ti的边集合, 表示节点之间的 转发/评论关系; X={x1,x2,...,xm}表示原推文集 合T的特征矩阵, k为特征xi的维度; xi表示节 点ti的特征向量; A∈{0,1}|V|×|V|为图G的邻接矩阵, 表示节点之间相邻关系的矩阵, 指示图中任意两个 节点之间是否有边相连; 假设转推与评论节点ric与 之间存在边 则邻接矩阵A的表现形式如下 所示: 其中, Ec为原推文tc的边集合; 将谣言检测任务考虑为一个二分类问题, 原推文ti对应标签yi∈{0,1}, 0表示非谣言, 1 表示谣言; 则谣言检测目标即为学习分类 器f: f:T→Y    (2) 其中, Y为标签集 合。 3.根据权利要求1所述的基于深度语义感知图卷积网络的粤语谣言检测方法, 其特征 在于, 所述 步骤2还包括: 步骤2.2: 提取语义特征: 构建一张映射表, 将粤语中的异体字转换为其在普通话中对 应的字符, 并将罕见字进 行拆分; 并对BERT中文预训练模型的词表进 行扩充; 使用采集到的 粤语语料对BERT ‑Base‑Chinese模 型进行进一步预训练, 使其学习到更多粤语的特征, 并用 Net‑CR‑Dataset数据集对BERT中文预训练模型进行微调, 得到BERT粤语预训练模型, 据此 提取推文的语义特 征向量; 步骤2.3: SA ‑GCN模型将结构特征向量和语义特征向量进行融合, 获得最终的分类结 果。 4.根据权利要求3所述的基于深度语义感知图卷积网络的粤语谣言检测方法, 其特征 在于, 所述步骤2.2中对BERT中文预训练模型的词表进行扩充包括: 采用PyCantonese库提 供的词表和fastText粤语预训练词向量, 在词表中加入粤语中常用的英文词, 并对其权重权 利 要 求 书 2/3 页 3 CN 114444516 B 3

.PDF文档 专利 一种基于深度语义感知图卷积网络的粤语谣言检测方法

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度语义感知图卷积网络的粤语谣言检测方法 第 1 页 专利 一种基于深度语义感知图卷积网络的粤语谣言检测方法 第 2 页 专利 一种基于深度语义感知图卷积网络的粤语谣言检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:40上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。