专利一种基于深度语义感知图卷积网络的粤语谣言检测方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210371266.1 (22)申请日 2022.04.08 (65)同一申请的已公布的文献号申请公布号 CN 114444516 A (43)申请公布日 2022.05.06 (73)专利权人四川大学地址 610065 四川省成都市武侯区一环路南一段24号 (72)发明人王海舟　陈欣雨　柯亮　方怡萱　王森　蔡易成　王文贤　 (74)专利代理机构成都禾创知家知识产权代理有限公司 51284 专利代理师刘凯 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06F 40/289(2020.01) G06F 16/35(2019.01)(56)对比文件 CN 113919440 A,202 2.01.11 CN 113343126 A,2021.09.0 3 CN 112035669 A,2020.12.04 CN 112256945 A,2021.01.2 2 WO 2019183191 A1,2019.09.26 王昕岩等.一种加权图卷积神经网络的新浪微博谣言检测方法. 《小型微型计算机系统》 .2021,第42卷(第8 期), Liang Ke 等.A N ovel Approach for Cantonese Rumor Detecti on based o n Deep Neural Netw ork. 《2020 IE EE Internati onal Conference o n System s, Man, and Cybernetics (SM C)》 .2020, Lei Zhong 等.Integrati ng Semantic and Structural I nformati on with Graph Convolutional Netw ork for Co ntroversy Detection. 《arXiv:20 05.07886v1 [cs.CL]》 .2020, 审查员吴姝泓 (54)发明名称一种基于深度语义感知图卷积网络的粤语谣言检测方法 (57)摘要本发明涉及谣言检测技术领域，具体公开了一种基于深度语义感知图卷积网络的粤语谣言检测方法，首先构造多组健康类粤语谣言关键词，并构建Web爬虫对相关的推文、用户、转发及评论信息进行获取，在完成数据标注后构造出数据集Net‑CR‑Dataset；其次，设计一个深度语义感知图卷积神经网络模型SA ‑GCN；根据粤语独特的语言特征对BERT中文预训练模型进行优化，同时运用收集的大量粤语语料对BERT预训练模型进行进一步预训练和微调，从而提取出推文的语义特征向量；并运用改进的GCN网络，从而提取出推文的结构特征，生成结构特征向量；最终， SA ‑ GCN模型将结构特征向量和语义特征向量进行融合，获得最终的分类结果。本发明在检测效果与早期检测能力方面都优于其他常用的检测方法。权利要求书3页说明书13页附图4页 CN 114444516 B 2022.07.05 CN 114444516 B 1.一种基于深度语义感知图卷积网络的粤语谣言检测方法，其特征在于，包括以下步骤：步骤1：构造多组健康类粤语谣言关键词，对相关的推文、用户、转发及评论信息进行获取，构建具备图结构信息的粤语谣言数据集Net ‑CR‑Dataset，即根据社交网络中的实体及其之间的关系建模为图G＝<V,E>；步骤2：融合BERT模型、 GCN网络以及注意力机制，提出社交网络粤语谣言检测模型SA ‑ GCN：运用改进的GCN网络提取推文的结构特征向量；根据粤语独特的语言特征对BERT中文预训练模型进行优化，同时运用收集的大量粤语语料对BERT中文预训练模型进行进一步预训练和微调，从而提取出推文的语义特征向量；最终对这两类特征进行融合，获得最终的分类结果；所述步骤2包括：步骤2.1：提取结构特征：将Net ‑CR‑Dataset中的原推文、转推、评论作为节点，将转发和评论关系作为边进行建模，将社交网络中推文的传播路径转化为图结构数据，并运用改进的GCN网络来对推文的传播路径上的信息进行聚合，从而生成推文的高级结构特征向量；所述步骤2.1提取结构特征具体包括：步骤2.1.1：运用多头注意力机制来挖掘顶点之间的潜在结构相关性，包括非直连的节点，以及之间经过多跳的节点；具体过程如下：先使用fastText提供的粤语预训练词向量来生成节点的特征U＝{u1,u2,...,uN}，其中 N为所有的节点数；再通过构建注意力邻接矩阵A将原始推文的传播树转化为以权重边全连接的图，从而综合考虑各个推文节点之间的结构关系；第m个头相关的第m个注意力邻接矩阵的计算如下：其中， Q和K等同于节点特征，即为提取的节点特征U； d是特征向量的维度；和分别为Q和K的传递矩阵；步骤2.1.2：使用紧密连接层来捕获本地和远距离的节点特征，解决浅层GCN无法学习到深层关联节点信息的问题，并生成更好的节点表示；每一个紧密连接层都包含L个子层；对于节点i来说，其经过第 l个子层的输出如下式所示：其中， ρ 为ReLU函数，权重矩阵和偏置取决于A(m)； A(m)为第m个头相关的第m个注意力邻接矩阵；表示节点i和节点j的连接情况，为矩阵A(m)中的元素；为节点j在第l 个子层的输入特征，由h(0)和{1,2,...,l ‑1}子层更新产生的节点特征h(1),...,h(l‑1)拼接而成，计算方式如下式所示：权　利　要　求　书 1/3 页 2 CN 114444516 B 2步骤2.1.3：引入线性组合层来整合来自不同密集连接层的表示，线性组合层的输出定义如下式所示： S＝Wcombhout+bcomb (6) 其中， hout＝[h(1)； ...； h(M)]， h(M)表示第M个紧密连接层输出的特征向量； Wcomb为各特征向量的权重矩阵， bcomb为偏置向量。 2.根据权利要求1所述的基于深度语义感知图卷积网络的粤语谣言检测方法，其特征在于，所述根据社交网络中的实体及其之间的关系建模为图G＝＜V,E＞具体为：用T＝{t1,t2,...,tm}表示原推文集合， m为原推文数；用表示原推文ti 的转推与评论集合，其中为ti的转推/评论， n为转推与评论的数量； V＝{V1,V2,...,Vm}，其中Vi＝{ti,Ri}为原推文ti的节点集合，包含原推文ti的节点和转推与评论集合Ri的节点； E＝{E1,E2,...,Em}，其中为原推文ti的边集合，表示节点之间的转发/评论关系； X＝{x1,x2,...,xm}表示原推文集合T的特征矩阵， k为特征xi的维度； xi表示节点ti的特征向量； A∈{0,1}|V|×|V|为图G的邻接矩阵，表示节点之间相邻关系的矩阵，指示图中任意两个节点之间是否有边相连；假设转推与评论节点ric与之间存在边则邻接矩阵A的表现形式如下所示：其中， Ec为原推文tc的边集合；将谣言检测任务考虑为一个二分类问题，原推文ti对应标签yi∈{0,1}， 0表示非谣言， 1 表示谣言；则谣言检测目标即为学习分类器f： f:T→Y (2) 其中， Y为标签集合。 3.根据权利要求1所述的基于深度语义感知图卷积网络的粤语谣言检测方法，其特征在于，所述步骤2还包括：步骤2.2：提取语义特征：构建一张映射表，将粤语中的异体字转换为其在普通话中对应的字符，并将罕见字进行拆分；并对BERT中文预训练模型的词表进行扩充；使用采集到的粤语语料对BERT ‑Base‑Chinese模型进行进一步预训练，使其学习到更多粤语的特征，并用 Net‑CR‑Dataset数据集对BERT中文预训练模型进行微调，得到BERT粤语预训练模型，据此提取推文的语义特征向量；步骤2.3： SA ‑GCN模型将结构特征向量和语义特征向量进行融合，获得最终的分类结果。 4.根据权利要求3所述的基于深度语义感知图卷积网络的粤语谣言检测方法，其特征在于，所述步骤2.2中对BERT中文预训练模型的词表进行扩充包括：采用PyCantonese库提供的词表和fastText粤语预训练词向量，在词表中加入粤语中常用的英文词，并对其权重权　利　要　求　书 2/3 页 3 CN 114444516 B 3

专利 一种基于深度语义感知图卷积网络的粤语谣言检测方法

专利一种基于深度语义感知图卷积网络的粤语谣言检测方法