(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210216140.7 (22)申请日 2022.03.07 (71)申请人 武汉理工大 学 地址 430070 湖北省武汉市洪山区珞狮路 122号 (72)发明人 马小林 钟港 旷海兰 刘新华  (74)专利代理 机构 武汉科皓知识产权代理事务 所(特殊普通 合伙) 42222 专利代理师 王琪 (51)Int.Cl. G06F 16/35(2019.01) G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 40/242(2020.01)G06F 40/216(2020.01) G06F 40/183(2020.01) G06F 40/151(2020.01) G06F 40/126(2020.01) G06N 3/04(2006.01) (54)发明名称 一种基于混合注意力的层级多标签文本分 类方法 (57)摘要 本发明提供了一种基于混合注意力的层级 多标签文本分类方法, 该方法使用预训练的词向 量作为词嵌入, 使用Bi ‑GRU对输入的词嵌入作初 步的特征提取; 使用图卷积神经网络建模层级 标 签结构体系, 并生成蕴含标签关联性的标签表 示; 使用多个卷积核大小不同的卷积神经网络进 一步对Bi ‑GRU的输出做不同粒度的局部特征提 取, 分别作最大池化后拼接成一个文本特征, 并 利用基于标签表示的注意力对此文本特征进一 步特征提取; 同时, 使用自注意力机制对Bi ‑GRU 的输出进行全局特征提取, 对基于标签表示的文 本特征及基于自注意力机制表示的文本特征进 行自适应融合, 得到基于混合注意力的文本表 示, 最后再通过关系网络提取标签之间的信息, 并通过多层感知机得到最后的分类结果。 权利要求书3页 说明书8页 附图3页 CN 114896388 A 2022.08.12 CN 114896388 A 1.一种基于混合注意力的层级多标签文本分类方法, 其特征在于, 该方法包括以下步 骤: 步骤S1, 对数据集D中的多标签文本数据进行 预处理; 步骤S2, 针对文本标签, 获取层级分类体系的先验层级信息, 所述先验层级信息指的是 标签之间互相依赖的先验概 率, 可以通过计算父 标签与子标签之间的转移概 率得到; 步骤S3, 构建深度学习层级 多标签文本分类模型; 所述深度学习多标签文本分类模型包括词嵌入模块, 文本编码模块, 标签编码模块, 基 于标签注意力机制文本表示模块, 基于自注意力机制的文本表示模块, 特征融合模块, 向量 回归层, 关系网络模块和标签概 率预测层; 步骤S4, 输入数据集预处理后的文本数据到模型训练, 模型训练完成之后, 利用训练好 的模型对多标签文本进行分类。 2.根据权利要求1所述的基于标签注意的层级多标签文本分类方法, 其特征在于: 在步 骤S1中, 对数据集D中文本数据进行 预处理, 具体包括如下步骤: 步骤1.1, 进行分词、 去除停止词、 去除标点符号; 步骤1.2, 统计数据集D中的文本中的单词频率wor d_frequence, 删除出现次数小于X1 的单词, 将过 滤后的单词记录, 构建单词表。 数据集D经 过预处理后, 将数据集D按一定比例划分为训练集, 验证集, 测试集。 3.根据权利要求1所述的基于标签注意的层级多标签文本分类方法, 其特征在于: 步骤 S2的具体实现包括; 对于数据集D中的数据, 假设父节点vi和子节点vj之间存在层次路径ei, j, 那么由父子节 点路径构成的边的特 征f(ei, j)由先验概 率p(Uj|Ui)和p(Ui|Uj)表示: f(ei, j)表示的是两个节点的关系, 这种关系用两个节点的转移概率或者共现概率来描 述, 两个节点的转移概率分别包括 父节点到某一个子节点的转移概率p(Uj|Ui), 子节点到父 节点的转移概率p(Ui|Uj), 式中, Uj和Ui分别表示文本数据被标记为vj节点标签及被标记为 vi节点标签, p(Uj|Ui)是给定vi情况下被标记为vj节点标签的条件概率, P(Uj∩Ui)是{vj, vi} 同时被标记的概 率, Nj和Ni分别表示训练集中vj节点标签及vi节点标签的数量。 4.根据权利要求3所述的基于标签注意的层级多标签文本分类方法, 其特征在于: 步骤 S3中, 通过词嵌入 模块对输入文本及其标签进行词嵌入处 理, 词嵌入处 理方法具体为: 步骤2.1、 获得预处理后的文本序列, 通过查询词嵌入字典表将文本中的单词{x1, x2, ..., xn}转换为词向量表示{w1, w2, ..., wn}; 步骤2.2、 获得层级多标签文本分类的标签集{l1, l2, ..., ln}, 通过kaiming编码的方 式, 将标签集转换成一个维度为d的标签嵌入集{c1, c2, ..., cn}, n指的是预处理后的文本的 单词数量; 5.根据权利要求4所述的基于标签注意的层级多标签文本分类方法, 其特征在于: 步骤 S3中, 通过文本编码模块对词向量表示{w1, w2, ..., wn}进行编码处理, 编码处理方法具体权 利 要 求 书 1/3 页 2 CN 114896388 A 2为: 使用Bi‑GRU网络对文本的词向量表示{w1, w2, ..., wn}进行编码, 生成具有上下文语义 信息的隐含表示{h1, h2, ..., hn}, 然后将隐含表示{h1, h2, ..., hn}进一步送入三个卷积核大 小不同的卷积, 并得到三个不同感受野 下的语义向量, 最后将3个语义向量拼接成一个新的 语义表示向量S={s1, s2, ..., sn}。 步骤S3中, 通过标签编码模块对标签向量表示{c1, c2, ..., cn}进行编码处理, 标签编码 处理方法具体为: 使用单层GCN对标签向量表示{c1, c2, ..., cn}进行编码, 生成具有标签层次关联信息的 隐含表示M={m1, m2, ..., mn}, 其实现过程如下: 层次结构 GCN聚合了自上而下、 自下而上和自循环边缘 内的数据流, 在层次GCN 中, 每个 有向边代 表一个成对的标签相关特 征, 这些数据流使用沿边线性变换进行节点变换; 为了实现节点变换, 使用了加权邻接矩阵来表示这种线性变换, 而加权邻接矩阵的初 始值来自于步骤S2 中层级分类体系的先验层级信息, 形式上, 层次GCN根据节点k的相关邻 域对其隐藏状态进行编码, 其中邻域N(k)={nk, child(k), parent(k)}, nk指的是层级标签 树中的第k个标签节点, chil d(k)是指第k个节点的子标签节点, parent(k)指的是第k个节 点的父标签节点, 节点 k的隐藏状态计算方式如下: 上述公式中, vj, vk是可以训练的参数, 及 是可训练的偏置参数; 对于uk, j及gk, j而 言, 可以将uk, j理解成结点k, j之间的信息, gk, j理解成门控值, 控制uk, j最后对节点k的影响 大小; σ 是指深度学习中的激活函数可以取为si gmoid函数, bl∈RN×dim, 及bg∈ RN, dim为向量的维度大小, 属于预先定义的超参数; d(j, k)表示从节点j到节点k的层次方 向, 包括自顶向下、 自下而上和自循环边; 其中, ak, j∈R表示的是层次概率fd(k, j)(ekj), fd(k, j) (ekj)指的是从第k个节点到第j个标签节点间的转移概率, 它是通过f(ei, j)得到, 自循环边 采用ak, k=1, 自上而下的边使用 自下而上的边使用fp(ej, k)=1; 上述边 的特征 矩阵F={a0, 0, a0, 1, ..., ac‑1, c‑1}表示的是文本标签有向层次图的加权邻接矩阵, 最后, 节点 k的输出隐藏状态hk表示其对应于层次结构信息的标签表示。 6.根据权利要求5所述的基于标签注意的层级多标签文本分类方法, 其特征在于: 步骤 S3中的基于标签注意力机制文本表示模块的提取方法为: 对来自文本编码层的文本表示 以及来自标签编码层的标签表示 dc表示的是文本编码向量的维度大小, 是一个预 先确定的固定的值, 通过以下公式计算基于标签注意力的文本表示: 权 利 要 求 书 2/3 页 3 CN 114896388 A 3

.PDF文档 专利 一种基于混合注意力的层级多标签文本分类方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于混合注意力的层级多标签文本分类方法 第 1 页 专利 一种基于混合注意力的层级多标签文本分类方法 第 2 页 专利 一种基于混合注意力的层级多标签文本分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:41上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。