(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210422977.7 (22)申请日 2022.04.21 (66)本国优先权数据 202210403650.5 2022.04.18 CN (71)申请人 东南大学 地址 211189 江苏省南京市玄武区四牌楼 2 号 (72)发明人 杨鹏 方海生 戈妍妍 陈维威  (74)专利代理 机构 南京众联专利代理有限公司 32206 专利代理师 叶涓涓 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于词干信息融合的关键词生成方法 (57)摘要 本发明公开了一种基于词干信息融合的关 键词生成方法, 该方法首先提取词干信息, 将词 干信息融入Embedding层, 以增强同词干单词的 强关联性; 接着搜索文本中同词干变种组合构建 参考文本, 通过编码层模块提取参考文本中的词 语义信息; 再基于初始文本和参考文本加权扩充 生成概率分布, 采用双软开关复制机制修正复制 机制带来的生成偏差; 然后 在译码器层面构建词 干生成任务, 通过词与词干的多任务联合训练获 得最终关键词生成概率分布, 缓解训练偏差导致 网络性能无法充分发挥的问题, 最后基于 BeamSearch方法生成关键词。 相比其他方法, 本 发明方法以词形态学为基础, 生成能力强, 预测 准确率高, 在文本理解方面具有明显优势。 权利要求书3页 说明书8页 附图3页 CN 114781367 A 2022.07.22 CN 114781367 A 1.一种基于词干信息融合的关键词生成方法, 其特 征在于, 包括如下步骤: 步骤1, 提取词干信息, 将词干信息融入Embed ding层 首先输入文本 X, 通过词干提取算 法输出词干序列Xs, 统计词干序列 构建词干表, 然后 在 Embedding层中对输入文本和词干序列进行高维向量表 示和累加, 采用集合Layer Norm的方 式进行数据融合; 步骤2, 搜索文本 中同词干变种组合构建参考文本, 通过编码层模块提取参考文本 中的 词语义信息 通过统计输入文本X中每个单词的同词干不同单词得到集合, 并对集合无序排列得到 参考文本A, 采用与步骤1中相同方式获得参考文本表示向量eA, 将参考文本表示向量作为 模型输入, 通过注意力机制学习不同单词之间的长远依赖, 多层注意力机制联合累加获得 不同层次不同方向的语义信息, 采用残差网络和Layer Norm, 获得编码 器模块输出的语义向 量hA; 步骤3, 基于初始文本和参考文本加权扩充生成概率分布, 采用双软开关复制机制修正 复制机制 将单向门控循环单元GRU作为译码单元, 迭代计算译码器状态向量st, 然后计算当前生 成概率sj对参考文本A相关性, 生成上下文语义向量 之后基于初始文本上下文语义向量 和译码器状态向量st获得关键词初步生成概率pt, 联合参考文 本A上下文语 义向量和初始 文 本上下语义向量 生成权值, 叠加at tention分布, 修 正复制机制, 生成最终生成概 率 步骤4, 在译码器层面构建词干生成任务, 通过词与词干的多任务联合训练优化最终关 键词生成概 率分布 词干生成任务采用与关键词生成任务相同的步骤2、 步骤3中编码器、 译码器输出状态, 拼接主编码器语义向量和译码器输出状态构建词干生成概率分布, 采用交叉熵损失函数, 通过联合关键词生成任务和词干生产任务同步训练的方式进 行模型训练, 获得最 终关键词 生成概率分布; 步骤5: 基于最终生成概 率 基于BeamSearc h搜索方法生成最终的关键词序列。 2.如权利要求1所述的基于词干信息融合的关键词生成方法, 其特征在于, 所述步骤1 具体包括如下 过程: 定义给定一段文本X=[x1,x2,…,xM], 生成一系列的Present关键词 和 Absent关键词 其中M、 Np、 Na分别为文本长度、 Present关键词个数和Absent 关键词个数; 关键词 其中ly作为单个关键词的长度, 每个关键词的长度 不定; 公式为p=fθ(γ|X), 其中θ 是模型f的参数, p指的是 预测关键词生成的概 率分布; 使用输入文本X=[x1,x2,…,xM]作为词干提取算法的输入, 词干提取算法则输出词干 序列 然后统计词干序列Xs中构建词干表Φs, 其中Φs的长度是一个超参 数; 输入文本X的高维向量表示 和词干序列的高维向量表示 公式如下:权 利 要 求 书 1/3 页 2 CN 114781367 A 2el=(eo+es) 其中e=[e1,e2,…,eM]作为融合后的文本表示矩阵, α, β分别表示模型需要学习的参 数。 3.如权利要求1所述的基于词干信息融合的关键词生成方法, 其特征在于, 所述步骤2 具体包括如下 过程: 构建参考文本A, 通过统计输入X中每个单词xi的同词干不同单词得到集合, 并对集合无 序排列得到参考文本A=[a1,a2,…,aP], 其中P作为参考文本的长度; 参考文本A采用与步骤 1中相同方式可以得到文本表示矩阵 将参考文本表示向量 作为模型输入, 通过注意力机制学习不同单词 之间的长远依赖, 多层注意力机制联合累加获得不同层次不同方向的语义信息; 在经过多头注意力机制学习到关联语义后, 选择保留Transformer模型的残差网络部 分和LayerN orm部分, 公式如下: hA=LayerNorm(eA+MultiHead(eA)) hA=LayerNorm(hA) 其中 代表副编码器模块 最终输出的语义向量。 4.如权利要求1所述的基于词干信息融合的关键词生成方法, 其特征在于, 所述步骤3 包括如下4个子步骤: 子步骤3‑1, 定义生成关键词的过程如下: pj=Pr(yi|y<j, θ,h,hA) 其中y<j=<y1,y2,…,yj‑1>, 上述公式表示在输入语义 向量h、 hA和模型参数θ条件下, 模 型给出生成当前指定关键词的概 率分布; 子步骤3‑2, 将单向门控循环单元GRU作为译码单元, 输入一个初始文本语义向量hM作为 初步内部记 忆向量进行迭代, 公式如下: st=fGRU(hM; st‑1) 其中t=1,2, …,Tx, t的长度由具体的生成公式所决定, Tx是实际迭代的译码器时间停 止步; 子步骤3‑3, 采取Bahdanau相关性计算方法计算相关性系数 etj, 公式如下: 其中t=1,2, …,Tx, 其中Wα,bα是计算分数 过程中的可 学习参数矩阵和参数向量; Attention分数的结果是译码器隐藏向量和编码器序列向量的相关性度量, 为了实现 度量对于概 率分布的体现, 对A ttention分数和序列向量进行点乘计算, 公式如下:权 利 要 求 书 2/3 页 3 CN 114781367 A 3

.PDF文档 专利 一种基于词干信息融合的关键词生成方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于词干信息融合的关键词生成方法 第 1 页 专利 一种基于词干信息融合的关键词生成方法 第 2 页 专利 一种基于词干信息融合的关键词生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:54上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。