(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210422977.7
(22)申请日 2022.04.21
(66)本国优先权数据
202210403650.5 2022.04.18 CN
(71)申请人 东南大学
地址 211189 江苏省南京市玄武区四牌楼 2
号
(72)发明人 杨鹏 方海生 戈妍妍 陈维威
(74)专利代理 机构 南京众联专利代理有限公司
32206
专利代理师 叶涓涓
(51)Int.Cl.
G06F 40/284(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于词干信息融合的关键词生成方法
(57)摘要
本发明公开了一种基于词干信息融合的关
键词生成方法, 该方法首先提取词干信息, 将词
干信息融入Embedding层, 以增强同词干单词的
强关联性; 接着搜索文本中同词干变种组合构建
参考文本, 通过编码层模块提取参考文本中的词
语义信息; 再基于初始文本和参考文本加权扩充
生成概率分布, 采用双软开关复制机制修正复制
机制带来的生成偏差; 然后 在译码器层面构建词
干生成任务, 通过词与词干的多任务联合训练获
得最终关键词生成概率分布, 缓解训练偏差导致
网络性能无法充分发挥的问题, 最后基于
BeamSearch方法生成关键词。 相比其他方法, 本
发明方法以词形态学为基础, 生成能力强, 预测
准确率高, 在文本理解方面具有明显优势。
权利要求书3页 说明书8页 附图3页
CN 114781367 A
2022.07.22
CN 114781367 A
1.一种基于词干信息融合的关键词生成方法, 其特 征在于, 包括如下步骤:
步骤1, 提取词干信息, 将词干信息融入Embed ding层
首先输入文本 X, 通过词干提取算 法输出词干序列Xs, 统计词干序列 构建词干表, 然后 在
Embedding层中对输入文本和词干序列进行高维向量表 示和累加, 采用集合Layer Norm的方
式进行数据融合;
步骤2, 搜索文本 中同词干变种组合构建参考文本, 通过编码层模块提取参考文本 中的
词语义信息
通过统计输入文本X中每个单词的同词干不同单词得到集合, 并对集合无序排列得到
参考文本A, 采用与步骤1中相同方式获得参考文本表示向量eA, 将参考文本表示向量作为
模型输入, 通过注意力机制学习不同单词之间的长远依赖, 多层注意力机制联合累加获得
不同层次不同方向的语义信息, 采用残差网络和Layer Norm, 获得编码 器模块输出的语义向
量hA;
步骤3, 基于初始文本和参考文本加权扩充生成概率分布, 采用双软开关复制机制修正
复制机制
将单向门控循环单元GRU作为译码单元, 迭代计算译码器状态向量st, 然后计算当前生
成概率sj对参考文本A相关性, 生成上下文语义向量
之后基于初始文本上下文语义向量
和译码器状态向量st获得关键词初步生成概率pt, 联合参考文 本A上下文语 义向量和初始 文
本上下语义向量 生成权值, 叠加at tention分布, 修 正复制机制, 生成最终生成概 率
步骤4, 在译码器层面构建词干生成任务, 通过词与词干的多任务联合训练优化最终关
键词生成概 率分布
词干生成任务采用与关键词生成任务相同的步骤2、 步骤3中编码器、 译码器输出状态,
拼接主编码器语义向量和译码器输出状态构建词干生成概率分布, 采用交叉熵损失函数,
通过联合关键词生成任务和词干生产任务同步训练的方式进 行模型训练, 获得最 终关键词
生成概率分布;
步骤5: 基于最终生成概 率
基于BeamSearc h搜索方法生成最终的关键词序列。
2.如权利要求1所述的基于词干信息融合的关键词生成方法, 其特征在于, 所述步骤1
具体包括如下 过程:
定义给定一段文本X=[x1,x2,…,xM], 生成一系列的Present关键词
和
Absent关键词
其中M、 Np、 Na分别为文本长度、 Present关键词个数和Absent
关键词个数; 关键词
其中ly作为单个关键词的长度, 每个关键词的长度
不定; 公式为p=fθ(γ|X), 其中θ 是模型f的参数, p指的是 预测关键词生成的概 率分布;
使用输入文本X=[x1,x2,…,xM]作为词干提取算法的输入, 词干提取算法则输出词干
序列
然后统计词干序列Xs中构建词干表Φs, 其中Φs的长度是一个超参
数;
输入文本X的高维向量表示
和词干序列的高维向量表示
公式如下:权 利 要 求 书 1/3 页
2
CN 114781367 A
2el=(eo+es)
其中e=[e1,e2,…,eM]作为融合后的文本表示矩阵, α, β分别表示模型需要学习的参
数。
3.如权利要求1所述的基于词干信息融合的关键词生成方法, 其特征在于, 所述步骤2
具体包括如下 过程:
构建参考文本A, 通过统计输入X中每个单词xi的同词干不同单词得到集合, 并对集合无
序排列得到参考文本A=[a1,a2,…,aP], 其中P作为参考文本的长度; 参考文本A采用与步骤
1中相同方式可以得到文本表示矩阵
将参考文本表示向量
作为模型输入, 通过注意力机制学习不同单词
之间的长远依赖, 多层注意力机制联合累加获得不同层次不同方向的语义信息;
在经过多头注意力机制学习到关联语义后, 选择保留Transformer模型的残差网络部
分和LayerN orm部分, 公式如下:
hA=LayerNorm(eA+MultiHead(eA))
hA=LayerNorm(hA)
其中
代表副编码器模块 最终输出的语义向量。
4.如权利要求1所述的基于词干信息融合的关键词生成方法, 其特征在于, 所述步骤3
包括如下4个子步骤:
子步骤3‑1, 定义生成关键词的过程如下:
pj=Pr(yi|y<j, θ,h,hA)
其中y<j=<y1,y2,…,yj‑1>, 上述公式表示在输入语义 向量h、 hA和模型参数θ条件下, 模
型给出生成当前指定关键词的概 率分布;
子步骤3‑2, 将单向门控循环单元GRU作为译码单元, 输入一个初始文本语义向量hM作为
初步内部记 忆向量进行迭代, 公式如下:
st=fGRU(hM; st‑1)
其中t=1,2, …,Tx, t的长度由具体的生成公式所决定, Tx是实际迭代的译码器时间停
止步;
子步骤3‑3, 采取Bahdanau相关性计算方法计算相关性系数 etj, 公式如下:
其中t=1,2, …,Tx, 其中Wα,bα是计算分数 过程中的可 学习参数矩阵和参数向量;
Attention分数的结果是译码器隐藏向量和编码器序列向量的相关性度量, 为了实现
度量对于概 率分布的体现, 对A ttention分数和序列向量进行点乘计算, 公式如下:权 利 要 求 书 2/3 页
3
CN 114781367 A
3
专利 一种基于词干信息融合的关键词生成方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:45:54上传分享