(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210252383.6
(22)申请日 2022.03.15
(71)申请人 中南大学
地址 410083 湖南省长 沙市岳麓区麓山 南
路932号
(72)发明人 龙军 李浩然 刘磊 向一平
(74)专利代理 机构 长沙市融智专利事务所(普
通合伙) 43114
专利代理师 胡喜舟
(51)Int.Cl.
G06F 40/211(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于成分句法 分析的中文摘要生成方法
(57)摘要
本发明公开了一种基于成分句法分析的中
文摘要生成方法, 方法包括: 对文档进行预处理,
得到文本句子集; 基于文本句子集, 使用语义提
取模型得到文本语义信息编码; 基于文本句子
集, 生成每个句子的成分句法分析结构树, 并将
每个句子的成分句法分析结构树基于跨度的方
法转换为 成分句法结构序列化编码; 将文本语义
信息编码及成分句法结构序列化编码共同输入
编码器中进行整合编码; 通过解码器对编码器传
来的整合编码进行解码, 生成文本摘要。 能够把
文本原有的语 法结构提出来, 用于监督文本摘要
生成过程, 解决了文本摘要准确性问题以及可读
性问题。
权利要求书2页 说明书6页 附图1页
CN 114580376 A
2022.06.03
CN 114580376 A
1.一种基于成分句法分析的中文摘要生成方法, 其特 征在于, 包括:
对文档进行 预处理, 得到文本句子集;
基于文本句子集, 使用语义 提取模型 得到文本语义信息编码;
基于文本句子集, 生成每个句子的成分句法分析结构树, 并将每个句子的成分句法分
析结构树基于跨度的方法转换为成分句法结构序列化编码;
将文本语义信息编码及成分句法结构序列化编码共同输入编码器中进行整合编码;
通过解码器对编码器传来的整合编码进行解码, 生成文本摘要。
2.根据权利要求1所述的基于成分句法分析的中文摘要生成方法, 其特征在于, 所述语
义提取模型采用PEGASUS模型。
3.根据权利要求1所述的基于成分句法分析的中文摘要生成方法, 其特征在于, 采用
Stanford CoreNLP生成每 个句子的成分句法分析 结构树。
4.根据权利要求1或3所述的基于成分句法分析的中文摘要生成方法, 其特征在于, 所
述将每个句子的成分句法分析结构树基于跨度的方法转换为成分句法结构序列化编 码, 包
括:
对于每个句子的成分句法分析结构树, 递归地结合最右边的两个子节点, 将其转换为
一个右二叉树;
将得到的右二叉树表示 为一个跨度表;
根据跨度表 的右边界将其划分为n个部分, n为句子长度; 二叉树中包含根节点在内的
所有左孩子分布于n个部分, 所有左孩子的右边界一一对应了[1,n]中的值, 把所有左孩子
的右边界作为序列化后的下标, 而相应的左边界就作为序列化后的值, 得到跨度表线性化
后的成分句法结构序列化编码。
5.根据权利要求1所述的基于成分句法分析的中文摘要生成方法, 其特征在于, 所述编
码器采用基于注意力机制的语义结构编 码器, 其首先将文本语义信息编码及成分句法结构
序列化编码进行融合, 如下式所示:
式中,
表示编码器最终的隐藏状态, d表示成分句法结构序列化编码, h表示文本语义
信息编码,
为GLU激活函数, b表示偏移量, W表示可 学习参数;
编码器的注意力介质会根据当前时刻t的解码器输入来重新分配其他词语的注意力大
小, 并生成随当前词不断变化的上 下文语义向量Ct, 注意力机制公式如下:
式中, at,i表示注意力权重, 通 过et,i分数来计算;
表示编码器的第i个隐藏状态, St‑1表
示解码器上一时刻t ‑1的隐藏状态, n表示句子 长度,
Wh、 Vh均表示权 重矩阵。
6.根据权利要求5所述的基于成分句法分析的中文摘要生成方法, 其特征在于, 解码器权 利 要 求 书 1/2 页
2
CN 114580376 A
2采用单向GRU网络, 其输入由上一时刻t ‑1解码器的输出yt‑1、 上一时刻t ‑1解码器的隐藏状
态St‑1、 当前时刻t的上下文语义向量Ct共同构成; 将编 码器的最终隐藏状态
作为解码器的
第一个输入, 单向GRU网络结构公式为:
zt=σ(WzSt‑1+WzCt+Wzyt‑1)
rt=σ(Wr+St‑1+WrCt+Wryt‑1)
式中, zt和rt分别表示更新门和重置门;
是对Ct,yt‑1和上一时刻的St‑1的总结, 计算总
结出的新的向量
包含上文信息和yt‑1; σ、 tanh表示激活函数; ⊙表示矩阵的乘积; Wz为更
新门的权重参数, Wr为重置门的权重参数,
为
的权重参数; St表示当前时刻t解码器的
隐藏状态;
通过softmax层得到词语在词表的位置, 如式所示:
P(yt|y1,y2,…,yn,Ct)=softmax(St)
解码器的隐藏状态St如下式所示, GRU代 表门控循环单 元解码器;
St=GRU(St‑1,Ct,yt‑1)
最后采用搜索算法生成最优解。
7.根据权利要求6所述的基于成分句法分析的中文摘要生成方法, 其特征在于, 所述搜
索算法采用集束搜索算法。权 利 要 求 书 2/2 页
3
CN 114580376 A
3
专利 基于成分句法分析的中文摘要生成方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:25上传分享