(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210305365.X (22)申请日 2022.03.25 (71)申请人 达而观数据 (成 都) 有限公司 地址 610000 四川省成 都市中国 (四川) 自 由贸易试验区成都市天府新区湖畔路 北段366号1栋3楼1号 (72)发明人 侯聪 吴万杰 文敏 白良俊  纪传俊 陈运文 纪达麒  (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 郭德霞 (51)Int.Cl. G06F 16/34(2019.01) G06F 16/33(2019.01) G06F 40/30(2020.01) (54)发明名称 文本的自动摘要方法、 装置及存 储介质 (57)摘要 本发明公开了一种文本的自动摘要 方法、 装 置及存储介质。 由于互联网的发展, 有海量的用 户产生数据, 其中有大量冗余文本, 较难使用, 需 摘要出关键部分以便后续处理, 本申请通过将待 摘要文本分为句子与段落, 并分别计算句子与段 落之间的匹配度及句子与全文的匹配度分别判 断句子在段落中及全文中的重要性, 而后将匹配 度加权求和得到句子的综合重要性, 最后选择综 合重要性相对较高的句子作为摘要, 解决了现有 技术中只考虑上下文的联系导致摘要的句子与 全文无关的问题, 达到了提高摘要准确程度的效 果。 权利要求书2页 说明书8页 附图2页 CN 114625867 A 2022.06.14 CN 114625867 A 1.一种文本的自动摘要方法, 其特 征在于, 包括: 将待摘要文本按照预设长度进行段落划分, 使用语义编码器计算划分后的每个段落, 得到每个段落对应的语义向量, 并将所有段落语义向量相加后归一 化得到全文编码; 根据标点符号对所有段落中的句子进行划分, 并使用语义编码器计算每个句子, 得到 每个句子的语义编码; 计算所述语义编码与 所述语义向量及所述全文编码的匹配度, 加权后相加得到综合匹 配度, 选择每段综合匹配度最高的预设数量的句子按照原文顺序拼接得到全文摘要。 2.根据权利要求1所述的文本的自动摘要方法, 其特征在于, 所述语义编码器的训练过 程包括: 将样本集分为正例及负例, 采用对比学习的方式对正例及负例中的无标注语料进行训 练得到训练结果; 使用样本集以外的数据对所述训练结果进行测试, 当测试结果满足预设标准时, 将所 述训练结果作为语义编码器。 3.根据权利要求1所述的文本的自动摘要方法, 其特征在于, 所述计算所述语义编码与 所述语义向量及所述全文编码的匹配度, 加权后相加得到综合匹配度, 选择每段综合匹配 度最高的预设数量的句子按照原文顺序拼接得到全文摘要的步骤具体包括: 计算每个句子的语义编码与 所在段落的语义向量的段落匹配度, 并计算每个句子的语 义编码与全文编码的全文匹配度; 将所述段落匹配度与所述全文匹配度加权后相加, 得到综合匹配度; 选择每个段落匹配度最高的预设数量的句子按照原文顺序拼接得到对应段落的摘要; 将所有段落的摘要 按原文顺序进行拼接得到待摘要 文本的摘要。 4.根据权利要求3所述的文本的自动摘要方法, 其特征在于, 将所述段落匹配度与 所述 全文匹配度加权后相加, 得到综合匹配度的步骤具体包括: Distij=a1·cos(Vsij, Vpi)+a2·cos(Vsij, VD) 其中, 所述Distij为综合距离, 所述a1为所述段落匹配度的权重, 所述cos(Vsij, Vpi)为所 述段落匹配度, 所述a2为所述全文匹配度的权 重, 所述cos(Vsij, VD)为所述全文匹配度。 5.根据权利要求4所述的文本的自动摘要方法, 其特征在于, 所述段落匹配度为所述语 义编码与所在段落的语义向量的距离; 所述全文匹配度为所述语义编 码与所述全文编 码的 距离; 具体包括, 所述Vsij为句子Sij的语义编码, 所述Vpi为段落pi的语义向量, 所述VD为待摘要文本D的 全文编码。 6.根据权利要求1所述的文本的自动摘要方法, 其特 征在于, 还 包括: 计算所述全文摘要的字数, 当所述全文摘要的字数超过预设限制时, 计算所述全文摘 要的全文编码, 并提取 所述全文摘要中句子的语义编码; 计算所述群问摘要的全文编码与 所述全文摘要中句子的语义编码的匹配度, 并根据 所 述匹配度对所述全文摘要中的所有句子进行排序, 删除排序后超过 所述预设限制的句子; 将剩余句子按照原文顺序拼接, 得到满足所述预设限制的全文摘要。 7.根据权利要求1所述的文本的自动摘要方法, 其特 征在于, 还 包括: 计算所述全文摘要的字数, 当所述全文摘要的字数超过预设限制时, 根据所述全文摘权 利 要 求 书 1/2 页 2 CN 114625867 A 2要中保留的句子的语义编码及句子在所述全文摘要中的顺序进行 段落合并; 计算所述合并后的全文摘要的全文编码得到合并编码, 计算所述合并后的全文摘要的 语义向量得到合并向量, 提取 所述全文摘要中保留的句子的语义编码; 计算所述全文摘要中保留的句子的语义编码与所述合并编码及所述合并向量的匹配 度, 加权后相加得到合并后的全文摘要的综合匹配度作为合并匹配度, 选择每段全文摘要 的合并匹配度最高的预设数量的句子按照原文顺序拼接得到满足预设限制的全文摘要。 8.一种文本的自动摘要装置, 其特征在于, 所述文本的自动摘要装置包括: 存储器、 处 理器及存储在所述存储器上并可在所述处理器上运行文本的自动摘要程序, 所述文本的自 动摘要程序被所述处理器执行时实现如权利要求1至7中任一项所述的文本的自动摘要方 法。 9.一种可读存储介质, 其特征在于, 所述可读存储介质上存储有文本的自动摘要程序, 所述文本的自动摘要程序被处理器执行时实现根据权利要求1至7中任一项所述的文本的 自动摘要方法的步骤。权 利 要 求 书 2/2 页 3 CN 114625867 A 3

.PDF文档 专利 文本的自动摘要方法、装置及存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本的自动摘要方法、装置及存储介质 第 1 页 专利 文本的自动摘要方法、装置及存储介质 第 2 页 专利 文本的自动摘要方法、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:51:11上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。