(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210399705.X
(22)申请日 2022.04.15
(71)申请人 网易(杭州)网络有限公司
地址 310052 浙江省杭州市滨江区网商路
599号网易大厦
(72)发明人 李锋 邹武合 张伟东
(74)专利代理 机构 北京超凡宏宇专利代理事务
所(特殊普通 合伙) 11463
专利代理师 彭星
(51)Int.Cl.
G06F 40/126(2020.01)
G06F 40/30(2020.01)
(54)发明名称
赛事摘要文本的生成方法、 装置、 电子设备
及存储介质
(57)摘要
本申请提供了赛事摘要文本的生 成方法、 装
置、 电子设备及存储介质, 获取到包含多个赛事
描述信息以及每个赛事描述信息所属的赛事描
述类型的赛事 结构化信息序列; 将赛事结构化信
息序列输入至预先训练好的文本生成模型中, 以
使文本生成模型输出与每个赛事描述信息对应
的预测文本序列, 并根据赛事描述类型, 确定多
个预测文本序列的文本顺序; 根据每个预测文本
序列的文本顺序, 拼接多个预测文本序列, 得到
赛事摘要文本。 在本申请中, 直接将获取到的赛
事结构化信息序列输入至文本生成模 型中, 通过
文本生成模型对结构化数据的处理, 得到预测文
本序列, 进而得到赛事文本摘要, 减少了数据生
成自然语言的步骤以及数据处理量, 有助于提升
文本生成效率。
权利要求书3页 说明书21页 附图5页
CN 114676669 A
2022.06.28
CN 114676669 A
1.一种赛事摘要 文本的生成方法, 其特 征在于, 所述 生成方法包括:
获取赛事结构化信 息序列; 所述赛事结构化信 息序列中包括多个赛事描述信 息以及每
个赛事描述信息所属的赛事描述类型; 所述赛事描述类型包括赛事结果类型、 赛事参与者
类型以及赛事时间类型中的至少一种;
将所述赛事结构化信 息序列输入至预先训练好的文本生成模型中, 以使所述文本生成
模型根据每个赛事描述类型以及每个赛事描述信息, 输出与每个赛事描述信息对应的预测
文本序列, 并根据所述 赛事描述类型, 确定多个预测文本序列的文本顺序;
根据得到的每个预测文本序列的文本顺序, 拼接多个预测文本序列, 得到赛事摘要文
本, 以根据所述 赛事摘要 文本获取赛事的关键信息 。
2.根据权利要求1所述的生成方法, 其特征在于, 所述文本生成模型包括序列嵌入层、
序列编码层以及预测文本序列输出层; 所述将所述赛事结构化信息序列输入至预先训练好
的文本生成模型中, 以使所述文本生成模型根据每个赛事描述类型以及每个赛事描述信
息, 输出与每 个赛事描述信息对应的预测文本序列, 包括:
将所述赛事结构化信 息序列输入至所述序列嵌入层, 以使所述序列嵌入层 分别对各个
赛事描述类型、 各个赛事描述信息以及各个赛事关键词在所述赛事结构化信息序列中的位
置进行编码, 输出每 个赛事描述信息对应的编码序列;
针对于每一个编码序列, 将该编码序列输入至所述序列编码层, 以使所述序列编码层
对所述编 码序列进行 处理, 并根据该编 码序列中的赛事描述类型预测出该编码序列中包括
的赛事描述信息的上下文信息, 并根据上下文信息以及赛事描述信息, 输出与该编码序列
对应的至少一个候选文本序列;
针对于每一个编码序列, 将该编码序列对应的至少一个候选文本序列输入至所述预测
文本序列输出层, 以使所述预测文本序列输出层从所述至少一个候选文本序列中筛选出该
编码序列对应的预测文本序列。
3.根据权利要求2所述的生成方法, 其特征在于, 通过以下步骤从所述至少一个候选文
本序列中筛 选出该编码序列对应的预测文本序列:
将至少一个候选文本序列中预测得分最高的候选文本序列, 确定为预测文本序列; 或
者;
根据预测文本需求, 将至少一个候选文本序列中满足预测需求的候选文本序列, 确定
为预测文本序列。
4.根据权利要求3所述的生成方法, 其特征在于, 所述预测文本需求包括以下至少一
种:
预测文本 长度、 预测文本句式、 赛事文本表述方式。
5.根据权利要求1所述的生成方法, 其特征在于, 通过以下步骤确定预测文本序列的文
本顺序:
针对于每一个预测文本序列, 根据 该预测文本序列对应的赛事描述类型与其他赛事描
述类型之间的文本关联顺序, 确定该 预测文本序列的文本顺序。
6.根据权利要求1所述的生成方法, 其特征在于, 通过以下步骤训练所述文本生成模
型:
获取多个样本赛事结构化序列以及与多个样本赛事结构化序列对应的样本摘要文本;权 利 要 求 书 1/3 页
2
CN 114676669 A
2每个样本赛事结构化序列中包括多个样本赛事描述信息以及每个样本赛事描述信息所属
的赛事描述类型;
针对每个样本赛事结构化序列, 确定出与该样本赛事结构化序列对应的参考样本序
列; 所述参考样本序列中包括多个参考标识信息, 所述参考标识的数量与该样本赛事结构
化序列中包括的样本赛事描述信息的数量相同;
将所述多个样本赛事结构化序列、 多个参考样本序列以及多个样本摘要文本输入至预
先构建好的语言模型中, 以使语言模型通过样本赛事结构化序列转换到样本摘要文本的任
务以及样本摘要文本转换到样本赛事结构化序列的任务, 学习各个样本赛事描述信息的上
下文信息, 当所述语言模型的损失小于预设阈值时, 确定所述语 言模型训练完成, 得到所述
文本生成模型。
7.根据权利要求6所述的生成方法, 其特征在于, 所述以使语言模型通过样本赛事结构
化序列转换到样本摘要文本的任务以及样本摘要文本转换到样本赛事结构化序列的任务,
学习各个样本赛事描述信息的上 下文信息, 包括:
将所述多个样本赛事结构化序列、 多个参考样本序列以及多个样本摘要文本输入至所
述语言模型的序列嵌入层中, 以使所述序列嵌入层输出每个样本赛事结构化序列对应的结
构化编码序列、 每个参考样本序列对应的参考编码序列以及每个样本摘要文本对应的文本
编码;
将确定出的多个结构化编码序列、 多个参考编码序列以及文本编码输入至所述语言模
型的序列编码层, 以使所述序列编码层根据预设的标识矩阵中对文本编码和/或结构化编
码序列中的至少一个目标编码进行遮挡后的序列, 对目标编码进行预测, 确定各个样本赛
事描述信息的上 下文信息 。
8.根据权利要求6所述的生成方法, 其特征在于, 所述赛事描述类型包括固定描述类型
以及可变描述类型, 所述 生成方法还 包括:
针对于每一个所述可变描述类型以及对应的样本赛事描述信 息, 将所述序列编码层输
出的预测序列, 输入至所述语言模型 的信息复制层, 以使所述信息复制层对该样本赛事描
述信息进行 预测学习, 调整可变描述类型对应的样本赛事描述信息的上 下文信息 。
9.根据权利要求6所述的生成方法, 其特征在于, 所述预设的标识矩阵用于表征结构化
编码序列、 参考编码序列以及文本编码之间的可见关系; 根据结构化编码序列、 参考编 码序
列以及文本编码之间的可 见关系, 拟合学习各个样本赛事描述信息的上 下文信息;
在对所述语言模型进行训练的过程中, 针对于每个结构化编码序列中的各个编码数
据, 每个数据均能够获取到其 他编码数据;
针对于每个参考编码序列中的各个参考编码数据, 每个参考编码数据能够获取对应的
文本编码;
针对于每个文本编码中的各个文本编码数据, 每个文本数据能够获取在序列中位置位
于该文本数据之前的文本编码数据;
其中, 不可 见的编码数据是待预测的数据。
10.根据权利要求7所述的生成方法, 其特征在于, 通过以下步骤确定所述语言模型的
损失:
针对于样本赛事结构化序列转换到样本摘要文本的任务, 通过各个样本赛事结构化序权 利 要 求 书 2/3 页
3
CN 114676669 A
3
专利 赛事摘要文本的生成方法、装置、电子设备及存储介质
文档预览
中文文档
30 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:52:40上传分享