(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210459421.5 (22)申请日 2022.04.27 (71)申请人 北京智谱华 章科技有限公司 地址 100084 北京市海淀区中关村东路1号 院6号楼6层6 03A (72)发明人 王路路 张鹏 杜冀中 闫磊  陆弘锴 刘佳 李光军 崔菲  彭钰婷  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 单冠飞 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/211(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 中文句子简化模 型的训练方法、 中文句子精 简方法及装置 (57)摘要 本申请提出一种中文句子简化模型的训练 方法、 中文句子精简方法及装置, 中文句子简化 模型的训练方法包括: 获取包含监督信号的复杂 句‑简单句句对的数据集和中文单语种预训练模 型; 在每个训练批次中选择当前复杂句 ‑简单句 句对中的简单句为正样例, 在同一训练批次的其 他句对中随机选择预设数量个简单句为负样例; 将复杂句、 正样例和负样例投影到向量表示空间 中, 分别获取在编码器最后一层的隐藏层向量; 计算对比学习损失, 并通过解码器计算生成期望 的简单句的交叉熵损失; 通过最小化中文单语种 预训练模型输出的简单句的对比学习损失和交 叉熵损失来联合训练中文单语种预训练模型。 该 方法得到的简化模型可以提高生成的简化句子 的可控性和忠实度。 权利要求书3页 说明书11页 附图2页 CN 114757204 A 2022.07.15 CN 114757204 A 1.一种中文句子简化模型的训练方法, 其特 征在于, 包括以下步骤: 获取预设的包含监督信号的复杂句 ‑简单句句对的数据集作为训练数据, 并获取基于 编码器‑解码器结构的中文单语种预训练模型; 基于对比学习的方式, 在每个训练批次中选择当前复杂句 ‑简单句句对中的简单句为 正样例, 在同一训练批次的其 他句对中随机 选择预设数量个简单句为负 样例; 将所述当前复杂句 ‑简单句句对中的复杂句、 所述正样例和所述负样例投影到向量表 示空间中, 分别获取所述复杂句、 所述正样例和所述负样例在编码器最后一层的隐藏层向 量; 基于所述 隐藏层向量, 计算对比学习损 失, 并通过解码器计算生成期望的简单句的交 叉熵损失; 通过最小化所述中文单语种预训练模型输出的简单句的所述对比学习损失和所述交 叉熵损失来联合训练所述中文 单语种预训练模型, 以对所述预训练模型进 行微调获得中文 句子简化模型。 2.根据权利要求1所述的训练方法, 其特征在于, 通过以下公式计算所述生成期望的简 单句的交叉熵损失: 其中, 其中, 表示交叉熵损失, pθ(y(i)|x(i))表示输出序列的条件概率, x(i)=x1(i),…,xM (i), x(i)表示输入的长度为M的第i个复杂句, y(i)=y1(i),…,yN(i), y(i)表示生成的长度为N的 第i个简单句。 3.根据权利要求2所述的训练方法, 其特征在于, 通过以下公式计算所述对比学习损 失: 其中, 表示对比学习损失, zx(i)表示第i个复杂句的向量表示, zy(i)表示第i个简单句 的向量表示, τ表示温度系数, S={zy(j): j≠i}是一组随机采样的负样例简单句, sim (·,·)是余弦相似度函数。 4.根据权利要求1所述的训练方法, 其特征在于, 所述获取基于编码器 ‑解码器结构的 中文单语种预训练模型, 包括: 选取中文语句中常用的标点符号、 数字、 英文字母和高频的中文词, 作为 新的词汇 表; 将预设的基于编码器 ‑解码器结构的多语种预训练模型的原始词汇表替换为所述新的 词汇表, 并更新所述多语种 预训练模型 的输入向量和输出向量的表示参数, 以更新所述多 语种预训练模型; 保存所述新的词汇表和更新后的预训练模型, 以将所述多语种预训练模型剪枝为所述 中文单语种预训练模型。 5.一种中文句子精简方法, 其特 征在于, 包括以下步骤:权 利 要 求 书 1/3 页 2 CN 114757204 A 2获取待精简的中文句子, 并将所述待精简的中文句子输入至采用如权利要求1 ‑4任一 项所述的中文句子简化模型的训练方法得到的中文句子简化模型进行句子精简; 获取所述中文句子简化模型输出的预测的精简句子 。 6.一种中文句子简化模型的训练装置, 其特 征在于, 包括: 第一获取模块, 用于获取预设的包含监督信号的复杂句 ‑简单句句对的数据集作为训 练数据, 并获取基于编码器 ‑解码器结构的中文单语种预训练模型; 选择模块, 用于基于对比学习的方式, 在每个训练批次中选择当前复杂句 ‑简单句句对 中的简单句为正样例, 在 同一训练批次的其他句对中随机选择预设数量个简单句为负样 例; 第二获取模块, 用于将所述当前复杂句 ‑简单句句对中的复杂句、 所述正样例和所述负 样例投影到 向量表示空间中, 分别获取所述复杂句、 所述正样例和所述负样例在编码器最 后一层的隐藏层向量; 损失计算模块, 用于基于所述隐藏层向量, 计算对比学习损失, 并通过解码器计算生成 期望的简单句的交叉熵损失; 最小化计算模块, 用于通过最小化所述中文单语种预训练模型输出的简单句的所述对 比学习损失和所述交叉熵损失来联合训练所述中文单语种预训练模型, 以对所述预训练模 型进行微调获得中文句子简化模型。 7.根据权利要求6所述的装置, 其特征在于, 所述损 失计算模块, 具体用于通过以下公 式计算所述 生成期望的简单句的交叉熵损失: 其中, 其中, 表示交叉熵损 失, pθ(y(i)|x(i))表示输出序列的条件概率, x(i)=x1(i),…,xM (i), x(i)表示输入的长度为M的第i个复杂句, y(i)=y1(i),…,yN(i), y(i)表示生成的长度为N的 第i个简单句。 8.根据权利要求7所述的装置, 其特征在于, 所述损失计算模块还用于通过以下公式计 算所述对比学习损失: 其中, 表示对比学习损失, zx(i)表示第i个复杂句的向量表示, zy(i)表示第i个简单句 的向量表示, τ表示温度系数, S={zy(j): j≠i}是一组随机采样的负样例简单句, sim (·,·)是余弦相似度函数。 9.一种中文句子精简装置, 其特 征在于, 包括以下步骤: 精简执行模块, 用于获取待精简的中文句子, 并将所述待精简的中文句子输入至采用 如权利要求 1‑4任一项所述的中文句子简化模型的训练方法得到的中文句子简化模型进 行 句子精简; 精简句子获取模块, 用于获取 所述中文句子简化模型输出的预测的精简句子 。权 利 要 求 书 2/3 页 3 CN 114757204 A 3

.PDF文档 专利 中文句子简化模型的训练方法、中文句子精简方法及装置

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 中文句子简化模型的训练方法、中文句子精简方法及装置 第 1 页 专利 中文句子简化模型的训练方法、中文句子精简方法及装置 第 2 页 专利 中文句子简化模型的训练方法、中文句子精简方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:47:55上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。