(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210357147.0 (22)申请日 2022.04.06 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 施云生 黄正杰 冯仕堃 黄世维  何径舟  (74)专利代理 机构 中科专利商标代理有限责任 公司 11021 专利代理师 吴晓兵 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 样本生成方法、 模型的训练方法以及检索方 法 (57)摘要 本公开提供了一种样 本生成方法、 语 言处理 模型的训练方法、 检索方法、 装置、 电子设备、 存 储介质以及程序产品, 涉及人工智能技术领域, 尤其涉及深度学习技术领域。 具体实现方案为: 从语料集合中确定与待匹配语句相 匹配的第一 目标语句, 将待匹配语句和第一目标语句, 作为 负样本语句对; 从日志中获取搜索语句和与搜索 语句相匹配的第二目标语句, 将 搜索语句和第二 目标语句, 作为正样本语句对; 以及基于负样本 语句对和正样本语句对, 生成目标样本, 负样本 语句对之间的语义相关性大于第一预定阈值、 且 小于第二预定阈值, 正样本语句对的语义相关性 大于第二预定阈值。 权利要求书3页 说明书13页 附图6页 CN 114676227 A 2022.06.28 CN 114676227 A 1.一种样本生成方法, 包括: 从语料集合中确定与待 匹配语句相匹配的第 一目标语句, 将所述待匹配语句和所述第 一目标语句, 作为负 样本语句对; 从日志中获取搜索语句和与 所述搜索语句相匹配的第 二目标语句, 将所述搜索语句和 所述第二目标语句, 作为 正样本语句对; 以及 基于所述负 样本语句对和所述 正样本语句对, 生成目标样本, 其中, 所述负样本语句对之间的语义相关性大于第 一预定阈值、 且小于第 二预定阈值, 所述正样本语句对的语义相关性大于所述第二预定阈值。 2.根据权利要求1所述的方法, 其中, 所述从语料集合中确定与待 匹配语句相匹配的第 一目标语句包括: 将所述待匹配 语句输入至双塔模型中, 得到所述待匹配 语句的待匹配 语句向量; 以及 基于所述待匹配语句向量和语句向量集合, 从所述语料集合中确定与 所述待匹配语句 相匹配的所述第一 目标语句, 其中, 所述语句向量集合是通过将所述语料集合中的多个语 句输入至所述双塔模型中得到的, 所述语句向量集合中的多个语句向量与所述语料集合中 的多个语句一一对应。 3.根据权利要求1或2所述的方法, 其中, 所述从日志中获取搜索语句和与所述搜索语 句相匹配的第二目标语句包括: 从所述日志中获取与所述搜索语句 相匹配的多个初始目标语句; 根据点击率, 确定所述多个初始目标语句各自的关注度, 得到多个关注度; 以及 基于所述多个关注度, 从所述多个初始目标语句中确定所述第二目标语句。 4.根据权利要求2所述的方法, 其中, 所述双塔模型是利用多个样本集合分阶段训练初 始双塔模 型得到的, 其中, 所述多个样本集合中的每个样 本集合包括训练样 本对, 所述多个 样本集合各自的训练样本对的语义相关性彼此不同。 5.一种语言处 理模型的训练方法, 包括: 利用训练样本训练语言处 理模型, 得到经训练的语言处 理模型, 其中, 所述训练样本是利用根据权利要求1至4中任一项所述的方法生成的。 6.根据权利要求5所述的方法, 其中, 所述训练样本包括第i训练样本和所述第i+1训练 样本; 其中, 所述语言处 理模型为第i语言处 理模型; 所述利用训练样本训练语言处 理模型, 得到经训练的语言处 理模型包括: 利用所述第i训练样本训练所述第i语言处理模型, 得到第i+1语言处理模型, 其中, 所 述第i训练样本包括第i负 样本语句对, 所述 i为大于或者 等于1的整数; 以及 利用所述第i+1训练样本训练所述第i+1语言处理模型, 得到第i+2语言处理模型, 将所 述第i+2语言处理模 型作为所述经训练的语言处理模型, 其中, 所述第i +1训练样 本包括第i +1负样本语句对, 其中, 所述第i+1负样本语句对之间的语义相关性大于所述第 i负样本语句对之间的语 义相关性。 7.根据权利要求6所述的方法, 其中, 所述第i训练样本还包括第i正样本语句对, 所述 第i+1训练样本还 包括第i+1正样本语句对,权 利 要 求 书 1/3 页 2 CN 114676227 A 2其中, 所述第i+1正样本语句对中的正样本语句的关注度大于所述第i正样本语句对中 的正样本语句的关注度。 8.一种检索方法, 包括: 获取检索项; 以及 将所述检索项和多个候选语句输入至语言处 理模型中, 得到目标语句, 其中, 所述语言处 理模型是利用根据权利要求5 至7中任一项所述的方法训练得到的。 9.一种样本生成装置, 包括: 第一确定模块, 用于从语料集合中确定与待匹配语句相匹配的第一目标语句, 将所述 待匹配语句和所述第一目标语句, 作为负 样本语句对; 第二确定模块, 用于从日志中获取搜索语句和与所述搜索语句相匹配的第二目标语 句, 将所述搜索语句和所述第二目标语句, 作为 正样本语句对; 以及 生成模块, 用于基于所述负 样本语句对和所述 正样本语句对, 生成目标样本, 其中, 所述负样本语句对之间的语义相关性大于第 一预定阈值、 且小于第 二预定阈值, 所述正样本语句对的语义相关性大于所述第二预定阈值。 10.根据权利要求9所述的装置, 其中, 所述第一确定模块包括: 输入单元, 用于将所述待匹配语句输入至双塔模型中, 得到所述待匹配语句的待匹配 语句向量; 以及 第一确定单元, 用于基于所述待匹配语句向量和语句向量集合, 从所述语料集合中确 定与所述待匹配语句相匹配的所述第一 目标语句, 其中, 所述语句向量集合是通过将所述 语料集合中的多个语句输入至所述双塔模型中得到的, 所述语句向量集合中的多个语句向 量与所述语料集 合中的多个 语句一一对应。 11.根据权利要求9或10所述的装置, 其中, 所述第二确定模块包括: 获取单元, 用于从所述日志中获取与所述搜索语句 相匹配的多个初始目标语句; 第二确定单元, 用于根据点击率, 确定所述多个初始目标语句各自的关注度, 得到多个 关注度; 以及 第三确定单元, 用于基于所述多个关注度, 从所述多个初始目标语句中确定所述第二 目标语句。 12.根据权利要求10所述的装置, 其中, 所述双塔模型是利用多个样本集合分阶段训练 初始双塔模型得到的, 其中, 所述多个样本集合中的每个样本集合包括训练样本对, 所述多 个样本集 合各自的训练样本对的语义相关性彼此不同。 13.一种语言处 理模型的训练装置, 包括: 训练模块, 用于利用训练样本训练语言处 理模型, 得到经训练的语言处 理模型, 其中, 所述训练样本是利用根据权利要求1至4中任一项所述的装置生成的。 14.根据权利要求13所述的装置, 其中, 所述训练样本包括第 i训练样本和所述第i+1训 练样本; 其中, 所述语言处 理模型为第i语言处 理模型; 所述训练模块包括: 第一训练单元, 用于利用所述第i训练样本训练所述第i语言处理模型, 得到第i+1语言 处理模型, 其中, 所述第i训练样本包括第i负样本语句 对, 所述i为大于或者等于1的整数;权 利 要 求 书 2/3 页 3 CN 114676227 A 3

.PDF文档 专利 样本生成方法、模型的训练方法以及检索方法

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 样本生成方法、模型的训练方法以及检索方法 第 1 页 专利 样本生成方法、模型的训练方法以及检索方法 第 2 页 专利 样本生成方法、模型的训练方法以及检索方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:51:30上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。