(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210357147.0
(22)申请日 2022.04.06
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 施云生 黄正杰 冯仕堃 黄世维
何径舟
(74)专利代理 机构 中科专利商标代理有限责任
公司 11021
专利代理师 吴晓兵
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/332(2019.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
样本生成方法、 模型的训练方法以及检索方
法
(57)摘要
本公开提供了一种样 本生成方法、 语 言处理
模型的训练方法、 检索方法、 装置、 电子设备、 存
储介质以及程序产品, 涉及人工智能技术领域,
尤其涉及深度学习技术领域。 具体实现方案为:
从语料集合中确定与待匹配语句相 匹配的第一
目标语句, 将待匹配语句和第一目标语句, 作为
负样本语句对; 从日志中获取搜索语句和与搜索
语句相匹配的第二目标语句, 将 搜索语句和第二
目标语句, 作为正样本语句对; 以及基于负样本
语句对和正样本语句对, 生成目标样本, 负样本
语句对之间的语义相关性大于第一预定阈值、 且
小于第二预定阈值, 正样本语句对的语义相关性
大于第二预定阈值。
权利要求书3页 说明书13页 附图6页
CN 114676227 A
2022.06.28
CN 114676227 A
1.一种样本生成方法, 包括:
从语料集合中确定与待 匹配语句相匹配的第 一目标语句, 将所述待匹配语句和所述第
一目标语句, 作为负 样本语句对;
从日志中获取搜索语句和与 所述搜索语句相匹配的第 二目标语句, 将所述搜索语句和
所述第二目标语句, 作为 正样本语句对; 以及
基于所述负 样本语句对和所述 正样本语句对, 生成目标样本,
其中, 所述负样本语句对之间的语义相关性大于第 一预定阈值、 且小于第 二预定阈值,
所述正样本语句对的语义相关性大于所述第二预定阈值。
2.根据权利要求1所述的方法, 其中, 所述从语料集合中确定与待 匹配语句相匹配的第
一目标语句包括:
将所述待匹配 语句输入至双塔模型中, 得到所述待匹配 语句的待匹配 语句向量; 以及
基于所述待匹配语句向量和语句向量集合, 从所述语料集合中确定与 所述待匹配语句
相匹配的所述第一 目标语句, 其中, 所述语句向量集合是通过将所述语料集合中的多个语
句输入至所述双塔模型中得到的, 所述语句向量集合中的多个语句向量与所述语料集合中
的多个语句一一对应。
3.根据权利要求1或2所述的方法, 其中, 所述从日志中获取搜索语句和与所述搜索语
句相匹配的第二目标语句包括:
从所述日志中获取与所述搜索语句 相匹配的多个初始目标语句;
根据点击率, 确定所述多个初始目标语句各自的关注度, 得到多个关注度; 以及
基于所述多个关注度, 从所述多个初始目标语句中确定所述第二目标语句。
4.根据权利要求2所述的方法, 其中, 所述双塔模型是利用多个样本集合分阶段训练初
始双塔模 型得到的, 其中, 所述多个样本集合中的每个样 本集合包括训练样 本对, 所述多个
样本集合各自的训练样本对的语义相关性彼此不同。
5.一种语言处 理模型的训练方法, 包括:
利用训练样本训练语言处 理模型, 得到经训练的语言处 理模型,
其中, 所述训练样本是利用根据权利要求1至4中任一项所述的方法生成的。
6.根据权利要求5所述的方法, 其中, 所述训练样本包括第i训练样本和所述第i+1训练
样本;
其中, 所述语言处 理模型为第i语言处 理模型;
所述利用训练样本训练语言处 理模型, 得到经训练的语言处 理模型包括:
利用所述第i训练样本训练所述第i语言处理模型, 得到第i+1语言处理模型, 其中, 所
述第i训练样本包括第i负 样本语句对, 所述 i为大于或者 等于1的整数; 以及
利用所述第i+1训练样本训练所述第i+1语言处理模型, 得到第i+2语言处理模型, 将所
述第i+2语言处理模 型作为所述经训练的语言处理模型, 其中, 所述第i +1训练样 本包括第i
+1负样本语句对,
其中, 所述第i+1负样本语句对之间的语义相关性大于所述第 i负样本语句对之间的语
义相关性。
7.根据权利要求6所述的方法, 其中, 所述第i训练样本还包括第i正样本语句对, 所述
第i+1训练样本还 包括第i+1正样本语句对,权 利 要 求 书 1/3 页
2
CN 114676227 A
2其中, 所述第i+1正样本语句对中的正样本语句的关注度大于所述第i正样本语句对中
的正样本语句的关注度。
8.一种检索方法, 包括:
获取检索项; 以及
将所述检索项和多个候选语句输入至语言处 理模型中, 得到目标语句,
其中, 所述语言处 理模型是利用根据权利要求5 至7中任一项所述的方法训练得到的。
9.一种样本生成装置, 包括:
第一确定模块, 用于从语料集合中确定与待匹配语句相匹配的第一目标语句, 将所述
待匹配语句和所述第一目标语句, 作为负 样本语句对;
第二确定模块, 用于从日志中获取搜索语句和与所述搜索语句相匹配的第二目标语
句, 将所述搜索语句和所述第二目标语句, 作为 正样本语句对; 以及
生成模块, 用于基于所述负 样本语句对和所述 正样本语句对, 生成目标样本,
其中, 所述负样本语句对之间的语义相关性大于第 一预定阈值、 且小于第 二预定阈值,
所述正样本语句对的语义相关性大于所述第二预定阈值。
10.根据权利要求9所述的装置, 其中, 所述第一确定模块包括:
输入单元, 用于将所述待匹配语句输入至双塔模型中, 得到所述待匹配语句的待匹配
语句向量; 以及
第一确定单元, 用于基于所述待匹配语句向量和语句向量集合, 从所述语料集合中确
定与所述待匹配语句相匹配的所述第一 目标语句, 其中, 所述语句向量集合是通过将所述
语料集合中的多个语句输入至所述双塔模型中得到的, 所述语句向量集合中的多个语句向
量与所述语料集 合中的多个 语句一一对应。
11.根据权利要求9或10所述的装置, 其中, 所述第二确定模块包括:
获取单元, 用于从所述日志中获取与所述搜索语句 相匹配的多个初始目标语句;
第二确定单元, 用于根据点击率, 确定所述多个初始目标语句各自的关注度, 得到多个
关注度; 以及
第三确定单元, 用于基于所述多个关注度, 从所述多个初始目标语句中确定所述第二
目标语句。
12.根据权利要求10所述的装置, 其中, 所述双塔模型是利用多个样本集合分阶段训练
初始双塔模型得到的, 其中, 所述多个样本集合中的每个样本集合包括训练样本对, 所述多
个样本集 合各自的训练样本对的语义相关性彼此不同。
13.一种语言处 理模型的训练装置, 包括:
训练模块, 用于利用训练样本训练语言处 理模型, 得到经训练的语言处 理模型,
其中, 所述训练样本是利用根据权利要求1至4中任一项所述的装置生成的。
14.根据权利要求13所述的装置, 其中, 所述训练样本包括第 i训练样本和所述第i+1训
练样本;
其中, 所述语言处 理模型为第i语言处 理模型;
所述训练模块包括:
第一训练单元, 用于利用所述第i训练样本训练所述第i语言处理模型, 得到第i+1语言
处理模型, 其中, 所述第i训练样本包括第i负样本语句 对, 所述i为大于或者等于1的整数;权 利 要 求 书 2/3 页
3
CN 114676227 A
3
专利 样本生成方法、模型的训练方法以及检索方法
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:51:30上传分享