国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210245321.2 (22)申请日 2022.03.14 (71)申请人 京东科技信息技 术有限公司 地址 100176 北京市大兴区经济技 术开发 区科创十一 街18号院2号楼6层6 01 (72)发明人 宋双永 吴良庆 何晓冬 (74)专利代理 机构 北京英赛 嘉华知识产权代理 有限责任公司 1 1204 专利代理师 王达佐 马晓亚 (51)Int.Cl. G06F 40/30(2020.01) G06F 16/33(2019.01) G06F 16/31(2019.01) (54)发明名称 用于生成预标注样本的方法、 装置、 服务器 和介质 (57)摘要 本公开的实施例公开了用 于生成预标注样 本的方法、 装置、 服务器和介质。 该方法的一具体 实施方式包括: 获取预设标注数据库, 其中, 该预 设标注数据库中记录有问题文本与场景之间的 对应关系; 获取待进行预标注的多轮场景定位数 据, 其中, 该多轮场景定位数据中包括至少一个 问句与对应的场景; 将该多轮场景定位数据中的 至少一个问句与该预设标注数据库中的问题文 本进行匹配, 将匹配的问题文本对应的场景确定 为匹配场景; 根据所确定的匹配场景与进行匹配 的至少一个问句对应的场景, 基于该多轮场景定 位数据生成正、 负样本均衡的预标注样本。 该实 施方式实现了正、 负样本均衡的预标注样本的大 规模自动生成。 权利要求书2页 说明书12页 附图5页 CN 114595697 A 2022.06.07 CN 114595697 A 1.一种用于生成预 标注样本的方法, 包括: 获取预设标注数据库, 其中, 所述预设标注数据库中记录有问题文本与场景之间的对 应关系; 获取待进行预标注 的多轮场景定位数据, 其中, 所述多轮场景定位数据中包括至少一 个问句与对应的场景; 将所述多轮场景定位数据中的至少一个问句与所述预设标注数据库中的问题文本进 行匹配, 将匹配的问题文本对应的场景确定为匹配场景; 根据所确定的匹配场景与进行匹配的至少一个问句对应的场景, 基于所述多轮场景定 位数据生成正、 负 样本均衡的预 标注样本 。 2.根据权利要求1所述的方法, 其中, 所述获取 预设标注数据库, 包括: 获取预设的数据库, 其中, 所述预设的数据库中记录有属于同一场景的语义一致的问 题文本; 获取单轮匹配数据库, 其中, 所述单轮匹配数据库中包括至少两个问题文本与用于表 征所述至少两个问题文本语义是否一 致的标注信息; 根据所述单轮匹配数据库对所述预设的数据库进行扩充, 生成所述预设标注数据库。 3.根据权利要求1所述的方法, 其中, 所述将所述多轮场景定位数据中的至少一个问句 与所述预设标注数据库中的问题文本进行匹配, 将匹配的问题文本对应的场景确定为匹配 场景, 包括: 将所述多轮场景定位数据中的至少一个问句确定为多条件检索的至少一个查询词; 将所述预设标注数据库中与所确定的至少一个查询词匹配的问题文本对应的场景确 定为匹配场景。 4.根据权利要求3所述的方法, 其中, 所述将所述预设标注数据库中与 所确定的至少一 个查询词匹配的问题文本对应的场景确定为匹配场景, 包括: 利用与线上应用相一致的搜索引 擎构建的索引对所述预设标注数据库中的预设标注 数据进行召回, 其中, 所述预设标注数据包括问题文本与场景之间的对应关系; 利用预先训练的匹配模型从召回结果中确定与所述至少一个查询词匹配的场景作为 匹配场景。 5.根据权利要求1 ‑4之一所述的方法, 其中, 所述根据所确定的匹配场景与进行匹配的 至少一个问句对应的场景, 基于所述多轮场景定位数据生 成正、 负样 本均衡的预标注样 本, 包括: 根据所确定的匹配场景与进行匹配的至少一个问句对应的场景是否匹配, 对应生成正 样本或负 样本; 从所生成的正样本和负样本中选取数目一致的正、 负样本作为正、 负样本均衡的预标 注样本。 6.一种用于预训练模型的方法, 包括: 利用正、 负样本均衡的预标注样本对初始预训练模型进行训练, 得到中间预训练模型, 其中, 所述初始预训练模型用于表征问题文本与场景之间的对应关系; 利用基于所述预标注样本进行人工校验的标注样本对所述中间预训练模型进行继续 训练, 生成预训练模型, 其中, 所述标注样本的数量小于所述预 标注样本的数量。权 利 要 求 书 1/2 页 2 CN 114595697 A 27.一种用于生成预 标注样本的装置, 包括: 第一获取单元, 被配置成获取预设标注数据库, 其中, 所述预设标注数据库中记录有问 题文本与场景之间的对应关系; 第二获取单元, 被配置成获取待进行预标注的多轮场景定位数据, 其中, 所述多轮场景 定位数据中包括至少一个问句与对应的场景; 匹配单元, 被配置成将所述多轮场景定位数据中的至少一个问句与 所述预设标注数据 库中的问题文本进行匹配, 将匹配的问题文本对应的场景确定为匹配场景; 生成单元, 被配置成根据所确定的匹配场景与进行匹配的至少一个问句对应的场景, 基于所述多轮场景定位数据生成正、 负 样本均衡的预 标注样本 。 8.一种用于预训练模型的装置, 包括: 初始训练单元, 被配置成利用正、 负样本均衡的预标注样本对初始预训练模型进行训 练, 得到中间预训练模型, 其中, 所述初始预训练模型用于表征问题文本与场景之间的对应 关系; 再训练单元, 被配置成利用基于所述预标注样本进行人工校验的标注样本对所述中间 预训练模 型进行继续训练, 生成预训练模型, 其中, 所述标注样本的数量小于所述预标注样 本的数量。 9.一种服 务器, 包括: 一个或多个处 理器; 存储装置, 其上存 储有一个或多个程序; 当所述一个或多个程序被所述一个或多个处理器执行, 使得所述一个或多个处理器实 现如权利要求1 ‑6中任一所述的方法。 10.一种计算机可读介质, 其上存储有计算机程序, 其中, 该程序被处理器执行时实现 如权利要求1 ‑6中任一所述的方法。权 利 要 求 书 2/2 页 3 CN 114595697 A 3
专利 用于生成预标注样本的方法、装置、服务器和介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:51:49
上传分享
举报
下载
原文档
(697.1 KB)
分享
友情链接
GB-T 17394.4-2014 金属材料 里氏硬度试验 第4部分 硬度值换算表.pdf
GB-T 43555-2023 智能服务 预测性维护 算法测评方法.pdf
GB-T 35285-2017 信息安全技术 公钥基础设施基于数字证书的可靠电子签名生成及验证技技术要求.pdf
T-ZGZS 0107—2023 再生资源经营性电子数据存证技术规范.pdf
GB-T 1456-2021 夹层结构弯曲性能试验方法.pdf
GB 24284-2009 大型焰火燃放安全技术规程.pdf
SN-T 5152-2019 生活用纸中甲醛含量的测定方法 高效液相色谱法.pdf
GB-T 35274-2023 信息安全技术 大数据服务安全能力要求.pdf
YJ-T 3-2011 地震救援装备检测规程 起重气垫系统.pdf
GB-T 26698-2022 考试用铅笔和涂卡专用笔.pdf
奇安信 2022网络安全人才市场状况研究报告.pdf
GB-T 33471-2016 全自动纸板袖套式裹包机.pdf
GB-T 42591-2023 燃气轮机 质量控制规范.pdf
GB-T 14337-2022 化学纤维 短纤维拉伸性能试验方法.pdf
GM-T 0091-2020 基于口令的密钥派生规范.pdf
DB33-T 2349-2021 数字化改革 公共数据目录编制规范 浙江省.pdf
GB-T 37904-2019 土方机械 步履式液压挖掘机.pdf
GB-T 5106-2012 圆柱直齿渐开线花键 量规.pdf
GB-T 38590-2020 森林资源连续清查技术规程.pdf
GB-T 31496-2023 信息技术 安全技术 信息安全管理体系 指南.pdf
1
/
3
20
评价文档
赞助2.5元 点击下载(697.1 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。