国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210332315.0 (22)申请日 2022.03.30 (71)申请人 北京三快在线科技有限公司 地址 100080 北京市海淀区北四环西路9号 2106-030 (72)发明人 张耀午 王小捷 江会星 (74)专利代理 机构 北京三高永信知识产权代理 有限责任公司 1 1138 专利代理师 谢冬寒 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/332(2019.01) G06N 20/00(2019.01) G06F 16/33(2019.01) G06F 40/216(2020.01)G06F 40/30(2020.01) (54)发明名称 对话标注方法、 装置、 计算机设备、 存储介质 及产品 (57)摘要 本申请提供了一种对话标注方法、 装置、 计 算机设备、 存储介质及产品, 属于互联网技术领 域。 方法包括: 获取第一对话语料, 第一对话语料 中包括多组对话信息; 确定多组对话信息中的多 个槽值、 每个槽值的第一标签和每个槽值的依存 信息, 第一标签用于表示槽值所属的第一类别的 名称, 依存信息与槽值的语义关联; 基于多个槽 值的第一标签和依存信息, 确定多个槽值的第二 标签, 第二标签用于表示槽值所属的第二类别的 名称; 基于多个槽值和多个槽值的第二标签, 标 注第一对话语料, 得到第二对话语料, 第二对话 语料用于训练对话模型。 该方法使得对话语料的 标注信息 更加细致和丰富, 进而能够提高基于标 注后的对话语料进行模型训练的效率。 权利要求书3页 说明书19页 附图9页 CN 114741509 A 2022.07.12 CN 114741509 A 1.一种对话标注方法, 其特 征在于, 所述方法包括: 获取第一对话语料, 所述第一对话语料中包括多组对话信息; 确定所述多组对话信息中的多个槽值、 每个槽值的第一标签和每个槽值的依存信息, 所述第一标签用于表示槽值所属的第一类别的名称, 所述依存信息与所述槽值的语义关 联; 基于所述多个槽值的第一标签和依存信息, 确定所述多个槽值的第二标签, 所述第二 标签用于表示槽值所属的第二类别的名称; 基于所述多个槽值和所述多个槽值的第二标签, 标注所述第一对话语料, 得到第二对 话语料, 所述第二对话语料用于训练对话模型。 2.根据权利要求1所述的方法, 其特征在于, 所述基于所述多个槽值的第 一标签和依存 信息, 确定所述多个槽值的第二标签, 包括: 获取第一置信度, 所述第 一置信度为对话语料集合中的多个对话语料包括的多个槽值 的第一标签的置信度的平均值, 所述对话语料集 合包括所述第一对话语料; 基于所述第一置信度、 所述多个槽值的第一标签和所述多个槽值的依存信息, 确定所 述多个槽值的第二标签。 3.根据权利要求2所述的方法, 其特征在于, 所述基于所述第一置信度、 所述多个槽值 的第一标签和所述多个槽值的依存信息, 确定所述多个槽值的第二标签, 包括: 在所述第一置信度大于第 一预设值的情况下, 基于所述多个槽值的第 一标签和 依存信 息, 对所述多个槽值进行分类, 得到多类槽值; 对于每类槽值中的每个槽值, 组合所述槽值的依存信息和所述第一标签, 得到所述槽 值的第二标签。 4.根据权利要求3所述的方法, 其特征在于, 所述基于所述多个槽值的第 一标签和依存 信息, 对所述多个槽值进行分类, 得到多类槽值, 包括以下至少一项: 获取所述对话语料集合中的多个槽值, 对于对应于相同的第一标签的多个槽值, 在所 述多个槽值对应的相同依存信息的数量大于预设阈值的情况下, 将所述多个槽值归为一 类; 获取所述对话语料集合中的多个槽值, 对于对应于相同的第一标签的多个槽值, 在所 述多个槽值对应的相同依存信息的数量不大于预设阈值的情况下, 基于每个槽值的依存信 息, 对所述多个槽值进行分类, 其中, 每 类槽值中的多个槽值对应的依存信息相同; 获取所述对话语料集合中的多个槽值, 对于对应于相同的第一标签的多个槽值, 在所 述多个槽值对应的相同依存信息的数量不大于预设阈值的情况下, 确定所述多个槽值的依 存信息之间的相似度, 基于所述相似度, 对所述多个槽值进行分类, 其中, 每类槽值中的多 个槽值对应的依存信息之间的相似度大于预设相似度。 5.根据权利要求2所述的方法, 其特征在于, 所述基于所述第一置信度、 所述多个槽值 的第一标签和所述多个槽值的依存信息, 确定所述多个槽值的第二标签, 包括: 在所述第一置信度不大于第一预设值的情况下, 获取所述对话语料集合中的多个槽 值, 基于所述多个槽值的依存信息, 对所述多个槽值进行聚类, 得到多类槽值; 获取每类槽值的第 二置信度, 所述第 二置信度为所述每类槽值中的多个槽值分别属于 其所在类别的置信度的平均值;权 利 要 求 书 1/3 页 2 CN 114741509 A 2基于每类槽值的第二置信度, 确定所述每类槽值中的多个槽值的第二标签, 得到所述 多组对话信息中与每 类槽值分别对应的每 个槽值的第二标签。 6.根据权利要求5所述的方法, 其特征在于, 所述基于每类槽值的第二置信度, 确定所 述每类槽值中的多个槽值的第二标签, 包括: 对于每类槽值, 在所述第 二置信度大于第二预设值的情况下, 对于其中的每个槽值, 组 合所述槽值的依存信息和所述第一标签, 得到所述槽值的第二标签; 对于每类槽值, 在所述第 二置信度不大于第二预设值的情况下, 对于其中的多个槽值, 分别确定每个槽值所属语句关联的目标语句, 确定所述多个槽值分别关联的目标语句中频 率最高的目标单词, 组合所述槽值的依存信息和所述 目标单词, 得到所述多个槽值的第二 标签。 7.根据权利要求5所述的方法, 其特征在于, 所述基于所述多个槽值的依存信息, 对所 述多个槽值进行聚类, 包括: 分别确定每 个槽值的第一语义信息和所述每 个槽值的依存信息的第二语义信息; 对于每个槽值, 对所述第一语义信息和所述第二语义信息进行加权求和, 得到所述槽 值的目标语义信息; 基于所述多个槽值分别对应的目标语义信息, 对所述多个槽值进行聚类。 8.根据权利要求1所述的方法, 其特征在于, 所述基于所述多个槽值和所述多个槽值的 第二标签, 标注所述第一对话语料, 包括: 基于所述多个槽值和所述多个槽值的第二标签, 从对话映射关系中, 确定所述第一对 话语料的对话任务, 所述对话映射关系为多个槽值、 多个槽值的第二标签和对话任务之间 的映射关系; 基于所述第一对话语料的多个槽值、 每个槽值的第二标签和所述对话任务, 标注所述 第一对话语料。 9.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 确定所述第一对话语料的动作信息; 基于所述动作信息标注所述第二对话语料, 得到第三对话语料, 所述第三对话语料用 于训练对话模型。 10.根据权利要求1所述的方法, 其特征在于, 所述第一对话语料为未标注动作信息的 对话语料; 所述确定所述第一对话语料的动作信息, 包括: 基于已标注动作信 息的对话语料, 进行模型训练, 得到动作识别模型, 所述动作识别模 型用于识别对话语料中的动作信息; 将所述第一对话语料输入所述动作识别模型, 输出 所述第一对话语料的动作信息 。 11.根据权利要求1所述的方法, 所述确定所述多组对话信息中的多个槽值, 包括: 确定所述多组对话信 息中的第一槽值和第 二槽值, 得到所述多组对话信 息中的多个槽 值, 所述第一槽值为标注所述第一对话语料 的必要槽值, 所述第二槽值用于辅助标注所述 第一对话语料。 12.一种对话标注装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取第一对话语料, 所述第一对话语料中包括多组对话信息;权 利 要 求 书 2/3 页 3 CN 114741509 A 3
专利 对话标注方法、装置、计算机设备、存储介质及产品
文档预览
中文文档
32 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共32页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:50:20
上传分享
举报
下载
原文档
(1.4 MB)
分享
友情链接
GB 50016-2012 建筑设计防火规范.pdf
GB-T 40113.1-2021 生物质热解炭气油多联产工程技术规范 第1部分:工艺设计.pdf
GB-T 32856-2016 高压电能表通用技术要求.pdf
GB-T 4864-2008 金属钙及其制品.pdf
信通院 2023大模型落地应用案例集 --大模型测试验证与协同创新中心-2023.pdf
邯郸市工业遗产保护与利用条例.pdf
DB50-T 1275.5-2022 生猪智慧养殖数字化应用与管理 第5部分:生产管理 重庆市.pdf
奇安信 2020年Android平台恶意样本整体态势分析报告.pdf
GB-T 25970-2010 不燃无机复合板.pdf
GB-T 20278-2013 信息安全技术 网络脆弱性扫描产品安全技术要求.pdf
T-CEC 711.22—2022 电工装备供应商数据采集及接口规范 第22 部分:机器人.pdf
GB-T 18488.2-2015 电动汽车用驱动电机系统 第2部分:试验方法.pdf
T-CSAE 194—2021 汽车外饰件用PVD 涂层技术条件.pdf
GB-T 2572-2005 纤维增强塑料平均线膨胀系数试验方法.pdf
专利 基于人工智能预测的信息安全预测方法及大数据安全系统.PDF
YDT 3799-2020 电信网和互联网网络安全防护定级备案实施指南.pdf
T-CSRME 02—2019 海上风电工程基桩检测技术规程.pdf
T-CESA 1172—2021 信息技术服务 智能运维 通用要求.pdf
T-CSAE 262—2022 电动汽车电池管理系统用故障注入测试规范.pdf
GB-T 41304.2-2022 知识管理方法和工具 第2部分:设计理性知识建模.pdf
1
/
3
32
评价文档
赞助2.5元 点击下载(1.4 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。