(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210353788.9
(22)申请日 2022.04.02
(71)申请人 阿里巴巴 (中国) 有限公司
地址 310051 浙江省杭州市余杭区五常街
道文一西路969号3幢5层5 54室
(72)发明人 李国荣 马腾岳 陈粮阳 陈起进
徐晓舟 任卫军 黄薛蕾
(74)专利代理 机构 北京润泽恒知识产权代理有
限公司 1 1319
专利代理师 王柳焜
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/33(2019.01)
G06F 40/216(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种数据处 理方法及装置
(57)摘要
本申请提供了一种数据处理方法及装置。 根
据包括一个意图分类对应的意图标签的文本中
的词汇之间的语义关系以及上下文关系, 可以准
确得到与该意图分类对应的意图标签的语义相
关的第一词汇, 从而 得到该意图分类对应的候选
词。 之后若要得到一个文本的意图分类, 可以根
据这个文本中的词汇之间的语义关系或上下文
关系及各个意图分类分别对应的候选词获取这
个文本体现的意图分类。 可见, 可 以自动化地得
到文本体现的意图分类, 可 以没有人工参与, 由
于借助的是文本中的词汇之间的语义关系或上
下文关系以及各个意图分类分别对应的候选词
来得到文本体 现的意图分类, 如此可以提高得到
的文本体 现的意图分类的效率以及准确率等, 以
及, 可以降低人工成本等。
权利要求书3页 说明书19页 附图3页
CN 114817530 A
2022.07.29
CN 114817530 A
1.一种数据处 理方法, 其特 征在于, 所述方法包括:
获取多个意图分类分别对应的意图标签, 以及, 获取多个文本, 文本中包括多个词汇,
文本中包括的多个词汇中包括 其中一个意图分类对应的意图标签;
对于多个意图分类中的任意一个意图分类, 在多个文本中筛选包括所述意图分类对应
的意图标签的文本, 根据包括筛选出的文本中的除所述意图分类对应的意图标签以外的词
汇, 预测与所述意图分类对应的意图标签的语义相关的第一词汇, 根据与所述意图分类对
应的意图标签的语义相关的第一词汇获取 所述意图分类对应的候选词;
对于多个文本中的任意一个文本, 对于所述文本中的任意一个词汇, 根据包括所述文
本中的除所述词汇以外的词汇, 预测与所述词汇的语义相关的第二词汇, 根据分别与所述
文本中的各个词汇的语义相关的第二词汇以及各个意图分类分别对应的候选词, 获取所述
文本体现的意图分类。
2.根据权利要求1所述的方法, 其特征在于, 所述获取多个意图分类分别对应的意图标
签, 包括:
获取多个意图分类涉及的目标场景相关的多个场景词汇;
对于多个意图分类中的任意一个意图分类, 在标注所述意图分类的关键词为一个的情
况下, 在多个场景词汇中筛选与标注所述意图分类的一个关键词之 间的语义相似度大于预
设相似度的至少一个场景词汇; 至少根据筛选的至少一个场景词汇获取所述意图分类对应
的意图标签;
或者, 在标注所述意图分类的关键词为至少两个的情况下, 在多个场景词汇中筛选与
标注所述意图分类的至少两个关键词之间的平均语义相似度大于预设相似度的至少一个
场景词汇, 至少根据筛 选的至少一个场景词汇获取 所述意图分类对应的意图标签。
3.根据权利要求1所述的方法, 其特征在于, 与 所述意图分类对应的意图标签的语义相
关的第一词汇为至少两个;
所述根据与所述意图分类对应的意图标签的语义相关的第一词汇获取所述意图分类
对应的候选词, 包括:
统计与所述意图分类对应的意图标签的语义相关的各个第一词汇分别在包括所述意
图分类对应的意图标签的文本中的第一出现频次;
在与所述意图分类对应的意图标签的语义相关的各个第 一词汇中, 按照第 一出现频次
由高至低的顺序选择至少一个第一词汇;
根据选择的至少一个第一词汇获取 所述意图分类对应的候选词。
4.根据权利要求3所述的方法, 其特征在于, 所述根据选择的至少一个第 一词汇获取所
述意图分类对应的候选词, 包括:
在选择的至少一个第 一词汇中, 剔除在多个意图分类中的除所述意图分类以外的意图
分类对应的候选词中出现的第一词汇;
根据选择的至少一个第一词汇中的剩余的第一词汇, 获取所述意图分类对应的候选
词。
5.根据权利要求4所述的方法, 其特征在于, 所述在选择的至少一个第一词汇中, 剔除
在多个意图分类中的除所述意图分类以外的意图分类对应的候选词中出现的第一词汇, 包
括:权 利 要 求 书 1/3 页
2
CN 114817530 A
2对于选择的至少一个第 一词汇中的任意一个第 一词汇, 获取所述第 一词汇在包括所述
意图分类对应的意图标签的文本中的显著性;
在所述显著性小于预设显著性的情况下, 在选择的至少一个第 一词汇中剔除所述第 一
词汇。
6.根据权利要求5所述的方法, 其特征在于, 所述获取所述第 一词汇在包括所述意图分
类对应的意图标签的文本中的显著性, 包括:
统计所述第一词汇分别在包括多个意图分类中的除所述意图分类以外的其他每一个
意图分类分别对应的意图标签的文本中的第二出现频次;
根据第一出现频次以及第二出现频次计算所述显著性。
7.根据权利要求6所述的方法, 其特征在于, 所述根据第 一出现频次以及第 二出现频次
计算所述显著性, 包括:
根据第一出现频次以及第 二出现频次, 计算所述第 一词汇分别在包括每一个意图分类
对应的意图标签的文本中的出现频次之间的期望, 以及, 计算所述第一词汇分别在包括多
个意图分类中的除所述意图分类以外的其他每一个意图分类分别对应的意图标签的文本
中的第二出现频次之间的方差;
根据所述期望、 所述方差以及第一出现频次计算所述显著性。
8.根据权利要求7所述的方法, 其特征在于, 所述根据所述期望、 所述方差以及第一出
现频次计算所述显著性, 包括:
计算第一出现频次与所述期望之间的差值;
计算所述差值与所述方差之间的比值;
根据所述比值获取 所述显著性。
9.根据权利要求1所述的方法, 其特征在于, 所述根据包括筛选出的文本 中的除所述意
图分类对应的意图标签以外的词汇, 预测与所述意图分类对应的意图标签的语义相关的第
一词汇, 包括:
确定所述 意图分类所 涉及的目标场景;
在适用于不同的场景的预测模型中, 获取适用于目标场景的预测模型;
将包括筛选出的文本中的除所述意图分类对应的意图标签以外的词汇输入适用于目
标场景的预测模型中, 以使适用于目标场景的预测模型对包括筛选出的文本中的除所述意
图分类对应的意图标签以外的词汇处理, 得到与所述意图分类对应的意图标签的语义相关
的第一词汇。
10.根据权利要求9所述的方法, 其特征在于, 适用于目标场景的预测模型是根据在目
标场景中生成的文本对初始的预测模型优化后得到的, 初始的预测模型是根据在各个场景
中生成的文本训练得到的。
11.根据权利要求1所述的方法, 其特征在于, 所述根据分别与所述文本中的各个词汇
的语义相关的第二词汇以及各个意图分类分别对应的候选词, 获取所述文本体现的意图分
类, 包括:
确定各个意图分类分别对应的候选词分别与第二词汇之间的相同的词汇的数量;
根据对应的候选词与第 二词汇之间的相同的词汇的数量大于预设数量的意图分类, 获
取所述文本体现的意图分类。权 利 要 求 书 2/3 页
3
CN 114817530 A
3
专利 一种数据处理方法及装置
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:46:25上传分享