(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210284431.X (22)申请日 2022.03.22 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 胡意仪 阮晓雯 陈远旭  (74)专利代理 机构 深圳众鼎专利商标代理事务 所(普通合伙) 44325 专利代理师 张小燕 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 40/295(2020.01) G16H 50/20(2018.01)G16H 50/70(2018.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 数据标注的方法、 装置、 设备及存 储介质 (57)摘要 本申请涉及人工智能技术领域, 本申请公开 了一种数据标注的方法、 装置、 设备及存储介质, 通过将待标注文件对应的操作类捕捉数据、 视觉 类捕捉数据和语音类捕捉数据进行向量化, 得到 操作类标注文件、 视觉类标注文件和语音类标注 文件; 利用数据标注模型对操作类标注文件、 视 觉类标注文件和语音类标注文件之间的进行语 义相似度挖掘, 并缩减各标注文件之间欧氏距 离, 得到初级标注文件; 根据初级标注文件中字 符跳转关系集合进行分类, 得到具有有效字符跳 转关系集合的最终标注文件, 通过利用数据标注 模型, 从而提高数据标注的最终标注文件在下游 分类任务的准确率。 权利要求书2页 说明书9页 附图3页 CN 114757262 A 2022.07.15 CN 114757262 A 1.一种数据标注的方法, 其特 征在于, 包括: 根据待标注文件将所述待标注文件对应的操作类捕捉数据、 视觉类捕捉数据和语音类 捕捉数据转 化为向量化的操作类标注文件、 视 觉类标注文件和语音类标注文件; 通过数据标注模型挖掘所述操作类标注文件、 所述视觉类标注文件和所述语音类标注 文件之间的语义相似度, 缩短所述操作类标注文件、 所述视觉类标注文件和所述语音类标 注文件之间的欧式距离, 得到初级标注文件; 将所述初级标注文件中字符跳转关系集合进行分类, 得到具有有 效字符跳转关系集合 的最终标注文件。 2.如权利要求1所述数据标注的方法, 其特征在于, 所述根据待标注文件将所述待标注 文件对应的操作类捕捉数据、 视觉类捕捉数据和语音类捕捉数据转化为向量化的操作类标 注文件、 视 觉类标注文件和语音类标注文件, 包括: 将所述操作类捕捉数据转化为包括字符 向量、 操作类字符权重数据和操作类字符跳转 关系的所述操作类标注文件; 将所述视觉类捕捉数据转化为包括所述字符 向量、 视觉类字符权重数据和视觉类字符 跳转关系的所述视 觉类标注文件; 将所述语音类捕捉数据转化为包括所述字符 向量、 语音类字符权重数据和语音类字符 跳转关系的所述语音类标注文件。 3.如权利要求2所述数据标注的方法, 其特征在于, 所述通过数据标注模型挖掘所述操 作类标注文件、 所述视觉类标注文件和所述语音类标注文件之间的语义相似度, 缩短所述 操作类标注文件、 所述视觉类标注文件和所述语音类标注文件之间的欧式距离, 得到初级 标注文件, 包括: 根据所述字符向量匹配对应的所述操作类字符权重数据、 所述视觉类字符权重数据和 所述语音类字符权重数据, 并利用所述所述数据标注模型挖掘所述操作类标注文件、 所述 视觉类标注文件和所述语音类标注文件之间的语义相似度; 计算所述操作类标注文件、 所述视觉类标注文件和所述语音类标注文件之间的欧式距 离值; 若所述欧式距离值大于预设欧式距离阈值, 通过欧氏距离缩短策略缩短所述操作类标 注文件、 所述视 觉类标注文件和所述语音类标注文件之间的欧式距离; 若所述欧式距离值小于等于预设欧式距离阈值, 输出 所述初级标注文件。 4.如权利要求2所述数据标注的方法, 其特征在于, 所述将所述初级标注文件中字符跳 转关系集 合进行分类, 得到具有 有效字符跳转关系集 合的最终标注文件, 包括: 根据所述字符向量匹配对应的所述操作类字符跳转关系、 所述视觉类字符跳转关系和 所述语音类字符跳转关系, 在所述语义相似度的挖掘处理后整合为所述字符跳转关系集 合; 通过所述数据标注模型将初级标注文件的所述字符跳转关系集合中的字符跳转关系 进行分类, 筛 选出有效字符跳转关系作为有效字符跳转关系集 合; 输出具有有效字符跳转关系集 合的最终标注文件。 5.如权利要求2所述数据标注的方法, 其特征在于, 在所述根据待标注文件将所述待标 注文件对应的操作类捕捉数据、 视觉类捕捉数据和语音类捕捉数据转化为向量化的操作类权 利 要 求 书 1/2 页 2 CN 114757262 A 2标注文件、 视 觉类标注文件和语音类标注文件之前, 还 包括: 获取用户在 浏览文本内容时的操作光标轨 迹作为所述操作类捕捉数据; 获取用户在 浏览所述文本内容时的视 觉移动轨 迹作为所述视 觉类捕捉数据; 获取用户在 浏览所述文本内容时的浏览口述内容作为所述语音类捕捉数据。 6.如权利要求1所述数据标注的方法, 其特征在于, 在所述将所述初级标注文件中字符 跳转关系集 合进行分类, 得到具有 有效字符跳转关系集 合的最终标注文件之后, 还 包括: 将所述最终标注文件用于下游任务的预测分类处 理; 获取所述下游任务经 过多次预测分类处 理得到多个所述分类结果; 根据所述分类结果中置信度加权最小的分类结果, 将所述置信度加权最小的分类结果 所对应的最终标注文件进行 再次标注。 7.如权利要求5所述数据标注的方法, 其特征在于, 所述获取用户在浏 览所述文本 内容 时的浏览口述内容作为所述语音类捕捉数据, 包括: 根据时间戳同步所述语音捕捉数据、 所述视觉类捕捉数据和所述操作类捕捉数据, 将 在浏览所述文本内容时与所述操作光标轨迹、 所述视觉移动轨迹具有浏览相关性的浏览口 述内容作为所述语音类捕捉数据; 其中, 所述浏览相关性为在某一 时间范围内, 与所述操作光标轨迹、 所述视觉移动轨迹 所浏览文本内容具有相同词汇。 8.一种数据标注的装置, 其特 征在于, 包括: 向量化模块, 根据待标注文件将所述待标注文件对应的操作类捕捉数据、 视觉类捕捉 数据和语音类捕捉数据转化为向量化的操作类标注文件、 视觉类标注文件和语音类标注文 件; 语义标注模块, 通过数据标注模型挖掘所述操作类标注文件、 所述视觉类标注文件和 所述语音类标注文件之间的语义相似度, 缩短所述操作类标注文件、 所述视觉类标注文件 和所述语音类标注文件之间的欧式距离, 得到初级标注文件; 关联标记模块, 将所述初级标注文件中字符跳转关系集合进行分类, 得到具有有效字 符跳转关系集 合的最终标注文件。 9.一种计算机设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器 上运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1至 7任一项所述数据标注的方法。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处 理器执行时实现如权利要求1至7任一项所述数据标注的方法。权 利 要 求 书 2/2 页 3 CN 114757262 A 3

.PDF文档 专利 数据标注的方法、装置、设备及存储介质

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据标注的方法、装置、设备及存储介质 第 1 页 专利 数据标注的方法、装置、设备及存储介质 第 2 页 专利 数据标注的方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:50:53上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。