国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210284431.X (22)申请日 2022.03.22 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 胡意仪 阮晓雯 陈远旭 (74)专利代理 机构 深圳众鼎专利商标代理事务 所(普通合伙) 44325 专利代理师 张小燕 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 40/295(2020.01) G16H 50/20(2018.01)G16H 50/70(2018.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 数据标注的方法、 装置、 设备及存 储介质 (57)摘要 本申请涉及人工智能技术领域, 本申请公开 了一种数据标注的方法、 装置、 设备及存储介质, 通过将待标注文件对应的操作类捕捉数据、 视觉 类捕捉数据和语音类捕捉数据进行向量化, 得到 操作类标注文件、 视觉类标注文件和语音类标注 文件; 利用数据标注模型对操作类标注文件、 视 觉类标注文件和语音类标注文件之间的进行语 义相似度挖掘, 并缩减各标注文件之间欧氏距 离, 得到初级标注文件; 根据初级标注文件中字 符跳转关系集合进行分类, 得到具有有效字符跳 转关系集合的最终标注文件, 通过利用数据标注 模型, 从而提高数据标注的最终标注文件在下游 分类任务的准确率。 权利要求书2页 说明书9页 附图3页 CN 114757262 A 2022.07.15 CN 114757262 A 1.一种数据标注的方法, 其特 征在于, 包括: 根据待标注文件将所述待标注文件对应的操作类捕捉数据、 视觉类捕捉数据和语音类 捕捉数据转 化为向量化的操作类标注文件、 视 觉类标注文件和语音类标注文件; 通过数据标注模型挖掘所述操作类标注文件、 所述视觉类标注文件和所述语音类标注 文件之间的语义相似度, 缩短所述操作类标注文件、 所述视觉类标注文件和所述语音类标 注文件之间的欧式距离, 得到初级标注文件; 将所述初级标注文件中字符跳转关系集合进行分类, 得到具有有 效字符跳转关系集合 的最终标注文件。 2.如权利要求1所述数据标注的方法, 其特征在于, 所述根据待标注文件将所述待标注 文件对应的操作类捕捉数据、 视觉类捕捉数据和语音类捕捉数据转化为向量化的操作类标 注文件、 视 觉类标注文件和语音类标注文件, 包括: 将所述操作类捕捉数据转化为包括字符 向量、 操作类字符权重数据和操作类字符跳转 关系的所述操作类标注文件; 将所述视觉类捕捉数据转化为包括所述字符 向量、 视觉类字符权重数据和视觉类字符 跳转关系的所述视 觉类标注文件; 将所述语音类捕捉数据转化为包括所述字符 向量、 语音类字符权重数据和语音类字符 跳转关系的所述语音类标注文件。 3.如权利要求2所述数据标注的方法, 其特征在于, 所述通过数据标注模型挖掘所述操 作类标注文件、 所述视觉类标注文件和所述语音类标注文件之间的语义相似度, 缩短所述 操作类标注文件、 所述视觉类标注文件和所述语音类标注文件之间的欧式距离, 得到初级 标注文件, 包括: 根据所述字符向量匹配对应的所述操作类字符权重数据、 所述视觉类字符权重数据和 所述语音类字符权重数据, 并利用所述所述数据标注模型挖掘所述操作类标注文件、 所述 视觉类标注文件和所述语音类标注文件之间的语义相似度; 计算所述操作类标注文件、 所述视觉类标注文件和所述语音类标注文件之间的欧式距 离值; 若所述欧式距离值大于预设欧式距离阈值, 通过欧氏距离缩短策略缩短所述操作类标 注文件、 所述视 觉类标注文件和所述语音类标注文件之间的欧式距离; 若所述欧式距离值小于等于预设欧式距离阈值, 输出 所述初级标注文件。 4.如权利要求2所述数据标注的方法, 其特征在于, 所述将所述初级标注文件中字符跳 转关系集 合进行分类, 得到具有 有效字符跳转关系集 合的最终标注文件, 包括: 根据所述字符向量匹配对应的所述操作类字符跳转关系、 所述视觉类字符跳转关系和 所述语音类字符跳转关系, 在所述语义相似度的挖掘处理后整合为所述字符跳转关系集 合; 通过所述数据标注模型将初级标注文件的所述字符跳转关系集合中的字符跳转关系 进行分类, 筛 选出有效字符跳转关系作为有效字符跳转关系集 合; 输出具有有效字符跳转关系集 合的最终标注文件。 5.如权利要求2所述数据标注的方法, 其特征在于, 在所述根据待标注文件将所述待标 注文件对应的操作类捕捉数据、 视觉类捕捉数据和语音类捕捉数据转化为向量化的操作类权 利 要 求 书 1/2 页 2 CN 114757262 A 2标注文件、 视 觉类标注文件和语音类标注文件之前, 还 包括: 获取用户在 浏览文本内容时的操作光标轨 迹作为所述操作类捕捉数据; 获取用户在 浏览所述文本内容时的视 觉移动轨 迹作为所述视 觉类捕捉数据; 获取用户在 浏览所述文本内容时的浏览口述内容作为所述语音类捕捉数据。 6.如权利要求1所述数据标注的方法, 其特征在于, 在所述将所述初级标注文件中字符 跳转关系集 合进行分类, 得到具有 有效字符跳转关系集 合的最终标注文件之后, 还 包括: 将所述最终标注文件用于下游任务的预测分类处 理; 获取所述下游任务经 过多次预测分类处 理得到多个所述分类结果; 根据所述分类结果中置信度加权最小的分类结果, 将所述置信度加权最小的分类结果 所对应的最终标注文件进行 再次标注。 7.如权利要求5所述数据标注的方法, 其特征在于, 所述获取用户在浏 览所述文本 内容 时的浏览口述内容作为所述语音类捕捉数据, 包括: 根据时间戳同步所述语音捕捉数据、 所述视觉类捕捉数据和所述操作类捕捉数据, 将 在浏览所述文本内容时与所述操作光标轨迹、 所述视觉移动轨迹具有浏览相关性的浏览口 述内容作为所述语音类捕捉数据; 其中, 所述浏览相关性为在某一 时间范围内, 与所述操作光标轨迹、 所述视觉移动轨迹 所浏览文本内容具有相同词汇。 8.一种数据标注的装置, 其特 征在于, 包括: 向量化模块, 根据待标注文件将所述待标注文件对应的操作类捕捉数据、 视觉类捕捉 数据和语音类捕捉数据转化为向量化的操作类标注文件、 视觉类标注文件和语音类标注文 件; 语义标注模块, 通过数据标注模型挖掘所述操作类标注文件、 所述视觉类标注文件和 所述语音类标注文件之间的语义相似度, 缩短所述操作类标注文件、 所述视觉类标注文件 和所述语音类标注文件之间的欧式距离, 得到初级标注文件; 关联标记模块, 将所述初级标注文件中字符跳转关系集合进行分类, 得到具有有效字 符跳转关系集 合的最终标注文件。 9.一种计算机设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器 上运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1至 7任一项所述数据标注的方法。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处 理器执行时实现如权利要求1至7任一项所述数据标注的方法。权 利 要 求 书 2/2 页 3 CN 114757262 A 3
专利 数据标注的方法、装置、设备及存储介质
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:50:53
上传分享
举报
下载
原文档
(628.9 KB)
分享
友情链接
GB-T 31257-2014 蹦极通用技术条件.pdf
GB-T 2007.2-1987 散装矿产品取样、制样通则 手工制样方法.pdf
GB-T 3478.4-2008 圆柱直齿渐开线花键 米制模数 齿侧配合 第4部分:45°压力角尺寸表.pdf
GM-T 0016-2012 智能密码钥匙密码应用接口规范.pdf
GBT 9452-2023 热处理炉有效加热区测定方法.pdf
GB-T 33452-2016 洗染术语.pdf
DB11-T 1289-2015 信息技术 灾难恢复系统成本效益评估规范 北京市.pdf
T-ZSCPA 001—2023 绿色智慧城市评价指标体系.pdf
360 全球关键信息基础设施网络安全分析报告.pdf
GB-T 26093-2010 齿轮双面啮合综合测量仪.pdf
GB-T 41387-2022 信息安全技术 智能家居通用安全规范.pdf
GB-T 22576.4-2021 医学实验室 质量和能力的要求 第4部分:临床化学检验领域的要求.pdf
GB-T 41464-2022 高成长企业分类导引.pdf
GB-T 34611-2017 硬质聚氨酯喷涂聚乙烯缠绕预制直埋保温管.pdf
法律法规 武汉市建筑节能与新型墙体材料应用管理条例2022-06-23.pdf
ISO IEC 27007-2020.pdf
T-CMAM M10-20—2019 蒙医医疗技术操作规范.pdf
GB-T 42201-2022 智能制造 工业大数据时间序列数据采集与存储管理.pdf
DB37-T 4646.2—2023 公共数据 数据治理规范 第2部分:数据清洗比对 山东省.pdf
GB-T 24581-2022 硅单晶中III、V族杂质含量的测定 低温傅立叶变换红外光谱法.pdf
1
/
3
15
评价文档
赞助2.5元 点击下载(628.9 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。