(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210671419.4
(22)申请日 2022.06.15
(65)同一申请的已公布的文献号
申请公布号 CN 114758197 A
(43)申请公布日 2022.07.15
(73)专利权人 深圳瀚维智能医疗科技有限公司
地址 518000 广东省深圳市福田区梅林街
道孖岭社区凯丰路10号翠林大厦8层
(湾区国际金融科技城) 804A
(72)发明人 谈继勇 刘根 李元伟 杨洪光
廖玲 孙熙
(74)专利代理 机构 深圳市恒程创新知识产权代
理有限公司 4 4542
专利代理师 王韬(51)Int.Cl.
G06V 10/774(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06F 16/53(2019.01)
G06K 9/62(2022.01)
G06N 3/08(2006.01)
G06T 7/11(2017.01)
G06V 20/10(2022.01)
(56)对比文件
CN 111666993 A,2020.09.15
US 5568811 A,1996.10.29
CN 113344028 A,2021.09.0 3
审查员 范鹏
(54)发明名称
数据筛选方法、 装置及计算机可读存 储介质
(57)摘要
本发明公开了一种数据筛选方法、 装置及计
算机可读存储介质, 其中, 所述数据筛选方法包
括: 获取由已标注超声数据组成的第一数据集;
基于所述第一数据集训练主动学习模 型, 得到初
始主动学习模 型, 所述主动学习模 型包括动态搜
索模块; 获取由未标注超声数据组成的第二数据
集, 将所述第二数据集输入所述初始主动学习模
型中, 根据所述初始主动学习模 型预测所述第二
数据集中的目标数据, 并基于所述目标数据生成
第三数据集, 其中, 所述目标数据的数据量, 大于
所述第二数据集中除所述目标数据之外的其它
数据的数据量。 本发明旨在降低主动学习模型训
练的成本, 提高训练效率。
权利要求书1页 说明书9页 附图2页
CN 114758197 B
2022.11.01
CN 114758197 B
1.一种数据筛 选方法, 其特 征在于, 所述数据筛 选方法包括:
获取由已标注乳腺超声数据组成的第 一数据集; 所述标注是在超声图像上确定出目标
回归框, 所述目标回归框标记到病灶和组织关键区域;
获取初始训练集比例, 根据所述初始训练集比例从所述第一数据集中确定训练数据;
确定动量 参数0.9、 初始学习率1e ‑4和权重损失1e‑4;
根据所述动量参数、 所述初始学习率和所述权重损失确定S GD优化器的FocalLoss损失
函数;
根据主动学习模型的SGD优化器和所述训练数据训练所述主动学习模型;
获取新增训练集比例0.05; 根据所述新增训练集比例从所述第一数据集的未作为训练
数据的超声数据中确定新增训练数据; 将所述新增训练数据加入所述训练数据; 根据所述
优化器和 新增后的所述训练数据训练所述主动学习模型; 在训练结束后时, 执行所述根据
所述新增训练集比例从所述第一数据集的未作为训练数据的超声数据中确定新增训练数
据步骤; 在训练 次数达到预设训练 次数8次时, 结束训练, 得到初始主动学习模型, 所述主动
学习模型包括动态搜索模块;
基于所述第一数据集训练主动学习模型, 得到初始主动学习模型, 所述主动学习模型
包括动态搜索模块;
基于所述动态搜索模块对不同的信 息路径赋予不同的权重, 针对第 二数据集自行搜索
合适的特征融合模块与 表达模块, 所述特征融合模块与所述表达模块用于确定第二数据集
中每个超声数据的数据特 征, 所述数据特 征用于确定不确定性置信度;
获取由未标注超声数据组成的第 二数据集, 将所述第 二数据集输入所述初始主动学习
模型中, 根据所述初始主动学习模型预测所述第二数据集中的目标数据, 并基于所述 目标
数据生成第三数据集, 其中, 所述目标数据的数据量, 大于所述第二数据集中除所述目标数
据之外的其它数据的数据量, 所述数据量指数据内出现复杂目标回归框的不确定性;
获取由所述第 三数据集进行数据标注后得到的第四数据集, 并将所述第四数据集输入
所述初始主动学习模型;
基于所述第四数据集训练所述初始主动学习模型。
2.如权利要求1所述的数据筛选方法, 其特征在于, 所述根据所述初始主动学习 模型预
测所述第二数据集中的目标 数据的步骤 包括:
确定所述第二数据集中每 个超声数据的不确定性置信度;
当所述超声数据的不确定性置信度大于预设阀值时, 则所述超声数据为所述目标数
据。
3.一种数据筛选装置, 其特征在于, 所述数据筛选装置包括: 存储器、 处理器及存储在
所述存储器上并可在所述处理器上运行的数据筛选程序, 所述数据筛选程序被所述处理器
执行时实现如权利要求1至2中任一项所述的数据筛 选方法的步骤。
4.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有数据筛
选程序, 所述数据筛选程序被处理器执行时实现如权利要求 1至2中任一项所述的数据筛选
方法的步骤。权 利 要 求 书 1/1 页
2
CN 114758197 B
2数据筛选方 法、 装置及计算机可 读存储介质
技术领域
[0001]本发明涉及超声技术领域, 尤其涉及一种数据筛选方法、 装置及计算机可读存储
介质。
背景技术
[0002]随着科技的发展, 对乳腺超声数据的处理可以依靠主动学习模型, 主动学习模型
需要通过 大量的数据对其进行训练, 以此来 提高主动学习模型整体的鲁棒 性。
[0003]训练模型所需要的训练数据集对于模型整体的鲁棒性有至关重要的作用, 乳腺超
声数据存在标准数据获取难度大、 数据标注成本高及乳腺结构组织复杂等难点, 所以对于
采集到的训练数据, 一般会基于单张图像或者 随机挑选图像进行人工标注, 但是 由于训练
数据的难易程度不同, 使用简单 的训练数据训练主动学习模型会导致训练效果不好, 训练
效率太低。
[0004]上述内容仅用于辅助理解本发明的技术方案, 并不代表承认上述内容是现有技
术。
发明内容
[0005]本发明的主要 目的在于提供一种数据筛选方法、 装置及计算机可读存储介质, 旨
在达成降低主动学习模型训练的成本, 提高训练效率的效果。
[0006]为实现上述目的, 本发明提供一种数据筛 选方法, 所述数据筛 选方法包括:
[0007]获取由已标注超声数据组成的第一数据集;
[0008]基于所述第一数据集训练主动学习模型, 得到初始主动学习模型, 所述主动学习
模型包括动态搜索模块;
[0009]获取由未标注超声数据组成的第二数据集, 将所述第二数据集输入所述初始主动
学习模型中, 根据所述初始主动学习模型预测所述第二数据集中的目标数据, 并基于所述
目标数据生成第三数据集, 其中, 所述目标数据的数据量, 大于所述第二数据集中除所述目
标数据之外的其它数据的数据量。
[0010]可选地, 所述基于所述目标 数据生成第三数据集的步骤之后, 还 包括:
[0011]获取由所述第三数据集进行数据标注后得到的第四数据集, 并将所述第四数据集
输入所述初始主动学习模型;
[0012]基于所述第四数据集训练所述初始主动学习模型。
[0013]可选地, 所述根据所述初始主动学习模型预测所述第二数据集中的目标数据的步
骤包括:
[0014]确定所述第二数据集中每 个超声数据的不确定性置信度;
[0015]当所述超声数据的不确定性置信度大于预设阀值时, 则所述超声数据为所述目标
数据。
[0016]可选地, 所述确定所述第二数据集中每个超声数据的不确定性置信度的步骤包说 明 书 1/9 页
3
CN 114758197 B
3
专利 数据筛选方法、装置及计算机可读存储介质
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:31:07上传分享