专利数据筛选方法、装置及计算机可读存储介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210671419.4 (22)申请日 2022.06.15 (65)同一申请的已公布的文献号申请公布号 CN 114758197 A (43)申请公布日 2022.07.15 (73)专利权人深圳瀚维智能医疗科技有限公司地址 518000 广东省深圳市福田区梅林街道孖岭社区凯丰路10号翠林大厦8层（湾区国际金融科技城） 804A (72)发明人谈继勇　刘根　李元伟　杨洪光　廖玲　孙熙　 (74)专利代理机构深圳市恒程创新知识产权代理有限公司 4 4542 专利代理师王韬(51)Int.Cl. G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06F 16/53(2019.01) G06K 9/62(2022.01) G06N 3/08(2006.01) G06T 7/11(2017.01) G06V 20/10(2022.01) (56)对比文件 CN 111666993 A,2020.09.15 US 5568811 A,1996.10.29 CN 113344028 A,2021.09.0 3 审查员范鹏 (54)发明名称数据筛选方法、装置及计算机可读存储介质 (57)摘要本发明公开了一种数据筛选方法、装置及计算机可读存储介质，其中，所述数据筛选方法包括：获取由已标注超声数据组成的第一数据集；基于所述第一数据集训练主动学习模型，得到初始主动学习模型，所述主动学习模型包括动态搜索模块；获取由未标注超声数据组成的第二数据集，将所述第二数据集输入所述初始主动学习模型中，根据所述初始主动学习模型预测所述第二数据集中的目标数据，并基于所述目标数据生成第三数据集，其中，所述目标数据的数据量，大于所述第二数据集中除所述目标数据之外的其它数据的数据量。本发明旨在降低主动学习模型训练的成本，提高训练效率。权利要求书1页说明书9页附图2页 CN 114758197 B 2022.11.01 CN 114758197 B 1.一种数据筛选方法，其特征在于，所述数据筛选方法包括：获取由已标注乳腺超声数据组成的第一数据集；所述标注是在超声图像上确定出目标回归框，所述目标回归框标记到病灶和组织关键区域；获取初始训练集比例，根据所述初始训练集比例从所述第一数据集中确定训练数据；确定动量参数0.9、初始学习率1e ‑4和权重损失1e‑4；根据所述动量参数、所述初始学习率和所述权重损失确定S GD优化器的FocalLoss损失函数；根据主动学习模型的SGD优化器和所述训练数据训练所述主动学习模型；获取新增训练集比例0.05；根据所述新增训练集比例从所述第一数据集的未作为训练数据的超声数据中确定新增训练数据；将所述新增训练数据加入所述训练数据；根据所述优化器和新增后的所述训练数据训练所述主动学习模型；在训练结束后时，执行所述根据所述新增训练集比例从所述第一数据集的未作为训练数据的超声数据中确定新增训练数据步骤；在训练次数达到预设训练次数8次时，结束训练，得到初始主动学习模型，所述主动学习模型包括动态搜索模块；基于所述第一数据集训练主动学习模型，得到初始主动学习模型，所述主动学习模型包括动态搜索模块；基于所述动态搜索模块对不同的信息路径赋予不同的权重，针对第二数据集自行搜索合适的特征融合模块与表达模块，所述特征融合模块与所述表达模块用于确定第二数据集中每个超声数据的数据特征，所述数据特征用于确定不确定性置信度；获取由未标注超声数据组成的第二数据集，将所述第二数据集输入所述初始主动学习模型中，根据所述初始主动学习模型预测所述第二数据集中的目标数据，并基于所述目标数据生成第三数据集，其中，所述目标数据的数据量，大于所述第二数据集中除所述目标数据之外的其它数据的数据量，所述数据量指数据内出现复杂目标回归框的不确定性；获取由所述第三数据集进行数据标注后得到的第四数据集，并将所述第四数据集输入所述初始主动学习模型；基于所述第四数据集训练所述初始主动学习模型。 2.如权利要求1所述的数据筛选方法，其特征在于，所述根据所述初始主动学习模型预测所述第二数据集中的目标数据的步骤包括：确定所述第二数据集中每个超声数据的不确定性置信度；当所述超声数据的不确定性置信度大于预设阀值时，则所述超声数据为所述目标数据。 3.一种数据筛选装置，其特征在于，所述数据筛选装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据筛选程序，所述数据筛选程序被所述处理器执行时实现如权利要求1至2中任一项所述的数据筛选方法的步骤。 4.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有数据筛选程序，所述数据筛选程序被处理器执行时实现如权利要求 1至2中任一项所述的数据筛选方法的步骤。权　利　要　求　书 1/1 页 2 CN 114758197 B 2数据筛选方法、装置及计算机可读存储介质技术领域 [0001]本发明涉及超声技术领域，尤其涉及一种数据筛选方法、装置及计算机可读存储介质。背景技术 [0002]随着科技的发展，对乳腺超声数据的处理可以依靠主动学习模型，主动学习模型需要通过大量的数据对其进行训练，以此来提高主动学习模型整体的鲁棒性。 [0003]训练模型所需要的训练数据集对于模型整体的鲁棒性有至关重要的作用，乳腺超声数据存在标准数据获取难度大、数据标注成本高及乳腺结构组织复杂等难点，所以对于采集到的训练数据，一般会基于单张图像或者随机挑选图像进行人工标注，但是由于训练数据的难易程度不同，使用简单的训练数据训练主动学习模型会导致训练效果不好，训练效率太低。 [0004]上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。发明内容 [0005]本发明的主要目的在于提供一种数据筛选方法、装置及计算机可读存储介质，旨在达成降低主动学习模型训练的成本，提高训练效率的效果。 [0006]为实现上述目的，本发明提供一种数据筛选方法，所述数据筛选方法包括： [0007]获取由已标注超声数据组成的第一数据集； [0008]基于所述第一数据集训练主动学习模型，得到初始主动学习模型，所述主动学习模型包括动态搜索模块； [0009]获取由未标注超声数据组成的第二数据集，将所述第二数据集输入所述初始主动学习模型中，根据所述初始主动学习模型预测所述第二数据集中的目标数据，并基于所述目标数据生成第三数据集，其中，所述目标数据的数据量，大于所述第二数据集中除所述目标数据之外的其它数据的数据量。 [0010]可选地，所述基于所述目标数据生成第三数据集的步骤之后，还包括： [0011]获取由所述第三数据集进行数据标注后得到的第四数据集，并将所述第四数据集输入所述初始主动学习模型； [0012]基于所述第四数据集训练所述初始主动学习模型。 [0013]可选地，所述根据所述初始主动学习模型预测所述第二数据集中的目标数据的步骤包括： [0014]确定所述第二数据集中每个超声数据的不确定性置信度； [0015]当所述超声数据的不确定性置信度大于预设阀值时，则所述超声数据为所述目标数据。 [0016]可选地，所述确定所述第二数据集中每个超声数据的不确定性置信度的步骤包说　明　书 1/9 页 3 CN 114758197 B 3

专利 数据筛选方法、装置及计算机可读存储介质

专利数据筛选方法、装置及计算机可读存储介质