专利文本识别模型的训练方法、文本识别方法及装置 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210685043.2 (22)申请日 2022.03.22 (62)分案原申请数据 202210279539.X 202 2.03.22 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人章成全　庾悦晨　李煜林　曹健健　钦夏孟　姚锟　韩钧宇　刘经拓　丁二锐　王井东　 (74)专利代理机构北京同立钧成知识产权代理有限公司 1 1205 专利代理师马姣琴　臧建明 (51)Int.Cl. G06V 30/19(2022.01)G06V 30/18(2022.01) G06V 30/16(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/30(2020.01) (54)发明名称文本识别模型的训练方法、文本识别方法及装置 (57)摘要本公开提供了一种文本识别模型的训练方法、文本识别方法及装置，涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于光学字符识别等场景。方案为：对获取到的第一样本图像中的部分图像进行掩码预测，得到与第一样本图像对应的预测完整图像，对获取到的第二样本图像中的部分文本进行掩码预测，得到与部分文本对应的预测文本内容，根据预测完整图像和预测文本内容训练得到预训练模型，并根据预训练模型生成文本识别模型，文本识别模型用于对待识别图像进行文本识别，使得预训练模型学习到较强的图像视觉推理能力和文本语义推理能力，从而当基于预训练模型生成的文本识别模型进行文本识别时，提高文本识别的准确性和可靠性。权利要求书4页说明书14页附图5页 CN 115035538 A 2022.09.09 CN 115035538 A 1.一种文本识别模型的训练方法，其特征在于，包括：对获取到的第一样本图像中的部分图像进行掩码预测，得到与所述第一样本图像对应的预测完整图像；对获取到的第二样本图像中的部分文本进行所述掩码预测，得到与所述部分文本对应的预测文本内容，其中，所述第一样本图像和所述第二样本图像为不同的图像；根据所述预测完整图像和所述预测文本内容训练得到预训练模型，并根据所述预训练模型生成文本识别模型，其中，所述文本识别模型用于对待识别图像进行文本识别。 2.根据权利要求1所述的方法，其中，所述第一样本图像中的图像和所述第二样本图像中的文本所表征的内容不同。 3.根据权利要求1所述的方法，其中，所述根据所述预训练模型生成文本识别模型，包括：获取待识别任务和训练图像，其中，所述训练图像中包括文本；根据所述待识别任务和所述训练图像，对所述预训练模型进行训练，得到所述文本识别模型。 4.根据权利要求3所述的方法，其中，所述根据所述待识别任务和所述训练图像，对所述预训练模型进行训练，得到所述文本识别模型，包括：将所述训练图像输入至所述预训练模型，得到所述训练图像对应的多模态特征图，其中，所述多模态特征图用于表征所述训练图像对应的图像特征和语义特征；根据所述待识别任务和所述多模态特征图，生成所述文本识别模型。 5.根据权利要求4所述的方法，其中，所述根据所述待识别任务和所述多模态特征图，生成所述文本识别模型，包括：根据所述多模态特征图，预测所述训练图像在所述待识别任务下的预测识别结果；根据所述训练图像预设的真实识别结果、以及所述预测识别结果，构建所述文本识别模型。 6.根据权利要求1 ‑5中任一项所述的方法，其中，所述掩码预测包括：随机遮盖目标对象中的部分对象；根据所述目标对象中未被遮盖的对象，对所述目标对象中被遮盖的部分对象进行预测，得到预测结果；其中，若所述目标对象为第一样本图像，则所述目标对象中的部分对象为部分图像，所述预测结果为所述预测完整图像；若所述目标对象为第二样本图像，则所述目标对象中的部分对象为部分文本，所述预测结果为所述预测文本内容。 7.根据权利要求6所述的方法，其中，根据所述目标对象中未被遮盖的对象，对所述目标对象中被遮盖的部分对象进行预测，得到预测结果，包括：提取所述目标对象中未被遮盖的对象对应的对象特征，得到第一对象特征；根据所述第一对象特征，对所述目标对象中被遮盖的部分对象进行预测，得到所述预测结果；其中，若所述目标对象为第一样本图像，则所述第一对象特征为第一视觉特征；若所述目标对象为第二样本图像，则所述第一对象特征为第一语义特征。 8.根据权利要求7所述的方法，其中，所述目标对象为第一样本图像，所述第一对象特权　利　要　求　书 1/4 页 2 CN 115035538 A 2征为第一视觉特征；所述根据所述第一对象特征，对所述目标对象中被遮盖的部分对象进行预测，得到所述预测结果，包括根据所述第一视觉特征，预测所述第一样本图像中被遮盖的部分图像对应的视觉特征，得到第二视觉特征；根据所述第二视觉特征，确定所述第一样本图像中被遮盖的部分图像；根据所述第一样本图像中未被遮盖的图像、以及确定出的所述第一样本图像中被遮盖的部分图像，生成所述预测完整图像。 9.根据权利要求7或8所述的方法，其中，所述目标对象为第二样本图像，所述第一对象特征为第一语义特征；所述根据所述第一对象特征，对所述目标对象中被遮盖的部分对象进行预测，得到所述预测结果，包括：根据所述第一语义特征，预测所述第二样本图像中被遮盖的部分文本对应的语义特征，得到第二语义特征；根据所述第二语义特征，生成所述预测文本内容。 10.一种文本识别方法，其特征在于，包括：获取待识别图像，其中，所述待识别图像中包括文本；基于预先训练的文本识别模型对所述待识别图像进行文本识别，得到所述待识别图像中的文本内容；其中，所述文本识别模型是基于如权利要求1 ‑9任一项所述的方法得到的。 11.根据权利要求10所述的方法，其中，基于预先训练的文本识别模型对所述待识别图像进行文本识别，得到所述待识别图像中的文本内容，包括：根据所述文本识别模型确定所述待识别图像的多模态特征图，并根据所述多模态特征图确定所述待识别图像中的文本内容；其中，所述待识别图像的多模态特征图用于表征：所述待识别图像的视觉特征和语义特征。 12.一种文本识别模型的训练装置，其特征在于，包括：预测单元，用于对获取到的第一样本图像中的部分图像进行掩码预测，得到与所述第一样本图像对应的预测完整图像；所述预测单元还用于，对获取到的第二样本图像中的部分文本进行所述掩码预测，得到与所述部分文本对应的预测文本内容，其中，所述第一样本图像和所述第二样本图像为不同的图像；训练单元，用于根据所述预测完整图像和所述预测文本内容训练得到预训练模型；生成单元，用于根据所述预训练模型生成文本识别模型，其中，所述文本识别模型用于对待识别图像进行文本识别。 13.根据权利要求12所述的装置，其中，所述第一样本图像中的图像和所述第二样本图像中的文本所表征的内容不同。 14.根据权利要求12所述的装置，其中，所述生成单元，包括：获取子单元，用于获取待识别任务和训练图像，其中，所述训练图像中包括文本；训练子单元，用于根据所述待识别任务和所述训练图像，对所述预训练模型进行训练，得到所述文本识别模型。权　利　要　求　书 2/4 页 3 CN 115035538 A 3

专利 文本识别模型的训练方法、文本识别方法及装置

专利文本识别模型的训练方法、文本识别方法及装置