(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210685043.2
(22)申请日 2022.03.22
(62)分案原申请数据
202210279539.X 202 2.03.22
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 章成全 庾悦晨 李煜林 曹健健
钦夏孟 姚锟 韩钧宇 刘经拓
丁二锐 王井东
(74)专利代理 机构 北京同立钧成知识产权代理
有限公司 1 1205
专利代理师 马姣琴 臧建明
(51)Int.Cl.
G06V 30/19(2022.01)G06V 30/18(2022.01)
G06V 30/16(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06F 40/30(2020.01)
(54)发明名称
文本识别模 型的训练方法、 文本识别方法及
装置
(57)摘要
本公开提供了一种文本识别模型的训练方
法、 文本识别方法及装置, 涉及人工智 能技术领
域, 具体为深度学习、 计算机视觉技术领域, 可应
用于光学字符识别等场景。 方案为: 对获取到的
第一样本图像中的部分图像进行掩码预测, 得到
与第一样 本图像对应的预测完整图像, 对获取到
的第二样 本图像中的部分文本进行掩码预测, 得
到与部分文本对应的预测文本内容, 根据预测完
整图像和预测文本内容训练得到预训练模型, 并
根据预训练模 型生成文本识别模 型, 文本识别模
型用于对待识别图像进行文本识别, 使得预训练
模型学习到较强的图像视觉推理能力和文本语
义推理能力, 从而当基于预训练模 型生成的文本
识别模型进行文本识别时, 提高文本识别的准确
性和可靠性。
权利要求书4页 说明书14页 附图5页
CN 115035538 A
2022.09.09
CN 115035538 A
1.一种文本识别模型的训练方法, 其特 征在于, 包括:
对获取到的第 一样本图像中的部分图像进行掩码预测, 得到与 所述第一样本图像对应
的预测完整图像;
对获取到的第 二样本图像中的部分文本进行所述掩码预测, 得到与 所述部分文本对应
的预测文本内容, 其中, 所述第一样本图像和所述第二样本图像为 不同的图像;
根据所述预测完整图像和所述预测文本 内容训练得到预训练模型, 并根据所述预训练
模型生成文本识别模型, 其中, 所述文本识别模型用于对待识别图像进行文本识别。
2.根据权利要求1所述的方法, 其中, 所述第 一样本图像中的图像和所述第 二样本图像
中的文本所表征的内容 不同。
3.根据权利要求1所述的方法, 其中, 所述根据所述预训练模型生成文本识别模型, 包
括:
获取待识别任务和训练图像, 其中, 所述训练图像中包括文本;
根据所述待识别任务和所述训练图像, 对所述预训练模型进行训练, 得到所述文本识
别模型。
4.根据权利要求3所述的方法, 其中, 所述根据所述待识别任务和所述训练图像, 对所
述预训练模型进行训练, 得到所述文本识别模型, 包括:
将所述训练图像输入至所述预训练模型, 得到所述训练图像对应的多模态特征图, 其
中, 所述多模态特 征图用于表征 所述训练图像对应的图像特 征和语义特 征;
根据所述待识别任务和所述多模态特 征图, 生成所述文本识别模型。
5.根据权利要求4所述的方法, 其中, 所述根据所述待识别任务和所述多模态特征图,
生成所述文本识别模型, 包括:
根据所述多模态特 征图, 预测所述训练图像在所述待识别任务下的预测识别结果;
根据所述训练图像预设的真实识别结果、 以及所述预测识别结果, 构建所述文本识别
模型。
6.根据权利要求1 ‑5中任一项所述的方法, 其中, 所述掩码预测包括:
随机遮盖目标对象中的部分对象;
根据所述目标对象中未被遮盖的对象, 对所述目标对象中被遮盖的部分对象进行预
测, 得到预测结果;
其中, 若所述目标对象为第 一样本图像, 则所述目标对象中的部分对象为部分图像, 所
述预测结果为所述预测完整图像; 若所述 目标对象为第二样本图像, 则所述 目标对象中的
部分对象为部分文本, 所述预测结果 为所述预测文本内容。
7.根据权利要求6所述的方法, 其中, 根据所述目标对象中未被遮盖的对象, 对所述目
标对象中被遮盖的部分对象进行 预测, 得到预测结果, 包括:
提取所述目标对象中未被遮盖的对象对应的对象特 征, 得到第一对象特 征;
根据所述第一对象特征, 对所述目标对象中被遮盖的部分对象进行预测, 得到所述预
测结果;
其中, 若所述目标对象为第 一样本图像, 则所述第 一对象特征为第一视觉特征; 若所述
目标对象为第二样本图像, 则所述第一对象特 征为第一语义特 征。
8.根据权利要求7所述的方法, 其中, 所述目标对象为第一样本 图像, 所述第一对象特权 利 要 求 书 1/4 页
2
CN 115035538 A
2征为第一视觉特征; 所述根据所述第一对 象特征, 对所述 目标对象中被遮盖的部分对 象进
行预测, 得到所述预测结果, 包括
根据所述第一视觉特征, 预测所述第一样本图像中被遮盖的部分图像对应的视觉特
征, 得到第二视 觉特征;
根据所述第二视 觉特征, 确定所述第一样本图像中被遮盖的部分图像;
根据所述第 一样本图像中未被遮盖的图像、 以及确定出的所述第 一样本图像中被遮盖
的部分图像, 生成所述预测完整图像。
9.根据权利要求7或8所述的方法, 其中, 所述目标对象为第 二样本图像, 所述第 一对象
特征为第一语义特征; 所述根据所述第一对 象特征, 对所述 目标对象中被遮盖的部分对 象
进行预测, 得到所述预测结果, 包括:
根据所述第一语义特征, 预测所述第二样本图像中被遮盖的部分文本对应的语义特
征, 得到第二语义特 征;
根据所述第二语义特 征, 生成所述预测文本内容。
10.一种文本识别方法, 其特 征在于, 包括:
获取待识别图像, 其中, 所述待识别图像中包括文本;
基于预先训练 的文本识别模型对所述待识别图像进行文本识别, 得到所述待识别图像
中的文本内容;
其中, 所述文本识别模型 是基于如权利要求1 ‑9任一项所述的方法得到的。
11.根据权利要求10所述的方法, 其中, 基于预先训练的文本识别模型对所述待识别图
像进行文本识别, 得到所述待识别图像中的文本内容, 包括:
根据所述文本识别模型确定所述待识别图像的多模态特征图, 并根据 所述多模态特征
图确定所述待识别图像中的文本内容;
其中, 所述待识别图像的多模态特征图用于表征: 所述待识别图像的视觉特征和语义
特征。
12.一种文本识别模型的训练装置, 其特 征在于, 包括:
预测单元, 用于对获取到的第一样本 图像中的部分图像进行掩码预测, 得到与所述第
一样本图像对应的预测完整图像;
所述预测单元还用于, 对获取到的第二样本 图像中的部分文本进行所述掩码预测, 得
到与所述部分文本对应的预测文本内容, 其中, 所述第一样本图像和所述第二样本图像为
不同的图像;
训练单元, 用于根据所述预测完整图像和所述预测文本内容训练得到预训练模型;
生成单元, 用于根据 所述预训练模型生成文本识别模型, 其中, 所述文本识别模型用于
对待识别图像进行文本识别。
13.根据权利要求12所述的装置, 其中, 所述第 一样本图像中的图像和所述第 二样本图
像中的文本所表征的内容 不同。
14.根据权利要求12所述的装置, 其中, 所述 生成单元, 包括:
获取子单 元, 用于获取待识别任务和训练图像, 其中, 所述训练图像中包括文本;
训练子单元, 用于根据 所述待识别任务和所述训练图像, 对所述预训练模型进行训练,
得到所述文本识别模型。权 利 要 求 书 2/4 页
3
CN 115035538 A
3
专利 文本识别模型的训练方法、文本识别方法及装置
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:51:19上传分享