(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210864937.8
(22)申请日 2022.07.21
(71)申请人 平安银行股份有限公司
地址 518000 广东省深圳市罗湖区深南 东
路5047号
(72)发明人 柳阳
(74)专利代理 机构 深圳紫藤知识产权代理有限
公司 44570
专利代理师 王瑶
(51)Int.Cl.
G06V 30/19(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06T 3/40(2006.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
G06N 5/04(2006.01)
(54)发明名称
基于OCR的文本识别方法、 装置、 存储介质及
电子设备
(57)摘要
本发明公开了一种基于OCR的文本识别方
法、 装置、 存储介质及电子设备, 该文本识别方法
包括: 获取文本图像样本集、 以及对应的文本标
签和超分辨率图像样本; 利用文本图像样本集、
文本标签和超分辨率图像样本, 对 预先构建的文
本识别网络和超分辨率网络进行训练, 其中, 文
本识别网络包括第一损失函数, 超分辨率网络包
括第二损失函数, 且文本识别网络和超分辨率网
络包括至少一个共享的子网络; 在训练过程中,
根据第一损失函数和第二损失函数, 对文本识别
网络和超分辨率网络的网络参数进行调整; 当训
练完成时, 利用已训练的文本识别网络进行文本
识别, 从而能较好地识别低质量文本图像, 有效
提高了文本图像的识别精准 性和识别效果。
权利要求书2页 说明书13页 附图3页
CN 115188000 A
2022.10.14
CN 115188000 A
1.一种基于OCR的文本识别方法, 其特 征在于, 包括:
获取文本图像样本集、 以及所述文本图像样本集中每张文本图像样本对应的文本标签
和超分辨 率图像样本;
利用所述文本 图像样本集、 所述文本标签和所述超分辨率图像样本, 对预先构建的文
本识别网络和超分辨率网络进行训练, 所述文本识别网络包括第一损失函数, 所述超分辨
率网络包括第二损失函数, 且所述文本识别网络和所述超分辨率网络包括至少一个共享的
子网络;
在训练过程中, 根据所述第一损 失函数和所述第二损 失函数, 对所述文本识别网络和
所述超分辨 率网络的网络参数进行调整;
当训练完成时, 利用已训练的所述文本识别网络对待识别的文本图像进行文本识别。
2.根据权利要求1所述的文本识别方法, 其特征在于, 所述文本识别网络包括相连接的
特征提取子网络和特征识别子网络, 所述超分辨率网络包括相连接的所述特征提取子网络
和超分辨率子网络, 所述利用所述文本图像样本集、 所述文本标签和所述超分辨率图像样
本, 对预先构建的文本识别网络和超分辨 率网络进行训练, 包括:
通过所述特征提取子网络, 确定每张所述文本图像样本对应的特 征图;
通过所述超分辨 率子网络, 生成所述特 征图对应的预测图像结果;
通过所述特征识别子网络, 生成所述特 征图对应的预测文本结果;
根据所述预测图像结果、 所述预测文本结果、 所述文本标签、 所述超分辨率图像样本、
所述第一损失函数和所述第二损失函数, 对所述文本识别网络和所述超分辨率网络进 行参
数调整。
3.根据权利要求2所述的文本识别方法, 其特征在于, 所述根据所述预测图像结果、 所
述预测文本结果、 所述文本标签、 所述超分辨率图像样本、 所述第一损失函数和所述第二损
失函数, 对所述文本识别网络和所述超分辨 率网络进行参数调整, 包括:
根据所述第一损失函数、 所述预测文本结果和所述文本标签, 计算第一 误差值;
根据所述第二损 失函数、 所述预测图像结果和所述超分辨率图像样本, 计算第二误差
值;
利用公式L=Lrec +λLsr计算总误差值, 其中, L为所述总 误差值, Lrec为所述第一误差值,
Lsr为所述第二 误差值, λ为超参数;
根据所述总误差值反向调整所述文本识别网络和所述超分辨 率网络的网络参数。
4.根据权利要求2所述的文本识别方法, 其特征在于, 所述特征提取子网络包括第 一特
征提取块、 级联的多个残差块以及特征增强块, 所述通过所述特征提取子网络, 确定每张所
述文本图像样本对应的特 征图, 包括:
通过所述第一特 征提取块, 确定每张所述文本图像样本对应的第一浅层特 征图;
通过所述多个残差块, 对所述第一浅层特 征图进行处 理;
通过所述特征增强块, 获取每个所述残差块处理后输出的残差特征图, 并分别对所述
第一浅层特征图和所述残差特征图进行下采样, 得到对应的下采样特征图, 之后对所有所
述下采样特 征图进行通道融合, 得到所述文本图像样本对应的特 征图。
5.根据权利要求4所述的文本识别方法, 其特征在于, 所述文本识别网络和所述超分辨
率网络均还包括与所述特征提取子网络连接的文本矫正子网络, 在通过所述第一特征提取权 利 要 求 书 1/2 页
2
CN 115188000 A
2块, 确定每张所述文本图像样本对应的第一浅层特 征图之前, 还 包括:
通过所述文本矫正子网络, 确定每张所述文本 图像样本上的多个关键点信息, 并根据
预设插值 算法和所述关键点信息, 对所述文本图像样本进行矫 正, 以得到对应的矫 正图像;
所述通过所述第一特征提取块, 确定每张所述文本 图像样本对应的第一浅层特征图,
具体包括: 通过所述特征提取子网络, 对每张所述矫正图像进 行浅层特征提取, 得到第一浅
层特征图。
6.根据权利要求2所述的文本识别方法, 其特征在于, 所述超分辨率子网络包括第 二特
征提取块、 级联的多个序列 残差块以及像素重组块, 所述通过所述超分辨率子网络, 生 成所
述特征图对应的预测图像结果, 包括:
生成所述文本图像样本对应的二 值化图;
对所述特 征图和所述 二值化图进行通道融合, 以生成融合特 征图;
通过所述第二特 征提取块, 确定所述融合特 征图对应的第二浅层特 征图;
通过所述序列残差块, 对所述第二浅层特 征图进行处 理, 得到深层特 征图;
通过所述像素重组块, 对所述深层特征图和所述第二浅层特征图进行像素重组, 得到
对应的预测图像结果。
7.根据权利要求6所述的文本识别方法, 其特征在于, 所述超分辨率子网络还包括中心
对齐块, 在通过所述第二特征提取块, 确定所述融合特征图对应的第二浅层特征图之前, 还
包括:
通过所述中心对齐块, 生成所述融合特 征图对应的对齐特 征图;
所述通过所述第 二特征提取块, 确定所述融合特征图对应的第二浅层特征图, 包括: 通
过所述第二特 征提取块, 从所述对齐特 征图中进行浅层特 征提取, 得到第二浅层特 征图。
8.一种基于OCR的文本识别装置, 其特 征在于, 包括:
获取单元, 用于获取文本 图像样本集、 以及所述文本 图像样本集中每张文本 图像样本
对应的文本标签和超分辨 率图像样本;
训练单元, 用于利用所述文本图像样本集、 所述文本标签和所述超分辨率图像样本, 对
预先构建的文本识别网络和超分辨率网络进行训练, 所述文本识别网络包括第一损失函
数, 所述超分辨率网络包括第二损失函数, 且所述文本识别网络和所述超分辨率网络包括
至少一个共享的子网络; 在训练过程中, 根据所述第一损失函数和所述第二损失函数, 对所
述文本识别网络和所述超分辨 率网络的网络参数进行调整;
识别单元, 用于当训练完成时, 利用已训练的所述文本识别网络对待识别的文本 图像
进行文本识别。
9.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质中存储有多条指
令, 所述指令适于由处理器加载以执行权利要求1至7中任一项所述的基于OCR的文本识别
方法。
10.一种电子设备, 其特征在于, 包括耦合的存储器和 处理器, 所述存储器存储内有计
算机程序, 所述处理器用于运行所述存储器内的所述计算机程序, 以执行权利要求1至7中
任一项所述的基于OCR的文本识别方法中的步骤。权 利 要 求 书 2/2 页
3
CN 115188000 A
3
专利 基于OCR的文本识别方法、装置、存储介质及电子设备
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:29:18上传分享