(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210377461.5 (22)申请日 2022.04.11 (71)申请人 深圳市星桐科技有限公司 地址 518027 广东省深圳市福田区华强北 街道福强社区红荔路2001号四川大厦 A座1413 (72)发明人 秦勇  (74)专利代理 机构 北京开阳星知识产权代理有 限公司 1 1710 专利代理师 范彦扬 (51)Int.Cl. G06V 30/40(2022.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 30/10(2022.01) (54)发明名称 多行文本识别方法、 装置、 设备及 介质 (57)摘要 本公开提供一种多行文本识别方法、 装置、 设备及介质, 其中该方法包括: 将待处理的多行 文本图像输入至预先训练得到的多行文本识别 模型; 其中, 所述多行文本识别模型包括特征提 取网络和解码网络; 通过所述特征提取网络对所 述多行文本图像进行特征提取, 得到携带有语义 信息的图像特征; 通过所述解码网络对所述图像 特征进行多行解码得到第一解码结果, 以及对所 述图像特征进行多列解码得到第二解码结果, 并 根据所述第一解码结果和所述第二解码结果得 到多行文本识别结果。 上述方式能够直接对多行 文本图像进行整体识别, 可以有效提升多行文本 识别效率。 权利要求书4页 说明书16页 附图4页 CN 114581926 A 2022.06.03 CN 114581926 A 1.一种多行文本识别方法, 包括: 将待处理的多行文本 图像输入至预先训练得到的多行文本识别模型; 其中, 所述多行 文本识别模型包括特 征提取网络和解码网络; 通过所述特征提取网络对所述多行文本图像进行特征提取, 得到携带有语义信 息的图 像特征; 通过所述解码网络对所述图像特征进行多行解码得到第 一解码结果, 以及对所述图像 特征进行多列解码得到第二解码结果, 并根据所述第一解码结果和所述第二解码结果得到 多行文本识别结果。 2.如权利要求1所述的多行文本识别方法, 其中, 所述特征提取网络包括第 一特征提取 子网络和第二特 征提取子网络; 通过所述特征提取网络对所述多行文本图像进行特征提取, 得到携带有语义信 息的图 像特征的步骤, 包括: 通过所述第 一特征提取子网络对所述多行文本图像进行浅层特征提取, 得到第 一特征 向量; 通过所述第 二特征提取子网络基于所述第 一特征向量进行深层特征提取, 得到第 二特 征向量; 所述第二特征向量为携带有语义信息的图像特征, 且所述第二特征向量与所述第 一特征向量的尺寸相同。 3.如权利要求2所述的多行文本识别方法, 其中, 所述尺寸中的高参数为预设的最大可 识别行数, 所述尺寸中的宽参数为预设的每行 可包含最大字符数。 4.如权利要求2所述的多行文本识别方法, 其中, 所述第 二特征提取子网络包括基于注 意力机制的编码器, 且所述基于注意力机制的编码器是基于Tr ansformer编码器构建得到 的。 5.如权利要求4所述的多行文本识别方法, 其中, 所述基于注意力 机制的编码器是将所 述Transformer编码器中所包含的编码器数量进行缩减, 且剔除每个所述编码器中的层归 一化单元得到的。 6.如权利要求4所述的多行文本识别方法, 其中, 所述第 二特征提取子网络还包含与 所 述基于注意力机制的编码 器相连的双向LSTM网络, 且 所述双向LSTM网络和所述基于注意力 机制的编码器均 与所述第一特 征提取子网络相连; 通过所述第 二特征提取子网络基于所述第 一特征向量进行深层特征提取, 得到第 二特 征向量的步骤, 包括: 将所述第一特征向量输入至所述双向LSTM 网络, 得到所述双向LSTM 网络输出的特征向 量, 并将所述双向LSTM网络输出的特征向量作为所述基于注意力机制的编码器的位置编 码; 通过所述基于注意力机制的编码器根据所述位置编码和所述第一特征向量进行深层 特征提取, 得到第二特 征向量。 7.如权利要求2所述的多行文本识别方法, 其中, 所述第 一特征提取子网络包括残差网 络。 8.如权利要求1至7任一项所述的多行文本识别方法, 其中, 所述解码网络包括第一CTC 解码器和第二CTC解码器; 所述第一CTC解码器和所述第二CTC解码器均包含多个并列的全权 利 要 求 书 1/4 页 2 CN 114581926 A 2连接层, 且所述第一CTC解码器中的全连接层的数量为预设的最大可识别行数, 所述第二 CTC解码器中的全连接层的数量 为预设的每行 可包含最大字符数; 通过所述解码网络对所述图像特征进行多行解码得到第一解码结果, 以及, 对所述图 像特征进行多列解码得到第二 解码结果包括: 通过所述第一CTC解码器对所述图像特征进行多行解码得到第一字符概率矩阵, 将所 述第一字符概 率矩阵作为第一 解码结果; 通过所述第二CTC解码器对所述图像特征进行多列解码得到第二字符概率矩阵, 将所 述第二字符概 率矩阵作为第二 解码结果。 9.如权利要求8所述的多行文本识别方法, 其中, 根据所述第 一解码结果和所述第 二解 码结果得到多行文本识别结果的步骤, 包括: 将所述第一字符概率矩阵和所述第 二字符概率矩阵按照指定方式进行融合, 得到最终 字符概率矩阵; 根据所述 最终字符概 率矩阵得到多行文本识别结果。 10.如权利要求9所述的多行文本识别方法, 其中, 将所述第一字符概率矩阵和所述第 二字符概 率矩阵按照指定方式进行融合, 得到最终字符概 率矩阵的步骤, 包括: 获取所述第一字符概 率矩阵的第一权 重以及所述第二字符概 率矩阵的第二权 重; 根据所述第 一权重和所述第 二权重, 对所述第 一字符概率矩阵和所述第 二字符概率矩 阵进行逐点加权平均处 理, 得到最终字符概 率矩阵。 11.如权利要求9所述的多行文本识别方法, 其中, 根据所述最终字符概率矩阵得到多 行文本识别结果的步骤, 包括: 通过贪心搜索算法或集束搜索算法对所述最终字符概率矩阵进行字符解码, 得到所述 多行文本图像中的文本 字符串, 并将所述文本 字符串作为多行文本识别结果。 12.如权利要求8所述的多行文本识别方法, 其中, 根据所述第一解码结果和所述第二 解码结果得到多行文本识别结果的步骤, 包括: 对所述第 一字符概率矩阵进行字符解码, 得到第 一字符串; 以及, 对所述第 二字符概率 矩阵进行字符解码, 得到第二字符串; 从所述第一字符串和所述第 二字符串中选取一个字符串作为纠错字符串, 另一个字符 串作为目标字符串; 采用所述纠 错字符串对所述目标字符串进行修正, 得到最终字符串, 并将所述最终字 符串作为多行文本识别结果。 13.如权利要求12所述的多行文本识别方法, 其中, 所述第一字符串为目标字符串, 所 述第二字符串为纠错字符串; 采用所述纠错字符串对所述 目标字符串进行修正的步骤, 包 括: 对于所述目标字符串中的每一列, 判断该列内的字符与 所述纠错字符串中相应列内的 字符不一致的数量是否超过 预设第一阈值; 在超过所述预设第一阈值的情况 下, 采用所述纠错字符串中相应列整体替换 该列。 14.如权利要求12所述的多行文本识别方法, 其中, 所述第一字符串为纠 错字符串, 所 述第二字符串为目标字符串; 采用所述纠错字符串对所述 目标字符串进行修正的步骤, 包 括:权 利 要 求 书 2/4 页 3 CN 114581926 A 3

.PDF文档 专利 多行文本识别方法、装置、设备及介质

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 多行文本识别方法、装置、设备及介质 第 1 页 专利 多行文本识别方法、装置、设备及介质 第 2 页 专利 多行文本识别方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:50:09上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。