国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210377461.5 (22)申请日 2022.04.11 (71)申请人 深圳市星桐科技有限公司 地址 518027 广东省深圳市福田区华强北 街道福强社区红荔路2001号四川大厦 A座1413 (72)发明人 秦勇 (74)专利代理 机构 北京开阳星知识产权代理有 限公司 1 1710 专利代理师 范彦扬 (51)Int.Cl. G06V 30/40(2022.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 30/10(2022.01) (54)发明名称 多行文本识别方法、 装置、 设备及 介质 (57)摘要 本公开提供一种多行文本识别方法、 装置、 设备及介质, 其中该方法包括: 将待处理的多行 文本图像输入至预先训练得到的多行文本识别 模型; 其中, 所述多行文本识别模型包括特征提 取网络和解码网络; 通过所述特征提取网络对所 述多行文本图像进行特征提取, 得到携带有语义 信息的图像特征; 通过所述解码网络对所述图像 特征进行多行解码得到第一解码结果, 以及对所 述图像特征进行多列解码得到第二解码结果, 并 根据所述第一解码结果和所述第二解码结果得 到多行文本识别结果。 上述方式能够直接对多行 文本图像进行整体识别, 可以有效提升多行文本 识别效率。 权利要求书4页 说明书16页 附图4页 CN 114581926 A 2022.06.03 CN 114581926 A 1.一种多行文本识别方法, 包括: 将待处理的多行文本 图像输入至预先训练得到的多行文本识别模型; 其中, 所述多行 文本识别模型包括特 征提取网络和解码网络; 通过所述特征提取网络对所述多行文本图像进行特征提取, 得到携带有语义信 息的图 像特征; 通过所述解码网络对所述图像特征进行多行解码得到第 一解码结果, 以及对所述图像 特征进行多列解码得到第二解码结果, 并根据所述第一解码结果和所述第二解码结果得到 多行文本识别结果。 2.如权利要求1所述的多行文本识别方法, 其中, 所述特征提取网络包括第 一特征提取 子网络和第二特 征提取子网络; 通过所述特征提取网络对所述多行文本图像进行特征提取, 得到携带有语义信 息的图 像特征的步骤, 包括: 通过所述第 一特征提取子网络对所述多行文本图像进行浅层特征提取, 得到第 一特征 向量; 通过所述第 二特征提取子网络基于所述第 一特征向量进行深层特征提取, 得到第 二特 征向量; 所述第二特征向量为携带有语义信息的图像特征, 且所述第二特征向量与所述第 一特征向量的尺寸相同。 3.如权利要求2所述的多行文本识别方法, 其中, 所述尺寸中的高参数为预设的最大可 识别行数, 所述尺寸中的宽参数为预设的每行 可包含最大字符数。 4.如权利要求2所述的多行文本识别方法, 其中, 所述第 二特征提取子网络包括基于注 意力机制的编码器, 且所述基于注意力机制的编码器是基于Tr ansformer编码器构建得到 的。 5.如权利要求4所述的多行文本识别方法, 其中, 所述基于注意力 机制的编码器是将所 述Transformer编码器中所包含的编码器数量进行缩减, 且剔除每个所述编码器中的层归 一化单元得到的。 6.如权利要求4所述的多行文本识别方法, 其中, 所述第 二特征提取子网络还包含与 所 述基于注意力机制的编码 器相连的双向LSTM网络, 且 所述双向LSTM网络和所述基于注意力 机制的编码器均 与所述第一特 征提取子网络相连; 通过所述第 二特征提取子网络基于所述第 一特征向量进行深层特征提取, 得到第 二特 征向量的步骤, 包括: 将所述第一特征向量输入至所述双向LSTM 网络, 得到所述双向LSTM 网络输出的特征向 量, 并将所述双向LSTM网络输出的特征向量作为所述基于注意力机制的编码器的位置编 码; 通过所述基于注意力机制的编码器根据所述位置编码和所述第一特征向量进行深层 特征提取, 得到第二特 征向量。 7.如权利要求2所述的多行文本识别方法, 其中, 所述第 一特征提取子网络包括残差网 络。 8.如权利要求1至7任一项所述的多行文本识别方法, 其中, 所述解码网络包括第一CTC 解码器和第二CTC解码器; 所述第一CTC解码器和所述第二CTC解码器均包含多个并列的全权 利 要 求 书 1/4 页 2 CN 114581926 A 2连接层, 且所述第一CTC解码器中的全连接层的数量为预设的最大可识别行数, 所述第二 CTC解码器中的全连接层的数量 为预设的每行 可包含最大字符数; 通过所述解码网络对所述图像特征进行多行解码得到第一解码结果, 以及, 对所述图 像特征进行多列解码得到第二 解码结果包括: 通过所述第一CTC解码器对所述图像特征进行多行解码得到第一字符概率矩阵, 将所 述第一字符概 率矩阵作为第一 解码结果; 通过所述第二CTC解码器对所述图像特征进行多列解码得到第二字符概率矩阵, 将所 述第二字符概 率矩阵作为第二 解码结果。 9.如权利要求8所述的多行文本识别方法, 其中, 根据所述第 一解码结果和所述第 二解 码结果得到多行文本识别结果的步骤, 包括: 将所述第一字符概率矩阵和所述第 二字符概率矩阵按照指定方式进行融合, 得到最终 字符概率矩阵; 根据所述 最终字符概 率矩阵得到多行文本识别结果。 10.如权利要求9所述的多行文本识别方法, 其中, 将所述第一字符概率矩阵和所述第 二字符概 率矩阵按照指定方式进行融合, 得到最终字符概 率矩阵的步骤, 包括: 获取所述第一字符概 率矩阵的第一权 重以及所述第二字符概 率矩阵的第二权 重; 根据所述第 一权重和所述第 二权重, 对所述第 一字符概率矩阵和所述第 二字符概率矩 阵进行逐点加权平均处 理, 得到最终字符概 率矩阵。 11.如权利要求9所述的多行文本识别方法, 其中, 根据所述最终字符概率矩阵得到多 行文本识别结果的步骤, 包括: 通过贪心搜索算法或集束搜索算法对所述最终字符概率矩阵进行字符解码, 得到所述 多行文本图像中的文本 字符串, 并将所述文本 字符串作为多行文本识别结果。 12.如权利要求8所述的多行文本识别方法, 其中, 根据所述第一解码结果和所述第二 解码结果得到多行文本识别结果的步骤, 包括: 对所述第 一字符概率矩阵进行字符解码, 得到第 一字符串; 以及, 对所述第 二字符概率 矩阵进行字符解码, 得到第二字符串; 从所述第一字符串和所述第 二字符串中选取一个字符串作为纠错字符串, 另一个字符 串作为目标字符串; 采用所述纠 错字符串对所述目标字符串进行修正, 得到最终字符串, 并将所述最终字 符串作为多行文本识别结果。 13.如权利要求12所述的多行文本识别方法, 其中, 所述第一字符串为目标字符串, 所 述第二字符串为纠错字符串; 采用所述纠错字符串对所述 目标字符串进行修正的步骤, 包 括: 对于所述目标字符串中的每一列, 判断该列内的字符与 所述纠错字符串中相应列内的 字符不一致的数量是否超过 预设第一阈值; 在超过所述预设第一阈值的情况 下, 采用所述纠错字符串中相应列整体替换 该列。 14.如权利要求12所述的多行文本识别方法, 其中, 所述第一字符串为纠 错字符串, 所 述第二字符串为目标字符串; 采用所述纠错字符串对所述 目标字符串进行修正的步骤, 包 括:权 利 要 求 书 2/4 页 3 CN 114581926 A 3
专利 多行文本识别方法、装置、设备及介质
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:50:09
上传分享
举报
下载
原文档
(717.1 KB)
分享
友情链接
GB-T 39853.1-2021 供电系统中的电能质量测量 第1部分:电能质量监测设备(PQI).pdf
中国大模型发展研究报告(2024)(1).pdf
GB-T 19713-2005 信息技术 安全技术 公钥基础设施 在线证书状态协议.pdf
GB-T 9634.8-2018 铁氧体磁心 表面缺陷极限导则 第8部分:PQ型磁心.pdf
YD-T 4177.3-2022 移动互联网应用程序(APP)收集使用个人信息最小必要评估规范 第3部分:图片信息.pdf
GB-T 20169-2015 离子型稀土矿混合稀土氧化物.pdf
GB-T 36630.3-2018 信息安全技术 信息技术产品安全可控评价指标 第3部分:操作系统.pdf
GB-T 17903.1-2024 信息技术 安全技术 抗抵赖 第1部分:概述.pdf
GB-T 32386-2015 电子工业用气体 六氟化钨.pdf
GB-Z 29830.3-2013 信息技术 安全技术 信息技术安全保障框架 第3部分:保障方法分析.pdf
GB-T 42137-2022 离散型智能制造能力建设指南.pdf
GB-T 21697-2022 低压配电线路和电子系统中雷电过电压的绝缘配合.pdf
T-SHJNXH 0008—2021 镁基氢化物固态储运氢系统技术要求.pdf
GB-T 5048-2017 防潮包装.pdf
T-HAEPI 08—2023 核技术利用单位辐射事故应急预案编制指南.pdf
GB-T 8878-2023 针织内衣.pdf
GB-T 10067.47-2014 电热装置基本技术条件 第47部分:真空热处理和钎焊炉.pdf
GB-T 36475-2018 软件产品分类.pdf
GB-T 24353-2009 风险管理 原则与实施指南.pdf
T-GERS 0020—2023 供气企业诚信计量管理规范.pdf
1
/
3
25
评价文档
赞助2.5元 点击下载(717.1 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。