(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210375908.5 (22)申请日 2022.04.11 (71)申请人 华南理工大 学 地址 510641 广东省广州市天河区五山路 381号 (72)发明人 廖倩颖 梁凌宇 金连文  (74)专利代理 机构 北京盛询知识产权代理有限 公司 11901 专利代理师 陈巍 (51)Int.Cl. G06V 20/62(2022.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 30/19(2022.01) (54)发明名称 一种基于语义增强机制的场景文本识别方 法及系统 (57)摘要 本发明公开一种基于语义增强机制的场景 文本识别方法及系统, 包括获取场景文本图像, 对场景文本图像进行校正, 对 校正后的场景文本 图像进行特征提取, 获取视觉特征, 基于视觉特 征提取全局语义信息, 基于全局语义信息, 对视 觉特征进行解码转录, 得到场景文本识别字符串 结果。 通过上述技术方案, 本发明使场景文本图 像的识别能够更加准确。 权利要求书2页 说明书6页 附图2页 CN 114581905 A 2022.06.03 CN 114581905 A 1.一种基于语义增强机制的场景文本识别方法, 其特 征在于, 包括: 获取场景文本 图像, 对场景文本 图像进行校正, 对校正后的场景文本 图像进行特征提 取, 获取视觉特征, 基于视觉特征提取全局语义信息, 基于全局语义信息, 对视觉特征进行 解码转录, 得到场景文本识别字符串结果。 2.根据权利要求1所述基于语义增强机制的场景文本识别方法, 其特 征在于: 对所述场景文本图像进行 校正的过程包括: 对所述场景文本图像进行 预测, 获取场景文本图像对应的仿射变换矩阵; 基于所述仿射变换矩阵, 对场景文本图像进行空间变换, 得到采样网格, 基于采样网 格, 对场景文本图像进行采样, 得到校正后的场景文本图像, 其中空间变换包括旋转、 缩放 和平移。 3.根据权利要求1所述基于语义增强机制的场景文本识别方法, 其特 征在于: 对校正后的场景文本图像进行 特征提取的过程包括: 将所述校正后的场景文本图像进行二维视觉特征提取, 并对二维视觉特征提取结果进 行上下文建模, 获取视 觉特征。 4.根据权利要求1所述基于语义增强机制的场景文本识别方法, 其特 征在于: 所述全局语义信息的提取 过程包括: 将所述视觉特征从视觉空间映射到语言空间, 对语音空间中的视觉特征进行预测, 得 到全局语义信息 。 5.根据权利要求1所述基于语义增强机制的场景文本识别方法, 其特 征在于: 对视觉特征进行解码转录的过程包括: 将所述全局语义信息作为初始向量, 基于初始向量, 对所述视觉特征进行逐步解码获 取字符向量, 将所述字符向量进行转录, 得到场景文本识别字符串结果。 6.根据权利要求1 ‑5任一项所述基于语义增强机制的场景文本识别方法的识别系统, 其特征在于, 包括: 文本校正器、 特 征编码器、 语义增强器、 序列解码器; 所述文本矫 正器用于获取场景文本图像, 对场景文本图像进行 校正, 所述特征编码器用于对校正后的场景文本图像进行 特征提取, 获取视 觉特征, 所述语义增强器 基于视觉特征提取全局语义信息, 所述序列解码器基于全局语义信息, 对视觉特征进行解码转录, 得到场景文本识别字 符串结果。 7.根据权利要求6所述基于语义增强机制的场景文本识别系统, 其特 征在于: 所述文本矫 正器包括定位网络、 网格生成器及采样器; 所述定位网络用于对所述场景文本图像进行预测, 获取场景文本图像对应的仿射变换 矩阵; 所述网格生成器基于所述仿射变换矩阵, 对场景文本 图像进行空间变换, 生成采样网 格; 所述采样器 基于采样网络, 对场景文本图像进行采样, 得到校正后的场景文本图像。 8.根据权利要求6所述基于语义增强机制的场景文本识别系统, 其特 征在于: 所述特征编码器采用卷积神经网络结构及基于自注意力的网络结构; 所述卷积神经网络结构用于将所述校正后的场景文本图像进行二维视 觉特征提取;权 利 要 求 书 1/2 页 2 CN 114581905 A 2基于自注意力的网络结构用于对二维视觉特征提取结果进行上下文建模, 获取视觉特 征。 9.根据权利要求6所述基于语义增强机制的场景文本识别系统, 其特 征在于: 所述语义增强器采用卷积和循环神经网络结构; 所述卷积和循环神经网络结构用于将所述视觉特征从视觉空间 映射到语言空间, 对语 音空间中的视 觉特征进行预测, 得到全局语义信息 。 10.根据权利要求6所述基于语义增强机制的场景文本识别系统, 其特 征在于: 所述序列解码器采用Transformer结构的解码器; 采用Transformer结构的解码器用于将所述全局语义信息作为初始向量, 基于初始 向 量, 对所述视觉特征进 行逐步解码获取字符向量, 将所述字符向量进 行转录, 得到场景文本 识别字符串结果。权 利 要 求 书 2/2 页 3 CN 114581905 A 3

.PDF文档 专利 一种基于语义增强机制的场景文本识别方法及系统

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于语义增强机制的场景文本识别方法及系统 第 1 页 专利 一种基于语义增强机制的场景文本识别方法及系统 第 2 页 专利 一种基于语义增强机制的场景文本识别方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:55上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。