(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210263730.5 (22)申请日 2022.03.17 (71)申请人 上海亿保健康管理有限公司 地址 201800 上海市嘉定区沪宜公路1 185 号1幢17层1718室、 1720室 申请人 浙江大学 (72)发明人 李硕  (74)专利代理 机构 北京超凡志成知识产权代理 事务所(普通 合伙) 11371 专利代理师 王术兰 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/237(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称 模型训练、 字 符识别和样本生成方法、 装置、 电子设备及存 储介质 (57)摘要 本申请提供了模 型训练、 字 符识别和样 本生 成方法、 装置、 电子设备及存储介质。 该方法包 括: 获取训练集, 所述训练集包括通过自然语言 语料库中的语料生成的第一训练样 本, 以及通过 从单字字符库中随机获取的单字字符生成的第 二训练样 本; 利用所述第一训练样 本和所述第二 训练样本, 对待训练票据字符识别模型进行训 练, 以获取第一票据字符识别模型; 利用所述第 一训练样 本, 对所述第一票据字符识别模型进行 训练。 由于该第二训练样本通过从单字字符库中 随机获取的单字字符生成, 因此包含生僻字和低 频字的概率与第一训练样本相比相对较高, 进而 能够提高利用第二训练样本训练得到的模型, 对 生僻字和低频字识别结果的准确率。 权利要求书2页 说明书10页 附图4页 CN 114818677 A 2022.07.29 CN 114818677 A 1.一种票据字符识别模型的训练方法, 其特 征在于, 包括: 获取训练集, 所述训练集包括通过自然语言语料库中的语料生成的第一训练样本, 以 及通过从单字 字符库中随机获取的单字 字符生成的第二训练样本; 利用所述第一训练样本和所述第二训练样本, 对待训练票据字符识别模型进行训练, 以获取第一 票据字符识别模型; 利用所述第一训练样本, 对所述第一 票据字符识别模型进行训练。 2.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 从所述单字 字符库中随机获取一个或多个单字 字符; 将所获取的一个或多个单字 字符按随机顺序排列, 以生成单字 字符串; 利用所述单字 字符串生成所述第二训练样本 。 3.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 从所述自然语言语料库中随机获取语料; 将所获取的语料 结合票据底板背景图, 生成所述第一训练样本 。 4.根据权利要求1所述的方法, 其特征在于, 利用所述第 一训练样本和所述第 二训练样 本, 对待训练票据字符识别模型进行训练, 以获取第一 票据字符识别模型, 具体包括: 利用第二数量的第二训练样本, 对所述待训练票据字符识别模型进行训练, 以获取第 二票据字符识别模型; 利用第一数量的第一训练样本, 对所述第二票据字符识别模型进行训练, 以获取第一 票据字符识别模型, 其中, 所述第二数量大于所述第一数量。 5.根据权利要求1所述的方法, 其特 征在于, 所述待训练票据字符识别模型包括特征提取层、 与所述特征提取层连接的全连接层, 以及与所述全连接层连接的CTC解码层; 以及, 所述第一票据字符识别模型包括特征提取层、 与所述特征提取层连接的全连接层, 以 及与所述全连接层连接的CTC解码层。 6.根据权利要求5所述的方法, 其特征在于, 在利用所述第 一训练样本和所述第 二训练 样本, 对待训练票据字符识别模型进行训练时, 通过如下公式计算损失函数: LCTC=‑log(y' ) 其中, LCTC为所计算出的损失函数; y' 为所述待训练票据字符识别模型CTC解码层的输 出结果与样本标签相同的概 率。 7.根据权利要求5所述的方法, 其特征在于, 在利用所述第一训练样本, 对所述第一票 据字符识别模型进行训练时, 通过如下公式计算损失函数: LFocal_CTC=α×(1‑y' )γ×log(y' ) 其中, LFocal_CTC为所计算出的损失函数; y' 为所述第一票据字符识别模型CTC解码层的 输出结果与样本标签相同的概 率; α 和γ均为预设 常数。 8.一种基于权利要求1~7任意一项的方法, 所训练得到的票据字符识别模型的票据字 符识别方法, 其特 征在于, 包括: 利用所述 票据字符识别模型对票据中的字符进行识别。 9.一种训练样本生成方法, 其特 征在于, 包括: 从单字字符库中随机获取一个或多个单字 字符;权 利 要 求 书 1/2 页 2 CN 114818677 A 2将所获取的一个或多个单字 字符按随机顺序排列, 以生成单字 字符串; 利用所述单字字符串生成第二训练样本, 以用于对待训练票据字符识别模型进行训 练。 10.一种票据字符识别模型的训练装置, 其特 征在于, 包括: 训练集获取单元, 用于获取训练集, 所述训练集包括通过自然语言语料库中的语料生 成的第一训练样本, 以及通过从单字 字符库中随机获取的单字 字符生成的第二训练样本; 第一训练单元, 用于利用所述第一训练样本和所述第二训练样本, 对待训练票据字符 识别模型进行训练, 以获取第一 票据字符识别模型; 第二训练单 元, 用于利用所述第一训练样本, 对所述第一 票据字符识别模型进行训练。 11.一种票据字符识别装置, 其特征在于, 包括: 识别模块, 用于利用票据字符识别模型 对票据中的字符进行识别, 其中, 所述票据字符识别模型基于权利要求1~8任意一项的方 法训练得到 。 12.一种训练样本生成装置, 其特 征在于, 包括: 获取单元, 用于从单字 字符库中随机获取一个或多个单字 字符; 字符串生成单元, 用于将所获取的一个或多个单字字符按随机顺序排列, 以生成单字 字符串; 第二训练样本生成单元, 用于利用所述单字字符串生成第二训练样本, 以用于对待训 练票据字符识别模型进行训练。 13.一种电子设备, 其特 征在于, 包括: 存储器, 用以存 储计算机程序; 处理器, 用以执 行如权利要求1至9中任一项所述的方法。 14.一种存储介质, 其特征在于, 包括: 程序, 当其在电子设备上运行时, 使得电子设备 可执行如权利要求1至9中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114818677 A 3

.PDF文档 专利 模型训练、字符识别和样本生成方法、装置、电子设备及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 模型训练、字符识别和样本生成方法、装置、电子设备及存储介质 第 1 页 专利 模型训练、字符识别和样本生成方法、装置、电子设备及存储介质 第 2 页 专利 模型训练、字符识别和样本生成方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:51:34上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。