(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210409869.6 (22)申请日 2022.04.19 (71)申请人 南京烽火星空通信发展 有限公司 地址 210019 江苏省南京市 建邺区云龙山 路88号烽火科技大厦A栋26F (72)发明人 李春霞 董文君 郭涛远 王康  朱和军  (74)专利代理 机构 南京经纬专利商标代理有限 公司 32200 专利代理师 陆志斌 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 一种基于Bert的护照版面分析方法 (57)摘要 本发明公开了一种基于Bert的护照版面分 析方法, 采用 “预训练+精调 ”的自然语言处理新 范式, 基于 大规模无标注语料库训练出一个Bert 预训练语言模型, 其中的NSP预训练任务可以学 到通用的文本语义表示, 将Bert预训练语言模型 作为可训练的特征抽取器, 应用到有监督的下游 任务中, 并参与下游任务的训练, 之后根据具体 的护照文本分类任务, 使用护照文本数据进行精 调, 训练得到一个基于Bert 的文本分类模型。 本 发明输出结构化后的文本内容, 使用文本的语义 表示进行文本分类, 可以不用受限于版面类型和 应用场景, 实现任意版面及通用场景下的护照版 面分析, 并可以将此方法应用于其它类型的证 件。 权利要求书2页 说明书7页 附图2页 CN 115048511 A 2022.09.13 CN 115048511 A 1.一种基于B ert的护照版面分析方法, 包括基于大规模无标注语料库训练出Bert预训 练语言模型, Bert预训练过程包括两个基本的预训练任务: 整词掩码 语言模型WWM和下一个 句子预测NS P, 其特征在于: 所述词掩码语言模型W WM的建模方法包括如下步骤: 步骤1、 对输入文本序列进行掩码处理, 采用15%的掩码比例, 即输入文本序列中15% 的token会被掩码; 步骤2、 tokenization处理, 对经过掩码处理后的文本序列添加特殊标记、 进行补齐、 截 断操作后得到输入文本序列, 如果输入文本序列T的长度n小于Bert的最大序列长度N, N= 128, 则需要将补齐标记[PAD]拼接在输入文本序列后以达到Bert的最大序列长度N; 反之, 如果输入文本序列T的长度大于N, 则需要将T截断至 长度为N; 步骤3、 获取Bert的输入表示E, 对于给定的文本序列T, Bert的输入表示由其对应 的词 向量序列、 段向量序列和位置向量序列相加而成; 步骤4、 对输入表示E进行多层双向Transformer编码块, 并借助自注意力机制充分学习 文本序列中每 个token之间的语义关联; 步骤5、 根据W WM预训练任务的输出层以及损失函数, 预测掩码位置; 所述下一个句子预测NS P的建模方法包括如下步骤: 步骤6、 NS P预训练任务的输出层以及损失函数; 步骤7、 进行单句护照 文本分类任务tokenization处理、 Bert输入表示和Bert编码器建 模, 且单句护照文本分类任务tokenization处理、 Bert输入表示和Bert编码器建模与NSP预 训练任务的原理一致, 与NSP任务不同的是, 单句 护照文本 分类任务的输入文本序列是由单 个句子组成; 步骤8、 单句护照文本分类任务的输出层及损失函数, 使用[CLS]位的隐含层表示进行 文本类别的预测; 步骤9、 单句护照文本分类任务的数据增强, 对训练集中的每一个样本, 都执行如下四 种数据增强操作: (1)随机字删除: 随机删除文本序列中15%~3 0%的字; (2)随机交换邻近 字: 随机选择文本序列中两个邻近的字并交换其 位置; (3)随机同义词替换: 随机选取文本序列中15%~30%的词, 随机选取其同义词并替 换; (4)随机插入: 随机选取文本序列中不属于停用词集的词, 求出其随机同义词并插入文 本序列中的随机位置 。 2.根据权利要求1所述的一种基于Bert的护照版面分析方法, 其特征在于: 所述步骤1 中对输入文本序列的掩码 操作有以下三种: (1)以80%的概 率替换为[MASK]标记; (2)以10%的概 率替换为词表中的任意 一个随机to ken; (3)以10%的概 率保持不变; 具体地, 假设原始输入文本序列为T=Tok1Tok2...TokN, 其中Toki表示输入文本序列中 的第i个token, 随机选取其中15%的token, 对选取的token以及其所在 整词的其它token都 进行掩码, 得到掩码后的输入文本序列为Tok ′1Tok′2...Tok′N, 其中Tok ′i表示经过掩码处权 利 要 求 书 1/2 页 2 CN 115048511 A 2理后的第i个to ken。 3.根据权利要求1所述的一种基于Bert的护照版面分析方法, 其特征在于: 所述步骤3 中输入表示E的计算公式为: E=Ete+Ese+Epe 上式中Ete表示词向量序列, Ese表示段向量序列, Epe表示位置向量序列, 大小均为N ×e, e表示词向量的维度, 取值为768; 假设Wte∈R|V|×e表示可训练的词向量矩阵, 输入文本序列T 对应的独热向量序列为ete∈RN×|V|, 则T对应的词向量序列可通过Ete=eteWte计算得到, 式中 |V|表示词表大小; 假设Wse∈R|S|×e表示可训练的块向量矩阵, 输入文本序列T对应的段编码 表示为ese∈RN×|S|, |S|表示块数量, 则T对应的段向量序列可通过Ese=eseWse; 假设Wpe∈RN×e 表示可训练的位置向量矩阵, 输入文本序列T对应的位置独热编码表示为epe∈RN×N, 则T对 应的位置向量序列可通过Epe=epeWpe计算得到 。 4.根据权利要求1所述的一种基于Bert的护照版面分析方法, 其特征在于: 所述步骤5 具体为: 假设集合M={m1,m2,…mk}表示所有掩码位置的下标, 其中k表示总掩码数量, 以集 合M中的元素为下标, 从Bert编码器最后一层的输出h[L]中抽取出对应的表示, 并将这些表 示拼接得到掩码表示hm=RK×e, 利用词向量矩阵Wte将掩码表 示hm映射到词表空间, 对于掩码 表 示 的 第 i 个 分 量 him,计 算 得 到 该 掩 码 位 置 对 应 的 词 表 上 的 概 率 分 布 将Pi与标签yi计算交叉熵损失来学习模型参数, 其中yi为原Toki对 应的独热向量表示。 5.根据权利要求1所述的一种基于Bert的护照版面分析方法, 其特征在于: 所述步骤6 与WWM预训练任务不同的是, NSP只需要判断输入文本序列中的句子B是否是句子A的下一个 句子, 是一个二分类任务, 输入文本序列中的第一个标记[CLS]处的最后一层隐含层表 示即 可以作为输入序列的文本表示, 因此NSP任务 的输出层只需要将 输入至分类器, 便可 得到预测的分类概 率P∈R2, 如下所示: 上式中, Wp和b分别是全连接层的权重和偏置, 将预测分类概率与真实分类标签计算交 叉熵损失, 优化模型参数。 6.根据权利要求1所述的一种基于Bert的护照版面分析方法, 其特征在于: 所述步骤8 具体为: 将 通过一层全连接层以预测输入文本序列对应的类别, 获得文本序列的分类概 率分布P, 如下 所示: 上式中WSC∈Rd×K表示全连接层的权重, bSC∈RK表示全连接层的偏置, K表示类别数, 将P 与真实分类标签y计算交叉熵损失, 对输出层参数进行学习, 同时也对Bert自身参数进 行更 新, 以使得Ber t预训练语言模型与单句护照文本分类的任务更加适配。权 利 要 求 书 2/2 页 3 CN 115048511 A 3

.PDF文档 专利 一种基于Bert的护照版面分析方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于Bert的护照版面分析方法 第 1 页 专利 一种基于Bert的护照版面分析方法 第 2 页 专利 一种基于Bert的护照版面分析方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:44:40上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。