专利一种基于Bert的护照版面分析方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210409869.6 (22)申请日 2022.04.19 (71)申请人南京烽火星空通信发展有限公司地址 210019 江苏省南京市建邺区云龙山路88号烽火科技大厦A栋26F (72)发明人李春霞　董文君　郭涛远　王康　朱和军　 (74)专利代理机构南京经纬专利商标代理有限公司 32200 专利代理师陆志斌 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称一种基于Bert的护照版面分析方法 (57)摘要本发明公开了一种基于Bert的护照版面分析方法，采用 “预训练+精调 ”的自然语言处理新范式，基于大规模无标注语料库训练出一个Bert 预训练语言模型，其中的NSP预训练任务可以学到通用的文本语义表示，将Bert预训练语言模型作为可训练的特征抽取器，应用到有监督的下游任务中，并参与下游任务的训练，之后根据具体的护照文本分类任务，使用护照文本数据进行精调，训练得到一个基于Bert 的文本分类模型。本发明输出结构化后的文本内容，使用文本的语义表示进行文本分类，可以不用受限于版面类型和应用场景，实现任意版面及通用场景下的护照版面分析，并可以将此方法应用于其它类型的证件。权利要求书2页说明书7页附图2页 CN 115048511 A 2022.09.13 CN 115048511 A 1.一种基于B ert的护照版面分析方法，包括基于大规模无标注语料库训练出Bert预训练语言模型， Bert预训练过程包括两个基本的预训练任务：整词掩码语言模型WWM和下一个句子预测NS P，其特征在于：所述词掩码语言模型W WM的建模方法包括如下步骤：步骤1、对输入文本序列进行掩码处理，采用15％的掩码比例，即输入文本序列中15％的token会被掩码；步骤2、 tokenization处理，对经过掩码处理后的文本序列添加特殊标记、进行补齐、截断操作后得到输入文本序列，如果输入文本序列T的长度n小于Bert的最大序列长度N， N＝ 128，则需要将补齐标记[PAD]拼接在输入文本序列后以达到Bert的最大序列长度N；反之，如果输入文本序列T的长度大于N，则需要将T截断至长度为N；步骤3、获取Bert的输入表示E，对于给定的文本序列T， Bert的输入表示由其对应的词向量序列、段向量序列和位置向量序列相加而成；步骤4、对输入表示E进行多层双向Transformer编码块，并借助自注意力机制充分学习文本序列中每个token之间的语义关联；步骤5、根据W WM预训练任务的输出层以及损失函数，预测掩码位置；所述下一个句子预测NS P的建模方法包括如下步骤：步骤6、 NS P预训练任务的输出层以及损失函数；步骤7、进行单句护照文本分类任务tokenization处理、 Bert输入表示和Bert编码器建模，且单句护照文本分类任务tokenization处理、 Bert输入表示和Bert编码器建模与NSP预训练任务的原理一致，与NSP任务不同的是，单句护照文本分类任务的输入文本序列是由单个句子组成；步骤8、单句护照文本分类任务的输出层及损失函数，使用[CLS]位的隐含层表示进行文本类别的预测；步骤9、单句护照文本分类任务的数据增强，对训练集中的每一个样本，都执行如下四种数据增强操作： (1)随机字删除：随机删除文本序列中15％～3 0％的字； (2)随机交换邻近字：随机选择文本序列中两个邻近的字并交换其位置； (3)随机同义词替换：随机选取文本序列中15％～30％的词，随机选取其同义词并替换； (4)随机插入：随机选取文本序列中不属于停用词集的词，求出其随机同义词并插入文本序列中的随机位置。 2.根据权利要求1所述的一种基于Bert的护照版面分析方法，其特征在于：所述步骤1 中对输入文本序列的掩码操作有以下三种： (1)以80％的概率替换为[MASK]标记； (2)以10％的概率替换为词表中的任意一个随机to ken； (3)以10％的概率保持不变；具体地，假设原始输入文本序列为T＝Tok1Tok2...TokN，其中Toki表示输入文本序列中的第i个token，随机选取其中15％的token，对选取的token以及其所在整词的其它token都进行掩码，得到掩码后的输入文本序列为Tok ′1Tok′2...Tok′N，其中Tok ′i表示经过掩码处权　利　要　求　书 1/2 页 2 CN 115048511 A 2理后的第i个to ken。 3.根据权利要求1所述的一种基于Bert的护照版面分析方法，其特征在于：所述步骤3 中输入表示E的计算公式为： E＝Ete+Ese+Epe 上式中Ete表示词向量序列， Ese表示段向量序列， Epe表示位置向量序列，大小均为N ×e， e表示词向量的维度，取值为768；假设Wte∈R|V|×e表示可训练的词向量矩阵，输入文本序列T 对应的独热向量序列为ete∈RN×|V|，则T对应的词向量序列可通过Ete＝eteWte计算得到，式中 |V|表示词表大小；假设Wse∈R|S|×e表示可训练的块向量矩阵，输入文本序列T对应的段编码表示为ese∈RN×|S|， |S|表示块数量，则T对应的段向量序列可通过Ese＝eseWse；假设Wpe∈RN×e 表示可训练的位置向量矩阵，输入文本序列T对应的位置独热编码表示为epe∈RN×N，则T对应的位置向量序列可通过Epe＝epeWpe计算得到。 4.根据权利要求1所述的一种基于Bert的护照版面分析方法，其特征在于：所述步骤5 具体为：假设集合M＝{m1,m2,…mk}表示所有掩码位置的下标，其中k表示总掩码数量，以集合M中的元素为下标，从Bert编码器最后一层的输出h[L]中抽取出对应的表示，并将这些表示拼接得到掩码表示hm＝RK×e，利用词向量矩阵Wte将掩码表示hm映射到词表空间，对于掩码表示的第 i 个分量 him，计算得到该掩码位置对应的词表上的概率分布将Pi与标签yi计算交叉熵损失来学习模型参数，其中yi为原Toki对应的独热向量表示。 5.根据权利要求1所述的一种基于Bert的护照版面分析方法，其特征在于：所述步骤6 与WWM预训练任务不同的是， NSP只需要判断输入文本序列中的句子B是否是句子A的下一个句子，是一个二分类任务，输入文本序列中的第一个标记[CLS]处的最后一层隐含层表示即可以作为输入序列的文本表示，因此NSP任务的输出层只需要将输入至分类器，便可得到预测的分类概率P∈R2，如下所示：上式中， Wp和b分别是全连接层的权重和偏置，将预测分类概率与真实分类标签计算交叉熵损失，优化模型参数。 6.根据权利要求1所述的一种基于Bert的护照版面分析方法，其特征在于：所述步骤8 具体为：将通过一层全连接层以预测输入文本序列对应的类别，获得文本序列的分类概率分布P，如下所示：上式中WSC∈Rd×K表示全连接层的权重， bSC∈RK表示全连接层的偏置， K表示类别数，将P 与真实分类标签y计算交叉熵损失，对输出层参数进行学习，同时也对Bert自身参数进行更新，以使得Ber t预训练语言模型与单句护照文本分类的任务更加适配。权　利　要　求　书 2/2 页 3 CN 115048511 A 3

专利 一种基于Bert的护照版面分析方法

专利一种基于Bert的护照版面分析方法