专利训练方法、数据处理方法、装置、设备、介质和程序产品 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210189215.7 (22)申请日 2022.02.28 (71)申请人中国建设银行股份有限公司地址 100033 北京市西城区金融大街25号申请人建信金融科技有限责任公司 (72)发明人罗奕康　聂砂　崔震　戴菀庭　张士存　 (74)专利代理机构中科专利商标代理有限责任公司 11021 专利代理师张体南 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/38(2019.01) G06F 16/35(2019.01) G06F 40/30(2020.01)G06F 16/83(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称训练方法、数据处理方法、装置、设备、介质和程序产品 (57)摘要本公开提供了一种数据处理模型的训练方法、装置、设备、存储介质和程序产品。该方法包括：获取第一网页，其中，所述第一网页的源代码中包括第一代码标签和待处理的第一文本内容；将第一文本段关联的第二代码标签和第一位置信息中的至少一个，与所述第一文本段的文本相组合，获得第一输入向量；将所述第一输入向量和所述第一文本段的要素标签作为训练样本，来训练所述数据处理模型。本公开实施例能够降低训练成本，并不再局限于现有技术中针对一种网页制定一种数据抽取规则的方式，提高了兼容性和处理效率。本公开还提供了一种数据处理方法、装置、设备、存储介质和程序产品。权利要求书3页说明书13页附图5页 CN 114443931 A 2022.05.06 CN 114443931 A 1.一种数据处理模型的训练方法，包括：获取第一网页，其中，所述第一网页的源代码中包括第一代码标签和待处理的第一文本内容，所述第一文本内容包括M个文本段， M为大于或等于1的整数；将第一文本段关联的第二代码标签和第一位置信息中的至少一个，与所述第一文本段的文本相组合，获得第一输入向量，其中，所述第一文本段为所述M个文本段中的任一个，所述第一代码标签包括所述第二代码标签，所述第一位置信息为所述第一文本段在所述M个文本段中的位置信息；将所述第一输入向量和所述第一文本段的要素标签作为训练样本，来训练所述数据处理模型。 2.根据权利要求1所述的方法，其中，所述方法还包括获得所述第一文本段的要素标签，具体包括：确定所述第一文本段的要素类别；确定所述第一文本段在所述要素类别中的第二位置信息；基于所述要素类别和所述第二位置信息标注所述要素标签。 3.根据权利要求1所述的方法，其中，所述获得第一输入向量包括获得文本向量，具体包括：将所述第一文本段的文本输入预训练模型，其中，所述预训练模型包括预先训练完成的自然语言处理模型；获得所述预训练模型输出的所述文本向量。 4.根据权利要求3所述的方法，其中，所述获得第一输入向量包括获得代码标签向量，具体包括：确定关联所述第一文本内容的S种第一代码标签，其中，所述S种第一代码标签包括所述第二代码标签；对所述S种第一代码标签中每种第一代码标签进行向量编码；根据所述向量编码后的结果，获得所述第二代码标签的所述代码标签向量。 5.根据权利要求3或4中任一项所述的方法，其中，所述获得第一输入向量包括获得位置向量，具体包括：确定所述第一文本段在所述M个文本段中的第一顺序，其中，所述第一位置信息包括所述第一顺序；基于所述第一顺序获得所述位置向量。 6.根据权利要求1所述的方法，其中，所述数据处理模型包括双向长短期记忆网络层和全连接层，所述训练所述数据处理模型包括：将所述第一输入向量作为所述双向长短期记忆网络层的输入；将所述双向长短期记忆网络层的输出作为所述全连接层的输入；基于所述全连接层的输出与所述要素标签计算获得损失函数，来根据所述损失函数更新所述数据处理模型的参数，其中，所述全连接层的输出包括所述第一文本段的预测要素标签。 7.根据权利要求6所述的方法，其中，所述数据处理模型还包括归一化层，在将所述第一输入向量作为所述双向长短期记忆网络层的输入之前，还包括：权　利　要　求　书 1/3 页 2 CN 114443931 A 2通过所述归一化层对所述第一输入向量进行归一化处理。 8.根据权利要求6所述的方法，其中，所述数据处理模型还包括弃权层，在将所述双向长短期记忆网络层的输出作为所述全连接层的输入之前，还包括：通过所述弃权层处理所述双向长短期记忆网络层的输出。 9.根据权利要求1所述的方法，其中，所述第一网页的源代码利用超文本标记语言获得，所述第一代码标签包括超文本标记语言标签。 10.一种数据处理方法，包括：获取第二网页，其中，所述第二网页的源代码中包括第三代码标签和待处理的第二文本内容；将所述第二文本内容和所述第三代码标签输入数据处理模型，其中，所述数据处理模型通过权利要求1～ 9中任一项所述的方法训练获得；根据所述数据处理模型输出的第二文本段的预测要素标签，来处理所述第二文本段的文本，其中，所述第二文本内容包括至少一个文本段，所述第二文本段为所述至少一个文本段中的任一个。 11.一种数据处理模型的训练装置，包括：第一获取模块，用于获取第一网页，其中，所述第一网页的源代码中包括第一代码标签和待处理的第一文本内容，所述第一文本内容包括M个文本段， M为大于或等于1的整数；输入向量模块，用于将第一文本段关联的第二代码标签和第一位置信息中的至少一个，与所述第一文本段的文本相组合，获得第一输入向量，其中，所述第一文本段为所述M个文本段中的任一个，所述第一代码标签包括所述第二代码标签，所述第一位置信息为所述第一文本段在所述M个文本段中的位置信息；模型训练模块，用于将所述第一输入向量和所述第一文本段的要素标签作为训练样本，来训练所述数据处理模型。 12.一种数据处理装置，包括：第二获取模块，用于获取第二网页，其中，所述第二网页的源代码中包括第三代码标签和待处理的第二文本内容；数据输入模块，用于将所述第二文本内容和所述第三代码标签输入数据处理模型，其中，所述数据处理模型通过权利要求1 1所述的装置训练获得；数据处理模块，用于根据所述数据处理模型输出的第二文本段的预测要素标签，来处理所述第二文本段的文本，其中，所述第二文本内容包括至少一个文本段，所述第二文本段为所述至少一个文本段中的任一个。 13.一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1～10中任一项所述的方法。 14.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1～10中任一项所述的方法。 15.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现根据权　利　要　求　书 2/3 页 3 CN 114443931 A 3

专利 训练方法、数据处理方法、装置、设备、介质和程序产品

专利训练方法、数据处理方法、装置、设备、介质和程序产品