(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210189215.7 (22)申请日 2022.02.28 (71)申请人 中国建设银行股份有限公司 地址 100033 北京市西城区金融大街25号 申请人 建信金融科技有限责任公司 (72)发明人 罗奕康 聂砂 崔震 戴菀庭  张士存  (74)专利代理 机构 中科专利商标代理有限责任 公司 11021 专利代理师 张体南 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/38(2019.01) G06F 16/35(2019.01) G06F 40/30(2020.01)G06F 16/83(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 训练方法、 数据处理方法、 装置、 设备、 介质 和程序产品 (57)摘要 本公开提供了一种数据处理模型的训练方 法、 装置、 设备、 存储介质和程序产品。 该方法包 括: 获取第一网页, 其中, 所述第一网页的源代码 中包括第一代码标签和待处理的第一文本内容; 将第一文本段关联的第二代码标签和第一位置 信息中的至少一个, 与所述第一文本段的文本相 组合, 获得第一输入向量; 将所述第一输入向量 和所述第一文本段的要素标签作为训练样本, 来 训练所述数据处理模型。 本公开实施例能够降低 训练成本, 并不再局限于 现有技术中针对一种网 页制定一种数据抽取规则的方式, 提高了兼容性 和处理效率。 本公开还提供了一种数据处理方 法、 装置、 设备、 存 储介质和程序 产品。 权利要求书3页 说明书13页 附图5页 CN 114443931 A 2022.05.06 CN 114443931 A 1.一种数据处 理模型的训练方法, 包括: 获取第一网页, 其中, 所述第一网页的源代码中包括第一代码标签和待处理的第一文 本内容, 所述第一文本内容包括M个文本段, M为大于或等于1的整数; 将第一文本段关联的第 二代码标签和第 一位置信 息中的至少一个, 与 所述第一文本段 的文本相组合, 获得第一输入向量, 其中, 所述第一文本段为所述M个文本段中的任一个, 所 述第一代码标签包括所述第二代码标签, 所述第一位置信息为所述第一文本段在所述M个 文本段中的位置信息; 将所述第一输入向量和所述第 一文本段的要素标签作为训练样本, 来训练所述数据处 理模型。 2.根据权利要求1所述的方法, 其中, 所述方法还包括获得所述第一文本段的要素标 签, 具体包括: 确定所述第一文本段的要素类别; 确定所述第一文本段在所述要素类别中的第二 位置信息; 基于所述要素类别和所述第二 位置信息标注所述要素 标签。 3.根据权利要求1所述的方法, 其中, 所述获得第一输入向量包括获得文本向量, 具体 包括: 将所述第一文本段的文本输入预训练模型, 其中, 所述预训练模型包括预先训练完成 的自然语言处 理模型; 获得所述预训练模型输出的所述文本向量。 4.根据权利要求3所述的方法, 其中, 所述获得第一输入向量包括获得代码标签向量, 具体包括: 确定关联所述第一文本内容的S种第一代码标签, 其中, 所述S种第一代码标签包括所 述第二代码标签; 对所述S种第一代码标签中每种第一代码标签进行向量编码; 根据所述向量编码后的结果, 获得 所述第二代码标签的所述代码标签向量。 5.根据权利要求3或4中任一项所述的方法, 其中, 所述获得第一输入向量包括获得位 置向量, 具体包括: 确定所述第 一文本段在所述M个文本段中的第 一顺序, 其中, 所述第 一位置信 息包括所 述第一顺序; 基于所述第一 顺序获得 所述位置向量。 6.根据权利要求1所述的方法, 其中, 所述数据处理模型包括双向长短期记忆网络层和 全连接层, 所述训练所述数据处 理模型包括: 将所述第一输入向量作为所述双向长短期记 忆网络层的输入; 将所述双向长短期记 忆网络层的输出作为所述全连接层的输入; 基于所述全连接层的输出与 所述要素标签计算获得损失函数, 来根据 所述损失函数更 新所述数据 处理模型 的参数, 其中, 所述全连接层的输出包括所述第一文本段的预测要素 标签。 7.根据权利要求6所述的方法, 其中, 所述数据处理模型还包括归一化层, 在将所述第 一输入向量作为所述双向长短期记 忆网络层的输入之前, 还 包括:权 利 要 求 书 1/3 页 2 CN 114443931 A 2通过所述归一 化层对所述第一输入向量进行归一 化处理。 8.根据权利要求6所述的方法, 其中, 所述数据处理模型还包括弃权层, 在将所述双 向 长短期记 忆网络层的输出作为所述全连接层的输入之前, 还 包括: 通过所述弃权层处 理所述双向长短期记 忆网络层的输出。 9.根据权利要求1所述的方法, 其中, 所述第一网页的源代码利用超文本标记语言获 得, 所述第一代码标签包括超文本标记语言标签。 10.一种数据处 理方法, 包括: 获取第二网页, 其中, 所述第二网页的源代码中包括第三代码标签和待处理的第二文 本内容; 将所述第二文本内容和所述第三代码标签输入数据处理模型, 其中, 所述数据处理模 型通过权利要求1~ 9中任一项所述的方法训练获得; 根据所述数据处理模型输出的第 二文本段的预测要素标签, 来处理所述第 二文本段的 文本, 其中, 所述第二文本内容包括至少一个文本段, 所述第二文本段为所述至少一个文本 段中的任一个。 11.一种数据处 理模型的训练装置, 包括: 第一获取模块, 用于获取第 一网页, 其中, 所述第 一网页的源代码中包括第 一代码标签 和待处理的第一文本内容, 所述第一文本内容包括M个文本段, M为大于或等于1的整数; 输入向量模块, 用于将第一文本段关联的第二代码标签和第一位置信息中的至少一 个, 与所述第一文本段的文本相组合, 获得第一输入向量, 其中, 所述第一文本段为所述M个 文本段中的任一个, 所述第一代码标签包括所述第二代码标签, 所述第一位置信息为所述 第一文本段在所述M个文本段中的位置信息; 模型训练模块, 用于将所述第一输入向量和所述第一文本段的要素标签作为训练样 本, 来训练所述数据处 理模型。 12.一种数据处 理装置, 包括: 第二获取模块, 用于获取第 二网页, 其中, 所述第 二网页的源代码中包括第 三代码标签 和待处理的第二文本内容; 数据输入模块, 用于将所述第二文本内容和所述第三代码标签输入数据处理模型, 其 中, 所述数据处 理模型通过权利要求1 1所述的装置训练获得; 数据处理模块, 用于根据所述数据处理模型输出的第二文本段的预测要素标签, 来处 理所述第二文本段的文本, 其中, 所述第二文本内容包括至少一个文本段, 所述第二文本段 为所述至少一个文本段中的任一个。 13.一种电子设备, 包括: 一个或多个处 理器; 存储装置, 用于存 储一个或多个程序, 其中, 当所述一个或多个程序被所述一个或多个处理器执行时, 使得所述一个或多个 处理器执行根据权利要求1~10中任一项所述的方法。 14.一种计算机可读存储介质, 其上存储有可执行指令, 该指令被处理器执行时使处理 器执行根据权利要求1~10中任一项所述的方法。 15.一种计算机程序产品, 包括计算机程序, 所述计算机程序被处理器执行时实现根据权 利 要 求 书 2/3 页 3 CN 114443931 A 3

.PDF文档 专利 训练方法、数据处理方法、装置、设备、介质和程序产品

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 训练方法、数据处理方法、装置、设备、介质和程序产品 第 1 页 专利 训练方法、数据处理方法、装置、设备、介质和程序产品 第 2 页 专利 训练方法、数据处理方法、装置、设备、介质和程序产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:52:19上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。