(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210189215.7
(22)申请日 2022.02.28
(71)申请人 中国建设银行股份有限公司
地址 100033 北京市西城区金融大街25号
申请人 建信金融科技有限责任公司
(72)发明人 罗奕康 聂砂 崔震 戴菀庭
张士存
(74)专利代理 机构 中科专利商标代理有限责任
公司 11021
专利代理师 张体南
(51)Int.Cl.
G06F 16/951(2019.01)
G06F 16/38(2019.01)
G06F 16/35(2019.01)
G06F 40/30(2020.01)G06F 16/83(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
训练方法、 数据处理方法、 装置、 设备、 介质
和程序产品
(57)摘要
本公开提供了一种数据处理模型的训练方
法、 装置、 设备、 存储介质和程序产品。 该方法包
括: 获取第一网页, 其中, 所述第一网页的源代码
中包括第一代码标签和待处理的第一文本内容;
将第一文本段关联的第二代码标签和第一位置
信息中的至少一个, 与所述第一文本段的文本相
组合, 获得第一输入向量; 将所述第一输入向量
和所述第一文本段的要素标签作为训练样本, 来
训练所述数据处理模型。 本公开实施例能够降低
训练成本, 并不再局限于 现有技术中针对一种网
页制定一种数据抽取规则的方式, 提高了兼容性
和处理效率。 本公开还提供了一种数据处理方
法、 装置、 设备、 存 储介质和程序 产品。
权利要求书3页 说明书13页 附图5页
CN 114443931 A
2022.05.06
CN 114443931 A
1.一种数据处 理模型的训练方法, 包括:
获取第一网页, 其中, 所述第一网页的源代码中包括第一代码标签和待处理的第一文
本内容, 所述第一文本内容包括M个文本段, M为大于或等于1的整数;
将第一文本段关联的第 二代码标签和第 一位置信 息中的至少一个, 与 所述第一文本段
的文本相组合, 获得第一输入向量, 其中, 所述第一文本段为所述M个文本段中的任一个, 所
述第一代码标签包括所述第二代码标签, 所述第一位置信息为所述第一文本段在所述M个
文本段中的位置信息;
将所述第一输入向量和所述第 一文本段的要素标签作为训练样本, 来训练所述数据处
理模型。
2.根据权利要求1所述的方法, 其中, 所述方法还包括获得所述第一文本段的要素标
签, 具体包括:
确定所述第一文本段的要素类别;
确定所述第一文本段在所述要素类别中的第二 位置信息;
基于所述要素类别和所述第二 位置信息标注所述要素 标签。
3.根据权利要求1所述的方法, 其中, 所述获得第一输入向量包括获得文本向量, 具体
包括:
将所述第一文本段的文本输入预训练模型, 其中, 所述预训练模型包括预先训练完成
的自然语言处 理模型;
获得所述预训练模型输出的所述文本向量。
4.根据权利要求3所述的方法, 其中, 所述获得第一输入向量包括获得代码标签向量,
具体包括:
确定关联所述第一文本内容的S种第一代码标签, 其中, 所述S种第一代码标签包括所
述第二代码标签;
对所述S种第一代码标签中每种第一代码标签进行向量编码;
根据所述向量编码后的结果, 获得 所述第二代码标签的所述代码标签向量。
5.根据权利要求3或4中任一项所述的方法, 其中, 所述获得第一输入向量包括获得位
置向量, 具体包括:
确定所述第 一文本段在所述M个文本段中的第 一顺序, 其中, 所述第 一位置信 息包括所
述第一顺序;
基于所述第一 顺序获得 所述位置向量。
6.根据权利要求1所述的方法, 其中, 所述数据处理模型包括双向长短期记忆网络层和
全连接层, 所述训练所述数据处 理模型包括:
将所述第一输入向量作为所述双向长短期记 忆网络层的输入;
将所述双向长短期记 忆网络层的输出作为所述全连接层的输入;
基于所述全连接层的输出与 所述要素标签计算获得损失函数, 来根据 所述损失函数更
新所述数据 处理模型 的参数, 其中, 所述全连接层的输出包括所述第一文本段的预测要素
标签。
7.根据权利要求6所述的方法, 其中, 所述数据处理模型还包括归一化层, 在将所述第
一输入向量作为所述双向长短期记 忆网络层的输入之前, 还 包括:权 利 要 求 书 1/3 页
2
CN 114443931 A
2通过所述归一 化层对所述第一输入向量进行归一 化处理。
8.根据权利要求6所述的方法, 其中, 所述数据处理模型还包括弃权层, 在将所述双 向
长短期记 忆网络层的输出作为所述全连接层的输入之前, 还 包括:
通过所述弃权层处 理所述双向长短期记 忆网络层的输出。
9.根据权利要求1所述的方法, 其中, 所述第一网页的源代码利用超文本标记语言获
得, 所述第一代码标签包括超文本标记语言标签。
10.一种数据处 理方法, 包括:
获取第二网页, 其中, 所述第二网页的源代码中包括第三代码标签和待处理的第二文
本内容;
将所述第二文本内容和所述第三代码标签输入数据处理模型, 其中, 所述数据处理模
型通过权利要求1~ 9中任一项所述的方法训练获得;
根据所述数据处理模型输出的第 二文本段的预测要素标签, 来处理所述第 二文本段的
文本, 其中, 所述第二文本内容包括至少一个文本段, 所述第二文本段为所述至少一个文本
段中的任一个。
11.一种数据处 理模型的训练装置, 包括:
第一获取模块, 用于获取第 一网页, 其中, 所述第 一网页的源代码中包括第 一代码标签
和待处理的第一文本内容, 所述第一文本内容包括M个文本段, M为大于或等于1的整数;
输入向量模块, 用于将第一文本段关联的第二代码标签和第一位置信息中的至少一
个, 与所述第一文本段的文本相组合, 获得第一输入向量, 其中, 所述第一文本段为所述M个
文本段中的任一个, 所述第一代码标签包括所述第二代码标签, 所述第一位置信息为所述
第一文本段在所述M个文本段中的位置信息;
模型训练模块, 用于将所述第一输入向量和所述第一文本段的要素标签作为训练样
本, 来训练所述数据处 理模型。
12.一种数据处 理装置, 包括:
第二获取模块, 用于获取第 二网页, 其中, 所述第 二网页的源代码中包括第 三代码标签
和待处理的第二文本内容;
数据输入模块, 用于将所述第二文本内容和所述第三代码标签输入数据处理模型, 其
中, 所述数据处 理模型通过权利要求1 1所述的装置训练获得;
数据处理模块, 用于根据所述数据处理模型输出的第二文本段的预测要素标签, 来处
理所述第二文本段的文本, 其中, 所述第二文本内容包括至少一个文本段, 所述第二文本段
为所述至少一个文本段中的任一个。
13.一种电子设备, 包括:
一个或多个处 理器;
存储装置, 用于存 储一个或多个程序,
其中, 当所述一个或多个程序被所述一个或多个处理器执行时, 使得所述一个或多个
处理器执行根据权利要求1~10中任一项所述的方法。
14.一种计算机可读存储介质, 其上存储有可执行指令, 该指令被处理器执行时使处理
器执行根据权利要求1~10中任一项所述的方法。
15.一种计算机程序产品, 包括计算机程序, 所述计算机程序被处理器执行时实现根据权 利 要 求 书 2/3 页
3
CN 114443931 A
3
专利 训练方法、数据处理方法、装置、设备、介质和程序产品
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:52:19上传分享