国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210210068.7 (22)申请日 2022.03.03 (71)申请人 深圳壹账通科技 服务有限公司 地址 518066 广东省深圳市前海深港合作 区前湾一路1号A栋201室 (入驻深圳市 前海商务秘书 有限公司) (72)发明人 邹倩霞 (74)专利代理 机构 北京中强智尚知识产权代理 有限公司 1 1448 专利代理师 黄耀威 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 40/295(2020.01) G06N 20/00(2019.01) (54)发明名称 语料标注迁移模型的训练方法、 模型、 装置 及迁移方法 (57)摘要 本申请公开了一种语料标注迁移模型的训 练方法、 模型、 装置及迁移方法, 其训练方法包 括: 对语料标注迁移模型进行初始化, 语料标注 迁移模型包括源语 言语义识别层、 目标语言语义 识别层、 匹配器Mapper、 全连接层和CRF层; 基于 具有批注的源语料, 对初始化的语料标注迁移模 型进行实体抽取任务训练, 得到更新后的语料标 注迁移模型; 基于源语言以及没有标注的目标语 言对更新后的语料标注迁移模型进行语料标注 迁移任务训练, 得到最终的语料标注迁移模型。 本申请既使用了两种语言本身的知识, 也有效的 联通了这两种不同语言的关联, 利用源语言已经 标注好的前提知识, 将标注的命名实体迁移到了 目标语言, 使得目标语言也有了标注数据。 权利要求书2页 说明书10页 附图5页 CN 114548319 A 2022.05.27 CN 114548319 A 1.一种语料 标注迁移模型的训练方法, 其特 征在于, 包括: 对语料标注迁移模型进行初始化, 所述语料标注迁移模型包括源语言语义识别层、 目 标语言语义识别层、 匹配器Mapper、 全 连接层和CRF层; 其中, 所述源语 言语义识别层与所述 目标语言语义识别层通过所述匹配器Mapper连接, 所述源语 言语义识别 层与所述目标语言 语义识别层还依次连接全连接层和所述CRF层; 基于具有批注 的源语料, 对初始化的语料标注迁移模型进行实体抽取任务训练, 得到 更新后的语料 标注迁移模型; 基于所述源语言以及没有标注的目标语言对所述更新后的语料标注迁移模型进行语 料标注迁移任务训练, 得到最终的语料 标注迁移模型。 2.根据权利要求1所述的语料标注迁移模型的训练方法, 其特征在于, 所述基于具有批 注的源语料, 对初始化的语料标注迁移模型进行实体抽取任务训练, 得到更新后的语料标 注迁移模型, 包括: 将所述源语料分别输入到所述源语言语义识别层和所述目标语言语义识别层中, 分别 得到第一语义向量和 第二语义向量, 其中所述第一语义向量和所述第二语义向量具有关联 关系, 所述关联关系是所述匹配器Mapper根据所述第一语义向量和所述第二语义向量确定 的; 将所述第一语义向量和所述第二语义向量进行拼接, 得到第一融合向量; 使所述第一融合向量依次经 过所述全连接层和所述CRF层, 以实现实体抽取; 根据实体抽取结果, 更新所述语料标注迁移模型的初始参数, 得到更新后的语料标注 迁移模型。 3.根据权利要求1所述的方法, 其特征在于, 所述基于所述源语言以及没有标注的目标 语言对所述更新后的语料标注迁移模型进 行语料标注迁移任务训练, 得到最 终的语料标注 迁移模型, 包括: 将所述源语料输入所述源语言语义识别层, 以确定所述源语料的第三语义向量; 将所述目标语料输入所述目标语言语义识别层, 以确定所述目标语料的第四语义向 量, 其中所述第三语义向量和所述第三语义向量具有关联关系, 所述关联关系是所述匹配 器Mapper根据所述第三语义向量和所述第四语义向量确定的; 将所述第三语义向量和所述第四语义向量进行拼接, 得到第二融合向量; 使所述第二融合向量依次经过所述全连接层和所述CRF层, 以将所述源语料的批注迁 移至所述目标语料 上; 根据批注迁移结果, 更新所述更新后的语料标注迁移模型的参数, 得到最终的语料标 注迁移模型。 4.根据权利要求3所述的方法, 其特征在于, 所述源语言语义识别层包括第 一bert层和 第二bert层; 所述将所述源语料输入所述源语言语义识别层, 以确定所述源语料的第三语义向量, 包括: 将所述源语料进行字符分割和词语分割, 得到所述源语料的第 一字符向量和第 一词向 量; 将所述第一字符向量输入所述第一ber t层, 得到所述源语料的第一字符特 征向量;权 利 要 求 书 1/2 页 2 CN 114548319 A 2将所述第一词向量和所述第一字符特征向量输入所述第 二bert层, 得到所述源语料的 第三语义向量。 5.根据权利要求3所述的方法, 其特征在于, 所述目标语言语义识别层包括第三bert层 和第四ber t层; 所述将所述目标语料输入所述目标语言语义识别层, 以确定所述目标语料的第四语义 向量, 包括: 将所述目标语料进行字符分割和词语分割, 得到所述目标语料的第 二字符向量和第 二 词向量; 将所述第二字符向量输入所述第三ber t层, 得到所述目标语料的第二字符特 征向量; 将所述第二词向量和所述第二字符特征向量输入所述第四bert层, 得到所述目标语料 的第四语义向量。 6.一种语料标注迁移模型, 其特征在于, 所述语料标注迁移模型包括源语言语义识别 层、 目标语言语义识别层、 匹配 器Mapper、 全连接层和CRF层; 所述源语言语义识别层与所述目标语言语义识别层通过所述匹配器Mapper连接, 所述 源语言语义识别层与所述目标语言语义识别层还依次连接全连接层和所述CRF层。 7.根据权利要求6所述的语料标注迁移模型, 其特征在于, 所述源语言语义识别层包括 依次连接的第一BERT层和第二BERT层, 其中, 所述第一BERT层的输入作为源语言语义识别 层的输入, 所述第一BERT层的输出连接所述第二BERT层的输入, 所述第二BERT层的输出作 为源语言语义识别层的输出。 8.根据权利要求6所述的语料标注迁移模型, 其特征在于, 所述目标语言语义识别层包 括依次连接的第三BERT层和第四BERT层, 其中, 所述第三BERT层的输入作为目标语言语义 识别层的输入, 所述第三BERT层的输出连接所述第四BERT层的输入, 所述第四BERT层的输 出作为目标语言语义识别层的输出。 9.一种语料标注迁移模型的训练装置, 其特征在于, 所述装置用于实现所述权利要求1 ~5中任一项所述的方法。 10.一种语料标注迁移方法, 其特征在于, 所述方法采用权利要求5~7中任一项所述的 语料标注迁移模型实现的; 所述方法包括: 基于所述源语言语义识别层确定源语料的第 一语义, 以及基于所述目标语言语义识别 层确定目标语料的第二语义, 其中所述源语料 具有批注, 所述目标语料不具有批注; 基于所述匹配 器Mapper, 确定所述第一语义与所述第二语义的关联关系; 基于所述全连接层和CRF层, 根据所述关联关系, 将所述源语言的批注迁移至所述目标 语料上。权 利 要 求 书 2/2 页 3 CN 114548319 A 3
专利 语料标注迁移模型的训练方法、模型、装置及迁移方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:52:30
上传分享
举报
下载
原文档
(721.3 KB)
分享
友情链接
DB11-T 2111-2023 信息系统运行维护服务 用户单位实施要求 北京市.pdf
T-CFA 031103.4—2018 铸造工艺数字化设计通用要求.pdf
T-CES 160—2022 数字孪生变电站智能传感器接入技术规范.pdf
DB3301-T 71—2018 数字城管系统运维服务规范 杭州市.pdf
GB-T 21720-2022 农贸市场管理技术规范.pdf
DB44-T 983-2012 水泥回转窑节能评价方法 广东省.pdf
T-CAQI 225—2021 钢制模块化装配污水处理池体技术要求.pdf
DB61-T 1502-2021 电动汽车充电站(桩)验收规范 陕西省.pdf
DB13-T 5686-2023 多重耐药菌感染患者手术室管理规范 河北省.pdf
GB-T 35003-2018 非易失性存储器耐久和数据保持试验方法.pdf
GB-T 43269-2023 信息安全技术 网络安全应急能力评估准则.pdf
GB-T 17964-2021 信息安全技术 分组密码算法的工作模式.pdf
T-CSTM 00046.12—2018 低合金结构钢腐蚀试验 第12部分:电偶腐蚀试验方法.pdf
GB-T 28625-2012 彩色复印机测试版.pdf
专利 一种温控器在线监测用显示装置.PDF
T-CPSS 1013—2021 开关电源电子元器件降额技术规范.pdf
DB37-T 5237-2022 《超低能耗公共建筑技术标准》 山东省.pdf
DB11-T 2068-2022 政务服务综合窗口人员能力与服务规范 北京市.pdf
CB-T 4521-2022 船舶行业企业工业管道和气体橡胶软管安全管理规定.pdf
DB42-T 953-2014 “鄂引3号”狗牙根栽培技术规程 湖北省.pdf
1
/
3
18
评价文档
赞助2.5元 点击下载(721.3 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。