国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210327799.X (22)申请日 2022.03.31 (71)申请人 重庆邮电大 学 地址 400065 重庆市南岸区南 山街道崇文 路2号 (72)发明人 陈龙 谢荣鹏 黄嘉成 (74)专利代理 机构 重庆辉腾律师事务所 5 0215 专利代理师 王诗思 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) G06F 40/205(2020.01) G06F 40/253(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种中文文本中基于词性融合的对抗训练 的防御方法 (57)摘要 本发明请求公开一种对抗样本词级攻击的 防御方法, 属于计算机技术领域; 该方法利用分 词工具提取中文文本的词性信息, 根据不同的词 嵌入方式分别将文本的语义信息和词性信息转 化为语义特征和词性特征, 再将 两者拼接形成高 联合表征作为神经网络模型的输入 数据, 以此加 强文本中词语间的关联, 有助于解决中文对抗样 本中基于 人类视觉局限性的常见词级攻击, 即包 括同音字、 象形字替换所引起的未登录词现象对 句子结构的破坏问题, 能够提高模 型对于词级攻 击对抗样 本识别的准确率, 可以广泛的应用于 现 有中文自然语 言处理相关任务的神经网络模型。 另外, 用以高级联合表征为形式的的输入样本对 模型进行对抗训练提升模型的鲁棒 性。 权利要求书2页 说明书7页 附图3页 CN 114861654 A 2022.08.05 CN 114861654 A 1.一种中文文本中基于词性融合的对抗训练的防御方法, 其特征在于, 所述方法包括 采集原始中文文本数据集, 采用多种词级的对抗攻击对所述中文文本数据集进行处理, 并 形成对抗样本数据集; 将中文文本数据集与对抗样本数据集进行混合并构成训练集; 采用 中文分词工具从所述训练集中提取出中文文本词语的语义信息和词性信息, 以不同的词嵌 入方式分别将其编 码成语义特征和词性特征, 并将所述语义特征和所述词性特征拼接组成 高级联合特征, 将所述高级联合特征作为神经网络模型的输入 数据, 进行对抗训练, 以最小 化对抗损失为目标, 训练得到可防御词级攻击的强化模型。 2.根据权利要求1所述的一种中文文本中基于词性融合的对抗训练的防御方法, 其特 征在于, 所述提取出中文文本的语义信息和词性信息包括使用训练完成的中文分词工具包 对中文文本句 子进行分词处理, 将句 子分割成若干个神经网络模型可以直接处理的词语, 并将词语作为语义信息, 对词语进行词性标注, 并将词性标注信息作为词性信息 。 3.根据权利要求2所述的一种中文文本中基于词性融合的对抗训练的防御方法, 其特 征在于, 语义信息的词嵌入方式包括在所述训练集上去除停用 词后, 使用分词器在指定数 据集上生成编码字典, 并统计出数据集语料库中词 频相关信息, 形成语义信息和向量的对 应关系, 从而将文本转换成向量表示, 并采用补零法将句子设置为固定 长度的语义特 征。 4.根据权利要求2所述的一种中文文本中基于词性融合的对抗训练的防御方法, 其特 征在于, 词性信息的词嵌入方式包括构建词性与数字一一对应的词性编码转换表, 将每个 词性信息都按照词性编 码转换表转换成数值作为词性特征, 运用补零法将词性特征表示成 语义特征的长度。 5.根据权利要求1所述的一种中文文本中基于词性融合的对抗训练的防御方法, 其特 征在于, 将所述语义特征和所述词性特征拼接组成 高级联合特征包括将一维语义特征和一 维词性特征分别以横向融合和纵向融合的方式对齐拼接形成 高级联合特征, 其中所述横向 融合表示为将一维语义特征和一维词性特征进行横向拼接, 形成一维高级联合特征; 所述 纵向融合表示 为将一维语义特 征和一维词性特 征进行纵向拼接, 形成二维高级联合特 征。 6.根据权利要求1所述的一种中文文本中基于词性融合的对抗训练的防御方法, 其特 征在于, 对抗训练的过程包括对抗样本生成和模型训练两个步骤: 在样本生 成阶段, 采用多 种词级攻击策略攻击原始神经网络模型, 并生 成混合的对抗样本数据集; 在 模型训练阶段, 采用自适应方法迭代抽取部 分对抗样本数据集替换原始训练集中对应中文文本数据集, 并 训练神经网络模型。 7.根据权利要求1或6所述的一种中文文本中基于词性融合的对抗训练 的防御方法, 其 特征在于, 所述进行对抗训练的过程包括: 利用当前抽取出的原始样本和对抗样本, 以最大化分类损 失为目标, 即尽可能让当前 参数的神经网络模型对原始样本和对抗样本的分类预测结果出错; 以最小化分布损失为目 标, 即尽可能让当前参数 的神经网络模型对原始样本和对抗样本的分类预测结果一致; 通 过对抗训练的方式来更新神经网络模型的参数θ; 按自适应方式更新对抗样 本的抽取比例, 更新对抗样本利用更新后的原始样本和对抗样本, 优化神经网络模型 的参数, 在不同抽取 过程中, 以最大化神经网络模型对对抗样本识别的准确 率为目标, 通过反向传播更新抽取 比例, 并输出最优抽取比例所对应的最优神经网络模型。 8.根据权利要求7所述的一种中文文本中基于词性融合的对抗训练的防御方法, 其特权 利 要 求 书 1/2 页 2 CN 114861654 A 2征在于, 最优神经网络模型的目标函数表示 为: 其中, 表示采用对抗训练集 中对抗样本x ′对应的识别准确率, 表示原始 中文文本训练集, 表示对抗样本训练集, θ表示神经网络模型参数, L(x+Δx,y; θ )表示原 始样本x经过对抗扰动Δx生成对抗样本并经过预测得到分类结果y所对应的损失值, 表示通过模型最小化损失值来更新模型参数θ, Ω表示扰动空间, x表示原始样本, Δx表示对抗扰动, x ′表示对抗样本 。 9.根据权利要求7所述的一种中文文本中基于词性融合的对抗训练的防御方法, 其特 征在于, 所述通过反向传播更新抽取比例包括以当前抽取比例所对应的对抗损失进行梯度 运算, 结合梯度运算的结果对神经网络模型 的模型参数进行反向传播, 直至神经网络模型 收敛, 输出当前最优抽取比例下的模型参数。权 利 要 求 书 2/2 页 3 CN 114861654 A 3
专利 一种中文文本中基于词性融合的对抗训练的防御方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:44:13
上传分享
举报
下载
原文档
(820.9 KB)
分享
友情链接
国家网络安全事件应急预案.pdf
蚂蚁集团 图数据库选型方法 问题 方法与工具.pdf
GB-T 20626.1-2017 特殊环境条件 高原电工电子产品 第1部分:通用技术要求.pdf
GB-T 15317-2009 燃煤工业锅炉节能监测.pdf
GB-T 30279-2013 信息安全技术 安全漏洞等级划分指南.pdf
GB-T 43758.1-2024 智能网联汽车运行安全测试环境技术 条件 第1部分 公共道路.pdf
JR-T 0255—2022 金融行业信息系统商用密码应用 基本要求.pdf
T-GDC 19—2019 埋地用双高筋增强聚乙烯 HDPE 缠绕管.pdf
WST 416-2013 干扰实验指南.pdf
GB 29437-2012 工业冰醋酸单位产品能源消耗限额.pdf
SN-T 1417-2004 国境口岸除鼠规程.pdf
GB-T 4226-2009 不锈钢冷加工钢棒.pdf
DB4403-T 51-2020 珠宝行业经营服务规范 深圳市.pdf
GB-T 21219-2023 磁性材料 分类.pdf
GB-T 17901.1-2020 信息技术 安全技术 密钥管理 第1部分:框架.pdf
T-HFS 001—2023 商业银行外部数据价值评估指南.pdf
ISO 14064-1 2018 温室气体 第1部分 组织层面温室气体排放量和清除量量化和报告指南规范 中文.pdf
GB 9706.271-2022 医用电气设备 第2-71部分:功能性近红外光谱(NIRS)设备的基本安全和基本性能专用要求.pdf
T-CRHA 017—2023 人肝祖细胞类器官构建、质量控制与保藏操作指南.pdf
GB-T 22151-2008 国际货运代理作业规范.pdf
1
/
3
13
评价文档
赞助2.5元 点击下载(820.9 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。