(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210184902.X
(22)申请日 2022.02.28
(65)同一申请的已公布的文献号
申请公布号 CN 114254655 A
(43)申请公布日 2022.03.29
(73)专利权人 南京众智维信息科技有限公司
地址 211300 江苏省南京市高淳区龙井路3
号
(72)发明人 胡牧 孙捷 车洵 梁小川
(74)专利代理 机构 南京知识律师事务所 32 207
专利代理师 张苏沛
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 16/35(2019.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
H04L 9/40(2022.01)
(56)对比文件
CN 114021584 A,202 2.02.08
US 2020395008 A1,2020.12.17
李保珲 等.pTrace:一种面向可控云计算的
DDoS攻击源 控制技术. 《计算机 研究与发展》
.2015,第2 212-2223页.
审查员 谢萍
(54)发明名称
一种基于提示自监督学习网络安全溯源语
义识别方法
(57)摘要
本发明公开了一种基于提示自监督学习网
络安全溯源语义识别方法, 包括以下步骤: 构建
网络安全专业语料库; 多维度丰富, 重建对话中
捕获攻击源的数据集; 变压器编码 部分识别语义
特征, 并向量化表示; 用变压器解码选择关键语
义; 与真实标签训练交叉熵损失, 并训练模型参
数; 多次迭代优化模型输出对应标签, 识别对应
IP或域名; 方法把变压器模型作为掩码语言模型
的基础结构, 可以根据外部信息和上下文内容对
文本进行语义识别, 可以针对数据集资源不丰富
的网络安全专业词汇进行掩码语言模型的提示
学习来充分挖掘已有数据的信息, 从而实现高效
率, 低成本的语义 提取, 让机 器理解真人的意图。
权利要求书2页 说明书7页 附图3页
CN 114254655 B
2022.05.10
CN 114254655 B
1.一种基于提 示自监督学习网络安全溯源语义识别方法, 其特 征在于, 包括以下步骤:
构建网络安全专业语料库;
多维度丰富, 重建对话中捕获攻击源的数据集;
用变压器编码部分识别语义特 征, 并向量 化表示;
用变压器解码选择关键语义;
与真实标签训练 交叉熵损失, 并训练模型参数;
多次迭代优化模型输出对应标签, 识别对应IP或域名。
2.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法, 其特征在
于, 构建网络安全专业语料库, 包括以下步骤:
给定一段网络安全作战室聊天记录, 把该专业领域下的所有相关文本的信 息作为语料
库, 查取该领域下作战室以往用户发言聊天的历史记录, 并人工标注相应攻击源标签, 并映
射对应操作集进行溯源处 理, 形成网络安全作战室聊天记录语料库。
3.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法, 其特征在
于, 多维度丰富, 重建对话中捕获攻击源的数据集包括以下步骤:
对网络安全作战室聊天记录语料库进行多维度丰富, 包括对攻击源信 息不同形式的表
现来丰富训练数据集, 重建对话中捕获关键攻击源的文本 。
4.根据权利要求3所述的基于提示自监督学习网络安全溯源语义识别方法, 其特征在
于: 所述攻击源信息包括对话中出现的日志信息, 安全设备报警信息, 服务器资源异常信
息, 邮件钓鱼信息 。
5.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法, 其特征在
于, 用变压器编码部分识别语义特 征, 并向量 化表示包括以下步骤:
通过词向量矩阵把输入文本转换成词向量, 间隔段向量和位置向量, 三者线性融合表
示经过基于双向变压器编码部分输入层输出的结果。
6.根据权利要求5所述的基于提示自监督学习网络安全溯源语义识别方法, 其特征在
于, 对于输入文本 X是由n个句子组成,
, 其中
表示文本中的第 i句话, 按
顺序对文本进行预处理, 使用LTP分词器进行分词, 再去除噪声词、 停用词 规范化生成训练
语料, 并为每个句子分配一个标签
, 其中0表示不对句子进行识别, 1表示对句子
进行识别;
对处理过的文本经过词向量层由文字符号变成实值标志的词向量, 在首标记[CLS ]、 在
尾标记[S EP], 并且产生对句子进行区别的间隔段向量和每个词绝对位置的位置向量, 其中
词向量、 间隔段向量、 位置向量的向量维度均为 z,则输入序列的对应的词向量、 间隔段向
量、 位置向量的向量的拼接, 用 E表示:
其中
表示词向量, t表示句子中的字词向量,
表示间隔段向量, s对应的奇偶数来
把句子分成AB块,
表示位置向量, p对应句子的最大长度,
表示输入文本 X由三个向
量拼接得到, 在向量空间的行列维度均是
。权 利 要 求 书 1/2 页
2
CN 114254655 B
27.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法, 其特征在
于, 用变压器解码选择关键语义, 包括以下步骤: 把经过基于双向变压器编 码部分输入层输
出的结果作为采用自编 码预训练任务掩码语言模型编 码部分的输入, 并结合提示学习的方
式结合全局上 下文信息, 预训练用掩码语言模型还原掩码的部分, 学习敏感的文本表征。
8.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法, 其特征在
于, 与真实标签训练 交叉熵损失, 并训练模型参数包括以下步骤:
将从学习到的文本表征作为全连接层的输入, 与真实标签训练 交叉熵损失。
9.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法, 其特征在
于, 多次迭代优化模型输出对应标签, 识别对应IP或域名包括以下步骤: 将上一步骤的输出
结果经过softmax层语义提取的最大概率输出对应的攻击源标签映射到操作集对应标签调
度攻击者真实IP或域名。
10.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法, 其特征在
于, 识别对应IP或域名后, 还 包括以下步骤:
利用精确IP定位进行目标的位置 定位;
收集互联网侧的用户ID;
输出攻击者画像与攻击路径。权 利 要 求 书 2/2 页
3
CN 114254655 B
3
专利 一种基于提示自监督学习网络安全溯源语义识别方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:45:28上传分享