专利一种基于提示自监督学习网络安全溯源语义识别方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210184902.X (22)申请日 2022.02.28 (65)同一申请的已公布的文献号申请公布号 CN 114254655 A (43)申请公布日 2022.03.29 (73)专利权人南京众智维信息科技有限公司地址 211300 江苏省南京市高淳区龙井路3 号 (72)发明人胡牧　孙捷　车洵　梁小川　 (74)专利代理机构南京知识律师事务所 32 207 专利代理师张苏沛 (51)Int.Cl. G06F 40/30(2020.01) G06F 16/35(2019.01) G06N 3/04(2006.01)G06N 3/08(2006.01) H04L 9/40(2022.01) (56)对比文件 CN 114021584 A,202 2.02.08 US 2020395008 A1,2020.12.17 李保珲等.pTrace:一种面向可控云计算的 DDoS攻击源控制技术. 《计算机研究与发展》 .2015,第2 212-2223页. 审查员谢萍 (54)发明名称一种基于提示自监督学习网络安全溯源语义识别方法 (57)摘要本发明公开了一种基于提示自监督学习网络安全溯源语义识别方法，包括以下步骤：构建网络安全专业语料库；多维度丰富，重建对话中捕获攻击源的数据集；变压器编码部分识别语义特征，并向量化表示；用变压器解码选择关键语义；与真实标签训练交叉熵损失，并训练模型参数；多次迭代优化模型输出对应标签，识别对应 IP或域名；方法把变压器模型作为掩码语言模型的基础结构，可以根据外部信息和上下文内容对文本进行语义识别，可以针对数据集资源不丰富的网络安全专业词汇进行掩码语言模型的提示学习来充分挖掘已有数据的信息，从而实现高效率，低成本的语义提取，让机器理解真人的意图。权利要求书2页说明书7页附图3页 CN 114254655 B 2022.05.10 CN 114254655 B 1.一种基于提示自监督学习网络安全溯源语义识别方法，其特征在于，包括以下步骤：构建网络安全专业语料库；多维度丰富，重建对话中捕获攻击源的数据集；用变压器编码部分识别语义特征，并向量化表示；用变压器解码选择关键语义；与真实标签训练交叉熵损失，并训练模型参数；多次迭代优化模型输出对应标签，识别对应IP或域名。 2.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法，其特征在于，构建网络安全专业语料库，包括以下步骤：给定一段网络安全作战室聊天记录，把该专业领域下的所有相关文本的信息作为语料库，查取该领域下作战室以往用户发言聊天的历史记录，并人工标注相应攻击源标签，并映射对应操作集进行溯源处理，形成网络安全作战室聊天记录语料库。 3.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法，其特征在于，多维度丰富，重建对话中捕获攻击源的数据集包括以下步骤：对网络安全作战室聊天记录语料库进行多维度丰富，包括对攻击源信息不同形式的表现来丰富训练数据集，重建对话中捕获关键攻击源的文本。 4.根据权利要求3所述的基于提示自监督学习网络安全溯源语义识别方法，其特征在于：所述攻击源信息包括对话中出现的日志信息，安全设备报警信息，服务器资源异常信息，邮件钓鱼信息。 5.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法，其特征在于，用变压器编码部分识别语义特征，并向量化表示包括以下步骤：通过词向量矩阵把输入文本转换成词向量，间隔段向量和位置向量，三者线性融合表示经过基于双向变压器编码部分输入层输出的结果。 6.根据权利要求5所述的基于提示自监督学习网络安全溯源语义识别方法，其特征在于，对于输入文本 X是由n个句子组成，，其中表示文本中的第 i句话，按顺序对文本进行预处理，使用LTP分词器进行分词，再去除噪声词、停用词规范化生成训练语料，并为每个句子分配一个标签，其中0表示不对句子进行识别， 1表示对句子进行识别；对处理过的文本经过词向量层由文字符号变成实值标志的词向量，在首标记[CLS ]、在尾标记[S EP]，并且产生对句子进行区别的间隔段向量和每个词绝对位置的位置向量，其中词向量、间隔段向量、位置向量的向量维度均为 z，则输入序列的对应的词向量、间隔段向量、位置向量的向量的拼接，用 E表示：其中表示词向量， t表示句子中的字词向量，表示间隔段向量， s对应的奇偶数来把句子分成AB块，表示位置向量， p对应句子的最大长度，表示输入文本 X由三个向量拼接得到，在向量空间的行列维度均是。权　利　要　求　书 1/2 页 2 CN 114254655 B 27.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法，其特征在于，用变压器解码选择关键语义，包括以下步骤：把经过基于双向变压器编码部分输入层输出的结果作为采用自编码预训练任务掩码语言模型编码部分的输入，并结合提示学习的方式结合全局上下文信息，预训练用掩码语言模型还原掩码的部分，学习敏感的文本表征。 8.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法，其特征在于，与真实标签训练交叉熵损失，并训练模型参数包括以下步骤：将从学习到的文本表征作为全连接层的输入，与真实标签训练交叉熵损失。 9.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法，其特征在于，多次迭代优化模型输出对应标签，识别对应IP或域名包括以下步骤：将上一步骤的输出结果经过softmax层语义提取的最大概率输出对应的攻击源标签映射到操作集对应标签调度攻击者真实IP或域名。 10.根据权利要求1所述的基于提示自监督学习网络安全溯源语义识别方法，其特征在于，识别对应IP或域名后，还包括以下步骤：利用精确IP定位进行目标的位置定位；收集互联网侧的用户ID；输出攻击者画像与攻击路径。权　利　要　求　书 2/2 页 3 CN 114254655 B 3

专利 一种基于提示自监督学习网络安全溯源语义识别方法

专利一种基于提示自监督学习网络安全溯源语义识别方法