(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210498202.8 (22)申请日 2022.05.09 (71)申请人 中国电信股份有限公司 地址 100033 北京市西城区金融大街31号 (72)发明人 郭实秋 鞠港 袁涵 高岩  (74)专利代理 机构 北京律智知识产权代理有限 公司 11438 专利代理师 孙宝海 (51)Int.Cl. G06K 9/62(2022.01) G06F 16/33(2019.01) G06F 40/30(2020.01) (54)发明名称 多源威胁情报融合方法、 装置、 设备和存储 介质 (57)摘要 本公开提供一种多源威胁情报融合方法, 涉 及网络安全技术领域, 该方法包括获取同一批次 的多个威胁情报, 基于语义相似度判断多个威胁 情报之间的相似度, 生成重复情报和非重复情 报。 基于预设的字段融合规则表, 对重复情报进 行字段融合, 得到融合情报。 以上述融合情报和 非重复情报作为新威胁情报, 获取数据库中类型 相同的历史威胁情报。 判断新威胁情报和历史威 胁情报的相似度, 生成重复情报集和非重复情 报。 对重复情报集进行字段融合。 将融合后的情 报更新入数据库, 非重复情报直接写入数据库。 本公开的情报融合方法基于自然语言处理提取 情报语义特征进行重复性判断, 且通过预设的字 段融合规则进行重复情报 的融合, 融合效果好, 且情报整合效率高。 权利要求书2页 说明书12页 附图6页 CN 114925757 A 2022.08.19 CN 114925757 A 1.一种多源威胁情 报融合方法, 其特 征在于, 包括: 获取同一批次的多个威胁情 报; 基于语义相似度判断多个所述威胁情报之间的相似度, 生成第 一重复情报集和第 一非 重复情报; 基于预设的字段融合规则表, 对所述第一重复情报集进行字段融合, 得到第一融合情 报; 以所述第一融合情报和所述第 一非重复情报作为新威胁情报, 获取数据库中与所述新 威胁情报类型相同的历史威胁情 报; 基于语义相似度判断所述新威胁情报和所述历史威胁情报的相似度, 生成第 二重复情 报集和第二非重复情 报; 基于预设的字段融合规则表, 对所述第二重复情报集进行字段融合, 得到第二融合情 报; 将进行字段融合的所述历史威胁情报更新为所述第 二融合情报, 并将所述第 二非重复 情报写入所述数据库。 2.根据权利要求1所述多源威胁情报融合方法, 其特征在于, 基于语义相似度判断多个 所述威胁情报之间的相似度, 生成第一重复情 报集和第一非重复情 报的步骤 包括: 对所述威胁情报进行文本预处 理; 基于语义预训练模型对文本预处理后的所述威胁情报进行向量化表示, 得到威胁情报 语义向量; 利用相似度算法计算两个所述 威胁情报语义向量的相似度, 得到语义相似度; 基于语义相似度和预设的相似度阈值, 生成情 报重复性判定结果; 在所述情 报重复性判定结果 为情报重复时, 生成第一重复情 报集; 在所述情 报重复性判定结果 为情报不重复时, 生成第一非重复情 报。 3.根据权利要求2所述多源威胁情报融合方法, 其特征在于, 所述语义预训练模型包括 基于词向量的第一语义预训练模型、 基于字符的第二语义预训练模型和基于词嵌入的第三 语义训练模型中的至少两种。 4.根据权利要求3所述多源威胁情报融合方法, 其特征在于, 基于语义相似度和预设的 相似度阈值, 生成情 报重复性判定结果的步骤 包括: 比较语义相似度和预设的相似度阈值之间的大小, 生成相似度判断结果; 利用多数投票方法对多个语义预训练模型对应的相似度判断结果进行投票, 生成所述 情报重复性判断结果。 5.根据权利要求2所述多源威胁情报融合方法, 其特征在于, 所述语义预训练模型以所 述数据库中历史威胁情 报为训练样本训练得到 。 6.根据权利要求2所述多源威胁情报融合方法, 其特征在于, 利用相似度算法计算两个 所述威胁情报语义向量的相似度的步骤包括: 利用余弦距离、 海明距离、 曼哈顿距离、 欧几 里得距离、 Jaccard相似系数、 编辑距离或SimHash值计算两个所述威胁情报语义向量的相 似度。 7.根据权利要求1所述多源威胁情报融合方法, 其特征在于, 基于预设的字段融合规则 表, 对所述第一重复情 报集进行字段融合, 得到第一融合情 报的步骤 包括:权 利 要 求 书 1/2 页 2 CN 114925757 A 2基于所述 威胁情报的类型确定去重 字段和融合字段, 生成所述字段融合 规则表; 对所述第一重复情 报集中对应所述去重 字段的内容进行去重操作; 对所述第一重复情 报集中对应所述融合字段的内容进行合并操作。 8.一种多源威胁情 报融合装置, 其特 征在于, 包括: 第一获取模块, 用于获取同一批次的多个威胁情 报; 第一相似度判断模块, 用于基于语义相似度判断多个所述威胁情报之间的相似度, 生 成第一重复情 报集和第一非重复情 报; 第一融合模块, 用于基于预设的字段融合规则表, 对所述第一重复情报集进行字段融 合, 得到第一融合情 报; 第二获取模块, 以所述第一融合情报和所述第一非重复情报作为新威胁情报, 获取数 据库中与所述 新威胁情报类型相同的历史威胁情 报; 第二相似度判断模块; 用于基于语义相似度判断所述新威胁情报和所述历史威胁情报 的相似度, 生成第二重复情 报集和第二非重复情 报; 第二融合模块, 用于基于预设的字段融合规则表, 对所述第二重复情报集进行字段融 合, 得到第二融合情 报; 更新写入模块, 用于将进行字段融合的所述历史威胁情报更新为所述第二融合情报, 并将所述第二非重复情 报写入所述数据库。 9.一种电子设备, 其特 征在于, 包括: 处 理器; 以及 存储器, 用于存 储所述处 理器的可 执行指令; 其中, 所述处理器配置为经由执行所述可执行指令来执行权利要求1~7中任意一项所 述的多源威胁情 报融合方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1~7中任意 一项所述的多源威胁情 报融合方法。权 利 要 求 书 2/2 页 3 CN 114925757 A 3

.PDF文档 专利 多源威胁情报融合方法、装置、设备和存储介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 多源威胁情报融合方法、装置、设备和存储介质 第 1 页 专利 多源威胁情报融合方法、装置、设备和存储介质 第 2 页 专利 多源威胁情报融合方法、装置、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:50:07上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。