(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210444025.5
(22)申请日 2022.04.25
(71)申请人 奇安信科技 集团股份有限公司
地址 100088 北京市西城区新 街口外大街
28号102号楼3层3 32号
申请人 奇安信网神信息技 术 (北京) 股份有
限公司
(72)发明人 高明哲 应凌云 刘璐
(74)专利代理 机构 北京路浩知识产权代理有限
公司 11002
专利代理师 孟省
(51)Int.Cl.
G06F 21/53(2013.01)
G06F 21/56(2013.01)
G06F 21/57(2013.01)G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 20/00(2019.01)
(54)发明名称
基于混合分析的恶意软件家族标签更正方
法及装置
(57)摘要
本发明实施例提供一种基于混合分析的恶
意软件家族标签更正方法及装置, 其中, 该方法
包括: 将至少一个恶意软件家族中的恶意软件通
过静态过滤 组件进行过滤后送入沙箱, 得到动态
执行报告; 通过预设的行为语义知识库将所述动
态执行报告进行语义映射, 得到对应的语义序
列; 将所述语义序列进行相似度聚类得到至少一
个恶意软件簇, 若恶意软件簇的家族 标签存在不
一致的情况, 则确定该恶意软件簇为不一致簇;
确定所述不一致簇的第一距离, 以及确定所述不
一致簇中每个语义序列的第二距离, 根据所述第
一距离和所述第二距离更正所述不一致簇中的
家族标签。 实现了自动化的更正上游任务中家族
标注引发的错 误。
权利要求书3页 说明书15页 附图3页
CN 114936366 A
2022.08.23
CN 114936366 A
1.一种基于混合分析的恶意软件家族标签更正方法, 其特 征在于, 包括:
将至少一个恶意软件家族中的恶意软件通过静态过滤组件进行过滤后送入沙箱, 得到
动态执行报告;
通过预设的行为语义知识库将所述动态执行报告进行语义映射, 得到对应的语义序
列;
将所述语义序列进行相似度聚类得到至少一个恶意软件簇, 每个恶意软件簇包括至少
一种语义序列, 每种语义序列对应一个家族标签, 若恶意软件簇的家族标签存在不一致的
情况, 则确定该恶意软件簇为 不一致簇;
确定所述不一致簇的第一距离, 以及确定所述不一致簇中每个语义序列的第二距离,
根据所述第一距离和所述第二距离更正所述 不一致簇中的家族标签。
2.根据权利要求1所述的基于混合分析的恶意软件家族标签更正方法, 其特征在于, 所
述将至少一个恶意软件家族中的恶意软件通过静态过滤组件进行过滤后送入沙箱, 得到动
态执行报告, 包括:
获取至少一个恶意软件家族中的恶意软件的二进制文件;
对于每个二进制文件, 检测所述 二进制文件是否有壳;
若检测到没有壳, 则将所述二进制文件通过静态过滤组件过滤后输入沙箱, 得到动态
执行报告;
若检测到有壳, 则将所述 二进制文件输入沙箱确定对应的动态执 行报告。
3.根据权利要求2所述的基于混合分析的恶意软件家族标签更正方法, 其特征在于, 所
述若检测到没有壳, 则将所述二进制文件通过静态过滤组件过滤后输入沙箱, 得到动态执
行报告, 包括:
若检测到没有壳, 则将所述 二进制文件通过静态过 滤组件过 滤, 确定对应的核心 代码;
根据所述核心代码确定对应的散列值, 并根据所述散列值确定关联关系, 所述关联关
系中包括互不相等的目标散列值;
将对应所述目标散列值的二进制文件输入沙箱, 得到动态执 行报告。
4.根据权利要求3所述的基于混合分析的恶意软件家族标签更正方法, 其特征在于, 所
述将所述 二进制文件通过静态过 滤组件过 滤, 确定对应的核心 代码, 包括:
根据所述恶意软件的二进制文件确定所述恶意软件的原始程序入口点和文件内容大
小;
根据所述原 始程序入口点和所述文件内容大小确定对应的核心 代码。
5.根据权利要求1所述的基于混合分析的恶意软件家族标签更正方法, 其特征在于, 所
述行为语义知识库根据AT T&CK技术矩阵和W indows编程文档确定 。
6.根据权利要求1所述的基于混合分析的恶意软件家族标签更正方法, 其特征在于, 所
述通过预设的行为语义知识库将所述动态执行报告进行语义映射, 得到对应的语义序列,
包括:
根据至少一个动态执行报告, 确定对应的至少一个四元组, 所述四元组包括调用者名
称、 被调用的函数名称、 被调用的函数参数和被调用的函数的返回值;
通过预设的行为语义知识库将所述至少一个四元组进行语义映射, 得到对应的至少一
个语义序列。权 利 要 求 书 1/3 页
2
CN 114936366 A
27.根据权利要求6所述的基于混合分析的恶意软件家族标签更正方法, 其特征在于, 所
述通过预设的行为语义知识库将所述至少一个四元组进行语义映射, 得到对应的至少一个
语义序列, 包括:
通过预设的行为语义知识库和预设的辅助规则将所述至少一个四元组进行语义映射,
得到对应的至少一个 语义序列。
8.根据权利要求1所述的基于混合分析的恶意软件家族标签更正方法, 其特征在于, 所
述将所述语义序列进 行相似度聚类得到至少一个恶意软件簇, 每个恶意软件簇包括至少一
种语义序列, 每种语义序列对应一个家族标签, 若恶意软件簇的家族标签存在不一致的情
况, 则确定该恶意软件簇为 不一致簇, 包括:
将至少一个语义序列嵌入到向量空间后得到对应的至少一个向量, 再对所述至少一个
向量进行相似度聚类得到至少一个恶意软件簇, 每个恶意软件簇包括至少一种向量, 每种
向量对应一个家族标签, 若所述家族标签中存在标签不一致的情况, 则确定该恶意软件簇
为不一致簇; 以及
所述确定所述不一致簇的第 一距离, 以及确定所述不一致簇 中每个语义序列的第 二距
离, 包括:
根据所述 不一致簇中向量所属的恶意软件家族确定第一距离;
对于不一致簇 中的每个向量, 根据 所述向量所属的恶意软件家族的其他向量确定对应
的第二距离 。
9.根据权利要求8所述的基于混合分析的恶意软件家族标签更正方法, 其特征在于, 所
述将至少一个 语义序列嵌入到向量空间, 包括:
通过Doc2 Vec模型, 将所述至少一个 语义序列嵌入到向量空间。
10.根据权利要求1所述的基于混合分析的恶意软件家族标签更正方法, 其特征在于,
所述根据所述第一距离和所述第二距离更正所述 不一致簇中的家族标签, 包括:
将每个语义序列的第 二距离与第 一距离比较, 若每个语义序列的第 二距离均小于或等
于所述第一距离, 则不一致簇中的家族标签均正确, 根据不一致簇中家族标签的凝聚程度,
确定不一致簇中的家族标签;
若每个语义序列的第二距离均大于所述第一距离, 则不一致簇中的家族标签均不正
确, 抛出异常;
否则, 则将大于所述第 一距离的第 二距离对应的语义序列的家族标签更改为小于所述
第一距离的第二距离对应的语义序列的家族标签。
11.一种基于混合分析的恶意软件家族标签更正装置, 其特 征在于, 包括:
第一处理模块, 用于将至少一个恶意软件家族中的恶意软件通过静态过滤组件进行过
滤后送入沙箱, 得到动态执 行报告;
第二处理模块, 用于通过预设的行为语义知识库将所述动态执行报告进行语义映射,
得到对应的语义序列;
第三处理模块, 用于将所述语义序列进行相似度聚类得到至少一个恶意软件簇, 每个
恶意软件簇包括至少一种语义序列, 每种语义序列对应一个家族标签, 若恶意软件簇的家
族标签存在不 一致的情况, 则确定该恶意软件簇为 不一致簇;
第四处理模块, 用于确定所述不一致簇的第一距离, 以及确定所述不一致簇中每个语权 利 要 求 书 2/3 页
3
CN 114936366 A
3
专利 基于混合分析的恶意软件家族标签更正方法及装置
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:35上传分享