(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210491080.X
(22)申请日 2022.05.07
(71)申请人 国家计算机网络与信息安全管理中
心
地址 100029 北京市朝阳区裕民路甲3号
申请人 长安通信科技有限责任公司
(72)发明人 李明哲 吕宁 黄亮 于晶
侯雄斌 侯爽 李婷 葛旭东
任雪纯
(74)专利代理 机构 北京惠智天 成知识产权代理
事务所 (特殊普通合伙)
11681
专利代理师 周建
(51)Int.Cl.
G06F 16/35(2019.01)G06F 16/335(2019.01)
G06F 40/30(2020.01)
G06F 40/295(2020.01)
(54)发明名称
基于UEBA的数据处 理方法和系统
(57)摘要
本发明公开了一种基于UEBA的数据处理方
法和系统, 该方法包括: 获取待处理的数据条目,
并基于语义注解算法将所述数据条目转换为语
义体; 其中, 所述语义体包括所述数据条目的注
解结果和原始日志; 设定时间窗口, 并将所述时
间窗口内形成的所有语义体进行特征汇总, 并基
于特征汇总后的语义体生 成画像体; 将生成的画
像体按预设策略存放于目标存储位置; 基于目标
时间窗口范围和目标存储位置范围, 将生成的画
像体进行聚合, 以得到数据处理结果。 该方法利
用多源异构的数据资料, 抽取能够反映网络实体
画像特征的信息, 并对这些信息加以聚合, 得到
上述实体的更全面的画像; 解决了现有技术中存
在的数据处理量较大, 且画 像中对实体信息描述
不全面的技 术问题。
权利要求书2页 说明书12页 附图3页
CN 115168569 A
2022.10.11
CN 115168569 A
1.一种基于UEBA的数据处 理方法, 其特 征在于, 所述方法包括:
获取待处理的数据 条目, 并基于语义注解算法将所述数据条目转换为语义体; 其中, 所
述语义体包括所述数据条目的注解结果和原始日志; 将数据条目转换为语义体的过程又可
以称为语义注解过程, 语义注解过程是指对一个数据条目进行分析, 产生的情报称作语义
体;
设定时间窗口, 并将所述时间窗口内形成的所有所述语义体进行特征汇总, 并基于特
征汇总后的语义体生成画像体; 从语义体转换为画像体的过程称为注解画像, 采用注解画
像器实现从语义体转换为画像 体的目的, 注解画像 器是一种聚合类算子;
将生成的画像 体按预设策略存放于目标存 储位置;
基于目标时间窗口范围和目标存储位置范围, 将生成的画像体进行聚合, 以得到数据
处理结果; 采用画像聚合器实现画像体进 行聚合时, 画像聚合器是聚合类算子, 画像聚合是
指针对同一 实体在多个数据存储位置或多个时间窗口下画像体的聚合过程, 形成更大时空
观察范围下 的更全面的画像信息, 可以是更多的节点覆盖或更大 的时间窗口; 画像聚合过
程的输入数据, 可以是注解画像过程所形成的画像体, 也可以是其他更小规模画像聚合过
程中所形成的画像体; 画像聚合的过程需要选定一个时间范围和 一个数据存储位置范围;
画像聚合器对指定范围内的全部画像体按实体身份进 行分组, 在每个分组内对应的画像体
唯一隶属于单一 实体。 进而, 画像聚合器解析当前组内的所有画像体, 对其中的画像特征和
环境信息进行解读和推理, 产生对该实体的更丰富的画像;
所述UEBA的架构包括数据层、 算法层和场景层; 其中, 数据层用于数据采集, 所述数据
层包括若干数据收集器或传感器, 收集到的数据经特征提取、 标准化处理后, 存入数据库;
算法层用于对处 理好的数据进行分析, 包括特 征统计学习 、 动态行为基线、 时序前后分析。
2.根据权利要求1所述的基于UEBA的数据处理方法, 其特征在于, 基于语义注解算法将
所述数据条目转换为语义体, 具体包括:
从所述待处理 的数据条目中识别实体和行为特征, 以得到实体识别结果和行为信 息标
签;
判定所述实体和行为特征均识别成功, 则提取所述数据条目的环境信息, 以得到环境
信息提取 结果;
以所述实体识别结果、 所述行为信息标签和所述环境信息提取结果作为所述注解结
果, 生成所述语义体;
根据注解结果生成语义体的过程也就是注解生成过程, 针对一个数据条目, 如果实体
识别和标签提取过程都是成功的, 则采用一种序列化格式, 对实体识别结果、 标签、 环境提
取结果连同原 始的数据条目进行打包 存储, 从而形成的一份 语义体。
3.根据权利要求2所述的基于UEBA的数据处理方法, 其特征在于, 从所述待处理的数据
条目中识别实体和行为特 征, 之后还 包括:
若所述实体或所述行为特 征识别失败, 则结束对所述数据条目的处 理。
4.根据权利要求2所述的基于UEBA的数据处理方法, 其特征在于, 以所述实体识别结
果、 所述行为信息标签和所述环境信息提取结果作为所述注 解结果, 生成所述语义体, 之后
包括:
基于预存的分类策略, 对所述语义体存 储至目标存 储区域内;权 利 要 求 书 1/2 页
2
CN 115168569 A
2结合语义体标签信息设计分区存储方案, 分区存储是指选择一个分类策略, 针对每条
数据的特征进行分类, 将大规模数据进行分割, 在后续的数据查询阶段只针对部分分区进
行查询, 以减少查询工作量;
针对一个业务场景, 选择N个重要的标签用于分区方案的决策, 被选择的标签是符合标
签或键值标签; 对于一个语义体 s, 其是否命中上述标签由函数I标识, I(s,n)=1代表s具有
标签n,1≤n≤N; 否则, I(s,n)=0; 那么定义s所属分区编号可取作
如此,
可以将所有语义体分配到 至多2N个分区中。
5.根据权利要求2所述的基于UEBA的数据处理方法, 其特征在于, 所述实体包括主体和
客体, 将所述时间窗口内形成的所有所述语义体进行特征汇总, 并基于特征汇总后的语义
体生成画像 体, 具体包括:
对所述时间窗口内的所有语义体依次按照主体和客体进行分组, 在每个分组内对应的
语义体唯一隶属于单一主体;
对目标分组内各所述语义体的行为信 息标签和环境提取结果进行解析, 以得到语义体
解析结果;
将所述语义体解析 结果与主体 类型进行 结合, 以生成画像特 征;
基于所述画像特 征构建所述画像 体。
6.根据权利要求4所述的基于UEBA的数据处理方法, 其特征在于, 基于数据湖或数据仓
库, 对所述语义体存 储至目标存 储区域内。
7.一种基于UEBA的数据处 理系统, 其特 征在于, 所述系统包括:
语义体转换单元, 用于获取待处理的数据条目, 并基于语义注解算法将所述数据条目
转换为语义体; 其中, 所述语义体包括所述数据条目的注解结果和原 始日志;
画像体生成单元, 用于设定时间窗口, 并将所述时间窗口内形成的所有所述语义体进
行特征汇总, 并基于特 征汇总后的语义体生成画像 体;
分区存储单元, 用于将生成的画像 体按预设策略存放于目标存 储位置;
结果输出单元, 用于基于目标时间窗口范围和目标存储位置范围, 将生成的画像体进
行聚合, 以得到数据处 理结果。
8.一种智能终端, 其特 征在于, 所述智能终端包括: 数据采集装置、 处 理器和存 储器;
所述数据采集装置用于采集数据; 所述存储器用于存储一个或多个程序指令; 所述处
理器, 用于执 行一个或多个程序指令, 用以执 行如权利要求1 ‑6任一项所述的方法。
9.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质中包含一个或多
个程序指令, 所述 一个或多个程序指令用于执 行如权利要求1 ‑6任一项所述的方法。
10.一种计算机程序产品, 包括计算机程序, 其特征在于, 所述计算机程序被处理器执
行时实现如权利要求1 ‑6任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 115168569 A
3
专利 基于UEBA的数据处理方法和系统
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:48:40上传分享