(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210491080.X (22)申请日 2022.05.07 (71)申请人 国家计算机网络与信息安全管理中 心 地址 100029 北京市朝阳区裕民路甲3号 申请人 长安通信科技有限责任公司 (72)发明人 李明哲 吕宁 黄亮 于晶  侯雄斌 侯爽 李婷 葛旭东  任雪纯  (74)专利代理 机构 北京惠智天 成知识产权代理 事务所 (特殊普通合伙) 11681 专利代理师 周建 (51)Int.Cl. G06F 16/35(2019.01)G06F 16/335(2019.01) G06F 40/30(2020.01) G06F 40/295(2020.01) (54)发明名称 基于UEBA的数据处 理方法和系统 (57)摘要 本发明公开了一种基于UEBA的数据处理方 法和系统, 该方法包括: 获取待处理的数据条目, 并基于语义注解算法将所述数据条目转换为语 义体; 其中, 所述语义体包括所述数据条目的注 解结果和原始日志; 设定时间窗口, 并将所述时 间窗口内形成的所有语义体进行特征汇总, 并基 于特征汇总后的语义体生 成画像体; 将生成的画 像体按预设策略存放于目标存储位置; 基于目标 时间窗口范围和目标存储位置范围, 将生成的画 像体进行聚合, 以得到数据处理结果。 该方法利 用多源异构的数据资料, 抽取能够反映网络实体 画像特征的信息, 并对这些信息加以聚合, 得到 上述实体的更全面的画像; 解决了现有技术中存 在的数据处理量较大, 且画 像中对实体信息描述 不全面的技 术问题。 权利要求书2页 说明书12页 附图3页 CN 115168569 A 2022.10.11 CN 115168569 A 1.一种基于UEBA的数据处 理方法, 其特 征在于, 所述方法包括: 获取待处理的数据 条目, 并基于语义注解算法将所述数据条目转换为语义体; 其中, 所 述语义体包括所述数据条目的注解结果和原始日志; 将数据条目转换为语义体的过程又可 以称为语义注解过程, 语义注解过程是指对一个数据条目进行分析, 产生的情报称作语义 体; 设定时间窗口, 并将所述时间窗口内形成的所有所述语义体进行特征汇总, 并基于特 征汇总后的语义体生成画像体; 从语义体转换为画像体的过程称为注解画像, 采用注解画 像器实现从语义体转换为画像 体的目的, 注解画像 器是一种聚合类算子; 将生成的画像 体按预设策略存放于目标存 储位置; 基于目标时间窗口范围和目标存储位置范围, 将生成的画像体进行聚合, 以得到数据 处理结果; 采用画像聚合器实现画像体进 行聚合时, 画像聚合器是聚合类算子, 画像聚合是 指针对同一 实体在多个数据存储位置或多个时间窗口下画像体的聚合过程, 形成更大时空 观察范围下 的更全面的画像信息, 可以是更多的节点覆盖或更大 的时间窗口; 画像聚合过 程的输入数据, 可以是注解画像过程所形成的画像体, 也可以是其他更小规模画像聚合过 程中所形成的画像体; 画像聚合的过程需要选定一个时间范围和 一个数据存储位置范围; 画像聚合器对指定范围内的全部画像体按实体身份进 行分组, 在每个分组内对应的画像体 唯一隶属于单一 实体。 进而, 画像聚合器解析当前组内的所有画像体, 对其中的画像特征和 环境信息进行解读和推理, 产生对该实体的更丰富的画像; 所述UEBA的架构包括数据层、 算法层和场景层; 其中, 数据层用于数据采集, 所述数据 层包括若干数据收集器或传感器, 收集到的数据经特征提取、 标准化处理后, 存入数据库; 算法层用于对处 理好的数据进行分析, 包括特 征统计学习 、 动态行为基线、 时序前后分析。 2.根据权利要求1所述的基于UEBA的数据处理方法, 其特征在于, 基于语义注解算法将 所述数据条目转换为语义体, 具体包括: 从所述待处理 的数据条目中识别实体和行为特征, 以得到实体识别结果和行为信 息标 签; 判定所述实体和行为特征均识别成功, 则提取所述数据条目的环境信息, 以得到环境 信息提取 结果; 以所述实体识别结果、 所述行为信息标签和所述环境信息提取结果作为所述注解结 果, 生成所述语义体; 根据注解结果生成语义体的过程也就是注解生成过程, 针对一个数据条目, 如果实体 识别和标签提取过程都是成功的, 则采用一种序列化格式, 对实体识别结果、 标签、 环境提 取结果连同原 始的数据条目进行打包 存储, 从而形成的一份 语义体。 3.根据权利要求2所述的基于UEBA的数据处理方法, 其特征在于, 从所述待处理的数据 条目中识别实体和行为特 征, 之后还 包括: 若所述实体或所述行为特 征识别失败, 则结束对所述数据条目的处 理。 4.根据权利要求2所述的基于UEBA的数据处理方法, 其特征在于, 以所述实体识别结 果、 所述行为信息标签和所述环境信息提取结果作为所述注 解结果, 生成所述语义体, 之后 包括: 基于预存的分类策略, 对所述语义体存 储至目标存 储区域内;权 利 要 求 书 1/2 页 2 CN 115168569 A 2结合语义体标签信息设计分区存储方案, 分区存储是指选择一个分类策略, 针对每条 数据的特征进行分类, 将大规模数据进行分割, 在后续的数据查询阶段只针对部分分区进 行查询, 以减少查询工作量; 针对一个业务场景, 选择N个重要的标签用于分区方案的决策, 被选择的标签是符合标 签或键值标签; 对于一个语义体 s, 其是否命中上述标签由函数I标识, I(s,n)=1代表s具有 标签n,1≤n≤N; 否则, I(s,n)=0; 那么定义s所属分区编号可取作 如此, 可以将所有语义体分配到 至多2N个分区中。 5.根据权利要求2所述的基于UEBA的数据处理方法, 其特征在于, 所述实体包括主体和 客体, 将所述时间窗口内形成的所有所述语义体进行特征汇总, 并基于特征汇总后的语义 体生成画像 体, 具体包括: 对所述时间窗口内的所有语义体依次按照主体和客体进行分组, 在每个分组内对应的 语义体唯一隶属于单一主体; 对目标分组内各所述语义体的行为信 息标签和环境提取结果进行解析, 以得到语义体 解析结果; 将所述语义体解析 结果与主体 类型进行 结合, 以生成画像特 征; 基于所述画像特 征构建所述画像 体。 6.根据权利要求4所述的基于UEBA的数据处理方法, 其特征在于, 基于数据湖或数据仓 库, 对所述语义体存 储至目标存 储区域内。 7.一种基于UEBA的数据处 理系统, 其特 征在于, 所述系统包括: 语义体转换单元, 用于获取待处理的数据条目, 并基于语义注解算法将所述数据条目 转换为语义体; 其中, 所述语义体包括所述数据条目的注解结果和原 始日志; 画像体生成单元, 用于设定时间窗口, 并将所述时间窗口内形成的所有所述语义体进 行特征汇总, 并基于特 征汇总后的语义体生成画像 体; 分区存储单元, 用于将生成的画像 体按预设策略存放于目标存 储位置; 结果输出单元, 用于基于目标时间窗口范围和目标存储位置范围, 将生成的画像体进 行聚合, 以得到数据处 理结果。 8.一种智能终端, 其特 征在于, 所述智能终端包括: 数据采集装置、 处 理器和存 储器; 所述数据采集装置用于采集数据; 所述存储器用于存储一个或多个程序指令; 所述处 理器, 用于执 行一个或多个程序指令, 用以执 行如权利要求1 ‑6任一项所述的方法。 9.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质中包含一个或多 个程序指令, 所述 一个或多个程序指令用于执 行如权利要求1 ‑6任一项所述的方法。 10.一种计算机程序产品, 包括计算机程序, 其特征在于, 所述计算机程序被处理器执 行时实现如权利要求1 ‑6任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115168569 A 3

.PDF文档 专利 基于UEBA的数据处理方法和系统

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于UEBA的数据处理方法和系统 第 1 页 专利 基于UEBA的数据处理方法和系统 第 2 页 专利 基于UEBA的数据处理方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:48:40上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。