(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210359725.4
(22)申请日 2022.04.07
(71)申请人 水利部信息中心
地址 100053 北京市西城区白广路2条2号
(72)发明人 蔡阳 邹希 陈真玄 陈岚 杨非
杨旭
(74)专利代理 机构 大连星海专利事务所有限公
司 21208
专利代理师 杨翠翠
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 40/268(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种基于主题挖掘和要素发现的网络数据
泄露检测方法
(57)摘要
一种基于主题模型和要素发现的网络数据
泄露检测方法, 其属于网络数据泄露检测与发现
的技术领域。 该方法包括文本预处理、 文本主题
挖掘、 主题要素发现、 数据泄露检测等步骤。 文本
预处理用于对文本进行分词、 去停用词、 词性过
滤等处理, 得到文本词语向量表示。 文本主题挖
掘构建主题模型, 通过训练得到 “文本‑主题”分
布和“主题‑词语”分布。 主题要素发现构建要素
发现模型, 挖掘出与主题最相关的词语。 数据泄
露检测通过挖掘文本所属主题并通过主题要素
词匹配判断是否发生数据泄露。 该方法采用主题
模型进行文本主题挖掘, 实现语义层面对文本内
容理解, 建具有主题偏好的节点概率转移矩阵,
实现面向主题的要素发现, 提高了数据泄露检测
的准确率。
权利要求书3页 说明书7页 附图2页
CN 115062102 A
2022.09.16
CN 115062102 A
1.一种基于主题模型和要素发现的网络数据泄露检测方法, 其特征在于, 包括以下步
骤:
步骤一, 对 网络端口上的数据包进行捕获并对其数据进行还原, 得到训练数据集; 然后
对训练数据集进行文本 分词、 去停用词、 词性过滤预处理, 得到训练数据集中文本的向量表
示, 作为主题挖掘模型和要素发现模型的输入;
步骤二, 构建主题挖掘模型, 采用吉布斯采样算法对模型参数进行估计, 得到 “文本‑主
题”分布、“主题‑词语”分布;
步骤三, 构建要素发现模型, 根据 “主题‑词语”分布计算得到词语主题分布相似度完成
文本网络图构建, 基于词语主题分布相似度、 词语主题表达力和随机转移概率设计节点转
移概率, 最后在文本网络图上采用随机游走算法得到节点的主题重要性, 完成主题要素发
现;
步骤四, 网络数据泄露检测, 对 网络端口上的数据包进行捕获还原得到文本数据, 经过
预处理后输入主题挖掘模型得到该文本数据的主题, 接着采用关键词匹配判断该文本数据
是否包含该文本主题对应的要素; 若 有, 则属于数据泄 露, 若没有, 则不属于数据泄 露。
2.根据权利要求1所述的一种基于主题挖掘和要素发现的网络数据泄露检测方法, 其
特征在于: 所述步骤一中, 将数据集按词语单元进行切分, 得到词语序列; 接着将无实际意
义的停用词过 滤掉, 减少其对主题挖掘的干扰; 最后过 滤掉文本中只起到修饰作用的词语。
3.根据权利要求1所述的一种基于主题挖掘和要素发现的网络数据泄露检测方法, 其
特征在于, 在所述 步骤二中所述主题挖掘过程如下:
(1)计算训练文本集词语和主题的联合 生成概率:
其中,
和
为Dirichlet分布归一化系数,
是Dirichlet分布先验参数, m代表
第m篇文本, k代表第k个主题,
为“文本‑主题”分布概率,
为“主题‑词语”分布概率, w为
词语, z为主题;
(2)联合生成概率
的条件概 率为
其中, u=(m,n)是一个二维下标, 对应第m篇文本第 n个词语,
表示除去下标为u的词
语;
其中, αk是
中主题k对应超参数值,
表示第m篇文本中除去第n个词语后, 剩下词语
属于主题k的次数; βt是
中词语t对应的超参数值,
表示主题为 k的词语中除去第m篇文
本第n个词语后, 剩下词语是t的次数;
(3)吉布斯采样估计 “文本‑主题”分布概率
“主题‑词语”分布概率
其中吉布斯采
样过程如下:权 利 要 求 书 1/3 页
2
CN 115062102 A
2(3.1)对训练文本集中的每一 篇文本的每 个词语w, 随机赋予一个主题z;
(3.2)重新扫 描训练文本集, 对每个词语w, 根据条件概率
对其采样, 生
成一个新的主题;
(3.3)重复步骤(3.2)直至吉布斯采样收敛为止;
(3.4)统计训练文本集的 “文本‑主题”分布
“主题‑词语”分布
4.根据权利要求1所述的一种基于主题挖掘和要素发现的网络数据泄露检测方法, 其
特征在于, 在所述步骤三中, 要素发现模型定义了文本网络图四元组G=<V,E,Ω,P>, 对
文本进行表示;
V={vi|vi是文本包 含的词语}; 文本中词语i表示 为文本网络图中的节点vi;
E={eij|eij是节点vi与节点vj之间的边, vi∈V, vj∈V}; 节点vi与节点vj之间的边定义为
有向边;
Ω={ωij|ωij是边eij的权重, eij∈E}; 权重ωij反应了节点vi与节点vj之间的关联程
度, 采用节点vi与节点vj对应的词语的 “词语‑主题”分布的相似程度衡量;
P={pi|pi是节点vi的重要性权重, vi∈V}; 采用图上的随机游走算 法计算得到节点的重
要性权重。
5.根据权利要求1或4所述的一种基于主题挖掘和要素发现的网络数据泄露检测方法,
其特征在于, 在所述 步骤三中, 采用 “词语‑主题”分布σw描述词语属于不同主题的概 率:
其中, σw,k表示词语w中第k个主题出现概率,
表示第k个主题中词语w出现概率, 并
采用KL散度对词语i和词语j之间的主题相似度DKL( σi||j)进行度量:
从而得到节点vi与节点vj之间边的权 重:
6.根据权利要求1所述的一种基于主题挖掘和要素发现的网络数据泄露检测方法, 其
特征在于, 在所述 步骤三中, 上述随机游走算法的节点 转移概率为:
Λ′=(1‑d)(Λ+D)+dE
其中, Λ是节点的主题分布相似度, 即网络图中边的权重Ω; D是随机转移概率、 E是词
语的主题 表达力矩阵;
随机转移概 率D的定义 为:
其中,
是n维列向量, 表示所有节点上的均匀分布, n是网络图中节点数目:
向量
是n维行向量, 用于识别出度为0的节点:权 利 要 求 书 2/3 页
3
CN 115062102 A
3
专利 一种基于主题挖掘和要素发现的网络数据泄露检测方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:44:50上传分享