(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211007471.6
(22)申请日 2022.08.22
(71)申请人 深圳大学
地址 518060 广东省深圳市南 山区南海大
道3688号
(72)发明人 陈俊扬 伍楷舜 巩志国 戴志江
(74)专利代理 机构 北京市诚辉律师事务所
11430
专利代理师 耿慧敏 朱伟军
(51)Int.Cl.
G06F 16/9535(2019.01)
G06F 16/9536(2019.01)
G06F 16/9538(2019.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
G06N 5/04(2006.01)
(54)发明名称
一种基于分层负采样的网络表示学习方法
(57)摘要
本发明公开了一种基于分层负采样的网络
表示学习方法。 该方法包括: 针对图网络获取一
组随机游走序列, 每个游走序列由一组顶点组
成; 对于每组随机游走序列, 对顶点的领域信息
进行建模, 以确定目标顶点的潜在社区结构; 基
于所述潜在社区结构, 为各顶 点计算其为目标顶
点的负样本的概率, 以采样负样本; 基于所采样
的负样本优化设定的目标函数, 进而确定顶点表
示学习向量。 本发明可以自适应地发现顶点的潜
在社区结构, 并根据社区的顶 点相关性的概率分
布, 学习获得更合理的负样本, 从而提升顶点表
示学习向量的性能。
权利要求书2页 说明书14页 附图7页
CN 115422445 A
2022.12.02
CN 115422445 A
1.一种基于分层负采样的网络表示学习方法, 包括以下步骤:
针对网络G=(V,E), 获取一 组随机游走序列S={s1,…,sM}, 其中, N为顶点集合的大小,
M表示随机游走的次数, V表示顶 点集,
表示边的集合, 每个游走序列s由一组顶
点组成{v1,…,vN};
对于每组随机游走序列, 对顶点的领域信息进行建模, 以确定目标顶点的潜在社区结
构;
基于所述潜在社区结构, 为各顶点计算 其为目标顶点的负 样本的概 率, 以采样 负样本;
基于所采样的负 样本优化设定的目标函数, 进 而确定顶点表示学习向量。
2.根据权利要求1所述的方法, 其特征在于, 利用层次狄利克雷过程生成概率图模型来
确定所述潜在社区结构, 包括以下步骤:
对所有已知的社区C进行概率分布的建模G0∣γ,C~Dir(γ/C), 其中, G0表示狄利克雷
过程的基 分布, Dir(γ/C)表 示随机游走序列关于社区相关程度的狄利克雷先验分布, γ是
超参数, C表示社区的数量大小;
对于每个社区c∈{1,2, …,C}, 将每个顶点属于该社区的概率设置为
其中, Dir( β )表 示随机游走序列中某个顶 点关于社区相关程度的狄利克雷先验分布, β 是超
参数;
对于每个游走序列s, 根据权重θs∣ α,G0~DP( α,G0), 采样获取该游走序列所在的社区,
并且对于该游走序列中的每 个顶点v∈{v1,v2,…,vN}执行:
根据权重ZS,v∣ θS~Multinomial( θS), 为顶点采样一个社区的分配;
从分配的社区中获取顶点的生成概 率
其中, DP表示狄利克雷过程, α 代表顶点v属于所分配的新社区的权重,
表示在社区c
中与该社区相关的顶点的概率分布,
表示序列s中的顶点v与采样出来的某个社区的
相关程度的权 重, Multi nomial表示多 项式。
3.根据权利要求2所述的方法, 其特征在于, 采用吉布斯采样对所述概率图模型的参数
进行推理, 包括:
对于游走序列s, 该游走序列中的每 个顶点v, 存在一个潜在的社区权 重的分布Zs,v;
利用狄利 克雷分布是多项式分布的共轭先验分布的特性, 将与社区分布相关 的参数θS
和
被积分消掉, 进而对于游走序列s内的除当前顶点v以外的其他顶点, 获得游走序列s
中其它顶点的社区分配信息
以及在社区c中除游走序列s外其它顶点的分布情况
为顶点v选择已存社区或新社区。
4.根据权利要求3所述的方法, 其特 征在于, 为顶点v选择已存社区c的概 率设置为:
其中,
表示游走序列s中当前顶点v除外的分配给社区c的顶点数量,
表示除权 利 要 求 书 1/2 页
2
CN 115422445 A
2当前游走序列s外、 顶点v分配给 社区c的数量。
5.根据权利要求3所述的方法, 其特 征在于, 顶点v属于一个新社区的条件概 率设置为:
其中, C+1表示 一个新的社区。
6.根据权利要求4所述的方法, 其特征在于, 对于目标顶点vt, 根据以下步骤采样负样
本:
为目标顶点vt采样一个社区c;
从该社区c中采样 负样本, 其中, 该 社区c中其 他顶点被视为负 样本的概 率设置为:
对于目标顶点vt, 其负样本顶点的分布 ψneg表示为:
使用多项式分布来采样 负样本:
v| ψneg~Multinomial( ψneg)
其中, 社区负样本顶点分布 ψneg考虑顶点潜在社 区的层次结构, 为目标顶点采样与 其所
在的社区相关性较小的顶点作为负 样本, Pneg(v)是顶点的不相关概 率。
7.根据权利要求6所述的方法, 其特 征在于, 所述目标函数表示 为:
其中, vk是采样获得的负样本顶点, K是负样本个 数, v′k表示顶点vk的向量的转置, v ′j表
示顶点vj的向量的转置, vi表示目标顶点, 顶点vj表示目标顶点vi的正样本 。
8.根据权利要求1所述的方法, 其特征在于, 所述对顶点的领域信 息进行建模遵循以下
假设:
每个随机游走序列都是 社区潜在结构的采样;
每个顶点都有其社区偏好的概 率分布。
9.一种计算机可读存储介质, 其上存储有计算机程序, 其中, 该计算机程序被处理器执
行时实现根据权利要求1至8中任一项所述方法的步骤。
10.一种计算机设备, 包括存储器和处理器, 在所述存储器上存储有能够在处理器上运
行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至8 中任
一项所述的方法的步骤。权 利 要 求 书 2/2 页
3
CN 115422445 A
3
专利 一种基于分层负采样的网络表示学习方法
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:32:51上传分享