(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211028548.8
(22)申请日 2022.08.25
(71)申请人 电子科技大 学
地址 611731 四川省成 都市高新区 (西区)
西源大道 2006号
(72)发明人 万文超 张引 汪冉冉 姜钰婕
沈倩
(74)专利代理 机构 电子科技大 学专利中心
51203
专利代理师 邹裕蓉
(51)Int.Cl.
G06Q 10/04(2012.01)
G06Q 50/00(2012.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)G06F 16/9535(2019.01)
(54)发明名称
一种基于对比学习的在线内容的流行度预
测方法
(57)摘要
本发明公开一种基于对比学习的在线内容
的流行度预测方法, 可应用于 社交网络中的消息
推送等场景。 为解决由于社交网络中用户数量庞
大且关系复杂、 难以全面捕捉消息级联传播的特
征, 使得准确预测在线内容的流行度的任务十分
具有挑战性的问题, 本发明首先构建社交网络中
用户和消息之间的逻辑关系图, 将其投影到只包
含消息节 点的关系图中; 然后通过 获取消息在用
户之间级联传播的级联图时间序列对每个消息
的级联传播过程进行建模; 同时我们根据消息的
流行程度进行采样, 确定消息锚节点的正负样
本, 设计了一种对比损失的计算方法, 并通过最
小化对比损失 实现不同消息之间的对比学习。
权利要求书1页 说明书8页 附图1页
CN 115392570 A
2022.11.25
CN 115392570 A
1.一种基于对比学习的在线内容的流行度预测方法, 其特 征在于, 包括以下步骤:
S1、 通过消息在设定时间内的转发序列Cn,T及其在用户之间的级联传播序列得到用户
和消息的交互矩阵, 交互矩阵中的每个元素表示对应用户转发对应消息的次数, 从而获取
消息和用户之间的交 互关系二部图;
将二部图投影到全局图: 全局图由消息构成顶点集合, 不同消息顶点之间边的条数由
它们之间被相同用户转发的次数确定;
S2、 利用消息在用户之间的级联传播序列得到消息在设定时间内在用户间的传播顺
序, 从而得到级联传播图序列; 通过图表示算法将级联传播图序列中每一个传播级联图转
化为对应时间序列的特 征向量, 从而得到在设定时间内的时间序列的特 征向量;
将时间序列的特 征向量输入到门控循环单 元, 得到消息对应的级联传播特 征向量;
S3、 将所有消息的级联传播特征向量和全局图输入图卷积网络GCN得到全局图中消息
节点的高阶表示, 高阶表示经 过多层感知机 MLP得到消息的流行度的最终预测值
其中, 在对图卷积网络GCN和多层感知机MLP进行训练时的损失函数L由均方误差MSE损
失LMSE和对比损失LCon两部分组成:
L=LMSE+β·LCon
LMSE为均方误差损失, LCON为对比损失函数, β 为权 重参数。
2.如权利要求1所述方法 , 其特征在于, 对比 损失函数LC O N的计算方式为:
其中, pos为正样本节点和锚节点之间的匹配程度pos=<h(a),h(pp)>, neg为负样本节
点和锚节点之间的匹配程度neg=<h(a),h(nn)>, <A,B>表示A与B的向量内积, h(a), h(pp),
h(nn)分别表示锚节点集合a、 正样本节点集合pp和负样本节点集合nn对应的特征嵌入,
ones为一个全1矩阵。
3.如权利要求2所述方法, 其特 征在于, 均方误差损失LMSE:
其中
为第i个的消息的流行度的预测值, yi为第i个的消息
的流行度的实际值, m为消息的总数量。
4.如权利 要求1所述方法, 其特征在于, 在对图卷积网络GCN和多层感知机MLP进行训练
时的样本通过以下 方式获得:
给定锚节点集合a, 对锚节点集合a的每一个消息, 随机选择流行程度与其同属一个类
别的消息作为正样本, 并加入到集合pp中; 同时随机选择流行程度与其不属于一个类别的
消息作为负 样本, 并加入到集 合nn中。
5.如权利要求1所述方法, 其特 征在于, 步骤S2中的图表示 算法为Node2Vec。权 利 要 求 书 1/1 页
2
CN 115392570 A
2一种基于对比学习的在线内容的流行度预测方 法
技术领域
[0001]本发明涉及网络数据预测技 术, 具体涉及对在线内容的流行度预测技 术。
背景技术
[0002]互联网技术的快速发展使得人与人之间的交流更加便捷, 人们可以随时通过微博
等社交平台发布或者分享自己感兴趣的内容。 由于实时分享的便捷性, 每天社交网络中都
有数以千万计的信息被发布或者传播。 如何处理如此数量庞大而且繁杂的信息, 无论是对
社交平台的管理者还是用户都是极具挑战的。 一方面, 如果要把所有在线内容推送给所有
用户, 平台的管理和维护的成本将会十分高昂; 另一方面, 用户每天面对海量的信息, 容易
陷入信息过 载的困境。
[0003]对社交网络中在线内容的流行度预测, 就是预测出信息在一定时间后的受关注程
度, 旨在从大量的在线内容中预测并识别出未来的热门信息, 这样, 可以给社 交平台的管 理
者节省大量的成本, 并且平台中的在线内容的质量将会得到很大的提升; 同时, 用户可以选
择性的关注热点信息, 从而 避免信息过 载带来的困扰。
[0004]现有的流行度预测方法主要可以分为三类, 基于特征提取的方法、 基于点过程建
模的方法和基于深度学习的方法。
[0005](1)基于特 征提取的方法
[0006]基于特征提取的流行度预测方法主要通过提取用户特征、 内容特征、 时序特征和
和结构特征预测消息的流行度, 但这种方法过于依赖于人工提取 的特征的质量, 并且无法
自动学习特 征的表示。
[0007](2)基于点过程建模的方法
[0008]基于点过程建模的流行度预测方法把社交网络中消息的传播过程看作是用户转
发行为的到达过程, 并对到达过程的速率函数建模, 从而预测消息的流行度。 这种方法往往
需要在一定的限制条件下对速率函数进行建模, 但是在现实场景下, 这些限制条件是否成
立是未知的。
[0009](3)基于深度学习的方法
[0010]基于深度学习的流行度预测方法通过神经网络模型学习社交网络中消息的内容
特征、 用户特征以及时序特征等的表示, 进而更加准确的预测消息在未来的流行度。 Liao
D,Xu J,Li G,et al.Popularity prediction on online articles with deep fusion
of temporal process and content features[C]//Proceedings of the AAAI
Conference on Artifici al Intelligence.2019,33(01):200 ‑207.分别对时间过程和内
容特征建模, 对时间过程的建模采用LSTM去刻画长期增长趋势, 用Attention CNN去自动捕
捉短期波动; 对内容特征的建模, 用Hierarchical Attention Network(HAN)学习文本特
征, 用嵌入技术提取元数据特征。 但是在社 交平台中, 用户之 间通过交互形成的网络的结构
往往是错综复杂的, 这对消息的流行度有着非常大的影响。 Cao Q,Shen H,Gao J,et
al.Popularity prediction on social platforms with coupled graph neural 说 明 书 1/8 页
3
CN 115392570 A
3
专利 一种基于对比学习的在线内容的流行度预测方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:33:05上传分享