专利一种基于对比学习的在线内容的流行度预测方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211028548.8 (22)申请日 2022.08.25 (71)申请人电子科技大学地址 611731 四川省成都市高新区（西区）西源大道 2006号 (72)发明人万文超　张引　汪冉冉　姜钰婕　沈倩　 (74)专利代理机构电子科技大学专利中心 51203 专利代理师邹裕蓉 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 50/00(2012.01) G06N 3/08(2006.01) G06N 3/04(2006.01)G06F 16/9535(2019.01) (54)发明名称一种基于对比学习的在线内容的流行度预测方法 (57)摘要本发明公开一种基于对比学习的在线内容的流行度预测方法，可应用于社交网络中的消息推送等场景。为解决由于社交网络中用户数量庞大且关系复杂、难以全面捕捉消息级联传播的特征，使得准确预测在线内容的流行度的任务十分具有挑战性的问题，本发明首先构建社交网络中用户和消息之间的逻辑关系图，将其投影到只包含消息节点的关系图中；然后通过获取消息在用户之间级联传播的级联图时间序列对每个消息的级联传播过程进行建模；同时我们根据消息的流行程度进行采样，确定消息锚节点的正负样本，设计了一种对比损失的计算方法，并通过最小化对比损失实现不同消息之间的对比学习。权利要求书1页说明书8页附图1页 CN 115392570 A 2022.11.25 CN 115392570 A 1.一种基于对比学习的在线内容的流行度预测方法，其特征在于，包括以下步骤： S1、通过消息在设定时间内的转发序列Cn,T及其在用户之间的级联传播序列得到用户和消息的交互矩阵，交互矩阵中的每个元素表示对应用户转发对应消息的次数，从而获取消息和用户之间的交互关系二部图；将二部图投影到全局图：全局图由消息构成顶点集合，不同消息顶点之间边的条数由它们之间被相同用户转发的次数确定； S2、利用消息在用户之间的级联传播序列得到消息在设定时间内在用户间的传播顺序，从而得到级联传播图序列；通过图表示算法将级联传播图序列中每一个传播级联图转化为对应时间序列的特征向量，从而得到在设定时间内的时间序列的特征向量；将时间序列的特征向量输入到门控循环单元，得到消息对应的级联传播特征向量； S3、将所有消息的级联传播特征向量和全局图输入图卷积网络GCN得到全局图中消息节点的高阶表示，高阶表示经过多层感知机 MLP得到消息的流行度的最终预测值其中，在对图卷积网络GCN和多层感知机MLP进行训练时的损失函数L由均方误差MSE损失LMSE和对比损失LCon两部分组成： L＝LMSE+β·LCon LMSE为均方误差损失， LCON为对比损失函数， β 为权重参数。 2.如权利要求1所述方法，其特征在于，对比损失函数LC O N的计算方式为：其中， pos为正样本节点和锚节点之间的匹配程度pos＝<h(a),h(pp)>， neg为负样本节点和锚节点之间的匹配程度neg＝<h(a),h(nn)>， <A,B>表示A与B的向量内积， h(a)， h(pp)， h(nn)分别表示锚节点集合a、正样本节点集合pp和负样本节点集合nn对应的特征嵌入， ones为一个全1矩阵。 3.如权利要求2所述方法，其特征在于，均方误差损失LMSE：其中为第i个的消息的流行度的预测值， yi为第i个的消息的流行度的实际值， m为消息的总数量。 4.如权利要求1所述方法，其特征在于，在对图卷积网络GCN和多层感知机MLP进行训练时的样本通过以下方式获得：给定锚节点集合a，对锚节点集合a的每一个消息，随机选择流行程度与其同属一个类别的消息作为正样本，并加入到集合pp中；同时随机选择流行程度与其不属于一个类别的消息作为负样本，并加入到集合nn中。 5.如权利要求1所述方法，其特征在于，步骤S2中的图表示算法为Node2Vec。权　利　要　求　书 1/1 页 2 CN 115392570 A 2一种基于对比学习的在线内容的流行度预测方法技术领域 [0001]本发明涉及网络数据预测技术，具体涉及对在线内容的流行度预测技术。背景技术 [0002]互联网技术的快速发展使得人与人之间的交流更加便捷，人们可以随时通过微博等社交平台发布或者分享自己感兴趣的内容。由于实时分享的便捷性，每天社交网络中都有数以千万计的信息被发布或者传播。如何处理如此数量庞大而且繁杂的信息，无论是对社交平台的管理者还是用户都是极具挑战的。一方面，如果要把所有在线内容推送给所有用户，平台的管理和维护的成本将会十分高昂；另一方面，用户每天面对海量的信息，容易陷入信息过载的困境。 [0003]对社交网络中在线内容的流行度预测，就是预测出信息在一定时间后的受关注程度，旨在从大量的在线内容中预测并识别出未来的热门信息，这样，可以给社交平台的管理者节省大量的成本，并且平台中的在线内容的质量将会得到很大的提升；同时，用户可以选择性的关注热点信息，从而避免信息过载带来的困扰。 [0004]现有的流行度预测方法主要可以分为三类，基于特征提取的方法、基于点过程建模的方法和基于深度学习的方法。 [0005](1)基于特征提取的方法 [0006]基于特征提取的流行度预测方法主要通过提取用户特征、内容特征、时序特征和和结构特征预测消息的流行度，但这种方法过于依赖于人工提取的特征的质量，并且无法自动学习特征的表示。 [0007](2)基于点过程建模的方法 [0008]基于点过程建模的流行度预测方法把社交网络中消息的传播过程看作是用户转发行为的到达过程，并对到达过程的速率函数建模，从而预测消息的流行度。这种方法往往需要在一定的限制条件下对速率函数进行建模，但是在现实场景下，这些限制条件是否成立是未知的。 [0009](3)基于深度学习的方法 [0010]基于深度学习的流行度预测方法通过神经网络模型学习社交网络中消息的内容特征、用户特征以及时序特征等的表示，进而更加准确的预测消息在未来的流行度。 Liao D,Xu J,Li G,et al.Popularity prediction on online articles with deep fusion of temporal process and content features[C]//Proceedings of the AAAI Conference on Artifici al Intelligence.2019,33(01):200 ‑207.分别对时间过程和内容特征建模，对时间过程的建模采用LSTM去刻画长期增长趋势，用Attention CNN去自动捕捉短期波动；对内容特征的建模，用Hierarchical Attention Network(HAN)学习文本特征，用嵌入技术提取元数据特征。但是在社交平台中，用户之间通过交互形成的网络的结构往往是错综复杂的，这对消息的流行度有着非常大的影响。 Cao Q,Shen H,Gao J,et al.Popularity prediction on social platforms with coupled graph neural 说　明　书 1/8 页 3 CN 115392570 A 3

专利 一种基于对比学习的在线内容的流行度预测方法

专利一种基于对比学习的在线内容的流行度预测方法