(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210281309.7
(22)申请日 2022.03.22
(71)申请人 广东工业大 学
地址 510000 广东省广州市东 风东路729号
(72)发明人 陈炜鸿 李风环 钟明好 陈宸
(74)专利代理 机构 广州中坚知识产权代理事务
所(特殊普通 合伙) 44515
专利代理师 赖丽娟
(51)Int.Cl.
G16H 20/70(2018.01)
G16H 50/20(2018.01)
G06Q 50/00(2012.01)
G06F 16/34(2019.01)
G06F 16/35(2019.01)
G06F 40/216(2020.01)G06F 40/295(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于异质图注意力网络的社交用户抑
郁倾向检测方法
(57)摘要
本发明公开了一种基于异质图注意力网络
的社交用户抑郁倾向检测方法, 包括下述步骤:
采集用户社交网络平台上的数据, 对于用户生成
内容的短文本进行文本摘要, 对于用户行为数据
和用户画 像数据进行统计计算; 构建一个灵活的
异质信息网络框架对短文本、 用户行为数据和用
户画像数据进行建模, 对处理好的短文本进行实
体链接、 实体嵌入和特征提取, 并对特征进行主
题分析; 对于不同类型信息的异质性, 使用异质
图卷积; 对于不同相邻节点的重要性和不同节点
类型对特定节 点的重要性, 建立基于类型级和节
点级的双层 注意力机制; 构建一个基于注意力机
制的异质图神经网络, 对网络进行训练和测试,
预测标签, 从而完成判断用户是否存在抑郁倾向
的分类任务。 本发明能够结合多个信息维度将社
交媒体数据建模为异质图结构, 并构建异质图注
意力网络进行半监督分类, 判断用户是否存在抑郁倾向, 有利于帮助提高诊断的有效性, 从而辅
助临床确诊。
权利要求书4页 说明书9页 附图2页
CN 114628008 A
2022.06.14
CN 114628008 A
1.一种基于异质图注意力网络的社交用户抑郁倾向检测方法, 其特征在于, 包括以下
步骤:
S1、 采集用户社交网络平台上的数据, 对于用户生成内容的短文本进行文本摘要, 对于
用户行为数据和用户画像数据进行统计 计算;
S2、 构建一个灵活的异质信息网络框架对短文本、 用户行为数据和用户画像数据进行
建模, 对处 理好的短文本进行实体链接、 实体嵌入和特 征提取, 并对特 征进行主题分析;
S3、 对于不同类型信息的异质性, 使用异质图卷积;
S4、 对于不同相邻节点的重要性和不同节点类型对特定节点的重要性, 建立基于类型
级和节点级的双 层注意力机制;
S5、 构建一个基于注意力机制的异质图神经网络, 对网络进行训练和测试, 预测标签,
从而完成判断用户是否存在抑郁倾向的分类任务。
2.根据权利要求1所述的基于异质图注意力网络的社交用户抑郁倾向检测方法, 其特
征在于, 步骤S1 中, 所述的对于用户生 成内容进行文本摘要, 是指对于用户在社 交网络平台
上发送大量的文本数据, 利用Bert模 型进行文本嵌入和Kmeans聚类来识别靠近质心的句子
以进行自动摘要选择。 目的是从用户大量的社交文本中自动筛选出重要的句 子, 能更好地
解决信息碎片化和无用信息 干扰的问题, 提高了模型效率和准确率。
3.根据权利要求1所述的基于异质图注意力网络的社交用户抑郁倾向检测方法, 其特
征在于, 步骤S1 中, 所述的对于用户行为数据进 行统计计算, 是指对于用户在社 交平台上发
送信息的时间进行 统计计算, 形成发送时间分布。 这些 统计信息可能区别用户抑郁 状态, 对
于用户心理状态的判断有帮助, 利用编写好的函数进行采集和计算, 并将作为异质图节点
信息。
4.根据权利要求1所述的基于异质图注意力网络的社交用户抑郁倾向检测方法, 其特
征在于, 步骤S1 中, 所述的对于用户画像数据进 行统计计算, 是指对于用户使用积极和消极
表情比例的统计、 用户使用积极和消极词汇比例的统计、 用户使用第一人称单数和复数比
例的统计、 用户账号关注数和被关注数的统计等进 行统计计算, 构建用户画像。 这些 统计信
息可能区别用户抑郁状态, 对于用户心理状态的判断有帮助, 利用编写好的函数进行采集
和计算, 并将作为异质图节点信息 。
5.根据权利要求1所述的基于异质图注意力网络的社交用户抑郁倾向检测方法, 其特
征在于, 步骤S2的具体过程 为:
S21、 为了解决短文本的语义稀疏性问题, 我们利用一个灵活的异质信息网络
(Heterogeneous Information Network, HIN)框架来对短文本进行建模, 该框架可以集成
任何类型 的附加信息, 并捕获它们之间的关系, 以丰富短文本的语义。 对于附加信息, 除了
主题和实体, 我们还用到步骤S1计算的用户行为数据和用户画像数据, 如发送时间分布、 用
户使用积极和消极词汇比例的统计等。 构造图G=(V, ε ), V, ε分别为节点集和边集。 其中节
点集包括短文本集D={d1,…,dm}、 主题集T={t1,…,tk}、 实体集E={e1,...,en}、 发送时间
分布集C={c1,…,cp}、 词汇比例集W={w1,…,wq}, 即V=D∪T∪E∪C∪W。 边集ε表示它们之
间的关系。
S22、 使用文档主题生成模型Latent Dirichlet Allocation来识别短文本中潜藏的主
题信息, 挖掘出隐含主题, 以丰富短文本的语义。 计算词频, 每个主题ti=( θ1,..., θw)(w表权 利 要 求 书 1/4 页
2
CN 114628008 A
2示词汇量)由单词的概率分布表示, 为每个文档分配前P个概率最高的主题。 若存在文档与
主题的分配关系, 则 “文档‑主题”边建立;
S23、 对短文本进行实体链接。 识别 文档D中的实体E, 并使用实体链接工具TAGME将它们
映射到Wikipedia。 若 文档包含实体, 则 “文档‑实体”边建立;
S24、 对短文本进行实体嵌入。 将一个实体作 为一个完整的词, 并使用基于Wikip edia语
料库的word2v ec2来学习实体嵌入。 为了进一步丰富短文本的语义并促进信息传播, 增加了
实体之间的关系的考虑。 如果基于嵌入计算的两个实体之 间的相似度得分(余弦相似度)高
于预定义的阈值 δ, 则 “实体‑实体”边建立。
S25、 建立与用户行为数据和用户画像数据相关的边。 如, 每一个时间分布都对应每一
个用户, 每一个词汇比例都对应每一个用户等。 建立 “时间分布 ‑文档”边、 建立“词汇比例 ‑
文档”边等。
S26、 将词频率、 逆文档频率(TF ‑IDF)作为特征, 并删掉没有特征的实体、 删掉一些边、
删掉孤立点。 分别生成边、 特征(文档节点、 实体节点、 主题节 点、 用户行为数据 节点、 用户画
像数据节点)的文件, 同时保存map 索引信息文件, 以待输入网络训练。
6.根据权利要求1所述的基于异质图注意力网络的社交用户抑郁倾向检测方法, 其特
征在于, 步骤S3的具体过程 为:
S31、 使用TF ‑IDF(Term Frequency ‑Inverse Document Frequency)即词频 ‑逆文件频
率来评估用户的某一字词对用户发送的一篇社 交文本的重要程度。 一个词语在用户发送的
一篇社交文本中出现次数越多,同时在所有社交文本中出现次数越少,越能够代表该社交
文本。 TF用公式表示如下
其中, ni,j表示词条ti在文档dj中出现的次数, TFi,j就是表示词条ti在文档dj中出现的频
率。 IDF用公式表示如下
其中|D|表示所有 文档的数量, |j:ti∈dj|表示包含词条ti的文档数量。 TF ‑IDF表达为
TF‑IDF=TF·IDF (3)
S32、 对于不同类型信息的异质性, 使用异质图卷积。 在HIN 中, 我们有五种类型的节点:
文档、 主题、 实体、 用户行为数据、 用户画像数据, 它们具有不同特征空间。 对于文档d∈D, 我
们使用TF ‑IDF向量作为其特征向量xd。 对于主题t∈T, 单词分布xi=( θ1,…, θw)用于表示主
题特征向量。 对于每个实体, 为了充分利用相关信息, 我们将其词向量嵌入和其Wikipedia
文本的TF ‑IDF向量连接起来表示实体特征向量xv。 使用异质图卷积的方法, 考虑不同类型
信息的差异, 用不同类型信息各自的变换矩阵将它们投影到一个变换矩阵W; 考虑不同特征
空间的差异, 并将其投影到隐式公共空间中。 节点的更新公式为
其中
是
的子矩阵, 邻接矩阵
包含自连接, 它的行表示所有节
点, 列表示节 点的τ类型的邻居。 τ表 示节点种类(文档、 实体、 主题、 用户行为数据、 用户画像权 利 要 求 书 2/4 页
3
CN 114628008 A
3
专利 一种基于异质图注意力网络的社交用户抑郁倾向检测方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:45:23上传分享