(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211126050.5
(22)申请日 2022.09.16
(71)申请人 深圳云威网络科技有限公司
地址 518000 广东省深圳市宝安区福永街
道怀德社区第三工业区A5 栋305-1
(72)发明人 车伟成
(74)专利代理 机构 深圳锴权知识产权代理事务
所(普通合伙) 44825
专利代理师 罗修华
(51)Int.Cl.
G06F 16/9535(2019.01)
G06F 11/34(2006.01)
G06F 11/32(2006.01)
G06F 11/30(2006.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06Q 30/06(2012.01)
H04L 67/55(2022.01)
(54)发明名称
一种基于大数据平台的用户行为分析系统
(57)摘要
本发明公开一种基于大数据平台的用户行
为分析系统, 应用于大数据分析领域; 解决的技
术问题是基于大数据的用户行为 分析, 采用的技
术方案是通过用户行为数据信息采集层采集用
户上网过程中的数据信息日志并通过通信线路
传输到用户行为数据信息分析层, 用户行为数据
信息分析层接收采集到的用户数据信息日志, 并
对用户数据信息日志进行特征提取和特征权重
计算, 分析用户行为并进行存储, 用户行为数据
信息业务层对分析后的用户行为数据信息日志
结果进行可视化展示, 通过分析结果预测用户可
能产生的行为并进行智能推荐; 本发 明能够高效
采集用户行为信息和准确的计算用户行为特征
权重, 提高了用户行为分析的准确率, 优化了用
户推荐体验。
权利要求书2页 说明书7页 附图4页
CN 115203578 A
2022.10.18
CN 115203578 A
1.一种基于大数据平台的用户行为分析系统, 其特征在于: 所述基于大数据平台的用
户行为分析系统包括:
用户行为数据信 息采集层, 负责采集用户上网过程中的数据信 息日志并通过通信线路
传输到用户行为数据信息分析层;
用户行为数据信息分析层, 负责接收采集到的用户数据信息日志, 并对用户数据信息
日志进行 特征提取和特 征权重计算, 分析用户行为并进行存 储;
用户行为数据信息业务层, 对分析后的用户行为数据信息日志结果进行可视化展示,
通过分析 结果预测用户可能产生的行为并进行智能推荐;
其中
所述用户行为数据信息采集层通过搭建Flume+Kafka数据采集模块进行大量数据日志
的监听与采集; Flume负责将用户上网过程中的数据日志收集起来, Kafka接收Flume发送的
数据日志 汇集后进行压缩分类, 统一传输 到用户行为数据信息分析层。
2.根据权利要求1所述的一种基于大 数据平台的用户行为分析系统, 其特 征在于:
所述用户行为数据信息分析层主要包括用户行为特征提取模块、 特征权重计算模块、
用户行为特 征聚类模块和存 储模块;
所述用户行为特征提取模块对用户上网过程中的信息数据日志选择性地提取特征词
句; 所述特征权重计算模块利用数据日志的统计信息, 对提取出的特征词句赋予一定权重;
所述用户行为特征聚类模块是将具有一定相似度的用户行为特征聚集为一类; 所述存储模
块对接收到的数据日志以及分析结果进行存储, 便于以后的查找使用; 所述用户行为特征
聚类模块与所述特征权重计算模块通信连接, 所述特征权重计算模块与用户分析模块通信
连接, 所述存储模块分别与所述用户行为特征提取模块、 所述特征权重计算模块和用户行
为特征聚类模块 通信连接 。
3.根据权利要求1所述的一种基于大 数据平台的用户行为分析系统, 其特 征在于:
所述用户行为数据信 息业务层主要包括分析结果可视化模块和智能推荐模块; 所述分
析结果可视化模块将复杂的数据以简单直观的图、 形和像呈现出来, 更易于理解用户行为
数据的含义; 所述智能推荐模块根据对用户行为特征 的提取分析, 智能推送用户可能感兴
趣的内容; 所述分析 结果可视化模块和智能推荐模块 通信相连。
4.根据权利要求2所述的一种基于大 数据平台的用户行为分析系统, 其特 征在于:
所述用户行为特征提取模块采用改进型基于深度学习的综合多维度数据特征提取方
法对数据日志进行特征提取; 通过数据日志建立一种多维度神经网络, 对于每一个维度都
有一个独立结构的多层子神经网络与之对应, 用于将不同维度下的数据日志特征转换为同
维度数据日志特征, 同时通过这些子神经网络上所有维度共有的一个神经网络层, 对这些
不同维度建立联系, 最终得到同一维度下的多种维度的综合数据日志特 征。
5.根据权利要求1所述的一种基于大 数据平台的用户行为分析系统, 其特 征在于:
所述特征权重计算模块用于衡量某个特征词句在整体数据日志中的重要程度, 权重计
算通过整体数据日志的信息, 对特征词句赋予一定的权重; 特征权重计算模块采用日志频
率与词频综合计算方法对特 征词句进行权 重计算, 具体公式为:权 利 要 求 书 1/2 页
2
CN 115203578 A
2(1)
公式 (1) 中, W表示特征词句的权重, Fin表示第n个特征词句在第 i个数据日志中出现的
次数,M表示总的数据日志数, mn表示出现第 n个特征词句的数据日志数,
一般取0.01、 0.1
或者1, 具体取值视不同数据日志选择, 通过本算法得到的特征权重, 既能准确表示出该特
征词句在数据日志中出现的频率, 又能减少一些 出现次数高的无意 义词句的影响。
6.根据权利要求1所述的一种基于大 数据平台的用户行为分析系统, 其特 征在于:
所述用户行为特征聚类模块是根据相似度的大小将相似的数据日志聚到一个类别中;
根据特征词句的重要程度, 在赋予一定的权值后, 构成向量空间, 把数据日志A与数据日志B
表示成向量的形式, 即 A=(a1,a2,a3,…,ak), 其中a1, a2, a3,…, ak 表示用户行为数据信息的
属性, B= (b1, b2, b3,…, bk) , b1, b2, b3,…, bk表示用户行为数据信息的类别, 其中k表示个数;
然后通过两个向量在不同维度下的距离进行判断两个数据日志的相似度, 距离计算公式
为:
(2)
公式 (2) 中, 当dist (A, B) ≤3时, 判定两个数据日志相似度较高, 能够 聚类到一个类别
中。
7.根据权利要求1所述的一种基于大 数据平台的用户行为分析系统, 其特 征在于:
所述分析结果可视化模块采用数据预载可视化技术, 即在可视化工作之初, 对需要进
行可视化展示的分析结果根据可视化图表的需要, 预先生成对应的数据, 在分析结果进行
展示的时候, 直接将这些数据调用加载出来渲染成为图形便于针对性的对用户行为做出决
策。
8.根据权利要求1所述的一种基于大 数据平台的用户行为分析系统, 其特 征在于:
智能推荐模块选用改进型基于内容过滤和双重聚类的智能推荐算法, 在用户上网过程
中对用户感兴趣的内容填下埋点, 对用户不感兴趣的内容进行过滤, 从而收集到用户感兴
趣的内容, 智能化对用户推送内容, 提高推荐准确率的同时提高推荐结果的多样性。权 利 要 求 书 2/2 页
3
CN 115203578 A
3
专利 一种基于大数据平台的用户行为分析系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:33:01上传分享