(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210257659.X
(22)申请日 2022.03.16
(71)申请人 四川智胜慧旅科技有限公司
地址 610000 四川省成 都市武侯区武科东
一路7号
(72)发明人 张思国 王春鹏 唐捷 李小龙
曹舸 范绪 何怀平 杨金澄
(74)专利代理 机构 成都行之智 信知识产权代理
有限公司 5125 6
专利代理师 宋海霞
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/216(2020.01)
G06K 9/62(2022.01)
G06F 16/215(2019.01)
(54)发明名称
一种互联网大 数据分析方法及系统
(57)摘要
本发明公开了一种互联网大数据分析方法
及系统, 该方法包括: 获取多个互联网舆情数据
源, 对所述互联网舆情数据源进行预处理; 从预
设时间点起, 采用纵向比较 法对预处理后的每个
互联网舆情数据源分别进行去重选负处理, 得到
每个互联网舆情数据源去重选负后的数据; 在预
设周期内, 采用横向比较 法对各个互联网舆情数
据源去重选负后的数据进行进一步分析处理, 得
到相似舆情的情感分析结果, 同时得到被选定的
互联网舆情数据源及互联网舆情推送时间, 并将
最早的时间赋 予被选定的舆情数据。 本发明采用
相似度计算, 对比多家舆情的情感, 规避一家舆
情情感分析的一家 “片面性”, 从而使情感分析更
为准确。
权利要求书3页 说明书10页 附图2页
CN 114638230 A
2022.06.17
CN 114638230 A
1.一种互联网大 数据分析 方法, 其特 征在于, 该 方法包括:
获取多个互联网舆情数据源, 对所述互联网舆情数据源进行 预处理;
从预设时间点起, 采用纵向比较法对预处理后的每个互联网舆情数据源分别进行去重
选负处理, 得到每 个互联网舆情数据源去重 选负后的数据;
在预设周期内, 采用横向比较法对各个互联网舆情数据源去重选负后的数据进行进一
步分析处理, 得到相似舆情的情感分析结果, 同时得到被选定的互联网舆情数据源及互联
网舆情推送时间, 并将最 早的时间赋予被选 定的舆情数据;
所述的采用纵向比较法对预处理后的每个互联网舆情数据源分别进行去重选负处理;
具体包括: 从预设时间点T1起, 在时间序列上根据一家互联网舆情数据源对应的提供商依
次推送的舆情数据, 采用相似度函数对所述舆情数据进行舆情相似度计算, 得到第一舆情
相似度; 根据所述第一舆情相似度, 判断各个舆情数据是否为相似或者相同舆情数据。
2.根据权利要求1所述的一种互联网大数据分析方法, 其特征在于, 每个所述互联网舆
情数据源包括舆情数据的时间点和舆情数据的情感语义, 所述舆情数据的情感语义包括正
面情感、 负面情感。
3.根据权利要求1所述的一种互联网大数据分析方法, 其特征在于, 所述的根据 所述第
一舆情相似度, 判断各个舆情数据是否为相似或者相同舆情数据; 具体包括:
若所述第一舆情相似度大于等于第一预设值, 则各个舆情数据为相似舆情数据, 进行
各个舆情数据的情感对比分析, 剔除重复舆情数据并选取负向舆情数据; 并采用第一计数
器记录提供商推送的重复或相似舆情数据次数进行累加;
若所述第一舆情相似度小于第一预设值, 则各个舆情数据为非相似舆情数据, 进行非
相似的舆情数据重复比较, 进一步去掉重复舆情数据, 得到互联网舆情数据源中去重选负
后的数据。
4.根据权利要求3所述的一种互联网大数据分析方法, 其特征在于, 所述的若所述舆情
相似度大于等于第一预设值, 则进行各个舆情数据的情感对比分析, 剔除重复舆情数据并
选取负向舆情数据; 具体包括:
在情感对比分析中, 当舆情数据中只有一条负面舆情时, 则剔除其它条舆情数据, 选取
该条舆情数据, 同时该 条舆情数据的时间点 值取本次对比舆情数据中最 早的时间点 值;
当舆情数据中不止一条负面舆情时, 选取一条舆情数据作为本轮对比结果, 剔除多余
的负面舆情数据, 同时选取的该条舆情数据的时间值取本次对比舆情数据中最早的时间点
值。
5.根据权利要求1所述的一种互联网大数据分析方法, 其特征在于, 所述的采用横向比
较法对各个互联网舆情数据源去重 选负后的数据进行进一 步分析处 理, 具体包括:
在预设周期内, 采用相似度函数对各个互联网舆情数据源去重选负后的舆情数据进行
舆情相似度计算, 得到第二舆情相似度; 根据所述第二舆情相似度, 进 行各个舆情数据的舆
情情感纠偏处 理:
若第二舆情相似度大于等于第 二预设值, 则各个互联网舆情数据源去重选负后的舆情
数据为相似舆情; 并进行以上舆情数据的情感对比;
若第二舆情相似度小于第 二预设值, 则将渠道舆情数据作为参照数据项继续保留在预
设周期内, 看是否有新的对比舆情数据; 若 无, 则将相关舆情数据作为平台的正式舆情数据权 利 要 求 书 1/3 页
2
CN 114638230 A
2使用, 并将最 早的时间赋予被选 定的舆情数据。
6.根据权利要求5所述的一种互联网大数据分析方法, 其特征在于, 所述的若第 二舆情
相似度大于等于第二预设值, 则各个互联网舆情数据源去重选负后的舆情数据为相似舆
情; 并进行以上舆情数据的情感对比; 具体包括:
步骤A, 比较各个提供商在相同舆情的推送时间适 时性, 较晚的提供商均采用各自的第
二计数器进行 数量累加1;
步骤B, 比较各个提供商在相同舆情的横向对比中时间非最快次数, 各个提供商均采用
各自的第三计数器记录被情感纠正的舆情数据量;
步骤C, 当情感比较中, 舆情数据中三条数据的情感都为负, 则取时间最早的一条舆情
数据供平台使用, 将该舆情标注为事件需要进入指挥调度系统体系直接派人处置; 此时各
个第三计数器不计数;
步骤D, 当舆情数据中两条为负, 一条为正时, 则同步骤C, 同时将选取的该条舆情数据
标黄, 提醒值守人员给予关注是否进 行舆情情感纠偏; 当语义分析被确认正确的, 正面的一
条会被记录到步骤A中对应的第二计数器中, 反之, 负面的两条会被记录; 同时值守人员人
工将负面两条纠偏取正, 正面语义的时间最早的一条供平台使用; 被纠 偏的舆情数据对应
提供商的第三计数器对应加1;
步骤E, 当舆情数据中两条为正, 一条为负时, 则取负面的一条舆情数据, 并将该条舆情
数据的时间赋予三条舆情数据中最早的时间点值, 并将该条舆情数据标红, 要求值守人员
进行舆情 情感纠偏; 被纠偏的舆情对应提供商的第三计数器对应加1。
7.根据权利要求1所述的一种互联网大数据分析方法, 其特征在于, 该方法还包括: 根
据所述互联网舆情推送时间和所述情感分析结果对各个互联网舆情数据源的提供商进行
服务质量评价。
8.根据权利要求1所述的一种互联网大数据分析方法, 其特征在于, 所述的对所述互联
网舆情数据源进行预处理包括对所述互联网舆情数据源进行数据有效性判断处理, 具体
为:
判断所述互联网舆情数据源的舆情标题是否为空, 若舆情标题为空, 则该条舆情数据
为无效舆情数据; 若舆情标题为不为空, 则继续判断该条舆情数据的正文内容是否为空, 如
果正文内容为空, 则该条舆情数据为无效舆情数据; 如果正文内容不为空, 则该条舆情数据
为有效舆情数据;
对于无效舆情数据, 供提供商统计向平台推送舆情数据时剔除;
对于有效舆情数据, 供提供商统计向平台推送舆情数据时累加。
9.一种互联网大数据分析系统, 其特征在于, 该系统支持如权利要求1至8中任一所述
的一种互联网大 数据分析 方法, 该系统包括:
获取单元, 用于获取多个互联网舆情数据源;
预处理单元, 用于对所述互联网舆情数据源进行 预处理;
去重选负处理单元, 用于从预设时间点起, 采用纵向比较法对预处理后的每个互联网
舆情数据源分别进行去重选负处理, 得到每个互联网舆情数据源去重选负后的数据; 所述
纵向比较法为从预设时间点T1起, 在时间序列上根据一家互联网舆情数据源对应的提供商
依次推送的舆情数据, 采用相似度函数对所述舆情数据进行舆情相似度计算, 得到第一舆权 利 要 求 书 2/3 页
3
CN 114638230 A
3
专利 一种互联网大数据分析方法及系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:44:19上传分享