(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210290474.9 (22)申请日 2022.03.23 (71)申请人 江苏悉宁科技有限公司 地址 210012 江苏省南京市雨 花台区软件 大道68号01幢C、 D区域第五楼5 06室 (72)发明人 刘新新 孙昕杰 吕湛  (74)专利代理 机构 南京禾祁专利代理事务所 (普通合伙) 32462 专利代理师 韩睿 (51)Int.Cl. G06F 16/951(2019.01) G06F 40/30(2020.01) G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/247(2020.01)G06F 40/289(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) (54)发明名称 一种基于大数据的舆情监测方法及系统 (57)摘要 本申请涉及一种基于大数据的舆情监测方 法, 所述方法包括: S1、 采集大数据中的舆情信 息, 得到原始 舆情信息; S2、 对采集到的原始舆情 信息进行数据处理, 得到 热点舆情信息; S3、 将热 点舆情信息实时传输到终端。 本发 明先通过语义 分析将语义类似的舆情信息分类归组, 然后采集 分类归组后的舆情信息中的有用信息, 这样能大 大地过滤掉无用信息, 从而提高了舆情判断的准 确性; 接着, 从有用信息中采集多次出现的特征 短语, 并过滤掉出现次数较少的特征短语, 这样 能进一步地过滤掉无用信息, 进一步地提高了舆 情判断的准确性; 再接着, 过滤掉长度较短的特 征短语, 这样能避免较短特征短语对语义的干 扰, 从而又提高了 舆情判断的准确性。 权利要求书2页 说明书5页 附图2页 CN 114707045 A 2022.07.05 CN 114707045 A 1.一种基于大 数据的舆情监测方法, 其特 征在于, 所述方法包括: S1、 采集大 数据中的舆情信息, 得到原 始舆情信息; S2、 对采集到的原 始舆情信息进行 数据处理, 得到热点舆情信息; S3、 将热点舆情信息实时传输 到终端。 2.根据权利要求1所述的基于大数据的舆情监测方法, 其特征在于, 采集大数据中的舆 情信息, 得到原始舆情信息, 具体为: 通过自动提取网页程序和预设的关键词, 采集网络上 的海量舆情信息, 得到原 始舆情信息 。 3.根据权利要求2所述的基于大数据的舆情监测方法, 其特征在于, 对采集到的原始舆 情信息进行 数据处理, 得到热点舆情信息; 具体包括: 对所述原始舆情信息中的所有信息分别进行语义分析, 得到语义分析结果, 并根据所 述语义分析结果再次采集大数据中的舆情信息, 得到与所述原始舆情信息语义类似的舆情 信息, 再将语义类似的所有舆情信息分为 一组, 得到第一舆情信息; 从所述第一舆情信息中获取对舆情监测有用的文字信息, 得到第二舆情信息, 从所述 第二舆情信息中获取特征短语, 并对特征短语重复出现的次数进行计数, 当计数值大于预 设计数值时, 则 保留该特征短语, 当计数值小于预设计数值时, 则丢弃该特征短语, 得到第 三舆情信息; 将计算所述第三舆情信息中特征短语的长度, 当长度值大于预设长度值时, 则保留该 特征短语, 当长度值小于预设长度值时, 则丢弃 该特征短语, 得到第四舆情信息; 利用迭代求解的聚类分析算法对得到的所述第四舆情信 息进行处理, 得到热点舆情信 息。 4.根据权利要求3所述的基于大数据的舆情监测方法, 其特征在于, 对所述原始舆情信 息中的所有信息分别进行语义分析, 得到语义分析 结果; 具体包括: 建立语义分析模型, 获取带有语义分析结构的训练样本库, 利用该训练样本库对所述 语义分析模型进行模型训练, 得到训练好的语义分析模型, 将所述原始舆情信息中的所有 信息分别输入训练好的语义分析模型, 得到一次语义分析 结果。 5.根据权利要求4所述的基于大数据的舆情监测方法, 其特征在于, 对所述原始舆情信 息中的所有信息分别进行语义分析, 得到语义分析 结果; 还包括: 首先获取种子词, 并遍历词库获取与种子词相似词义的词语, 得到同义词库, 当所述同 义词库中不存在未被查找到的与种子词相似词义的词语时, 建立词族; 然后获取原始语义 规则式, 将该原始语义规则式分割为多个规则字符串, 并识别这些规则字符串的规则顺序 信息, 利用这些规则字符串和规则顺序信息, 首先判断原始语义规则式的样式是否正确, 当 所述原始语义规则式的样式正确时, 接着判断原始语义规则式的逻辑是否正确, 当原始语 义规则式的逻辑正确时, 则将该原始语义规则式归入语义规则式库中, 建立语义规则式库, 该语义规则式库包含多个语义规则式, 每个所述语义规则式又包含按 预设语义逻辑排列的 多个词族; 将所述一 次语义分析结果分割为多个一 次结果规则 字符串, 并识别这些一 次结果规则 字符串的语义顺序信息, 在所述语义规则式库中查找是否存在与所述多个一次结果规则字 符串的语义顺序信息相同的语义规则式, 若存在与所述多个一次结果规则字符串的语义顺 序信息相同的语义规则式, 则将该语义规则式作为二次分析结果, 该二次分析结果为最后权 利 要 求 书 1/2 页 2 CN 114707045 A 2分析结果, 若不存在与所述多个一次结果规则字符串的语义顺序信息相同的语义规则式, 则将一次语义分析 结果作为 最后分析 结果。 6.根据权利要求5所述的基于大数据的舆情监测方法, 其特征在于, 将热点舆情信 息实 时传输到终端, 具体为: 利用5 G网络将得到的所述热点舆情信息实时传输至终端, 供用户监 测。 7.一种基于大 数据的舆情监测系统, 其特 征在于, 所述系统包括: 舆情信息采集模块, 用于采集大 数据中的舆情信息, 得到原 始舆情信息; 舆情信息处 理模块, 用于对 采集到的原 始舆情信息进行 数据处理, 得到热点舆情信息; 舆情信息传输模块, 用于将热点舆情信息实时传输 到终端。 8.一种计算机设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处 理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。 9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被 处理器执行时实现权利要求1至7中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 114707045 A 3

.PDF文档 专利 一种基于大数据的舆情监测方法及系统

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于大数据的舆情监测方法及系统 第 1 页 专利 一种基于大数据的舆情监测方法及系统 第 2 页 专利 一种基于大数据的舆情监测方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:15上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。