(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210479219.9 (22)申请日 2022.05.05 (71)申请人 湖州师范学院 地址 313000 浙江省湖州市二环东路759号 (72)发明人 宋涛 郭佳怡 唐矛宁 韦艳芳  (74)专利代理 机构 深圳泛航知识产权代理事务 所(普通合伙) 44867 专利代理师 甘伟 (51)Int.Cl. G06Q 10/06(2012.01) G06Q 50/14(2012.01) G06F 16/35(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01) (54)发明名称 一种基于集成学习数据挖掘技术的旅游景 区评价信息质量有效性分析方法 (57)摘要 本发明涉及互联网信息评价技术领域, 且公 开了一种基于集成学习数据挖掘技术的旅游景 区评价信息质量有效性分析方法, 包括第一步的 构建文本有效性评价指标体系, 第二步的关联分 析, 第三步的构建基于集 成学习数据挖掘技术的 分类模型等。 本发明利用不同维度的旅游景区评 价信息质量的关联性, 提出了综合信息内容质量 和信息表达形式质量两个维度, 包括时效性、 情 感性、 相关性、 完整性和可理解性共5项指标的旅 游景区评论信息质量有效性评价指标体系。 其 中, 信息内容质量包含时效性、 情感性和相关性 三个指标。 信息表达形式质量包含完整性和可理 解性两个指标。 权利要求书2页 说明书8页 附图1页 CN 115018255 A 2022.09.06 CN 115018255 A 1.一种基于集成学习数据挖掘技术的旅游景区评价信 息质量有 效性分析方法, 其特征 在于: 包括以下工作步骤: 第一步: 构建文本有效性评价指标体系; S101、 时效性 评论文本的阅读时间和评论发布时间的差异作为评论 时效性的量化值, 设置参数σ, 评 论及时性(X_1)的取值范围控制在[0 ‑10], 计算公式为: X_1=[T_max ‑(T_w‑T_r)]/σ; S102、 情感性 评论文本中含有 的“非常好、 满意、 差评、 失望 ”之类情感词语, 可以直接表达出游客对 目的地的态度, 也可以指导其他游客的旅游选择, 用情感词的频率很难表达评论中表述的 积极或消极情绪的强度, 因此根据情感词典中对应词的相似度对采集到的文本进行评分, 并考虑程度副词和否定词对情感值计算的影响, 并加权计算出句 子情感强度, 输出评论文 本的情感极性和强度; S103、 相关性 评论文本的相关性即评论中产品特征的丰富性, 由评论中包含的目的属性特征词来量 化, 属性特征词通常为名词或形容词, 是目的地本身及其相关服务的客观表达, 提取文本细 节内容, 通过分词、 词性标注处理得到目的地评论词集合C1, 使用词频统计对名词和形容词 进行要素量化, 得到属性特征词集C2, 构建空间向量模型, 匹配评论词集C1和属性特征词集 C2, 统计评论中每 个特征词的出现频率; S104、 完整性 评论文本的完整性主要是指对旅游目的地特征的详细描述, 需要统计每条评论的字 数, 统计所得字符数分布较为不均, 对字符数进行取对数, Length=Ln(Nr), 其中Nr为评论 字数; S105、 可理解 性 评论文本的可理解性指文本前后的关联性, 利用语义文本向量度量评论的可理解性, 向量语义的概念是将一个单词表示为多维语义空间的一个点, 表示单词的向量嵌入到特定 的向量空间中; 第二步: 关联分析 S201、 DBSCAN聚类分析 对评论效用数据进行标准化处理, 确定算法参数的取值, 寻找核心点形成临时聚类族, 合并临时聚类族得到聚类族; S202、 关联规则挖掘 通过Apri ori算法进行挖掘; 第三步: 构建基于集成学习数据挖掘技术的分类模型, 通过随机森林算法建立文本分 类模型; S301、 随机森林分类模型的三个参数选择 S3011、 nodesize表示包含样本的叶节点数, 节点大小为1表示分类, 5表示回归, 取 nodesize=1; S3012、 ntree表示森林中树的数目; S3013、 mtry表示每 个节点的候选特 征数;权 利 要 求 书 1/2 页 2 CN 115018255 A 2S302、 随机森林分类模型效果评价 采用统计学领域常见的准确率(Accuracy)、 精确率(Precision)、 召回率(Recall)和综 合评价指标(F ‑measure, 简记为F1值)进行评估; 对预先给定的评价文本数据经过测试, 结果显示准确率为82.35%, 即所有被预测的样 本, 预测正确的概率为82.35%; 精确率为80.77%, 说明分类器识别样本的能力较好; 召回 率为98.45%, 表示被预测的所有正样本, 能够被正确预测的占比; F1值是一个综合的评价 指标, 为78.02%。 2.根据权利要求1所述的一种基于集成学习数据挖掘技术的旅游景区评价信 息质量有 效性分析方法, 其特征在于: 所述文本有效性评价指标体系从信息内容质量和信息表达形 式质量两方面进行文本有效性评价, 信息内容质量包括情感性、 时效性、 相关性三个指标, 信息表达形式质量包括完整性和可理解 性两个指标。 3.根据权利要求1所述的一种基于集成学习数据挖掘技术的旅游景区评价信 息质量有 效性分析方法, 其特征在于: 所述T_max是评论发布时间和 评论阅读时间之间的最大差值, T_w是评论发布时间, T_r是评论阅读时间, σ 取值 为T_max/10 。 4.根据权利要求1所述的一种基于集成学习数据挖掘技术的旅游景区评价信 息质量有 效性分析方法, 其特征在于: 所述DBSCAN聚类 分析是一种简单有效的数据挖掘技术, 聚类是 按照一定的标准将一些事物划分为若干类别的过程, 相似的被聚为一类, 不相似的被聚为 不同的类。 5.根据权利要求1所述的一种基于集成学习数据挖掘技术的旅游景区评价信 息质量有 效性分析方法, 其特征在于: 所述Apr iori算法由连接和剪枝两个步骤组成, 连接是找到Lk, 通过L(k‑1)与自己连接产生 候选k项集的集 合Ck。 6.根据权利要求5所述的一种基于集成学习数据挖掘技术的旅游景区评价信 息质量有 效性分析方法, 其特征在于: 所述剪枝是通过计算每个k项集的支持度来得到Lk, 为减少计 算量, 可利用到该算法的性质即如果一个k项集的(k ‑1)项子集不在L(k ‑1)中, 则该候选也 不是频繁的, 可以直接从Ck中删除, 其中支持度、 置信度、 提升度是用来衡量关联性强弱的 三个核心指标。 7.根据权利要求1所述的一种基于集成学习数据挖掘技术的旅游景区评价信 息质量有 效性分析方法, 其特征在于: 所述第三步中ntree值足够大时, 可保证随机森林的总体误差 率趋于稳定, 实证表明nt ree=59时分类效果 最好, 准确率达 到0.8235。 8.根据权利要求1所述的一种基于集成学习数据挖掘技术的旅游景区评价信 息质量有 效性分析方法, 其特征在于: 所述mtry影响随机森 林模型性能最明显的参数, 在分类中mtry 是整个变量个数的均方根, mt ry=7。权 利 要 求 书 2/2 页 3 CN 115018255 A 3

.PDF文档 专利 一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法 第 1 页 专利 一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法 第 2 页 专利 一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:46:03上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。