(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211170853.0 (22)申请日 2022.09.26 (71)申请人 浙江力石科技股份有限公司 地址 310000 浙江省杭州市余杭区文一西 路998号海创园科研孵化区18号楼 506、 507室 (72)发明人 徐成涛 陈海江 张良友  (74)专利代理 机构 杭州云睿专利代理事务所 (普通合伙) 33254 专利代理师 张骁敏 (51)Int.Cl. G06F 16/9535(2019.01) G06F 16/9538(2019.01) G06F 16/951(2019.01) G06Q 50/14(2012.01) (54)发明名称 一种美食数据采集汇聚方法及系统 (57)摘要 本发明公开了一种美食 数据采集汇聚系统, 包括数据采集模块, 数据处理模块、 数据准备模 块、 数据应用模块, 具体有, 所述数据采集模块借 助聚焦网络爬虫引擎获得初 级聚焦的爬取数据, 所述数据处理模块根据预设的处理规则对爬取 数据进行数据清洗、 数据规整及分门别类, 所述 数据准备模块根据预设的数据字段规则对原始 数据进行全 方位评估, 所述数据应用模块提供标 准的数据增 删查改操作, 提供基本的数据分析报 表, 对外提供开放API接口供外部应用接入, 以便 于更好的应用采集到的数据。 权利要求书2页 说明书5页 附图1页 CN 115438266 A 2022.12.06 CN 115438266 A 1.一种美食数据采集汇聚系统, 其特征在于, 包括数据采集模块、 数据处理模块、 数据 准备模块、 数据应用模块, 具体包括: 所述数据采集模块,借助聚焦网络爬虫引擎, 设置美食相关的关键字, 进行定时的网络 爬取动作, 获得初级聚焦的爬取 数据; 所述数据处理模块, 对爬取数据进行数据清洗、 数据规整及 分类, 转换成适合关系型数 据库保存的美食数据并保存 入库; 所述数据准备模块, 对入库的美食数据进行全方位评估, 数据 管理员参考评估结果, 对 数据进行处 理, 包括数据分析、 筛 选及纠错, 生成可 供业务端直接使用的规范 数据; 所述数据应用模块, 提供标准的数据增删查改操作, 提供基本的数据分析报表, 对外提 供开放API接口供外 部应用接入。 2.根据权利要求1所述的一种美食数据采集汇聚系统, 其特征在于, 所述数据采集模块 具体包括: 定义和描述爬取目标, 针对当前美食主题设置一系列网页作为爬取目标, 并使用递归 访问找到所有相关的超链接网址, 针对所有网址进行爬取对应主题目标 得到爬取结果; 使用结果 算法对爬取 结果进行修剪并通过关键 字进行筛 选。 3.根据权利要求2所述的一种美食数据采集汇聚系统, 其特征在于, 所述数据采集模块 还包括: 每一种主题下参数均设置有权重值并初始化, 根据 所述数据准备模块返回的对于美食 数据准确度的评分结果, 提高后续爬取工作对于高评分主题参数的权 重值。 4.根据权利要求1所述的一种美食数据采集汇聚系统, 其特征在于, 所述数据处理模块 具体包括: 定义美食 模型, 并定义 一套准确度评估体系; 使用AI自然语言处理引擎, 识别所述最终的爬取结果中的文本特征, 进行分词处理, 根 据每个词的向量 值组成句向量、 段向量, 将文本与美食 模型中的主题匹配; 人工处理AI自然语言处 理引擎处 理不了或处 理有误的数据; 根据匹配的美食主题与文本生成初步的美食挖掘数据。 5.根据权利要求4所述的一种美食数据采集汇聚系统, 其特征在于, 所述数据处理模块 还包括: 一套美食相关的训练集供AI自然语言处理引擎进行大量的AI训练, 除了当前已有的训 练样本外, 后续存 入数据库中的数据也将持续添加到训练集中。 6.根据权利要求1所述的一种美食数据采集汇聚系统, 其特征在于, 所述数据准备模块 具体包括: 数据质量配置, 制定数据表和数据字段的核查 规则; 数据质量分析, 通过所述核查规则对美食挖掘数据内容找出具有明显错误的数据并将 其丢弃; 数据评估, 对经 过质量分析后的美食挖掘数据作出评估; 美食挖掘数据入库。 7.根据权利要求1所述的一种美食数据采集汇聚系统, 其特征在于, 所述数据应用模块 具体包括:权 利 要 求 书 1/2 页 2 CN 115438266 A 2美食业务数据基础应用, 供一般的业务数据使用, 包括对数据库中美食挖掘数据的增 删查改操作, 以实现数据实时的更新; 智能分析报表, 将数据库中的美食挖掘数据以报表的形式进行统计并展示; 开放API接口, 与其 他需要用到 美食数据的系统连接, 为外 部系统提供 数据支持。 8.一种美食数据采集汇聚方法, 其特 征在于, 具体步骤如下: S1、 使用聚焦网络爬虫引擎对一系列美食主题网页及其下所有超链接网址进行爬取得 到爬取结果; S2、 对爬取 结果使用结果 算法进行修剪并筛 选得到最终的爬取 结果; S3、 使用AI自然语言处理引擎, 识别最终的爬取结果中的文本特征, 将文本与预设的美 食模型中的对应的主题进行匹配, 生成初步的美食挖掘数据; S4、 通过预设的核查规则找出美食挖掘数据中具有明显错误的内容, 如垃圾数据, 数据 类型错误, 数据长度错 误, 数据内部 逻辑不匹配等, 筛 选出此类数据后丢弃; S5、 人工对经过质量分析筛选后的美食挖掘数据作出最后的评估和操作, 对美食挖掘 数据中与主题相关性更高以及文本描述质量更高的数据给到更高的评价, 该评价可为聚焦 网络爬虫引擎爬取偏好 修改提供依据; S6、 将最终的美食挖掘数据存 入数据库中, 以便应用系统取用。 9.一种电子设备, 其特征在于, 包括: 包括处理器和存储器, 所述存储器中存储有计算 机程序, 所述计算机程序由所述处理器加载并执行以实现权利要求8所述的美食数据采集 汇聚方法。 10.一种计算机可读存储介质, 其特征在于, 所述存储介质中存储有计算机程序, 所述 计算机程序由处 理器加载并执 行以实现权利要求8所述的美食数据采集汇聚方法。权 利 要 求 书 2/2 页 3 CN 115438266 A 3

.PDF文档 专利 一种美食数据采集汇聚方法及系统

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种美食数据采集汇聚方法及系统 第 1 页 专利 一种美食数据采集汇聚方法及系统 第 2 页 专利 一种美食数据采集汇聚方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:34:19上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。