国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210989879.1 (22)申请日 2022.08.18 (71)申请人 刘娟 地址 401121 重庆市渝北区佳园路2号康田 凯旋国际北楼 申请人 陈雪 宋阳 杨世利 宋鹏 (72)发明人 刘娟 陈雪 宋阳 杨世利 宋鹏 熊炜 裴劼 洪晓霞 王仁菊 杨颖 李佳 江欣祝 鄢萌 (74)专利代理 机构 重庆晟轩知识产权代理事务 所(普通合伙) 50238 专利代理师 沈立 (51)Int.Cl. G06F 16/9535(2019.01) G06Q 40/08(2012.01)G06K 9/62(2022.01) G06N 5/00(2006.01) (54)发明名称 基于随机森林的灵活就业人员 公积金缴存 方式推荐方法 (57)摘要 本发明涉及一种基于随机森林的灵活就业 人员公积金缴存方式推荐方法, 包括如下步骤: 选用历史公开数据集, 选取灵活就业人员信息 user和公积金缴存方式信息payment; 定义初始 信息矩阵Vu_p, 对初 始信息矩阵Vu_p中的数据使 用合成少数类过采样技术smote, 解决Vu_p中存 在的数据不平衡现象, 得到最终训练集Vtrain; 在训练集Vtrain上使用随机森林模型 RF训练, 得 到预训练好的灵活就业人员公积金缴存方式预 测模型Mp。 本发明方法可以有针对性的快速有效 的为灵活就 业人员推荐公积金的缴存方式。 权利要求书2页 说明书7页 附图1页 CN 115292604 A 2022.11.04 CN 115292604 A 1.一种基于随机森林的灵活就业人员公积金缴存方式推荐方法, 其特征在于: 包括如 下步骤: S100: 选用历史公开数据集, 数据集包括灵活就业人员信息user和公积金缴存方式信 息payment; user包括自变量特 征, payment包括因变量特 征; S200: 采用随机森林模型作为预测模型Mp并进行模型参数初始化, 对预测模型Mp进行 训练, 具体步骤如下: S300: 对公开数据集中所有数据进行 数据平衡性处 理得到数据集V train; S310: 从数据集Vtrain中进行T次随机采样, 得到T个采样集, 选择第t个采样集Dt中的 一部分数据作为训练集Dt_t rain, 另一部分作为验证集Dt_val id, 其中t∈(1, . .., T); S320: 从Dt_train中随机选择I个自变量特征组成特征集C, 特征集C中的第j个特征包 括s个子特 征, 其中, 每 个子特征对应一种缴存方式ym, j=1, 2, …, J, J表示C中特 征的数量; S321: 利用熵值公式计算C的总熵, 具体 计算表达式如下: 其中, |Ci|表示Dt_train上第i种缴存方式的特征总数, 其中, m表示第i种缴存方式的数 量; S322: 计算C中第j个特 征的条件熵H(Dt ‑trainj), 具体计算表达式如下: 其中, n代表特征Cj中包含的特征值的总数, k=1, ..., n, |Dt_traintj|代表Cj中包含的 缴存人总数, |Dt_traintjk|代表Cj中值等于k时的缴存人总数, H(Dt_traintjk)是代入熵值 公式中计算出的Cj中值等于k时的熵值; S330: 利用总熵和条件熵计算第j个特 征的信息增益G(j), 具体表达式如下: G(j)=H(Dt_t rain)‑H(Dt_trainj); (3) S340: j遍历所有取值, 计算出C中J个特征的信息增益, 然后将求得的所有信息增益降 序排列, 选择信息增益 最大值对应的特 征作为根节点; 将增益最大值对应的特 征所包含的p个子特 征作为所述该根节点的p个分支 节点; 将增益最大值对应的特征中的每个子特征所对应的缴存方式作为对应分支节点下的 叶节点; S400: 由根节点、 分支节点和叶节点构成采样集Dt的决策树Mt, 将验证集Dt_valid中的 所有数据作为决策树Mt的输入; S410: 计算Mt的原 始精度Precisi on_old, 表达式如下: 其中, TP表示针对根节点的真实值与预测值都为真, FP表示针对根节点的真实值为假 且预测值 为真; S420: 令q=1; S430: 计算第q个分支 节点的精度Precisi on_new, 具体表达式如下: 权 利 要 求 书 1/2 页 2 CN 115292604 A 2其中, TP′表示第q个分支节点的真实值与预测值都为真, FP ′表示第q个分支节点的真 实值为假且预测值 为真; S440: 当Precision_old≤Precision_new时, 删除第q个分支节点, 令q=q+1并返回 S420; 否则得到训练好的决策树Mt ′, 并执行下一步; S500: 遍历所有的T个采样集, 得到T个Mt ′组成训练好的预测模型Mp; S600: 选取待预测灵活就业人员信息t_user, 利用python将t_user进行格式转换, 得到 适用于Mp输入的数据格式, 所述 适用于Mp输入的数据格式为信息矩阵Vu_t=[x1...xt]; S700: 将信息矩阵Vu_t输入训练好的预测模型Mp中, 得到T个预测缴存方式, 将T个预测 缴存方式中出现次数最多的缴存方式作为对该待预测灵活就业人员的公积金缴存方式推 荐结果。 2.如权利要求1所述的一种基于随机森林的灵活就业人员公积金缴存方式推荐方法, , 其特征在于: 所述S300中对公开数据集中所有数据进行数据平衡性处理, 得到数据集 Vtrain的具体步骤如下: 利用user和payment建立初始信息矩阵Vu_p, Vu_p表达式如下: 其中, x1, ..., xn表示灵活就业人员的个人信息, n表示历史灵活就业人员总数, y1, ..., ym表示灵活就 业人员的公积金缴存方式, m∈(a, b, c); 对数据进行平衡性处 理, 得到训练集V train, 表达式如下: Vtrain=S(Vup); (7) 其中, S(·)表示数据处 理函数。 3.如权利要求2所述的一种基于随机森林的灵活就业人员公积金缴存方式推荐方法, , 其特征在于: 所述S 310中的缴存方式主要有三种, a表 示按月定额缴存、 b表 示一次性缴存, c 表示自由缴存。 4.如权利要求3所述的一种基于随机森林的灵活就业人员公积金缴存方式推荐方法, , 其特征在于: 所述S 320中对公开数据集中的所有 数据进行数据处理所采用的方法是合成少 数类过采样技 术。权 利 要 求 书 2/2 页 3 CN 115292604 A 3
专利 基于随机森林的灵活就业人员公积金缴存方式推荐方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:36:06
上传分享
举报
下载
原文档
(508.6 KB)
分享
友情链接
DB31-T 1309-2021 数据中心节能改造技术规范 上海市.pdf
GB-T 40429-2021 汽车驾驶自动化分级.pdf
T-STIC 120051—2021 民用船舶设计服务规范.pdf
GB-T 36716-2018 节能评估技术导则 燃煤发电项目.pdf
GB-T 31442-2015 电子收费 CPU卡数据格式和技术要求.pdf
T-CFA 0201031—2018 金属切削机床球墨铸铁件 技术条件.pdf
DB63-T 1802-2020 盐湖卤水矿防渗HDPE土工膜施工及验收技术规范 青海省.pdf
T-NBQLX 002—2021 智能网联汽车终端和零部件信息安全通用测试规范.pdf
硅创社2024001-AIGC2023~2024跨年报告V1.0 2024.pdf
生成式人工智能(AIGC).pdf
TB-T 1804-2017 铁道车辆空调 空调机组.pdf
GB-T 5398-2016 大型运输包装件试验方法.pdf
GB-T 22854-2009 针织学生服.pdf
GB-T 31464-2022 电网运行准则.pdf
T-ZJAF 13.6—2023 公共视频资源 第 6 部分:运维服务要求.pdf
GM-T 0045-2016 金融数据密码技术规范.pdf
OWASP-Top-10-for-LLMs-2023-v05.pdf
GM-T 0087-2020 浏览器密码应用接口规范.pdf
GB-T 40692-2021 政务信息系统定义和范围.pdf
GB-T 36561-2018 清洁节能热处理装备技术要求及评价体系.pdf
1
/
3
11
评价文档
赞助2.5元 点击下载(508.6 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。