(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210989879.1 (22)申请日 2022.08.18 (71)申请人 刘娟 地址 401121 重庆市渝北区佳园路2号康田 凯旋国际北楼 申请人 陈雪 宋阳 杨世利 宋鹏 (72)发明人 刘娟 陈雪 宋阳 杨世利 宋鹏  熊炜 裴劼 洪晓霞 王仁菊  杨颖 李佳 江欣祝 鄢萌  (74)专利代理 机构 重庆晟轩知识产权代理事务 所(普通合伙) 50238 专利代理师 沈立 (51)Int.Cl. G06F 16/9535(2019.01) G06Q 40/08(2012.01)G06K 9/62(2022.01) G06N 5/00(2006.01) (54)发明名称 基于随机森林的灵活就业人员 公积金缴存 方式推荐方法 (57)摘要 本发明涉及一种基于随机森林的灵活就业 人员公积金缴存方式推荐方法, 包括如下步骤: 选用历史公开数据集, 选取灵活就业人员信息 user和公积金缴存方式信息payment; 定义初始 信息矩阵Vu_p, 对初 始信息矩阵Vu_p中的数据使 用合成少数类过采样技术smote, 解决Vu_p中存 在的数据不平衡现象, 得到最终训练集Vtrain; 在训练集Vtrain上使用随机森林模型 RF训练, 得 到预训练好的灵活就业人员公积金缴存方式预 测模型Mp。 本发明方法可以有针对性的快速有效 的为灵活就 业人员推荐公积金的缴存方式。 权利要求书2页 说明书7页 附图1页 CN 115292604 A 2022.11.04 CN 115292604 A 1.一种基于随机森林的灵活就业人员公积金缴存方式推荐方法, 其特征在于: 包括如 下步骤: S100: 选用历史公开数据集, 数据集包括灵活就业人员信息user和公积金缴存方式信 息payment; user包括自变量特 征, payment包括因变量特 征; S200: 采用随机森林模型作为预测模型Mp并进行模型参数初始化, 对预测模型Mp进行 训练, 具体步骤如下: S300: 对公开数据集中所有数据进行 数据平衡性处 理得到数据集V train; S310: 从数据集Vtrain中进行T次随机采样, 得到T个采样集, 选择第t个采样集Dt中的 一部分数据作为训练集Dt_t rain, 另一部分作为验证集Dt_val id, 其中t∈(1, . .., T); S320: 从Dt_train中随机选择I个自变量特征组成特征集C, 特征集C中的第j个特征包 括s个子特 征, 其中, 每 个子特征对应一种缴存方式ym, j=1, 2, …, J, J表示C中特 征的数量; S321: 利用熵值公式计算C的总熵, 具体 计算表达式如下: 其中, |Ci|表示Dt_train上第i种缴存方式的特征总数, 其中, m表示第i种缴存方式的数 量; S322: 计算C中第j个特 征的条件熵H(Dt ‑trainj), 具体计算表达式如下: 其中, n代表特征Cj中包含的特征值的总数, k=1, ..., n, |Dt_traintj|代表Cj中包含的 缴存人总数, |Dt_traintjk|代表Cj中值等于k时的缴存人总数, H(Dt_traintjk)是代入熵值 公式中计算出的Cj中值等于k时的熵值; S330: 利用总熵和条件熵计算第j个特 征的信息增益G(j), 具体表达式如下: G(j)=H(Dt_t rain)‑H(Dt_trainj); (3) S340: j遍历所有取值, 计算出C中J个特征的信息增益, 然后将求得的所有信息增益降 序排列, 选择信息增益 最大值对应的特 征作为根节点; 将增益最大值对应的特 征所包含的p个子特 征作为所述该根节点的p个分支 节点; 将增益最大值对应的特征中的每个子特征所对应的缴存方式作为对应分支节点下的 叶节点; S400: 由根节点、 分支节点和叶节点构成采样集Dt的决策树Mt, 将验证集Dt_valid中的 所有数据作为决策树Mt的输入; S410: 计算Mt的原 始精度Precisi on_old, 表达式如下: 其中, TP表示针对根节点的真实值与预测值都为真, FP表示针对根节点的真实值为假 且预测值 为真; S420: 令q=1; S430: 计算第q个分支 节点的精度Precisi on_new, 具体表达式如下: 权 利 要 求 书 1/2 页 2 CN 115292604 A 2其中, TP′表示第q个分支节点的真实值与预测值都为真, FP ′表示第q个分支节点的真 实值为假且预测值 为真; S440: 当Precision_old≤Precision_new时, 删除第q个分支节点, 令q=q+1并返回 S420; 否则得到训练好的决策树Mt ′, 并执行下一步; S500: 遍历所有的T个采样集, 得到T个Mt ′组成训练好的预测模型Mp; S600: 选取待预测灵活就业人员信息t_user, 利用python将t_user进行格式转换, 得到 适用于Mp输入的数据格式, 所述 适用于Mp输入的数据格式为信息矩阵Vu_t=[x1...xt]; S700: 将信息矩阵Vu_t输入训练好的预测模型Mp中, 得到T个预测缴存方式, 将T个预测 缴存方式中出现次数最多的缴存方式作为对该待预测灵活就业人员的公积金缴存方式推 荐结果。 2.如权利要求1所述的一种基于随机森林的灵活就业人员公积金缴存方式推荐方法, , 其特征在于: 所述S300中对公开数据集中所有数据进行数据平衡性处理, 得到数据集 Vtrain的具体步骤如下: 利用user和payment建立初始信息矩阵Vu_p, Vu_p表达式如下: 其中, x1, ..., xn表示灵活就业人员的个人信息, n表示历史灵活就业人员总数, y1, ..., ym表示灵活就 业人员的公积金缴存方式, m∈(a, b, c); 对数据进行平衡性处 理, 得到训练集V train, 表达式如下: Vtrain=S(Vup); (7) 其中, S(·)表示数据处 理函数。 3.如权利要求2所述的一种基于随机森林的灵活就业人员公积金缴存方式推荐方法, , 其特征在于: 所述S 310中的缴存方式主要有三种, a表 示按月定额缴存、 b表 示一次性缴存, c 表示自由缴存。 4.如权利要求3所述的一种基于随机森林的灵活就业人员公积金缴存方式推荐方法, , 其特征在于: 所述S 320中对公开数据集中的所有 数据进行数据处理所采用的方法是合成少 数类过采样技 术。权 利 要 求 书 2/2 页 3 CN 115292604 A 3

.PDF文档 专利 基于随机森林的灵活就业人员公积金缴存方式推荐方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于随机森林的灵活就业人员公积金缴存方式推荐方法 第 1 页 专利 基于随机森林的灵活就业人员公积金缴存方式推荐方法 第 2 页 专利 基于随机森林的灵活就业人员公积金缴存方式推荐方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:36:06上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。