专利一种基于机器学习勾勒人物画像的方法、设备、存储介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210210394.8 (22)申请日 2022.03.03 (71)申请人戎行技术有限公司地址 300143 天津市河北区铁东路街道志成路130号(自创区河北分园科技招商展示服务中心407-1室) (72)发明人赵志庆　侯玉柱　王巍　董席峰　丁英莲　靳学庚　 (74)专利代理机构济南千慧专利事务所(普通合伙企业) 37232 专利代理师傅静 (51)Int.Cl. G06F 16/9535(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06N 20/00(2019.01) G06Q 30/02(2012.01) G06Q 50/00(2012.01) (54)发明名称一种基于机器学习勾勒人物画像的方法、设备、存储介质 (57)摘要本申请公开了一种基于机器学习勾勒人物画像的方法、设备、存储介质，该方法包括：获取用户兴趣爱好样本数据，根据兴趣爱好数据训练得到兴趣爱好模型；获取用户习惯样本数据，根据习惯样本数据训练得到行为习惯模型；获取用户作息习惯样本数据，根据作息习惯样本数据训练得到作息习惯模型；获取用户行动轨迹样本数据，根据行动轨迹样本数据训练得到行动轨迹模型；采集目标人物的开源信息，将开源信息存储到搜索引擎Elasticsearch中；根据兴趣爱好模型、行为习惯模型、作息习惯模型、行动轨迹模型生成API接口；通过调用对应的API接口，按格式传参，通过各个模型分析开源信息得到目标人物的画像。权利要求书3页说明书8页附图2页 CN 114595387 A 2022.06.07 CN 114595387 A 1.一种基于机器学习勾勒人物画像的方法，其特征在于，包括：获取用户兴趣爱好样本数据，根据所述兴趣爱好数据训练得到兴趣爱好模型；获取用户习惯样本数据，根据所述习惯样本数据训练得到行为习惯模型；获取用户作息习惯样本数据，根据所述作息习惯样本数据训练得到作息习惯模型；获取用户行动轨迹样本数据，根据所述行动轨迹样本数据训练得到行动轨迹模型；采集目标人物的开源信息，将所述开源信息存储到搜索引擎Elasticsearc h中；根据所述兴趣爱好模型、所述行为习惯模型、所述作息习惯模型、所述行动轨迹模型生成API接口；通过调用对应的API接口，按格式传参，通过各个模型分析所述开源信息得到目标人物的画像。 2.根据权利要求1所述的方法，其特征在于，所述获取用户兴趣爱好样本数据，根据所述兴趣爱好数据训练得到兴趣爱好模型，具体包括：获取社交平台上的基础数据，作为训练样本集，对所述基础数据中的文案进行语义分析；根据所述语义分析结果标记对应的兴趣爱好标签；将标记好兴趣爱好标签的训练样本集输入到所述兴趣爱好模型进行训练，得到第一代兴趣爱好模型；将检测数据集输入所述第一代兴趣爱好模型中，输出兴趣爱好标签；基于工作人员设置，删除所述检测数据集中输出结果不准确的数据；将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代兴趣爱好模型进行训练，得到第二代兴趣爱好模型；多次将检测数据集转换为训练样本集后对兴趣爱好模型进行训练，以使所述兴趣爱好模型判断逐渐精确。 3.根据权利要求1所述的方法，其特征在于，所述获取用户习惯样本数据，根据所述习惯样本数据训练得到行为习惯模型，具体包括：获取社交平台上的基础数据，作为训练样本集，对所述基础数据中的文案进行语义分析；根据所述语义分析结果标记对应的行为习惯标签；将标记好行为习惯标签的训练样本集输入到所述行为习惯模型进行训练，得到第一代行为习惯模型；将检测数据集输入所述第一代行为习惯模型中，输出时间标签和对应所述时间标签的行为标签；基于工作人员设置，删除所述检测数据集中输出结果不准确的数据；将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代行为习惯模型进行训练，得到第二代行为习惯模型；多次将检测数据集转换为训练样本集后对行为习惯模型进行训练，以使所述行为习惯模型判断逐渐精确。 4.根据权利要求1所述的方法，其特征在于，所述获取用户作息习惯样本数据，根据所述作息习惯样本数据训练得到作息习惯模型，具体包括：权　利　要　求　书 1/3 页 2 CN 114595387 A 2获取社交平台上的基础数据，作为训练样本集，对所述基础数据中的文案进行语义分析；根据所述语义分析结果标记对应的作息习惯标签；将标记好作息习惯标签的训练样本集输入到所述作息习惯模型进行训练，得到第一代作息习惯模型；将检测数据集输入所述第一代作息习惯模型中，输出时间标签和对应所述时间标签的作息习惯；基于工作人员设置，删除所述检测数据集中输出结果不准确的数据；将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代作息习惯模型进行训练，得到第二代作息习惯模型；多次将检测数据集转换为训练样本集后对作息习惯模型进行训练，以使所述作息习惯模型判断逐渐精确。 5.根据权利要求1所述的方法，其特征在于，所述获取用户行动轨迹样本数据，根据所述行动轨迹样本数据训练得到行动轨迹模型，具体包括：获取社交平台上的基础数据，作为训练样本集，对所述基础数据中的文案进行语义分析；根据所述语义分析结果标记对应的行动轨迹标签；将标记好行动轨迹标签的训练样本集输入到所述行动轨迹模型进行训练，得到第一代行动轨迹模型；将检测数据集输入所述第一代行动轨迹模型中，输出时间标签和对应所述时间标签的行动轨迹标签；基于工作人员设置，删除所述检测数据集中输出结果不准确的数据；将去除不准确的数据后的检测数据集作为训练样本集输入所述第一代行动轨迹模型进行训练，得到第二代行动轨迹模型；多次将检测数据集转换为训练样本集后对行动轨迹模型进行训练，以使所述行动轨迹模型判断逐渐精确。 6.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取用户在社交平台发布的动态中的图片信息；对所述图片进行场景识别，判断所述图片中的场景是否为标志物、车票、机票；若为标志物，查询所述标志物对应的标签，根据所述标签确定所述用户的行动地点；若为车票，识别所述车票中的起点和终点，确定所述用户的行动轨迹。 7.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取用户的发布动态的文案时间以及文案内容，对所述文案内容进行语义分析；确定语义和时间所占的权重，根据所述动态发布的时间和所述语义分析结果确定一条动态的得分；确定得分最高的动态对应的发布的时间作为作息时间。 8.根据权利要求1所述的方法，其特征在于，所述方法还包括：在获得各个模型的样本数据后，对所述样本数据进行预处理，包括：通过筛选去掉只有唯一值的特征，去掉缺失值超过90％的特征；权　利　要　求　书 2/3 页 3 CN 114595387 A 3

专利 一种基于机器学习勾勒人物画像的方法、设备、存储介质

专利一种基于机器学习勾勒人物画像的方法、设备、存储介质