(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210276309.8 (22)申请日 2022.03.21 (71)申请人 浙江工业大 学 地址 310014 浙江省杭州市拱 墅区潮王路 18号 (72)发明人 朱李楠 徐翼飞 许敏皓 朱柘潮  孔祥杰  (74)专利代理 机构 杭州天正专利事务所有限公 司 33201 专利代理师 楼明阳 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/295(2020.01) G06N 5/00(2006.01) G06F 16/35(2019.01)G06K 9/62(2022.01) G06F 17/18(2006.01) G06F 40/30(2020.01) G06F 17/16(2006.01) (54)发明名称 一种基于信息抽取和多属性决策的房地产 客户画像方法和系统 (57)摘要 一种基于信息抽取的多属性决策的房地产 客户画像方法, 包括: 1)数据收集: 综合考量多种 数据来源, 经过筛选提取后, 得到实验所需的客 户人群的基本信息和印象文本数据; 2)信息提 取: 应用关键短语提取模型, 以客户的印象文本 的词嵌入矩阵及文本对应的POS语义标记嵌入矩 阵为输入提取关键信息并整合到客户基本信息 中; 3)属性权重分配: 根据房地产行业对各客户 人群的特征描述, 针对各人群为各属性权重分配 对应的权重; 4)客户画 像标识: 从教育重视、 扎根 意愿、 投资倾向等6个方面对客户进行描绘, 并挑 选其中分值较高的方面作为客户的标签。 本发明 还包括基于信息抽取和多属性决策的房地产客 户画像系统。 权利要求书2页 说明书6页 附图6页 CN 114722810 A 2022.07.08 CN 114722810 A 1.一种基于信息抽取和多属性决策的房地产客户画像方法, 其特征在于: 包括如下步 骤: (1)从房地产 领域各楼盘的客户数据中筛选包含客户基本信 息的数据和对客户本人进 行描述的数据; (2)以客户描述文本为输入, 应用关键短语抽取模型提取文本语句中的关键短语; (3)联合步骤(2)中提取的短语, 应用正则匹配模板匹配关键短语, 进而提取关键信息 作为基本信息的填补 及扩充; (4)以行业 内的专家知识为指导, 以重教、 扎根、 聚巢等多个指标作为衡量客户的标签, 并为这些指标分别分配对应的各客户属性的正负相关系数; (5)使用优化的熵值法, 为 客户的各属性计算权 重; (6)使用步骤(4)和(5)运 算得到的多个客户分析指标, 确定客户的购买意愿。 2.根据权利要求1所述的一种基于信息抽取和多属性决策的房地产客户画像方法, 其 特征在于: 所述 步骤(2)具体包括如下步骤: 21).将文本数据中的句子进行分词、 命名实体识别以及语义标注, 得到一个形为d*s的 单词矩阵Mw和一个d*s的语义标注 矩阵Mp, 其中d是文本总数目, s表示句子的最大长度。 22).将词矩阵Mw以及语义矩阵Mp分别通过GloVe模型向量化后逐位拼接, 得到一个d*s* e的向量化的文本表示矩阵X, 其中e表示向量的维度, 后续实验中该值设置为124。 23).将关键短语提取任务看作序列标记任务, 并使用 “BIESOU”标记文本序列, 其中B、 I、 E分别表示关键短语的开头、 主体、 结尾词, S表 示构成关键短语的单个词, U表 示处于关键 短语内部的无用词, O表示 其他词。 24).使用深度学习的方法, 训练一个双向长短期记忆网络(Bi ‑LSTM)+条件随机场 (CRF)结构的神经网络作为关键短语提取的模型。 25).将文本表示矩阵X输入神经网络模型中, 模型输出得到d*s的序列标记矩阵L, 最后 通过解码算法提取 出句子的若干关键短语。 3.根据权利要求1所述的一种基于信息抽取和多属性决策的房地产客户画像方法, 其 特征在于: 所述 步骤(3)具体包括如下步骤: 31).对每个需要填补的字段, 构 建一个v*p的正则匹配得分矩阵Q, 其 中v表示该字段的 合法值的数目(包括空值), p表示 为该字段设置的正则表达式的数目。 32).对需要填补的字段, 将p个正则表达式与步骤(2)中提取的关键短语匹配, 得到一 个p维的由0和1构成的匹配向量Vpt。 33).由正则匹配得分矩 阵Q和匹配向量Vpt得到该字段的最终的匹配值Value, 随后将 Value作为 填补的候选值。 具体 计算公式如下: Value=Values[A rgmax(Vpt×Q)]    (1) 其中, Values表示字段的合法值的列表,T表示矩阵转置操作。 4.根据权利要求1所述的一种基于信息抽取和多属性决策的房地产客户画像方法, 其 特征在于: 所述 步骤(5)具体包括如下步骤: 51).将客户信息分为基本信息、 家 庭信息、 资产情况和购买动机四类。 52).以步骤51)中的分类依据作为共现矩阵的窗口边界, 应用GloVe嵌入模型将客户信 息向量化, 得到m*g= k维的客户信息向量, 其中m表示总字段 数, g表示单个向量的维度。权 利 要 求 书 1/2 页 2 CN 114722810 A 253).使用K平均 聚类算法对客户信息向量进行聚类, 随后利用熵值法计算各个簇中的 客户属性的权 重, 具体内容包括以下步骤: 531.计算整体客户信息的各个字段 X的信息熵: E(X)=‑∑x∈Xp(x)logp(x)    (2) 其中, X表示字段, x表示字段的合法值, p(x)表示 值x在字段 X中出现的频度。 532.对于每一个簇 c中的成员i, 计算 其对应客户信息中的字段j的权 重: 其中, X,j表示整体数据的字段j, Xc,j表示聚类簇 c中数据的字段j。 533.为防止属性权重在某些维度上过大从而影响结果, 我们将得到的单个客户的属性 权重矩阵Wi作归一化处理: Wi=Normalize(Wi)     (4) 。 5.根据权利要求1所述的一种基于信息抽取和多属性决策的房地产客户画像方法, 其 特征在于: 所述 步骤(6)具体包括如下步骤: 61).使用步骤(4)中得到的正负相关矩阵Matt, 和步骤(5)中得到的客户属性矩阵Wi计算 得到客户在多个指标 上的分布情况 其中T表示 转置。 62).选取 得分超过阈值 k的指标作为该客户的标签。 63).对客户标签的得分组成进行分析, 设标签j在Matt中对应为 则客户i的标签j的 得分组成Ci,j可由以下公式得到: 其中, Ci,j中的较高值往 往预示对应属性可能是客户比较显著的特 征。 6.实施权利要求1所述的一种基于信息抽取和多属性决策的房 地产客户画像方法的系 统, 其特征在于: 包括以此连接的楼盘客户数据筛选模块、 关键短语抽取模块、 关键信息抽 取模块、 客户指标模块、 客户属性权 重计算模块、 客户购买意愿确定模块, 其中: 楼盘客户数据筛选模块, 从房 地产领域各楼盘的客户数据中筛选包含客户基本信 息的 数据和对客户本人进行描述的数据; 关键短语抽取模块, 以客户描述文本为输入, 应用关键短语抽取模型提取文本语句中 的关键短语; 关键信息抽取模块, 联合关键短语抽取模块提取的短语, 应用正则匹配模板匹配关键 短语, 进而提取关键信息作为基本信息的填补 及扩充; 客户指标模块, 以行业内的专家知识为指导, 以重教、 扎根、 聚巢等多个指标作为衡量 客户的标签, 并为 这些指标分别分配对应的各客户属性的正负相关系数; 客户属性权 重计算模块, 使用优化的熵值法, 为 客户的各属性计算权 重; 客户购买意愿确定模块, 使用客户指标模块和客户属性权重计算模块运算得到的多个 客户分析指标, 确定客户的购买意愿。权 利 要 求 书 2/2 页 3 CN 114722810 A 3

.PDF文档 专利 一种基于信息抽取和多属性决策的房地产客户画像方法和系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于信息抽取和多属性决策的房地产客户画像方法和系统 第 1 页 专利 一种基于信息抽取和多属性决策的房地产客户画像方法和系统 第 2 页 专利 一种基于信息抽取和多属性决策的房地产客户画像方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:44:54上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。