(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210276309.8
(22)申请日 2022.03.21
(71)申请人 浙江工业大 学
地址 310014 浙江省杭州市拱 墅区潮王路
18号
(72)发明人 朱李楠 徐翼飞 许敏皓 朱柘潮
孔祥杰
(74)专利代理 机构 杭州天正专利事务所有限公
司 33201
专利代理师 楼明阳
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/295(2020.01)
G06N 5/00(2006.01)
G06F 16/35(2019.01)G06K 9/62(2022.01)
G06F 17/18(2006.01)
G06F 40/30(2020.01)
G06F 17/16(2006.01)
(54)发明名称
一种基于信息抽取和多属性决策的房地产
客户画像方法和系统
(57)摘要
一种基于信息抽取的多属性决策的房地产
客户画像方法, 包括: 1)数据收集: 综合考量多种
数据来源, 经过筛选提取后, 得到实验所需的客
户人群的基本信息和印象文本数据; 2)信息提
取: 应用关键短语提取模型, 以客户的印象文本
的词嵌入矩阵及文本对应的POS语义标记嵌入矩
阵为输入提取关键信息并整合到客户基本信息
中; 3)属性权重分配: 根据房地产行业对各客户
人群的特征描述, 针对各人群为各属性权重分配
对应的权重; 4)客户画 像标识: 从教育重视、 扎根
意愿、 投资倾向等6个方面对客户进行描绘, 并挑
选其中分值较高的方面作为客户的标签。 本发明
还包括基于信息抽取和多属性决策的房地产客
户画像系统。
权利要求书2页 说明书6页 附图6页
CN 114722810 A
2022.07.08
CN 114722810 A
1.一种基于信息抽取和多属性决策的房地产客户画像方法, 其特征在于: 包括如下步
骤:
(1)从房地产 领域各楼盘的客户数据中筛选包含客户基本信 息的数据和对客户本人进
行描述的数据;
(2)以客户描述文本为输入, 应用关键短语抽取模型提取文本语句中的关键短语;
(3)联合步骤(2)中提取的短语, 应用正则匹配模板匹配关键短语, 进而提取关键信息
作为基本信息的填补 及扩充;
(4)以行业 内的专家知识为指导, 以重教、 扎根、 聚巢等多个指标作为衡量客户的标签,
并为这些指标分别分配对应的各客户属性的正负相关系数;
(5)使用优化的熵值法, 为 客户的各属性计算权 重;
(6)使用步骤(4)和(5)运 算得到的多个客户分析指标, 确定客户的购买意愿。
2.根据权利要求1所述的一种基于信息抽取和多属性决策的房地产客户画像方法, 其
特征在于: 所述 步骤(2)具体包括如下步骤:
21).将文本数据中的句子进行分词、 命名实体识别以及语义标注, 得到一个形为d*s的
单词矩阵Mw和一个d*s的语义标注 矩阵Mp, 其中d是文本总数目, s表示句子的最大长度。
22).将词矩阵Mw以及语义矩阵Mp分别通过GloVe模型向量化后逐位拼接, 得到一个d*s*
e的向量化的文本表示矩阵X, 其中e表示向量的维度, 后续实验中该值设置为124。
23).将关键短语提取任务看作序列标记任务, 并使用 “BIESOU”标记文本序列, 其中B、
I、 E分别表示关键短语的开头、 主体、 结尾词, S表 示构成关键短语的单个词, U表 示处于关键
短语内部的无用词, O表示 其他词。
24).使用深度学习的方法, 训练一个双向长短期记忆网络(Bi ‑LSTM)+条件随机场
(CRF)结构的神经网络作为关键短语提取的模型。
25).将文本表示矩阵X输入神经网络模型中, 模型输出得到d*s的序列标记矩阵L, 最后
通过解码算法提取 出句子的若干关键短语。
3.根据权利要求1所述的一种基于信息抽取和多属性决策的房地产客户画像方法, 其
特征在于: 所述 步骤(3)具体包括如下步骤:
31).对每个需要填补的字段, 构 建一个v*p的正则匹配得分矩阵Q, 其 中v表示该字段的
合法值的数目(包括空值), p表示 为该字段设置的正则表达式的数目。
32).对需要填补的字段, 将p个正则表达式与步骤(2)中提取的关键短语匹配, 得到一
个p维的由0和1构成的匹配向量Vpt。
33).由正则匹配得分矩 阵Q和匹配向量Vpt得到该字段的最终的匹配值Value, 随后将
Value作为 填补的候选值。 具体 计算公式如下:
Value=Values[A rgmax(Vpt×Q)] (1)
其中, Values表示字段的合法值的列表,T表示矩阵转置操作。
4.根据权利要求1所述的一种基于信息抽取和多属性决策的房地产客户画像方法, 其
特征在于: 所述 步骤(5)具体包括如下步骤:
51).将客户信息分为基本信息、 家 庭信息、 资产情况和购买动机四类。
52).以步骤51)中的分类依据作为共现矩阵的窗口边界, 应用GloVe嵌入模型将客户信
息向量化, 得到m*g= k维的客户信息向量, 其中m表示总字段 数, g表示单个向量的维度。权 利 要 求 书 1/2 页
2
CN 114722810 A
253).使用K平均 聚类算法对客户信息向量进行聚类, 随后利用熵值法计算各个簇中的
客户属性的权 重, 具体内容包括以下步骤:
531.计算整体客户信息的各个字段 X的信息熵:
E(X)=‑∑x∈Xp(x)logp(x) (2)
其中, X表示字段, x表示字段的合法值, p(x)表示 值x在字段 X中出现的频度。
532.对于每一个簇 c中的成员i, 计算 其对应客户信息中的字段j的权 重:
其中, X,j表示整体数据的字段j, Xc,j表示聚类簇 c中数据的字段j。
533.为防止属性权重在某些维度上过大从而影响结果, 我们将得到的单个客户的属性
权重矩阵Wi作归一化处理:
Wi=Normalize(Wi) (4) 。
5.根据权利要求1所述的一种基于信息抽取和多属性决策的房地产客户画像方法, 其
特征在于: 所述 步骤(6)具体包括如下步骤:
61).使用步骤(4)中得到的正负相关矩阵Matt, 和步骤(5)中得到的客户属性矩阵Wi计算
得到客户在多个指标 上的分布情况
其中T表示 转置。
62).选取 得分超过阈值 k的指标作为该客户的标签。
63).对客户标签的得分组成进行分析, 设标签j在Matt中对应为
则客户i的标签j的
得分组成Ci,j可由以下公式得到:
其中, Ci,j中的较高值往 往预示对应属性可能是客户比较显著的特 征。
6.实施权利要求1所述的一种基于信息抽取和多属性决策的房 地产客户画像方法的系
统, 其特征在于: 包括以此连接的楼盘客户数据筛选模块、 关键短语抽取模块、 关键信息抽
取模块、 客户指标模块、 客户属性权 重计算模块、 客户购买意愿确定模块, 其中:
楼盘客户数据筛选模块, 从房 地产领域各楼盘的客户数据中筛选包含客户基本信 息的
数据和对客户本人进行描述的数据;
关键短语抽取模块, 以客户描述文本为输入, 应用关键短语抽取模型提取文本语句中
的关键短语;
关键信息抽取模块, 联合关键短语抽取模块提取的短语, 应用正则匹配模板匹配关键
短语, 进而提取关键信息作为基本信息的填补 及扩充;
客户指标模块, 以行业内的专家知识为指导, 以重教、 扎根、 聚巢等多个指标作为衡量
客户的标签, 并为 这些指标分别分配对应的各客户属性的正负相关系数;
客户属性权 重计算模块, 使用优化的熵值法, 为 客户的各属性计算权 重;
客户购买意愿确定模块, 使用客户指标模块和客户属性权重计算模块运算得到的多个
客户分析指标, 确定客户的购买意愿。权 利 要 求 书 2/2 页
3
CN 114722810 A
3
专利 一种基于信息抽取和多属性决策的房地产客户画像方法和系统
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:44:54上传分享