客户画像最早是由移动互联网电商衍生而来的,京东也好、淘宝也好、一号店也好。我们不可能真的每一个用户生成一套推荐方案,我们都是把人分成了一万个类,或者一千个类。将人群划分到某一个类别里面,然后再在那个类别里面做一个推荐。这里面有共同点,就是说分类和聚类。而且群体特征往往更能反映你的个人喜好,现在互联网把这一套细则称为个性化推荐。
一.推荐系统
实施过推荐系统的同学一定非常清楚,推荐系统是一个系统性工程,除了里面所涉及到的个性化推荐算法,最主要的还有各个系统模块的工作:
谈到推荐系统,里面会包括HBase的离线和在线分离、Hbase的KV读和Solr的批量读分离、region热点监控和切分等非常多的知识点;所以为了提升文章的可读性,今天我们不聊推荐系统,本文主要来聊聊跟客户画像相关的知识如营销和算法等内容。
二.客户画像维度与标签
客户画像的维度,包括客户的基本特征、社会身份、用户生命周期、类目偏好等等。具体的标签跟上述的维度是息息相关:
三.客户画像与精准营销场景
最简单的客户画像是分析不同性别的群体特征,然后做特定营销。如分析广州、北京、客户的群体特征,分析90后、80后的群体特征。前面说到把人分成了一万个类,或者一千个类,然后在这个类别里面,做一个精准化推荐。
比如对于某电信公司的客户画像,我们将其分为8类,分别是:
类别一:喜欢深夜通话,多发信息,多发话给预付费用户,忙时发话少
营销手法:夜间通话套餐,短信大礼包,转为预付费,激励话音用量
类别二:多发短信,多发话给后付费用户,忙时发话少
营销手法:闲时通话弹出/激励;短信大礼包;激励话音用量
类别三:高通话量,发话网外多,有国际长途
营销手法:高价值客户大礼包,激励国际长途通话,高端资费方案
类别四:交往圈固定,多发话给后付费用户
营销手法:高机制客户大礼包,业务引荐奖励
类别五:高通话量,发话网外多
营销手法:激励话音用量,高价值客户大礼包
类别六:固网通话多,高通话量,喜欢早餐通话
营销手法:移动-固网通话套餐,晨间通话套餐
类别七: 多发短信,多发话给后付费用户,忙时发话多
营销手法:短信激励,忙时通话套餐
类别八:高通话量,喜欢深夜通话,闲时通话多
营销手法:夜间通话套餐,闲时通话套餐,通话量奖励
那具体到金融产品中,银行理财产品客户的画像又是什么类型?对于某银行中的客户分层,根据其特点,可以分为以下类型:
银行的客群的标签的打法会根据该客户所在银行购买的理财产品,如果有借款行为,就是借款表现,或跟其他银行合作的渠道方、数据埋点等,一起探索客户的真实标签。
四.模型算法
回归到具体如何做客群的聚类分析,目前常规的做法分别有:有监督学习和聚类分析(无监督)。
有监督学习可以分为回归算法、决策树算法等内容;聚类分析常见的有k-means,分层聚类算法等。
有明确目标,就是有Y值的,我们一般会对目标变量建立相应的模型,用于响应/预测。用模型评分做排序划分群组。
而无明确目标,就是没有Y值的客户分群通用采用聚类分析的算法,其目标是尽量将相似的研究对象(客户)聚集在同一个类别(群体),同时让相异的客户分布在不同群体。因此我们需要定性且定量的去描述相似/类似或者相异同的“度”,统计上我们使用”距离“。
4.1.有监督聚类
先来谈一下决策树聚类,在信贷风险中,如果做过规则探索,必须了解的决策树聚类。在用决策树分析客群的时候,通常情况下,分层的客群生成的树如下:
无论是做贷前规则准入规则好客群的筛选还是坏客户的筛选,这个都可以采用带标签的样本,采用决策树的方法进行客群筛选。
之前番茄学院里的课堂有跟大家提过,如果用sas em进行坏样本的筛选,最终得到树结构条件规则。这个例子也是用决策树进行客群画像,实现聚类。
对该方法不熟悉的同学可以在知识星球里跟我们交流,有需要奉上操作策略到知识星球中。
4.2.无监督聚类
如果采用无监督聚类,通常情况下,一般采用层级聚类(系统聚类)跟K-MEAS聚类的方法,两者所采用的方法也不太一致。
其中的层级聚类的基本步骤如下:
1.计算每两个观测之间的距离
2.将最近的两个观测聚为一类,将其看作一个整体计算与其 它观测(类)之间的距离
3.一直重复上述过程,直至所有的观测被聚为一类
而在K-meas聚类中:
1.设定K值,确定聚类数(软件随机分配聚类 中心所需的种子);
2.计算每个记录到类中心的距离(欧式), 并分成K类。
3.然后把K类中心(均值),作为新的中心, 重新计算距离;
4.迭代到收敛标准停止(最小二乘准则)。
所以观察这两种的聚类方式,可以发现层次聚类系统会根据样本的特点进行聚类,能聚成几类之前是未知的;而K-meas聚类就不同,需要提前告知聚类的数量。
在聚类的过程中,需要注意的问题如下:
一.要预先处理变量
1.1.收到的数据通常需要经过处理才能用于分析:
a.缺失值
b.异常值(极大或极小)
c.分类变量需要转化为哑变量(0/1数值)
d.分类变量类别过多
1.2.不同的统计方法对数据有不同的要求:
a.决策树允许缺失值和异常值
b.聚类分析和回归模型则不支持缺失值
二.变量标准化
变量的量纲的不一样引起计算距离的偏差
比如我们用了两个维度:收入和年龄
收入的取值范围 [$10,000, $100,000] 年龄的取值范围 [18, 100]
方法1:中心化
方法2:极差标准化
三.不同维度的变量,相关性尽量低
这里提到的这个客户画像的内容,我们在2020年七月份课程中《信贷产品设计与定价》,也有详细跟大家介绍客户画像的方法:
欢迎感兴趣的童鞋们一起来回顾学习!
注:以上图文资料均来自番茄学院《番茄风控大数据》知识星球与相关专题课内容
我们坚持为大家带来输出系列风控干货内容,欢迎广大风控爱好者关注 : 番茄风控大数据
评论留言