如何进行用户画像?

一、相关概念

标签:对某一类特定群体或对象的某项特征进行的抽象分类和概括,其值(标签值)具备可分类性。

  • 对于“人”这类群体,可将“男”、“女”这类特征进行抽象概括,统称为“性别”,“性别”即一个标签;
  • 对于“手机”这类对象,可将“骁龙835”、“骁龙845”这类特征进行抽象概括,统称为“手机处理器”,“手机处理器”即一个标签。

标签值: 标签的实例,指某一标签所包含的具体内容,其特点是符合MECE原则(相互独立、完全穷尽)。

  • 对于标签“性别”,其标签值根据MECE原则可分为“男”、“女”、“未知”;
  • 对于标签“年龄”,其标签值可分为“0-18”、“18-35”、“35-60”、“60-100”等。

用户画像:由某一特定群体或对象的多项特征构成,输出结果通常是对特征的具体描述。(也可理解为用户画像是由多个标签组合而成,其实例是由多个标签值构成)。

例:小明是用户画像的一个实例,小明的输出结果为“男“、“20”、“iPhone”、“北京”、“足球”,是由多个标签中的具体标签值构成。

标签系统:标签和用户画像的整合应用中心,通常由标签、标签树、画像中心构成,该体系类似于一个目录字典,以文档的形式存在。

二、用户画像的基本流程

1)构建标签体系,标签体系一般是分几个层级,有一级类目、二级类目、三级类目,这几个只是类目或者称之为父标签,不是最终的标签。如果三级类目下面不再进行类目分级了,就到了具体的标签层。比如用户基本信息是一级类目,下面又有社会属性二级类目,最后到婚姻标签。标签体系类似于业务分层的一个字典,以文档的形式存在。

2)抽取或者衍生标签,收集用户所有可能的、重要的、缺失率比较低的原始特征数据,作为可存储的、细粒度的用户画像表特征,也称为基础标签。除了原始数据,也可以在原始数据基础上融合衍生出新的特征标签,都作为基础标签存储在用户画像表里面。用户画像表是用户画像的基础,一般包含身份信息、行为偏好、征信数据、社交关系等几大层面。

3)物理存储,利用hive生成一张用户画像表,并做定时更新。

4)应用层

  • 客群分析,在用户画像表的基础上可以进行客群分析。首先根据需求从用户画像表里将客群提取出来,然后对这部分客群进行统计分析,或者说数据分析,最终凝练出一些可描述的、抽象层次较高的标签,作为最终的客群分析报告标签,展示在报告里面。
  • 单个用户分析,比较类似于客群分析,最终也需要提炼总结出几个可描述的、便于常人理解的大标签,可以放到一个类似于人形状的图形上进行展示。
  • 其它应用,利用营销推荐,多维角度分析等

三、数值型字段如何衍生出区间或者等级型标签呢?

如果是数值型字段,比如离散类型的,可以根据分箱机制进行分段;也可以利用聚类算法,对一元数据进行区间划分,充分挖掘数据内在的分布状态,划分为几个等级,而不是平均分段或者拍脑门分段。

原文地址:https://www.cnblogs.com/gczr/p/9418484.html