Jike_Time

数据分析全景图

1. 数据采集。它是我们的原材料，也是最“接地气”的部分，因为任何分析都要有数据
源。

2. 数据挖掘。它可以说是最“高大上”的部分，也是整个商业价值所在。之所以要进行数
据分析，就是要找到其中的规律，来指导我们的业务。因此数据挖掘的核心是挖掘数据
的商业价值，也就是我们所谈的商业智能 BI。

3. 数据可视化。它可以说是数据领域中万金油的技能，可以让我们直观地了解到数据分析
的结果。

数据采集：

数据挖掘：

数据可视化：

学习数据分析就是从“思
维”到“工具”再到“实践”的一个过程。今天我会从更多的角度来和你分享我的学习经
验，我们可以把今天的内容叫作“修炼指南”。
借用傅盛的话来说，人与人最大的差别在于“认知”，所谓成长就是认知的升级。
很多人存在对“认知“的误解，认为认知不就是概念么？那么你有没有想过，针对同一个
概念，为什么不同的人掌握的程度是不一样的呢？
我们只有把知识转化为自己的语言，它才真正变成了我们自己的东西。这个转换的过程，
就是认知的过程。

先思考模型算法---选择工具---

画图软件SketchBook

数据挖掘知识清单

基本流程：

数据分析的基本概念

如今在超市中，我们还能看到不少组合的套装打包在一起卖，比如宝洁的产品：飘柔洗发水 + 玉兰油沐浴露、海飞丝洗发水 + 舒肤佳沐浴露等等。

商品的捆绑销售是个很有用的营销方式，背后都是数据分析在发挥作用。

商业智能 BI、数据仓库 DW、数据挖掘 DM 三者之间的关系

数据挖掘的流程：

数据挖掘的一个英文解释叫 Knowledge Discovery in Database，简称KDD，也就是数据库中的知识发现

在数据挖掘中，有几个非常重要的任务，就是分类、聚类、预测和关联分析。我来解释下
这些概念。

分类属于监督学习，聚类属于无监督学习

(1)分类：

就是通过训练集得到一个分类模型，然后用这个模型可以对其他数据进行分类。

(2)聚类

人以群分，物以类聚。聚类就是将数据自动聚类成几个类别，聚到一起的相似度大，不在
一起的差异性大。我们往往利用聚类来做数据划分。

(3)预测

顾名思义，就是通过当前和历史数据来预测未来趋势，它可以更好地帮助我们识别机遇和
风险。

(4)关联分析

就是发现数据中的关联规则，它被广泛应用在购物篮分析，或事务数据分析中。

上帝不会告诉我们规律，而是展示给我们数据

用户画像：标签化就是数据的抽象能力

如果说互联网的上半场是粗狂运营，因为有流量红利不需要考虑细节。那么在下半场，精
细化运营将是长久的主题。有数据，有数据分析能力才能让用户得到更好的体验。
所以，用户是根本，也是数据分析的出发点。

为业务赋予能量

用户画像的准则
首先就是将自己企业的用户画像做个白描，告诉他这些用户“都是谁”“从哪来”“要去
哪”。
你可以这么和老板说：“老板啊，用户画像建模是个系统的工程，我们要解决三个问题。

第一，就是用户从哪里来，这里我们需要统一标识用户 ID，方便我们对用户后续行为进
行跟踪。我们要了解这些羊肉串的用户从哪里来，他们是为了聚餐，还是自己吃宵夜，这
些场景我们都要做统计分析。

第二，这些用户是谁？我们需要对这些用户进行标签化，
方便我们对用户行为进行理解。

第三，就是用户要到哪里去？我们要将这些用户画像与
我们的业务相关联，提升我们的转化率，或者降低我们的流失率。”

用户唯一标识是整个用户画像的核心。

设计唯一标识可以从这些项中选择：用户名、注册手机号、联系人手机号、邮箱、设备
号、CookieID 等。

其次，给用户打标签。是核心

用户消费行为分析”。我们可以从这 4 个维度来进行标签划
分。
1. 用户标签：它包括了性别、年龄、地域、收入、学历、职业等。这些包括了用户的基础
属性。

2. 消费标签：消费习惯、购买意向、是否对促销敏感。这些统计分析用户的消费习惯。

3. 行为标签：时间段、频次、时长、访问路径。这些是通过分析用户行为，来得到他们使
用 App 的习惯。

4. 内容分析：对用户平时浏览的内容，尤其是停留时间长、浏览次数多的内容进行分析，
分析出用户对哪些内容感兴趣，比如，金融、娱乐、教育、体育、时尚、科技等。

可以说，用户画像是现实世界中的用户的数学建模，我们正是将海量数据进行标签化，来
得到精准的用户画像，从而为企业更精准地解决问题。

最后，当你有了用户画像，可以为企业带来什么业务价值呢？

我们可以从用户生命周期的三个阶段来划分业务价值，包括：获客、粘客和留客。

1. 获客：如何进行拉新，通过更精准的营销获取客户。

2. 粘客：个性化推荐，搜索排序，场景运营等。

3. 留客：流失率预测，分析关键节点降低流失率。

如果按照数据流处理的阶段来划分用户画像建模的过程，可以分为数据层、算法层和业务
层。你会发现在不同的层，都需要打上不同的标签。

数据层指的是用户消费行为里的标签。我们可以打上“事实标签”，作为数据客观的记
录。

算法层指的是透过这些行为算出的用户建模。我们可以打上“模型标签”，作为用户画像
的分类标识。

业务层指的是获客、粘客、留客的手段。我们可以打上“预测标签”，作为业务关联的结
果。

所以这个标签化的流程，就是通过数据层的“事实标签”，在算法层进行计算，打上“模
型标签”的分类结果，最后指导业务层，得出“预测标签”。

分析：

用户画像：标签，是一个什么样的人
给羊肉串连锁店进行用户画像分析
消费者行为分析：
用户标签：性别、年龄、电话，家乡，公司、居住地、婚姻
消费标签：消费口味、喜欢类新，消费均价，团购
行为标签：用餐时间，进店消费，外卖消费，平均点藏用时，访问路径
内容标签：基于用户平时浏览的内容进行统计

朋友圈用户画像：
用户标签：性别、年龄、电话，家乡，公司、居住地、婚姻
行为标签：互动，点攒、评论
关系标签：同学、亲戚、
内容标签：原创，转发，文字、图片、视频

数据如何自动化采集

一个数据的走势，是由多个维度影响的。我们需要通过多源的数据
采集，收集到尽可能多的数据维度，同时保证数据的质量，这样才能得到高质量的数据挖掘结果

这四类数据源包括了：开放数据源、爬虫抓取、传感器和日志采集

1、如何使用开放数据源

我们先来看下开放数据源，教你个方法，开放数据源可以从两个维度来考虑，

一个是单位的维度，比如政府、企业、高校；
一个就是行业维度，比如交通、金融、能源等领域。

这方面，国外的开放数据源比国内做得好一些，当然近些年国内的政府和高校做开放数据源
的也越来越多。一方面服务社会，另一方面自己的影响力也会越来越大。

2、如何使用爬虫做抓取

第三方爬取网站：

火车采集器

八爪鱼

集搜客

3、如何使用日志采集工具

埋点是日志采集的关键步骤，那什么是埋点呢？

埋点就是在有需要的位置采集相应的信息，进行上报。

八爪鱼的基本操作--使用Xpath解析