数据分析实战项目(一)

淘宝用户行为分析


项目背景和数据

通过此项目学习电商数据分析的指标与数据分析的基本方法。

数据来源

阿里云天池数据库

数据描述

  • 数据集介绍
文件名称 说明 包含特征
UserBehavior.csv 包含所有的用户行为数据 用户ID,商品ID,商品类目ID,行为类型,时间戳
  • UserBehavior.csv
本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。
数据集的组织形式和MovieLens-20M类似,即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下:
列名称 说明
用户ID 整数类型,序列化后的用户ID
商品ID 整数类型,序列化后的商品ID
商品类目ID 整数类型,序列化后的商品所属类目ID
行为类型 字符串,枚举类型,包括('pv', 'buy', 'cart', 'fav')
时间戳 行为发生的时间戳
  • 用户行为类型共有四种
行为类型 说明
pv 商品详情页pv,等价于点击
buy 商品购买
cart 将商品加入购物车
fav 收藏商品
  • 关于数据集大小的一些说明如下
维度 数量
用户数量 987,994
商品数量 4,162,024
商品类目数量 9,439
所有行为数量 100,150,807

分析维度

根据现有数据及分析目的,从四个维度进行分析:

# 第一个维度:用户购物情况整体分析
以PV、UV、平均访问量、跳失率等指标,分析用户最活跃的日期及活跃时段,了解用户行为习惯

# 第二个维度:商品购买情况分析
从成交量、人均购买次数、复购率等指标,探索用户对商品的购买偏好,了解商品的销售规律

# 第三个维度:用户行为转化漏斗分析
从收藏转化率、购物车转化率、成交转化率,对用户行为从浏览到购买进行漏斗分析

# 第四个维度:参照RFM模型,对用户进行分类,找出有价值的用户

分析流程

提出问题------理解数据------数据清洗------构建模型------数据可视化

提出问题

用户最活跃的日期及时段
用户对商品有哪些购买偏好
用户行为间的转化情况
用户分类,哪些是有价值的用户

理解数据

见数据说明

数据清洗

包含数据导入(采用SQLyog)、缺失值处理、一致化处理、异常值处理(2017.11.25到2017.12.3日内的数据)

构建模型

数据可视化

问题及解决方法

这个CSV数据3.4G,行数1亿多,这个数据如何导入MYSQL?



初晨暖阳,夜落星河。 少年披梦,远方有歌。 红黄之上,春夏晚风。 闲肆游走,人群熙攘。
原文地址:https://www.cnblogs.com/alidata/p/13418537.html