本周周四进行了极限挑战,其任务如下:
1.数据清洗
两阶段数据清洗:
第一阶段:把需要的信息从原始日志中提取出来
ip:199.30.25.88
time: 10/Nov/2016:00:01:03 +0800
traffic:62
第二阶段:根 据提取出来的信息做精细化操作
ip--->城市 city
date--> time:2016-11-10 00:01:03
day: 10
traffic:62
type:article/video
id:11325
hive:
create table data(
ip string,
time string ,
day string,
traffic bigint,
type string,
id string
)
2.数据处理
按照我们的需要进行相应业务的统计和分析
spark、Hive、MapReduce或其他的一些分布式计算框架
create table data(
ip string,
time string ,
day string,
traffic bigint,
type string,
id string
)
统计最受欢迎的视频/文章的TopN访问次数
按照地市统计最受欢迎的TopN课程
按照流量统计最受欢迎的TopN课程
处理结果入库
结果可以存放到mysql
3.数据的可视化
通过图形化展示的方式展现出来:饼图、柱状图、地图、折线图
学习时长:6小时 代码量:1200行