本周进度

本周周四进行了极限挑战，其任务如下：

1.数据清洗

两阶段数据清洗：
第一阶段：把需要的信息从原始日志中提取出来
   ip:199.30.25.88
  time: 10/Nov/2016:00:01:03 +0800
   traffic:62
第二阶段：根据提取出来的信息做精细化操作
     ip--->城市 city
     date-->  time:2016-11-10 00:01:03
                day: 10
  traffic:62
     type:article/video
     id:11325
　　hive:
　　　　create table data(
　　　　　　ip string,
　　　　　　time string ,
　　　　　　day string,
　　　　　　traffic bigint,
　　　　　　type string,
　　　　　　id   string
　　　　)
2.数据处理
             按照我们的需要进行相应业务的统计和分析
           spark、Hive、MapReduce或其他的一些分布式计算框架
           create table data(
　　　　　　ip string,
　　　　　　time string ,
　　　　　　day string,
　　　　　　traffic bigint,
　　　　　　type string,
　　　　　　id   string
　　　　)
          统计最受欢迎的视频/文章的TopN访问次数
                按照地市统计最受欢迎的TopN课程
             按照流量统计最受欢迎的TopN课程
处理结果入库
           结果可以存放到mysql
3.数据的可视化
             通过图形化展示的方式展现出来：饼图、柱状图、地图、折线图

学习时长：6小时代码量：1200行