本周进度

本周周四进行了极限挑战,其任务如下:

1.数据清洗

      两阶段数据清洗:
第一阶段:把需要的信息从原始日志中提取出来
   ip:199.30.25.88
  time: 10/Nov/2016:00:01:03 +0800
   traffic:62
第二阶段:根 据提取出来的信息做精细化操作
     ip--->城市 city
     date-->  time:2016-11-10  00:01:03
                day: 10
    traffic:62
     type:article/video
     id:11325
  hive:
    create table data(
       ip string,
       time string ,
      day string,
      traffic bigint,
      type string,
      id   string
    )
 2.数据处理
             按照我们的需要进行相应业务的统计和分析
           spark、Hive、MapReduce或其他的一些分布式计算框架
           create table data(
       ip string,
       time string ,
      day string,
      traffic bigint,
      type string,
      id   string
    )
          统计最受欢迎的视频/文章的TopN访问次数
                 按照地市统计最受欢迎的TopN课程
             按照流量统计最受欢迎的TopN课程
处理结果入库
           结果可以存放到mysql
3.数据的可视化
             通过图形化展示的方式展现出来:饼图、柱状图、地图、折线图

学习时长:6小时       代码量:1200行

原文地址:https://www.cnblogs.com/PSLQYZ/p/13943639.html