[原创]Hadoop Pig 数据处理作业 原题:有一访问记录的日志文件access_log.txt,统计每个IP的访问次数。access_log.txt内容如下所示: 解答: 1将access_log.txt导入HDFS 2.利用Hadoop Stream 处理access_log.txt,只取记录第一列即IP地址,保存到文件access_ip.txt之中 3. 进入Pig,加载文件access_ip.txt 4. 将记录按照IP分组 5. 计算每个IP访问次数 按照访问次数降序排列 保存结果 6.显示结果 其余结果省略