Hadoop：实战Web日志分析

示例场景

日志说明

有两台Web服务器，日志文件存放在/usr/local/nginx/logs/目录，日志默认为nginx定义格式。如：

123.13.17.13 - - [25/Aug/2016:00:00:01 +0800] "GET /AppFiles/apk/studynet/icon_v120/apk_80111_1.jpg HTTP/1.1" 206 51934 "http://img.xxx.com:8080/AppFiles/apk/studynet/icon_v120/apk_80111_1.jpg" "Dalvik/1.6.0 (Linux; U; Android 4.4.2; S100 Build/KOT49H)"
120.210.166.150 - - [25/Aug/2016:00:00:01 +0800] "GET /AppFiles/apk/studynet/products/product_lc01.zip HTTP/1.1" 206 16631 "http://img.xxx.com:8080/AppFiles/apk/studynet/products/product_lc01.zip" "Dalvik/1.6.0 (Linux; U; Android 4.4.2; S908 Build/KVT49L)"
123.13.17.13 - - [25/Aug/2016:00:00:01 +0800] "GET /AppFiles/apk/studynet/icon_v120/apk_80111_0.jpg HTTP/1.1" 206 53119 "http://img.xxx.com:8080/AppFiles/apk/studynet/icon_v120/apk_80111_0.jpg" "Dalvik/1.6.0 (Linux; U; Android 4.4.2; S100 Build/KOT49H)"
219.137.119.16 - - [25/Aug/2016:00:00:01 +0800] "GET /AppFiles/apk/gamenet/icon/icon_0_506_0.jpg HTTP/1.1" 404 1035 "-" "Dalvik/v3.3.110_update3 (Linux; U; Android 2.2.1-R-20151127.1131; ET_35 Build/KTU84Q)"
120.210.166.150 - - [25/Aug/2016:00:00:01 +0800] "GET /AppFiles/apk/studynet/products/product_lc01.zip HTTP/1.1" 206 40719 "http://img.xxx.com:8080/AppFiles/apk/studynet/products/product_lc01.zip" "Dalvik/1.6.0 (Linux; U; Android 4.4.2; S908 Build/KVT49L)"

以空格分隔，共有12列数据：

1、客户端IP
2、空白（远程登录名称）
3、空白（认证的远程用户）
4、请求时间
5、时区（UTC）
6、请求方法
7、请求资源
8、http协议
9、状态码
10、发送字节数
11、访问来源
12、客户浏览信息（不具体拆分）

场景部署

在两台Web服务器上部署HDFS客户端，以便定期上传Web日志到HDFS存储平台，最终实现分布式计算。

上传日志到HDFS存储的脚本

【/root/hadooptest/hdfsput.py】

#!/usr/bin/env python
# -*- encoding: utf-8 -*-

import subprocess
import sys
import datetime

webid = 'test1' #HDFS存储日志标志，另一台Web服务器为：test2
currdate = datetime.datetime.now().strftime('%Y%m%d')

logspath = '/usr/local/nginx/logs/access.log' #日志路径
logname = 'access.log.'+webid

try:
    #创建HDFS目录，目录格式：nginx/20160825，加wait()是为了让父进程等待子进程完成后再继续往下执行（subporcess默认启动子进程后不等待其执行结果就继续往下执行）
    subprocess.Popen(['/usr/local/hadoop-2.6.4/bin/hadoop','fs','-mkdir','-p','hdfs:///user/root/nginx'+currdate],stdout=subprocess.PIPE).wait() 
except Exception as e:
    pass

putinfo = subprocess.Popen(['/usr/local/hadoop-2.6.4/bin/hadoop','fs','-put',logspath,'hdfs:///user/root/nginx/' +currdate +'/'+logname],stdout=subprocess.PIPE) #上传本地日志到HDFS

for line in putinfo.stdout:
    print line

添加定时功能到crontab

0 0 * * * /usr/bin/python /root/hadooptest/hdfsput.py >> /dev/null 2>&1

两台Web服务器都上传日志后，HDFS上信息如下：

[root@wx ~]# hadoop fs -ls /user/root/nginx/20160825
Found 2 items
-rw-r--r-- 1 root supergroup 15 2016-08-25 15:58 /user/root/nginx/20160825/access.log.test1
-rw-r--r-- 1 root supergroup 28 2016-08-25 15:58 /user/root/nginx/20160825/access.log.test2

网站访问流量统计

网站访问流量作为衡量一个站点的价值、热度的重要指标，另外CDN服务中流量会涉及计费，如何快速准确分析当前站点的流量数据至关重要。下面实现精确到分钟统计网站访问流量，原理是在mapper操作时将Web日志中小时的每分钟作为key，将对应的行发送字节数作为value，在reducer操作时对相同key做累加（sum统计）。

【/root/hadooptest/httpflow.py】

#/usr/bin/env python
# -*- coding:utf-8 -*-

from mrjob.job import MRJob
import re

class MRCounter(MRJob):
    def mapper(self, key, line):
        i = 0
        for flow in line.split(): #获取时间段，为域日志的第4列，内容如：“[24/Aug/2016:00:00:02”
            if i==3:
                timerow = flow.split(':')
                hm = timerow[1] + ':' + timerow[2] #获取'小时:分钟'，作为key
            if i==9 and re.match(r'd{1,}',flow): #获取日志第10列:发送的字节数，作为value
                yield hm,int(flow) #初始化key:value
            i+=1

    def reducer(self, key, occurences):
        yield key,sum(occurences) #相同key“小时:分钟”的value做累加操作

if __name__ == '__main__':
    MRCounter.run()

生成Hadoop任务，运行：

python /root/hadoop/httpflow.py -r hadoop -o hdfs://output/httpflow hdfs:///user/root/nginx

建议将分析的数据定期入库MySQL，利用MySQL灵活丰富的SQL支持，可以很方便的对数据进行加工，轻松输出比较美观的数据报表。

网站HTTP状态码统计

统计一个网站的HTTP状态码比例数据，可以帮助我们了解网站的可用度及健康状态，比如我们关注的200、404/5xx状态等。在此示例中我们利用Mrjob的多步调用的形式来实现，除了基本的mapper、reducer方法外，还可以自定义处理方法，在steps中添加调用即可。

【/root/hadooptest/httpstatus.py】

#!/usr/bin/env python
# -*- encoding: utf-8 -*-

from mrjob.job import MRJob
import re

class MRCounter(MRJob):
    def mapper(self, key, line):
        i = 0
        for httpcode in line.split():
            if i == 8 and re.match(r'd{1,3}',httpcode): #获取日志中HTTP状态码段，作为key
                yield httpcode,1 #初始化key:value，value计数为1，方便reducer做累加
            i+=1

    def reducer(self, httpcode,occurrences):
        yield httpcode,sum(occurrences) #对排序后的key对应的value作sum累加

    def steps(self):
        return [self.mr(mapper=self.mapper),self.mr(reducer=self.reducer)] #在steps方法中添加调用队列

if __name__ == '__main__':
    MRCounter.run()

生成Hadoop任务，运行：

python httpstatus.py -r hadoop -o hdfs:///output/httpstatus hdfs:///user/nginx

分析结果：

[root@wx hadooptest]# hadoop fs -cat /output/httpstatus/part-00000
"200" 608997
"206" 2802574
"302" 1
"304" 34600
"400" 30
"401" 1
"404" 1653791
"416" 180358
"499" 2689

网站分钟级请求数统计

一个网站请求量大小，直接关系到网站的访问质量，非常有必要对改数据进行分析且关注。本示例以分钟为单位对网站的访问数进行统计。

【/root/hadooptest/http_minute_conn.py】

#!/usr/bin/env python
# -*- encoding: utf-8 -*-

from mrjob.job import MRJob
import re

class MRCounter(MRJob):
    def mapper(self, key, line):
        i = 0
            for dt in line.split():
                if i == 3: #获取时间段，位于日志的第4列，内容如“[24/Aug/2016:00:00:02”
                    timerow = dt.split(':')
                    hm = timerow[1] + ':' + timerow[2] #获取'小时:分钟'，作为key
                    yield hm,1 #初始化key:value
                i+=1

    def reducer(self, key,occurrences):
        yield key,sum(occurrences) #对排序后的key对应的value作sum累加

if __name__ == '__main__':
    MRCounter.run()

生成Hadoop任务，运行：

python http_minute_conn.py -r hadoop -o hdfs:///output/http_minute_conn hdfs:///user/nginx

网站访问来源IP统计

统计用户的访问来源IP可以更好地了解网站的用户分布，同时也可以帮助安全人员捕捉攻击来源。实现原理是定义匹配IP正则字符串作为key，将value初始化为1，执行reducer操作时做累加（sum）统计

【/root/hadooptest/ipstat.py】

#!/usr/bin/env python
# -*- encoding: utf-8 -*-

from mrjob.job import MRJob
import re

IP_RE = re.compile(r'd{1,3}.d{1,3}.d{1,3}.d{1,3}') #定义IP正则匹配

class MRCounter(MRJob):
    def mapper(self, key, line):
        for ip in IP_RE.findall(line): #匹配IP正则后生成key:value，其中key为IP地址，value初始值为1
            yield ip,1

    def reducer(self, ip,occurrences):
        yield ip,sum(occurrences) #对排序后的key对应的value作sum累加

if __name__ == '__main__':
    MRCounter.run()

生成Hadoop任务，运行：

python ipstat.py -r hadoop -o hdfs:///output/ipstat hdfs:///user/nginx

网站文件访问统计

通过统计网站文件的访问次数可以帮助运维人员了解访问最集中的文件，以便进行有针对性的优化，比如调整静态文件过期策略、优化动态cgi的执行速度、拆分业务逻辑等。实现原理是讲访问文件作为key，初始化value为1，执行reducer是做累加（sum）统计。

【/root/hadooptest/httpfile.py】

#!/usr/bin/env python
# -*- encoding: utf-8 -*-

from mrjob.job import MRJob
import re

IP_RE = re.compile(r'd{1,3}.d{1,3}.d{1,3}.d{1,3}') #定义IP正则匹配

class MRCounter(MRJob):
    def mapper(self, key, line):
        i = 0
        for url in line.split(): 
            if i==6: #获取日志中URL文件资源字段，作为key
                yield url,1
            i+=1

    def reducer(self, url,occurrences):
        yield url,sum(occurrences) #对排序后的key对应的value作sum累加

if __name__ == '__main__':
    MRCounter.run()

生成Hadoop任务，运行：

python httpfile.py -r hadoop -o hdfs:///output/httpfile hdfs:///user/nginx

同理，我们可以使用以上方法对User-Agent域进行分析，包括浏览器类型及版本、操作系统及版本、浏览器内核等信息，为更好地提升用户体验提供数据支持。

参考资料：

根据刘天斯《Python自动化运维技术与最佳实践》整理