寒假日报day21

昨晚在电脑的不懈努力下,在凌晨1.42的时候它完成了工作。

我在大概晚上7-8点开始的工作,

本次爬虫大概用时六个小时左右,数据量是13256kb

 这就是本次的爬虫之旅。

 下一步准备在虚拟机上导入hive数据库,进行数据的清洗,统计等操作。

/********续*******/

23:21:27

虚拟机还算。。。。顺利吧(那些心酸就不说了)

但是呢,可能是爬虫的问题,导致数据重复性很高,看来不用mapreduce处理确实很慢,

经过我手动处理的数据:

 

 可以看到数据还是有很多重复的,这些只能交给代码来处理了。

歇了歇了,晚上不便熬夜,电脑晚上跟我不在一个屋。。。

明天echarts见。。

哎,

原文地址:https://www.cnblogs.com/msdog/p/12306434.html