昨晚在电脑的不懈努力下,在凌晨1.42的时候它完成了工作。
我在大概晚上7-8点开始的工作,
本次爬虫大概用时六个小时左右,数据量是13256kb
这就是本次的爬虫之旅。
下一步准备在虚拟机上导入hive数据库,进行数据的清洗,统计等操作。
/********续*******/
23:21:27
虚拟机还算。。。。顺利吧(那些心酸就不说了)
但是呢,可能是爬虫的问题,导致数据重复性很高,看来不用mapreduce处理确实很慢,
经过我手动处理的数据:
可以看到数据还是有很多重复的,这些只能交给代码来处理了。
歇了歇了,晚上不便熬夜,电脑晚上跟我不在一个屋。。。
明天echarts见。。
哎,