第五部分 数据清洗

观看视频

hbase2hdfs

hdfs2hbase

两个视频都需要看,代码可以先不用懂,但是一定要按着视频敲一遍

如果你没有maven,也是可以打包项目

可以发现运行mapreduce项目不能在idea上运行必须要打包,对于跟着视频敲还好,但是自己写的时候,难免会碰到问题,所以在能idea上运行mapreduce项目,才是真正的友好。

配置在IDEA上运行mapreduce项目

配置链接

测试

当你数据清洗的部分,完成后,就可以测试第三部分的代码,是否可以在成功了。

碰到问题

如果你在idea上碰到卡在map 0 % ,reduce 0%

我自己当时是直接跑大文件结果出现上面的情况,但是小文件(就17条数据)是可以成功跑的。所以在运行大数据文件的时候,先用小文件测试是否没有Bug,再将代码中文件路径替换成大文件后,打包jar到服务器那边运行,注意:服务器那边运行项目也是可以输入的(即sc.nextLine())。如果你小文件也不能跑,请参考链接

原文地址:https://www.cnblogs.com/10134dz/p/13234668.html