第五部分数据清洗

观看视频

hbase2hdfs

hdfs2hbase

两个视频都需要看，代码可以先不用懂，但是一定要按着视频敲一遍

如果你没有maven，也是可以打包项目的

可以发现运行mapreduce项目不能在idea上运行必须要打包，对于跟着视频敲还好，但是自己写的时候，难免会碰到问题，所以在能idea上运行mapreduce项目，才是真正的友好。

配置在IDEA上运行mapreduce项目

配置链接

测试

当你数据清洗的部分，完成后，就可以测试第三部分的代码，是否可以在成功了。

碰到问题

如果你在idea上碰到卡在map 0 % ,reduce 0%

我自己当时是直接跑大文件结果出现上面的情况，但是小文件（就17条数据）是可以成功跑的。所以在运行大数据文件的时候，先用小文件测试是否没有Bug,再将代码中文件路径替换成大文件后，打包jar到服务器那边运行，注意：服务器那边运行项目也是可以输入的（即sc.nextLine()）。如果你小文件也不能跑，请参考链接。

第五部分 数据清洗

观看视频

配置在IDEA上运行mapreduce项目

测试

碰到问题

第五部分数据清洗