2020112801-01

本周4进行了基本的数据汇总。考虑到需要的操作很多,自己编写MapReduce将会耗费大量的时间。因为本次采用将数据导入Hive之后使用复合SQL语句进行统计汇总。同时也体会到了面对数据量很大的情况下Hive相比于MySQL之类的关系型数据库的处理速度的高效性。

花在学习上:17小时

花在代码上:6小时

花在解决问题上:8小时

本周遇到的问题:

1.Hive虽然支持SQL,但也基本只是支持SQL标准,除此以外额外支持的库/函数极少。在这种情况下进行复合查询语句的撰写会非常困难,本周的实验中大多数的时间都被用于查询SQL语句的写法上

2.从文件导入MySQL数据库时总是无法正确读取小数(只读取进了整数位),原因不明。

原文地址:https://www.cnblogs.com/minadukirinno/p/14139673.html