Day12

1.今天的学习过程和小结:

开发项目,通过分析日志用户画像描绘

数据清洗,第一阶段:把需要的信息从原始日志中提取出来,第二阶段:根据提取出来的信息做精细化操作

数据处理,按照我们的需要进行相应业务的统计和分析 spark、Hive、MapReduce或其他的一些分布式计算框架

处理结果入库,结果可以存放到mysql

数据的可视化,通过图形化展示的方式展现出来:饼图、柱状图、地图、折线图 Echarts、HUE、zeppelin

2.遇到的问题:

数据清洗的时候,多次出现下标越界的问题,主要原因是对数据的格式把握不准确,有许多未预料到的数据出现

mapreduce编写不熟练

3.思维导图

原文地址:https://www.cnblogs.com/xxdcxy/p/9352851.html