大数据应用技术课程实践--选题与实践方案

一、选题与意义

1.Hadoop平台应用

2.Kaggle分析数据项目

选择1.Hadoop平台应用,

  • 淘宝双11数据分析与预测

理由:比较有兴趣

二、实践方案

步骤零:实验环境准备 查看实验指南
步骤一:本地数据集上传到数据仓库Hive 查看实验指南
步骤二:Hive数据分析 查看实验指南
步骤三:将数据从Hive导入到MySQL 查看实验指南
步骤四:利用Spark预测回头客 查看实验指南(Scala版)
查看实验指南(Python版)
步骤五:利用ECharts进行数据可视化分析 查看实验指南

三、实践任务分解

  1. 安装Linux操作系统
  2. 安装关系型数据库MySQL
  3. 安装大数据处理框架Hadoop
  4. 安装数据仓库Hive
  5. 安装Sqoop
  6. 安装Eclipse
  7. 安装 Spark
  8. 对文本文件形式的原始数据集进行预处理
  9. 把文本文件的数据集导入到数据仓库Hive中
  10. 对数据仓库Hive中的数据进行查询分析
  11. 使用Sqoop将数据从Hive导入MySQL
  12. 利用Eclipse搭建动态Web应用
  13. 利用ECharts进行前端可视化分析
  14. 利用Spark MLlib进行回头客行为预测

四、实践计划

按任务分解撰写计划表,每天按计划表开展工作。

第天根据实际情况更新计划表,有必要时调整。

 

1.

大数据平台安装软件:

链接:https://pan.baidu.com/s/1lZM6BkZ6XoRE3uwepsQ_5A 
提取码:ao1m

虚拟机镜像文件:

链接:https://pan.baidu.com/s/1e0qak_9Uymn_R1HmSu5ZLw  
提取码:q0lt 

原文地址:https://www.cnblogs.com/201706120196y/p/13182468.html