大数据应用技术课程实践--选题与实践方案

一、选题与意义

1.Hadoop平台应用

2.Kaggle分析数据项目

简要说明理由与意义。

  本次实践选题为“2.Kaggle分析数据项目”。项目选取属个人兴趣以及能力擅长。

  数据集来源于Kaggle,对在Rotten Tomatoes(烂番茄电影评论)数据集上的情绪分析想法进行基准测试。要求按五个等级标记短语:消极,有点消极,中立,有点积极,积极。

二、实践方案

简要说明理由。

   在选取完数据集后,先对数据进行预处理等前期准备操作,采取word2vec进行词向量处理,接着选取LSTM模型,进行模型构建、训练、验证、测试等一系列操作。本次实验将会凸显LSTM模型的优势,因此会选择几个机器学习模型进行同样的分类处理作准确率比较。

三、实践任务分解

根据所选的题目,明确实验步骤,分解任务到每天。

   1.首先确定题目为Kaggle竞赛项目烂番茄,项目宗旨为分类电影评论中的几种情绪,其中包括消极,有点消极,中立,有点积极,积极。

  2.根据官方所给数据进行预处理(由于是英文,在文本处理方面与中文有所差距。)

  3.选择词向量。

  4.分类模型选取(此处将会考虑LSTM模型)

  5.模型构建、训练、测试

  6.预测分类模型的准确率

  7.将会做多种模型进行准确率比较。(朴素贝叶斯首选、SVM支持向量机)

四、实践计划

按任务分解撰写计划表,每天按计划表开展工作。

第天根据实际情况更新计划表,有必要时调整。

任务 6.23 6.24  6.28 6.30  7.1 7.2 7.3
1、题目选择  √            
2、数据预处理    √          
3、词向量Word2Vec   √           
4、 模型选择       √        
5、构建LSTM模型      √        
6、训练、验证模型      √        
7、模型准确率预测        √      
8、朴素贝叶斯模型(进行比较)        √      
9、SVM支持向量机(进行比较)          √    
10、答辩            √  
11、文档集成与提交              √

1.

大数据平台安装软件:

链接:https://pan.baidu.com/s/1lZM6BkZ6XoRE3uwepsQ_5A
提取码:ao1m

虚拟机镜像文件:

链接:https://pan.baidu.com/s/1e0qak_9Uymn_R1HmSu5ZLw  
提取码:q0lt

2.

https://www.kaggle.com/competitions

说明:

  • 个人项目,不要求组队,确实需要组队的说明理由。
  • 边操作边记录;
  • 每天完成当天文档;
  • 最后综合成课程实践报告。
原文地址:https://www.cnblogs.com/xiaolan-Lin/p/13182910.html