思路整理

1.首先学习基本的知识,文本分析。学习基本的linux命令,使用脚本对文本进行细粒度的切分,并对模型进行调研

2.分析文本文件中的特征,

3.分析文本文件中上下文之间的关系。

4.编写脚本文件,对脚本预处理,数据清洗,并产生格式化的数据

5.建立模型

6.编写map,reduce过程文件,对数据进行处理,产生结果。

原文地址:https://www.cnblogs.com/bob-wzb/p/5544490.html