project 2

1. 最后老师的答案输出为0.748，用来检测代码正确性

2. estimator有三个，分别为NaiveBayes、StringIndexer、CountVectorizer。三者在使用中需要fit，即一个training的过程。fit之后estimator转变为transformer。tokenizer不需要fit就可以直接使用

transform(DF)即真正的使用model，得到输出New DataFrame

3. 在同一个pipeline里面的estimator只能fit同一个DataFrame

4. task1.1即对raw data进行预处理，对csv的读取老师已经做完了，首先将每一句话打散成单词，通过tokenizer实现，起名为words。再利用CountVectorizer转为向量形式，起名为features。最后用StringIndexer转换成label，即0.0 1.0 2.0 的形式。将这些辅助工具放在pipeline里，最后返回pipeline

raw data

words

features

6. task1.1结束之后，可以开始stacking

由于我们training出来的结果只能分成两类，所以解决方法就是多做几次分类