project 2

1. 最后老师的答案输出为0.748,用来检测代码正确性

2. estimator有三个,分别为NaiveBayes、StringIndexer、CountVectorizer。三者在使用中需要fit,即一个training的过程。fit之后estimator转变为transformer。tokenizer不需要fit就可以直接使用

transform(DF)即真正的使用model,得到输出New DataFrame

3. 在同一个pipeline里面的estimator只能fit同一个DataFrame

4. task1.1即对raw data进行预处理,对csv的读取老师已经做完了,首先将每一句话打散成单词,通过tokenizer实现,起名为words。再利用CountVectorizer转为向量形式,起名为features。最后用StringIndexer转换成label,即0.0 1.0 2.0 的形式。将这些辅助工具放在pipeline里,最后返回pipeline

raw data

words

 features

5. 

6. task1.1结束之后,可以开始stacking

由于我们training出来的结果只能分成两类,所以解决方法就是多做几次分类

原文地址:https://www.cnblogs.com/eleni/p/13439158.html