随机森林学习-sklearn

随机森林的Python实现 (RandomForestClassifier)

# -*- coding: utf-8 -*-
"""
RandomForestClassifier
skleran 的随机森林回归模型，应用流程。
2.源数据随机的切分：75%作为训练数据  25%最为测试数据
1.训练数据中的因变量（分类变量）处理成数字形式
3.设定参数，训练/fit
4.对测试数据，预测/predict结果y_pre
5.对预测数据y列,y_pre列,生成混淆矩阵,显示分类/预测效果
"""

from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
import pandas as pd
import numpy as np

iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)  #合并 自变量 和 因变量
df['is_train'] = np.random.uniform(0, 1, len(df)) <= .75  #相当于随机抽取了75%作为训练数据
df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names) #将数字类别转为文字类别
df.head()

train, test = df[df['is_train']==True], df[df['is_train']==False]   #拆分训练集和测试集

features = df.columns[:4]  # 前4个指标 为自变量
clf = RandomForestClassifier(n_jobs=2) # n_jobs=2是线程数
y, _ = pd.factorize(train['species'])  # 将文字类别 转为数字类别。一种序列化方法。第一参数是序列化后结果，第二个时参考
clf.fit(train[features], y)  #训练过程

preds = iris.target_names[clf.predict(test[features])]  # 获取测试数据预测结果
pd.crosstab(test['species'], preds, rownames=['actual'], colnames=['preds']) #生成混淆矩阵