train_test_split数据切分

train_test_split 数据切分

格式：

X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.3, random_state=0)

参数解释：
train_data：去除label的数据集！！！！
train_target：label集合！！！！
test_size：样本占比，如果是整数的话就是样本的数量
random_state：是随机数的种子。
随机数种子：其实就是该组随机数的编号，在需要重复试验的时候，保证得到一组一样的随机数。比如你每次都填1，其他参数一样的情况下你得到的随机数组是一样的。但填0或不填，每次都会不一样。
随机数的产生取决于种子，随机数和种子之间的关系遵从以下两个规则：种子不同，产生不同的随机数；种子相同，即使实例不同也产生相同的随机数。

样例：

原始数据data，最后一列为标签label（也可以放在第一行）

data=[[1 0 0 ... 1 0 6]
[0 1 0 ... 0 0 9]

...
[0 0 0 ... 1 0 6]
[0 1 0 ... 0 1 9]]

train_data=[[1 0 0 ... 1 0 ]
[0 1 0 ... 0 0 ]

　　　　　　　 ...
[0 0 0 ... 1 0 ]
[0 1 0 ... 0 1 ]]

train_target=[6 9 ... 6 9]

利用切分函数train_test_split得到，训练集如下，测试集于此类似

X_train=[[1 0 0 ... 1 0 ]
[0 1 0 ... 0 0 ]

...
[0 1 0 ... 0 1 ]]

y_train=[6 9 ... 9]

参考：https://blog.csdn.net/mrxjh/article/details/78481578