跟 Google 学 machineLearning [2] -- 关于 classifier.fit 的 warning

tensorfllow 的进化有点快。学习的很多例子已经很快的过时了，这里记录一些久的例子里被淘汰的方法，供后面参考。

我系统现在安装的是 tensorflow 1.4.1。

主要是使用了下面的代码后，出现 warning:

from tensorflow.contrib import learn

myclassifier = learn.DNNClassifier(hidden_units=[10, 20, 10], n_classes=3)

myclassifier.fit(x_train_array, y_train_array)

warning:

calling fit whith x is deprecated and will be removed after 2016...

解决方法，按照 warning 里的提示，搜了一下，发现，引入 SKCompat，并通过它来调用 classifier，即可使用原来的 fit 函数：

from tensorflow.contrib.learn.python import SKCompat

feature_columns = [tf.contrib.layers.real_valued_column("", dimension=4)]

classifier = SKCompat( learn.DNNClassifier(feature_columns=feature_columns,
        hidden_units=[10, 20, 10],
        n_classes=3) )

但是，使用 SKCompat 并没有真正的让 classifier 变成原来那个，只是改变了数据输入方式而已。从 pydoc 看到 SKCompat 共重写了三个函数：

1. fit，可以像原来一样，使用两个 array list 来进行数据填充。

2. predict，并不是原来的 predict，而是新 tensorflow.contrib.learn.Estimator 中的 predict，同样是使用 array 来喂数据。它的返回值也不是一个 array，反正我还没看懂到底它是个啥。

3. score，事实上就是新的 ensorflow.contrib.learn.Evaluable 中的 evaluate，同上，使用 array 来喂数据。

所以，即使使用过 SKCompat 之后，也还是没法用原来 predict 取得 y_test_prediction, 然后与 y_test 做比较。但是，你可以调用 score 得到一个 dic，其中 ["accuracy"]就是准确度评分。

accuracy_score = classifier.score(x_test, y_test)["accuracy"]

使用 predict ，要用下面的方法打印出可以看懂的结果(最新的手册上说 predict 的返回值是个 intertor，要用下面的方式取结果；我实验的结果是，我这里的返回值是个 dict, key 为 'classes'的就是我们要的内容了，具体的见最后的代码，这是我今天实验的最终代码；所以，tensor 又进化了)：

y=classifier.predict(x_test)
predictions = list(p["predictions"] for p in itertools.islice(y, 6))
print("Predictions: {}".format(str(predictions)))

上面的 6 是 x_test 元素的个数。

===================================================

分割线

===================================================

新的 classifer 中，输入全部用的是 input_func 。这是上面报错的根本原因。

为什么要用 input_func 呢？官方给出的说法大概是，array 只适合小数据量时候使用。。。毕竟 array 的大小是有限的。这看起来完全没什么毛病。

官方给出的最新的方法(2017-12-25)是：

import numpy as np

training_set = tf.contrib.learn.datasets.base.load_csv_with_header(
    filename=IRIS_TRAINING, target_dtype=np.int, features_dtype=np.float32)

train_input_fn = tf.estimator.inputs.numpy_input_fn(
    x={"x": np.array(training_set.data)},
    y=np.array(training_set.target),
    num_epochs=None,
    shuffle=True)

classifier.train(input_fn=train_input_fn, steps=2000)

载入一个 datasets 之后，直接调用 estimator.inputs 中的 numpy.input_fn 来生成需要的 input_fn，后面给 classifier 喂数据，就喂这个 train_input_fn 就可以了。需要注意的是，这里传入的是函数 input_fn=train_input_fn，而不是函数的返回值 input_fn=train_input_fn()。闭包？

或者，你想使用一个可以传递参数的 input_func，官方给出了三种方法（茴香豆的茴字也有三种写法，mmp）：

A）写个 wrapper

def my_input_fn(data_set):
  ...

def my_input_fn_training_set():
  return my_input_fn(training_set)

classifier.train(input_fn=my_input_fn_training_set, steps=2000)

B）使用 functools.partial

classifier.train(
    input_fn=functools.partial(my_input_fn, data_set=training_set),
    steps=2000)

C) 使用 lamda

classifier.train(input_fn=lambda: my_input_fn(training_set), steps=2000)

反正，在我看来，是越来越麻烦了，但是，现在它毕竟是一个有用的工具，还是要用的。

============

from sklearn import metrics
from sklearn.model_selection import train_test_split
import tensorflow as tf
from tensorflow.contrib import learn
import numpy as np
from tensorflow.contrib.learn.python import SKCompat
import itertools

iris = learn.datasets.load_dataset('iris')

print iris.data
print iris.target

x_train, x_test, y_train, y_test = train_test_split(
        iris.data, iris.target, test_size=0.2, random_state=42)

feature_columns = [tf.contrib.layers.real_valued_column("", dimension=4)]

classifier = SKCompat( learn.DNNClassifier(feature_columns=feature_columns,
        hidden_units=[10, 20, 10],
        n_classes=3) )

classifier.fit(x_train, y_train, steps=200)
accuracy_score = classifier.score(x_test, y_test)["accuracy"]
print('Accuracy:{0:f}'.format(accuracy_score))

predictions=classifier.predict(x_test)['classes']
print("Predictions: {}".format(str(predictions)))