数据预处理

在使用深度学习解决真实世界问题之前，我们经常先从原始数据的预处理开始，而不是已经非常好地准备了成 tensor 的格式。在 Python 流行的数据分析的工具中， pandas 包非常普遍地使用。其可以和 tensor 非常好地工作在一起。

读取数据集

我们从手动创建一个数据集开始，其存储路径为 ../data/hourse_tiny.csv 存储文件是 .csv（comma-separated value）逗号分隔的格式，其它格式文件类似。下面的函数确保 ../data 存在，注意注释 #@save 是一个特殊的标记，标注说明了函数、类或语句已经在 d2l 包下定义好了，可以直接调用。

import os

def mkdir_if_not_exist(path):    #@save
    """Make a directory if it does not exist."""
    if not isinstance(path, str):
        path = os.path.join(*path)
    if not os.path.exists(path):
        os.makedirs(path)

下面将向数据集一行一行地写入到 csv 文件

data_file = '../data/hourse_tiny.csv'
mkdir_if_not_exist('../data')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price
')    # 列名
    f.write('NA,Pave,127500
')  # 每一行代表一个数据
    f.write('2,NA,106000
')
    f.write('4,NA,178100
')
    f.write('NA,NA,140000
')

为了加载上面创建的 csv 文件，我们将进入 pandas 包并调用 read_scv 函数。这个数据集包含了 4 行 3 列，对于每一行描述了房间的数量、小巷的类型和房子的价格。

import pandas as pd

data = pd.read_csv(data_file)
print(data)

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000

缺失值处理

注意 "NaN" 记录是缺失值。为了处理缺失值，典型的方法是 imputation 和 deletion，imputation 是使用其它记录将缺失值替换，deletion 是忽略缺失值。下面考虑使用 imputation。

通过整数索引 iloc 可以将数据分割成为输入和输出，前者取前两列后者取最后一列。对于数值型的缺失值 "NaN"，将使用所在列的其它值的均值替换。

inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean())
print(inputs)

   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN

对于分类或离散的特征，将 "NaN" 作为一类。因为列 “Alley” 只取到了两种值 "Pave" 和 "NaN"，因此 pandas 可以自动地将其转换成两个列，dummy variable 虚拟变量（哑变量），“Alley_Pave”和“Alley_nan”。原来的行中的 "Pave" 将会在“Alley_Pave”和“Alley_nan”两列分别设为 1 和 0。

inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

   NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1

转换 Tensor 格式

现在，所有的记录已经是数值类型了，它们将可以被转换为 tensor 类型，一旦数据被转换类型，就可以使用 tensor 的各种函数工具进行下一步的数据处理。

import torch

X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X, y

(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))