数据集之转换器以及估计器

数据集的结构:特征值+目标值 (有些可以没有目标值)

数据集:uci kaggle

数据处理工具:pandas sklearn

缺失值 重复值 不需要处理

转换器是一类实现了特征工程的API:

估计器是一类实现了算法的API:

测试代码:

from sklearn.preprocessing import StandardScaler
# 转换器以及估计器
s = StandardScaler()
data = s.fit_transform([[1, 2, 3], [4, 5, 6]])
print(data)

ss = StandardScaler()
print(ss.fit([[1, 2, 3], [4, 5, 6]]))
print(ss.transform([[1, 2, 3], [4, 5, 6]]))

print(ss.fit([[2, 3, 4], [4, 5, 7]]))
print(ss.transform([[1, 2, 3], [4, 5, 6]]))

运行结果:

原文地址:https://www.cnblogs.com/wydxry/p/10170899.html