机器学习中文教程 介绍sklearn (scikit-learn) 是基于 Python 语言的机器学习工具简单高效的数据挖掘和数据分析工具 可供大家在各种环境中重复使用 建立在 NumPy ,SciPy 和 matplotlib 上 开源,可商业使用 - BSD许可证目录安装 scikit-learn用户指南 1. 监督学习1.1. 广义线性模型1.2. 线性和二次判别分析1.3. 内核岭回归1.4. 支持向量机1.5. 随机梯度下降1.6. 最近邻1.7. 高斯过程1.8. 交叉分解1.9. 朴素贝叶斯1.10. 决策树1.11. 集成方法1.12. 多类和多标签算法1.13. 特征选择1.14. 半监督学习1.15. 等式回归1.16. 概率校准1.17. 神经网络模型(有监督)2. 无监督学习2.1. 高斯混合模型2.2. 流形学习2.3. 聚类2.4. 双聚类2.5. 分解成分中的信号(矩阵分解问题)2.6. 协方差估计2.7. 新奇和异常值检测2.8. 密度估计2.9. 神经网络模型(无监督)3. 模型选择和评估3.1. 交叉验证:评估估算器的表现3.2. 调整估计器的超参数3.3. 模型评估: 量化预测的质量3.4. 模型持久化3.5. 验证曲线: 绘制分数以评估模型4. 检验4.1. 部分依赖图5. 数据集转换5.1. Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器5.2. 特征提取5.3 预处理数据5.4 缺失值插补5.5. 无监督降维5.6. 随机投影5.7. 内核近似5.8. 成对的矩阵, 类别和核函数5.9. 预测目标 (y) 的转换6. 数据集加载工具6.1. 通用数据集 API6.2. 玩具数据集6.3 真实世界中的数据集6.4. 样本生成器6.5. 加载其他数据集7. 使用scikit-learn计算7.1. 大规模计算的策略: 更大量的数据7.2. 计算性能7.3. 并行性、资源管理和配置教程使用 scikit-learn 介绍机器学习关于科学数据处理的统计学习教程机器学习: scikit-learn 中的设置以及预估对象监督学习:从高维观察预测输出变量模型选择:选择估计量及其参数无监督学习: 寻求数据表示把它们放在一起寻求帮助处理文本数据选择正确的评估器(estimator.md)外部资源,视频和谈话API 参考常见问题时光轴 谁不是孤身一人,翻山越岭