总结

数据+算法->项目

原理性：各类模型原理
评估准则

应用性：数据处理方式，清洗，降维，缺失值，格式组织
特征工程：选择降维，数值，类别，时间，等
模型调优：单模型，集成，过拟合

机器学习：监督学习，无监督学习
判别模型（LR，SVM），生成模型（朴素贝叶斯）
损失函数：分类，回归，
优化：最小二乘，牛顿法
评估：评估准则：leaeve-out k-fold,
评估准则：mae、mse，rmse/mape，二分类：，多分类
KNN：距离度量标准，L2 disance，

应用：特征工程，数值型，类别型，时间型，文本，
1.缩放，min-max，standard->模型
2.离散化：非线性

特征选择：1.特征重要度：LR，RF，xgboot

什么样的函数可以作为SVM kernel function
SVM rbf kernel 映射到无穷多维？
SVM 缺失值、异常值
随机森林和GBDT，XGBOOST差别
XGBOOST 多分类
LR l1 l2正则化
k-means 优缺点
LR SVM 场景
LR 最大似然，关系
正则化方式
xgboost：1，介绍一下RF adoboost，gbdt，xgboost
2.xgboos缓解过拟合，做了什么？
4.xgboost并行化提现在哪？
5.xgboost多分类？
6.xgboost近似算法
7.xgboot每一轮树，通常有一个系数做乘法
8.xgboost训练预测，缺失值怎么处理
9.xgb、lgb区别
10.xgboots近似直方图去作加速
11.Ligbt+GBM对类别如何做处理
12.sgboost/lgb有哪些控制过拟合参数，如何去调？