校招准备-机器学习/深度学习/数据挖掘

任务说明

机器学习基本算法原理推到应用

主要包括:算法的原理,损失函数,推导,优缺点,适用条件等基本知识,以及工程实现(单机,分布式,算法优化)包括算法的自己实现,与spark分布式实现,sklearn源码,等 [DT,KNN,LR,GBDT,RF等,SVM]系统的学习与整理

涵盖分类,回归,聚类,降维四大主题:

分类

线性模型:LR,线性判别分析

决策树:ID3,C4.5, CART树

KNN:

贝叶斯:朴素贝叶斯,贝叶斯网络,

SVM:

集成类方法:Bagging与随机森林;boosting,adaboost,gbdt,xgboost

回归

线性回归系列

knn回归

SVR

CART树回归

聚类: 各个算法的概念,使用,原理,实现(结合sklearn和spark) 都还没有深入的了解*

1.为解决基本问题,什么是聚类算法,输出你熟悉的几种聚类算法,比较其优缺点;

2.查看各种机器学习书籍的课后习题!

(1/5)(时间:6.7上午了解各个算法,看了几篇综述;)

基于划分的聚类 k-means和他的变体

k-means简单、快速而且能有效处理大规模数据集 ,缺点对于噪声和孤立点敏感 ; 依赖于初始化的值, 可能陷入局部最优,可能需要多次初始化;需要给出K值

PAM(kmediod)https://www.cnblogs.com/vpoet/p/4659734.html 对噪声不敏感,但是计算量大 https://blog.csdn.net/sinat_19596835/article/details/78303744

CLARA和ＰＡＭ方法相似,主要是为了减少pam的计算量

AP(Affinity Propagation) 也属于概率图聚类 亲密度传播聚类,不需要给定k值; 各类结构比较紧密时,算法能给出比较好的结果,但是在比较松散的情况下,算法倾向于参数较多的类来实现E(C)最大化,是的不太准确

高斯混合

FCM 属于模糊聚类,

层次聚类

AGNES

BIRCH

CURE

ROCK

密度聚类,

DBSCAN

谱聚类

降维

PCA

ICA

数据挖掘

预处理与可视化

特征选择

评价标准

关联分析

异常检测

深度学习

自编码机

卷积

RNN/LSTM

数理基础

概率统计相关基础

最优化相关基础:常用的如LR的各种优化方法,DL的各种最优化方法