校招准备-机器学习/深度学习/数据挖掘

任务说明

机器学习基本算法原理推到应用

 主要包括:算法的原理,损失函数,推导,优缺点,适用条件等基本知识,以及工程实现(单机,分布式,算法优化)包括算法的自己实现,与spark分布式实现,sklearn源码,等 [DT,KNN,LR,GBDT,RF等,SVM]系统的学习与整理

涵盖 分类,回归,聚类,降维 四大主题:

分类

线性模型:LR,线性判别分析

决策树:ID3,C4.5, CART树

KNN:

贝叶斯:朴素贝叶斯,贝叶斯网络,

SVM:

集成类方法:Bagging与随机森林;boosting,adaboost,gbdt,xgboost

回归

线性回归系列

knn回归

SVR

CART树回归

聚类: 各个算法的概念,使用,原理,实现(结合sklearn和spark) 都还没有深入的了解*   

1.为解决基本问题,什么是聚类算法,输出你熟悉的几种聚类算法,比较其优缺点;

2.查看各种机器学习书籍的课后习题! 

(1/5)(时间:6.7上午了解各个算法,看了几篇综述;)

基于划分的聚类 k-means和他的变体

k-means简单快 速而 且 能 有 效 处 理 大 规模数据集 ,缺点对于噪声和孤立点敏感 ; 依赖于初始化的值, 可能陷入局部最优,可能需要多次初始化;需要给出K值

PAM(kmediod)https://www.cnblogs.com/vpoet/p/4659734.html  对噪声不敏感,但是计算量大   https://blog.csdn.net/sinat_19596835/article/details/78303744

CLARAPAM 方法相似,主要是为了减少pam的计算量 

AP(Affinity Propagation) 也属于概率图聚类 亲密度传播聚类,不需要给定k值;  各类结构比较紧密时,算法能给出比较好的结果,但是在比较松散的情况下,算法倾向于参数较多的类来实现E(C)最大化,是的不太准确  

高斯混合

FCM 属于模糊聚类,

层次聚类

AGNES 

BIRCH

CURE

ROCK

密度聚类,

DBSCAN 

谱聚类

降维

PCA

ICA

数据挖掘

预处理与可视化

特征选择

评价标准

关联分析

异常检测

深度学习

自编码机

卷积

RNN/LSTM

数理基础

概率统计相关基础

最优化相关基础:常用的如LR的各种优化方法,DL的各种最优化方法 

原文地址:https://www.cnblogs.com/bigjelly/p/9140634.html