数据分析
聚类分析
- 常用方法
- k均值,DBSCAN,两步聚类,BIRCH,谱聚类
- 解决的问题
- 数据集分为几类
- 每个类别有多少样本量
- 不同类别各个变量的强弱关系
- 不同类别的典型特征是什么
- 超大数据量时应该放弃K均值算法,可以考虑Mini Batch KMeans
回归分析
- 主要应用场景
- 常用方法
- 线性回归
- 二项式回归
- 对数回归
- 指数回归
- 核SVM
- 岭回归
- Lasso
- 优点
- 缺点
- 只能分析少量变量之间的相互关系,无法处理海量变量间的相互作用关系
分类分析(类似于决策树)
- 常用方法
- 朴素贝叶斯(不易过拟合,文本分类)
- 逻辑回归(获得概率信息)
- 决策树(需要清晰决策规则)
- 随机森林(精度高)
- 支持向量机(精度高,不易过拟合)
- 主要场景
- 预测信用评级
- 风险等级
- 欺诈预测
- 机器翻译
- 人脸识别
- 医学诊断
- 手写字符识别
- 指纹识别
- 只是抽取
关联分析
- 常用算法
- Apriori
- FP-Growth
- PrefixSpan
- SPADE
- AprioriAll
- AprioriSome
- 优点
- 应用场景
- 购物篮分析
- 捆绑销售
- 库存管理
- 商品促销计划
- 页面促销计划
- 货架设计
- 商品陈列设计
- 页面内容排版
- 推荐系统
- 商品价格策略
- 基于购买的用户特征分析
异常检测分析
- 方法
- 基于统计的异常检测方法(泊松分布,正态分布)
- 基于距离的异常检测方法(K均值)
- 基于密度的离群检测方法(LOF)
- 基于偏移的异常点检测方法
- 基于时间序列的异常点检测方法
- 应用场景
- 异常订单识别
- 风险客户预警
- 黄牛识别
- 贷款风险识别
- 欺诈检测
- 技术入侵
时间序列分析
- 方法
- 移动平均(MA,Moving Average)
- 指数平滑(ES,Exponential Smoothing)
- 差分自回归移动平均模型(ARIMA,Auto-regressive Integrated Moving Average Model)
- 应用场景
原文地址:https://www.cnblogs.com/rener0424/p/11232271.html