数据分析

聚类分析

  • 常用方法
    • k均值,DBSCAN,两步聚类,BIRCH,谱聚类
  • 解决的问题
    • 数据集分为几类
    • 每个类别有多少样本量
    • 不同类别各个变量的强弱关系
    • 不同类别的典型特征是什么
  • 超大数据量时应该放弃K均值算法,可以考虑Mini Batch KMeans

回归分析

  • 主要应用场景
    • 计划制定,KPI制定,目标制定
  • 常用方法
    • 线性回归
    • 二项式回归
    • 对数回归
    • 指数回归
    • 核SVM
    • 岭回归
    • Lasso
  • 优点
    • 数据模式和结果便于理解
  • 缺点
    • 只能分析少量变量之间的相互关系,无法处理海量变量间的相互作用关系

分类分析(类似于决策树)

  • 常用方法
    • 朴素贝叶斯(不易过拟合,文本分类)
    • 逻辑回归(获得概率信息)
    • 决策树(需要清晰决策规则)
    • 随机森林(精度高)
    • 支持向量机(精度高,不易过拟合)
  • 主要场景
    • 预测信用评级
    • 风险等级
    • 欺诈预测
    • 机器翻译
    • 人脸识别
    • 医学诊断
    • 手写字符识别
    • 指纹识别
    • 只是抽取

关联分析

  • 常用算法
    • Apriori
    • FP-Growth
    • PrefixSpan
    • SPADE
    • AprioriAll
    • AprioriSome
  • 优点
    • 更加简易,易于业务理解和应用
  • 应用场景
    • 购物篮分析
    • 捆绑销售
    • 库存管理
    • 商品促销计划
    • 页面促销计划
    • 货架设计
    • 商品陈列设计
    • 页面内容排版
    • 推荐系统
    • 商品价格策略
    • 基于购买的用户特征分析

异常检测分析

  • 方法
    • 基于统计的异常检测方法(泊松分布,正态分布)
    • 基于距离的异常检测方法(K均值)
    • 基于密度的离群检测方法(LOF)
    • 基于偏移的异常点检测方法
    • 基于时间序列的异常点检测方法
  • 应用场景
    • 异常订单识别
    • 风险客户预警
    • 黄牛识别
    • 贷款风险识别
    • 欺诈检测
    • 技术入侵

时间序列分析

  • 方法
    • 移动平均(MA,Moving Average)
    • 指数平滑(ES,Exponential Smoothing)
    • 差分自回归移动平均模型(ARIMA,Auto-regressive Integrated Moving Average Model)
  • 应用场景
原文地址:https://www.cnblogs.com/rener0424/p/11232271.html