实用预测分析

实用预测分析

关于审校者

本书主要内容

阅读本书你需要什么知识

本书的读者对象

下载示例代码和彩图

1预测分析入门

1.1 许多行业中都有预测分析

1.1.1 市场营销中的预测分析
1.1.2 医疗中的预测分析
1.1.3 其他行业中的预测分析

1.2 技能和角色在预测分析中都很重要

1.3 预测分析软件

1.3.1 开源软件
1.3.2 闭源软件
1.3.3 和平共处

1.4 其他有用的工具

1.4.1 超越基础知识
1.4.2 数据分析/研究
1.4.3 数据工程
1.4.4 管理
1.4.5 数据科学团队
1.4.6 看待预测分析的两种不同方式

1.5 R

1.5.1 CRAN
1.5.2 安装R语言
1.5.3 其他安装R语言的方法

1.6 预测分析项目是如何组织的

设置项目和子文件夹

1.7 图形用户界面

1.8 RStudio入门

1.8.1 重新布局以保持和示例一致
1.8.2 部分重要面板的简要描述
1.8.3 创建新项目

1.9 R语言控制台

1.10 源代码窗口

1.11 第一个预测模型

1.12 第二个脚本

1.12.1 代码描述
1.12.2 predict函数
1.12.3 检验预测误差

1.13 R语言包

1.13.1 stargazer包
1.13.2 安装stargazer包
1.13.3 保存工作

1.14 参考资料

1.15 本章小结

2建模过程

2.1 结构化方法的优点

2.2 分析过程方法

2.2.1 CRISP-DM和SEMMA
2.2.2 CRISP-DM和SEMMA的图表
2.2.3 敏捷过程
2.2.4 六西格玛和根本原因
2.2.5 是否需要数据抽样
2.2.6 使用所有数据
2.2.7 比较样本与群体

2.3 第一步:理解业务

2.4 第二步:理解数据

2.4.1 衡量尺度
2.4.2 单变量分析

2.5 第三步:数据准备

2.6 第四步:建模

2.6.1 具体模型说明
2.6.2 逻辑回归
2.6.3 支持向量机
2.6.4 决策树
2.6.5 降维技术
2.6.6 主成分
2.6.7 聚类
2.6.8 时间序列模型
2.6.9 朴素贝叶斯分类器
2.6.10 文本挖掘技术

2.7 第五步:评估

2.7.1 模型验证
2.7.2 曲线下面积
2.7.3 样本内和样本外测试、前进测试
2.7.4 训练/测试/验证数据集
2.7.5 时间序列验证
2.7.6 最佳冠军模型的基准测试
2.7.7 专家意见:人与机器
2.7.8 元分析
2.7.9 飞镖板方法

2.8 第六步:部署

2.9 参考资料

2.10 本章小结

3输入和探索数据

3.1 数据输入

3.1.1 文本文件输入
3.1.2 数据库表格
3.1.3 电子表格文件
3.1.4 XML和JSON数据
3.1.5 生成你自己的数据
3.1.6 处理大型文件的技巧
3.1.7 数据整理

3.2 连接数据

3.2.1 使用sqldf函数
3.2.2 生成数据
3.2.3 检查元数据
3.2.4 使用内部连接和外部连接来合并数据
3.2.5 识别有多个购买记录的成员
3.2.6 清除冗余记录

3.3 探索医院数据集

3.3.1 str(df)函数的输出
3.3.2 View函数的输出
3.3.3 colnames函数
3.3.4 summary函数
3.3.5 在浏览器中打开文件
3.3.6 绘制分布图
3.3.7 变量的可视化绘图

3.4 转置数据帧

3.5 缺失值

3.5.1 建立缺失值测试数据集
3.5.2 缺失值的不同类型
3.5.3 纠正缺失值
3.5.4 使用替换过的值运行回归

3.6 替换分类变量

3.7 异常值

3.7.1 异常值为什么重要
3.7.2 探测异常值

3.8 数据转换

3.8.1 生成测试数据
3.8.2 Box-Cox转换

3.9 变量化简/变量重要性

3.9.1 主成分分析法
3.9.2 全子集回归
3.9.3 变量重要性

3.10 参考资料

3.11 本章小结

4回归算法导论

4.1 监督学习模型和无监督学习模型

4.1.1 监督学习模型
4.1.2 无监督学习模型

4.2 回归技术

4.3 广义线性模型

4.4 逻辑回归

4.4.1 比率
4.4.2 逻辑回归系数
4.4.3 示例:在医疗中使用逻辑回归来预测疼痛阈值
4.4.4 GLM模型拟合
4.4.5 检验残差项
4.4.6 添加变量的分布图
4.4.7 p值及其效应量
4.4.8 p值及其影响范围
4.4.9 变量选择
4.4.10 交互
4.4.11 拟合优度统计量
4.4.12 置信区间和Wald统计
4.4.13 基本回归诊断图
4.4.14 分布图类型描述
4.4.15 拟合优度:Hosmer-Lemeshow检验
4.4.16 正则化
4.4.17 示例:ElasticNet
4.4.18 选择一个正确的Lambda
4.4.19 基于Lambda输出可能的系数

4.5 本章小结

5决策树、聚类和SVM导论

5.1 决策树算法

5.1.1 决策树的优点
5.1.2 决策树的缺点
5.1.3 决策树的基本概念
5.1.4 扩展树
5.1.5 不纯度
5.1.6 控制树的增长
5.1.7 决策树算法的类型
5.1.8 检查目标变量
5.1.9 在rpart模型中使用公式符号
5.1.10 图的解释
5.1.11 输出决策树的文本版本
5.1.12 修剪
5.1.13 渲染决策树的其他选项

5.2 聚类分析

5.2.1 聚类分析应用于多种行业
5.2.2 什么是聚类
5.2.3 聚类的类型
5.2.4 k均值聚类算法
5.2.5 测量聚类之间的距离
5.2.6 聚类的肘形图

5.3 支持向量机

5.3.1 映射函数的简单说明
5.3.2 使用SVM分析消费者投诉数据
5.3.3 将非结构化数据转换为结构化数据

5.4 参考资料

5.5 本章小结

6使用生存分析来预测和分析客户流失

6.1 什么是生存分析

6.1.1 依赖时间的数据
6.1.2 删失

6.2 客户满意度数据集

6.2.1 利用概率函数生成数据
6.2.2 创建矩阵图表

6.3 划分训练和测试数据

6.4 通过创建生存对象来设置阶段

6.5 检查生存曲线

6.5.1 更好的绘图
6.5.2 对比生存曲线
6.5.3 检验生存曲线之间的性别差异
6.5.4 检验生存曲线之间的教育程度差异
6.5.5 绘制客户满意度和服务电话数量曲线
6.5.6 添加性别来改进教育程度生存曲线
6.5.7 把服务电话转换成二进制变量
6.5.8 检验打过和没打过服务电话的客户

6.6 cox回归建模

6.6.1 我们的第一个模型
6.6.2 检查cox回归的输出
6.6.3 比例风险测试
6.6.4 比例风险绘图
6.6.5 获取cox生存曲线
6.6.6 绘制曲线
6.6.7 偏回归绘图
6.6.8 检查子集的生存曲线
6.6.9 比较性别差异
6.6.10 验证模型
6.6.11 决定一致性

6.7 基于时间的变量

6.7.1 改变数据以反映第二次调查
6.7.2 survSplit的工作原理
6.7.3 调整记录来模拟一次干预
6.7.4 运行基于时间的模型

6.8 比较模型

6.9 变量选择

6.9.1 合并交互作用项
6.9.2 比较各个备选模型的AIC

6.10 本章小结

7使用购物篮分析作为推荐系统引擎

7.1 什么是购物篮分析

7.2 检查杂货明细

7.3 示例购物篮

7.4 关联规则算法

7.5 先例和后果

7.6 评估规则的准确性

7.6.1 支持度
7.6.2 计算支持度
7.6.3 置信度
7.6.4 提升度

7.7 准备原始数据文件进行分析

7.7.1 读取交易文件
7.7.2 capture.output函数

7.8 分析输入文件

7.8.1 分析发票日期
7.8.2 绘制日期

7.9 净化和清洗数据

7.9.1 移除不必要的字符空格
7.9.2 简化描述

7.10 自动移除颜色

7.10.1 colors()函数
7.10.2 清洗颜色

7.11 过滤单个商品交易

7.12 将结果合并到原始数据中

7.13 使用camelcase压缩描述

7.13.1 自定义函数映射到camelcase
7.13.2 提取最后一个单词

7.14 创建测试和训练数据集

7.14.1 保存结果
7.14.2 加载分析文件
7.14.3 确定后续规则
7.14.4 替换缺失值
7.14.5 制作最后的子集

7.15 创建购物篮交易文件

7.16 方法1:强制将数据帧转换为交易文件

7.16.1 检查交易文件
7.16.2 获取topN购买商品
7.16.3 寻找关联规则
7.16.4 检验规则摘要
7.16.5 检验规则质量并观察最高支持度
7.16.6 置信度和提升度指标
7.16.7 过滤大量规则
7.16.8 生成大量规则
7.16.9 绘制大量规则

7.17 方法2:创建一份物理交易文件

7.17.1 再次读取交易文件
7.17.2 绘制规则
7.17.3 创建规则的子集
7.17.4 文本聚类

7.18 转换为一个文献术语相关矩阵

7.18.1 移除稀疏术语
7.18.2 找出频繁术语

7.19 术语的k均值聚类

7.19.1 研究聚类1
7.19.2 研究聚类2
7.19.3 研究聚类3
7.19.4 研究聚类4
7.19.5 研究聚类5

7.20 预测聚类分配

7.20.1 使用flexclust预测聚类分配
7.20.2 运行k均值生成聚类
7.20.3 创建测试DTM

7.21 在聚类中运行apriori算法

7.22 总结指标

7.23 参考资料

7.24 本章小结

8将医疗注册数据作为时间序列探索

8.1 时间序列数据

8.2 健康保险覆盖率数据集

8.3 准备工作

8.4 读入数据

8.5 从各列提取子集

8.6 数据的描述

8.7 目标时间序列变量

8.8 保存数据

8.9 确定所有子集组

8.10 将汇总数据合并回原始数据

8.11 检查时间间隔

8.12 按平均人数挑选最高级别的群体

8.13 使用lattice绘制数据

8.14 使用ggplot绘制数据

8.15 将输出发送到外部文件

8.16 检查输出

8.17 检测线性趋势

8.18 自动化回归

8.19 对系数进行排序

8.20 将分数合并回原始的数据帧

8.21 用趋势线绘制数据

8.22 绘制一个图表上的全部类别

8.23 使用ets函数执行一些自动预测

8.24 使用移动平均线来使数据平滑

8.25 简单移动平均线

8.26 验证SMA的计算值

8.27 指数移动平均线

8.27.1 使用函数计算EMA
8.27.2 选择平滑因子

8.28 使用ets函数

8.29 使用ALL AGES做预测

8.30 绘制预测值和实际值

8.31 forecast(fit)方法

8.32 用置信带来绘制未来的值

8.33 修改模型以包含趋势组件

8.34 对所有类别迭代运行ets函数

8.35 onestep生成的精度指标

8.36 比较UNDER 18 YEARS组的测试和训练

8.37 精度指标

8.38 参考资料

8.39 本章小结

9Spark

9.1 关于Spark

9.2 Spark环境

9.2.1 聚类计算
9.2.2 并行计算

9.3 SparkR

9.4 构建第一个Spark数据帧

9.5 导入相同的笔记本

9.6 创建一个新的笔记本

9.7 从小开始变大

9.8 运行代码

9.9 运行初始化代码

9.10 解压缩皮马印第安人糖尿病数据集

9.10.1 检查输出
9.10.2 比较结果
9.10.3 检查缺失值
9.10.4 输入缺失值
9.10.5 检查替换值(读者练习)
9.10.6 缺失值处理完成
9.10.7 计算相关性矩阵
9.10.8 计算各列的均值

9.11 仿真数据

9.11.1 使用哪些相关性
9.11.2 检查对象类型

9.12 仿真糖尿病阴性结果的情况

9.13 运行汇总统计

9.14 保存你的工作

9.15 本章小结

10用Spark探索大型数据集

10.1 对阳性数据进行一些探索性分析

10.1.1 显示Spark数据帧的内容
10.1.2 用本地绘图特性来绘图
10.1.3 直接对一个Spark数据帧运行两两相关性计算

10.2 清理和缓存内存中的表格

10.3 一些探索数据时有用的Spark函数

10.3.1 count和groupby
10.3.2 协方差和相关性函数

10.4 创建新列

10.5 构建一个交叉表

10.6 构建直方图

10.7 使用ggplot绘图

10.8 Spark SQL

10.8.1 注册表格
10.8.2 通过R接口发布SQL
10.8.3 用SQL来检查潜在异常值
10.8.4 创建一些汇总
10.8.5 用第三个查询选出一些潜在异常值
10.8.6 变成SQL API
10.8.7 SQL:用case语句计算一个新列
10.8.8 基于年龄段评估结果变量
10.8.9 计算所有变量的均值

10.9 从Spark回到R来探索数据

10.10 运行本地R包

10.10.1 使用pairs函数(在基本包中提供)
10.10.2 生成一个相关性图形

10.11 一些关于使用Spark的技巧

10.12 本章小结

11Spark机器学习:回归和聚类模型

11.1 关于本章/你将学到什么

11.1.1 读取数据
11.1.2 运行数据帧的摘要并保存对象

11.2 将数据分割成训练和测试数据集

11.2.1 生成训练数据集
11.2.2 生成测试数据集
11.2.3 关于并行处理的说明
11.2.4 将误差引入测试数据集
11.2.5 生成分布的直方图
11.2.6 生成有误差的新测试数据

11.3 使用逻辑回归的Spark机器学习

11.3.1 检查输出
11.3.2 正则化模型
11.3.3 预测结果
11.3.4 绘制结果

11.4 运行测试数据的预测

11.5 合并训练和测试数据集

11.6 将这三个表提供给SQL

11.7 验证回归结果

11.8 计算拟合度的好坏

11.9 测试组的混淆矩阵

11.10 在Spark以外绘图

11.10.1 收集结果的样本
11.10.2 按outcome的值检查分布
11.10.3 注册一些额外的表

11.11 创建一些全局视图

11.11.1 用户练习
11.11.2 聚类分析
11.11.3 准备进行分析的数据
11.11.4 从全局视图读取数据
11.11.5 输入以前计算的平均值和标准偏差
11.11.6 连接平均值和训练数据的标准偏差
11.11.7 连接平均值和测试数据的标准偏差

11.12 归一化数据

11.12.1 显示输出
11.12.2 运行k均值模型
11.12.3 将模型拟合到训练数据
11.12.4 将模型拟合到测试数据
11.12.5 以图形方式显示聚类分配

11.13 通过聚类的平均值来描述它们的特征

11.14 本章小结

12Spark模型:基于规则的学习

12.1 加载盘查(停止和搜身)数据集

12.2 读取表格

12.2.1 运行第一个单元
12.2.2 将整个文件读取到内存中
12.2.3 将变量转化为整数

12.3 发现重要特征

12.3.1 消除级别过多的因子
12.3.2 测试和训练数据集
12.3.3 检查分级数据

12.4 运行OneR模型

12.4.1 理解输出
12.4.2 构建新变量
12.4.3 在测试样本上运行预测

12.5 另一个OneR例子

12.6 使用rpart构建决策树

12.6.1 首先收集样本
12.6.2 使用rpart的决策树
12.6.3 绘制树

12.7 运行Python中的另一种模型

12.7.1 运行Python决策树
12.7.2 读取盘查表格

12.8 索引分类特征

12.8.1 映射到RDD
12.8.2 指定决策树模型
12.8.3 生成更大的树
12.8.4 可视化树
12.8.5 比较训练决策树和测试决策树

12.9 本章小结

思维导图

实用预测分析

防止博客图床图片失效,防止图片源站外链:

http://www.processon.com/chart_image/5e5b2b12e4b069f82a1a4cec.png)

思维导图在线编辑链接:

https://www.processon.com/view/5e5b2b12e4b069f82a1a4ce9

原文地址:https://www.cnblogs.com/jingle1267/p/12793351.html