R语言的可视化

1. 完整的数据分析流程

定义研究问题
定义理想数据集
确定能够获取什么数据
清理数据

2. 变量的类型：

数值变量（可进行加减乘除运算）：连续（可在给定区间取任意数值）、离散（给定集合内不连续取值）
分类变量（取值空间有限，不能进行运算）：有序（顺序有意义）、无序（不可比较）

1. 数值变量特征和可视化

集中趋势测量（均值、中位数、众数）
均值=（数值之和）/（数值个数）
中位数=排序后位于正中间的一个数（奇数）、排序后位于正中间的两个数的均值（偶数）
众数=出现次数最多的数

分散趋势测量（值域、方差、标准差、四分位距）

举个例子：

其中，中位数、四分位距是稳健统计量，受极端值影响小。

一个数值变量的可视化
柱状图：横坐标表示预测值所有可能的取值，纵坐标表示频数。
点图：横坐标表示预测值所有可能的取值，纵坐标表示出现的次数。比如出现了一次，就会对应一个点。
箱图：展示25%分位点、50%分位点、75%分位点。在范围（25%分位点-1.5四分位距，75%分位点+1.5四分位距）之外的点命异常点。

两个数值变量的关系
散点图：显示方向、形状、强度、极端值。比如正相关、负相关。

2. 分类变量的特征和可视化

一个分类变量可视化
频率表：表格的形式展现数据的分类水平出现的频率。
条形图：横坐标表示分类变量的每一个水平。

两个分类变量的关系
关联表
相对频率表
分段条形图、相对频率的分段条形图
马赛克图

3.一个分类变量一个数值变量

并排箱图：横轴分类变量取值，纵轴为每个分类变量下对应的数值变量。

3. 三大绘图系统

基本绘图系统
艺术家的调色板，绘图始于空白画布。分为两个步骤 = 图+修饰添加 = 执行一系列的函数。适于绘制2D图。
绘图函数（graphics包）---plot/ hist / boxplot /points /lines /text /title / axis，调用函数的时候会启动一个图形设备。
plot(x,y,...)，其中重要的参数有：xlab / ylab：x轴y 轴的标签，lwd线宽，lty线的类型(2为虚线)，pch点，col颜色。
par()，用于设置全局参数，bg：背景颜色，mar边距，las标签排版，mfrow行列，mfcol列行。
举例子：

hist(airquality$Wind,xlab = "wind")
#一个数值变量的直方图

boxplot(airquality$Wind,xlab="wind",ylab="speed")
#一个数值变量的箱图

boxplot(Wind~Month,airquality)
#一个数值变量一个分类变量的并排箱图，横轴为分类水平。

plot(airquality$Wind,airquality$Temp)
#风速与温度的散点图，也可以写成with函数：
with(airquality,plot(Wind,Temp))

with(subset(airquality,Month==9),points(Wind,Temp,col="red"))
with(subset(airquality,Month==5),points(Wind,Temp,col="blue"))
with(subset(airquality,Month %in% c(6,7,8)),points(Wind,Temp,col="black"))
不同月份的点用不同颜色绘制

fit<-lm(Temp~Wind,airquality)
abline(fit,lwd=2)
#做一条拟合线

legend("topright",pch=1,col = c("red","blue","black"),legend = c("sep","may","other"))
#做图例

par(mfrow=c(1,2))
hist(airquality$Wind)
hist(airquality$Temp)
#将屏幕分为两个部分作图。