我的R 之路: R最常见的小基础。。。。。。。。

一、在这我以鸢尾花为例

iris
dim(iris)###行列数目
names(iris)###有那些列
str(iris)###数据的结构如何
attributes(iris)# 数据的列名、行名和数据结构
head(iris)###前六行
iris[,1:2]###所有行的一到二列
iris[1,1:5]###第一行的1到5列
iris[1:10,"Sepal.Length"]####看取Sepal.Length前是个数据
iris$Sepal.Length[1:10]###取出变量数据
#二、看看单个变量的情况
summary(iris$Sepal.Length)###分析
quantile(iris$Sepal.Length, c(0.1, 0.3, 0.65)) # 指定分位点对应的分位数
mean(iris$Sepal.Length)
median(iris$Sepal.Length)
range(iris$Sepal.Length) # 返回均值、中位数和数据的范围
#三、对于连续变量:
var(iris) # 返回变量的方差
hist(iris$Sepal.Length) # 画出变量的直方图,看看变量的分布情况
plot(density(iris$Sepal.Length)) # 画出变量的密度函数图
#四对于类别变量:
table(iris$Species) # 统计每个类别的计数,了解一下各个类别的分布
pie(table(iris$Species)) # 画出每个类别的占比饼图
barplot(table(iris$Species)) # 画出柱状图
#五、观察多个变量之间的关系
首先看看变量之间的相关性:
cov(iris[ , 1:4]) # 计算变量之间的协方差矩阵
cor(iris[ , 1:4]) # 计算变量之间的相关系数矩阵
#然后研究一些在不同的目标变量水平下,某变量的基本情况:
aggregate(Sepal.Length~Species, summary, data=iris) # 对于Sepal.Length变量,在每个Species水平上执行summary计算
boxplot(Sepal.Length~Species, data=iris) # 针对每个Species水平绘制Sepal.Length的盒形图
with(iris, plot(Sepal.Length, Sepal.Width, col=Species, pch=as.numeric(Species))) #针对每个Species水平绘制两个变量的散点图,并用颜色和点状区分
plot(jitter(iris$Sepal.Length), jitter(iris$Sepal.Width))

接着用图形的方式研究变量之间的关系:

pairs(iris) # 绘制任意两个矩阵之间的散点图,发现变量之间的相关性

> iris[1,1:5]###第一行的1到5列
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
> iris[1:10,"Sepal.Length"]####看取Sepal.Length前是个数据
[1] 5.1 4.9 4.7 4.6 5.0 5.4 4.6 5.0 4.4 4.9
> iris$Sepal.Length[1:10]###取出变量数据
[1] 5.1 4.9 4.7 4.6 5.0 5.4 4.6 5.0 4.4 4.9
> #二、看看单个变量的情况
> summary(iris$Sepal.Length)###分析
Min. 1st Qu. Median Mean 3rd Qu. Max.
4.300 5.100 5.800 5.843 6.400 7.900
> quantile(iris$Sepal.Length, c(0.1, 0.3, 0.65)) # 指定分位点对应的分位数
10% 30% 65%
4.80 5.27 6.20
> mean(iris$Sepal.Length)
[1] 5.843333
> median(iris$Sepal.Length)
[1] 5.8
> range(iris$Sepal.Length) # 返回均值、中位数和数据的范围
[1] 4.3 7.9
> #三、对于连续变量:
> var(iris) # 返回变量的方差
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
Sepal.Length 0.6856935 -0.0424340 1.2743154 0.5162707 NA
Sepal.Width -0.0424340 0.1899794 -0.3296564 -0.1216394 NA
Petal.Length 1.2743154 -0.3296564 3.1162779 1.2956094 NA
Petal.Width 0.5162707 -0.1216394 1.2956094 0.5810063 NA
Species NA NA NA NA NA
Warning message:
In var(iris) : 强制改变过程中产生了NA
> hist(iris$Sepal.Length) # 画出变量的直方图,看看变量的分布情况
> plot(density(iris$Sepal.Length)) # 画出变量的密度函数图
> #四对于类别变量:
> table(iris$Species) # 统计每个类别的计数,了解一下各个类别的分布

setosa versicolor virginica
50 50 50
> pie(table(iris$Species)) # 画出每个类别的占比饼图
> barplot(table(iris$Species)) # 画出柱状图
> #五、观察多个变量之间的关系
> 首先看看变量之间的相关性:
> cov(iris[ , 1:4]) # 计算变量之间的协方差矩阵
Sepal.Length Sepal.Width Petal.Length Petal.Width
Sepal.Length 0.6856935 -0.0424340 1.2743154 0.5162707
Sepal.Width -0.0424340 0.1899794 -0.3296564 -0.1216394
Petal.Length 1.2743154 -0.3296564 3.1162779 1.2956094
Petal.Width 0.5162707 -0.1216394 1.2956094 0.5810063
> cor(iris[ , 1:4]) # 计算变量之间的相关系数矩阵
Sepal.Length Sepal.Width Petal.Length Petal.Width
Sepal.Length 1.0000000 -0.1175698 0.8717538 0.8179411
Sepal.Width -0.1175698 1.0000000 -0.4284401 -0.3661259
Petal.Length 0.8717538 -0.4284401 1.0000000 0.9628654
Petal.Width 0.8179411 -0.3661259 0.9628654 1.0000000
> #然后研究一些在不同的目标变量水平下,某变量的基本情况:
> aggregate(Sepal.Length~Species, summary, data=iris) # 对于Sepal.Length变量,在每个Species水平上执行summary计算
Species Sepal.Length.Min. Sepal.Length.1st Qu. Sepal.Length.Median
1 setosa 4.300 4.800 5.000
2 versicolor 4.900 5.600 5.900
3 virginica 4.900 6.225 6.500
Sepal.Length.Mean Sepal.Length.3rd Qu. Sepal.Length.Max.
1 5.006 5.200 5.800
2 5.936 6.300 7.000
3 6.588 6.900 7.900

六、为了了解更多的基础,我将会用小例子进行表达

(1)pch的用法

R语言绘图是通过函数命令及相应参数设置实现的。如plot(x,y),plot为绘图函数命令,x,y则是绘图参数,指定了绘图的数据向量。但这种最基本的绘图设置很难满足个性化绘图的要求,我们需要根据需要对图形元素进行设置。图形元素是各类图形的基本构成要素,因此,不管我们绘制那种类型的图形,都离不开图形元素的设定,要想绘制出漂亮的统计图形,我们首先要熟悉绘图函数最常见的图形元素设置。

Ø  pch (绘图符号设置参数)

绘图时我们可以用各类符号显示数据,pch是plotting character 的缩写。pch缺省下设定数据显示为点状。pch 符号可以使用0 : 25来表示26 个标识(参看图pch 符号),如pch=23设定数据点显示形状为菱形;当pch=0时不显示任何符号;当然我们也可以任意指定如#;%; ¤; j;+;¡; :; o等符号。值得注意的是,21 : 25这几个符号可以使用bg="颜色" 参数进行不同的颜色填充。颜色参数col则可以用于设置1:25所表示符号的颜色。

 

 

#par(mfrow=c(1,3))#一页3图
layout(matrix(c(1,2,3),nr=1,byrow=T))##按行
plot(1:25,pch=1:25,cex=2.5,bg="blue", main="pch符号图",xlab="pch编码")
plot(1:25,pch="$",cex=6,main="pch=$")####字体大小为六
plot(1:26,pch=LETTERS[1:26],col=1:26)

 

原文地址:https://www.cnblogs.com/alsely/p/6746597.html