一、查看和编辑数据
1、查看数据
直接打印到控制台
x <- data.frame(a=1:20, b=21:30)
x
View()函数
此函数可以将数据以电子表格的形式进行展示。
用reshape2包中的tips进行举例:
library("reshape2")
View(tips)
head()函数
查看前几行数据,参数n表示需要查看的行数,默认为6
tail()函数
查看后几行数据,参数n表示需要查看的行数,默认为6
2、编辑数据
fix()函数
数据较少时,可以用此函数来编辑数据。使用时,会出现如下所示的一个弹窗,可以直接在这上面编辑数据。
当数据量特别大时,不适宜用此方法。
fix(tips)
edit()函数
使用此函数,会生成一个新的数据,如果没有将新数据赋值给变量,它将直接打印到控制台。使用时,也会出现如下所示的一个弹窗,可以直接在这上面编辑数据。
当数据量特别大时,不适宜用此方法。
edit(tips)
二、筛选数据
subset()函数
此函数可对向量、矩阵和数据框提取子集,它允许直接使用列名或变量名,使得相较于中括号来说可读性更强。
以下通过reshape2包中的tips数据集进行举例:
# 筛选tips数据集中,星期天消费大于40美元,小费大于5美元,且不吸烟的男性买单
# 方法一:用中括号
tips[tips$total_bill > 20 &
tips$tip > 5 &
tips$sex == "Male" &
tips$smoker == "No" &
tips$day == "Sun",
c("total_bill", "tip", "sex", "smoker", "day")]
# 方法二:使用subset()函数进行筛选
subset(tips,
subset = total_bill > 20 &
tip > 5 &
sex == "Male" &
smoker == "No" &
day == "Sun",
select = c("total_bill", "tip", "sex", "smoker", "day")
)
将上述方法一进行改进:使用with()函数,它的作用是对当前数据构建一个环境,并在该环境中计算表达式。
with(tips,
tips[total_bill > 20 &
tip > 5 &
sex == "Male" &
smoker == "No" &
day == "Sun",
c("total_bill", "tip", "sex", "smoker", "day")])
sample()函数:随机抽样
此函数的3个重要参数:
- size:抽样数量
- replace:是否有放回地抽样
- prob:按照一定的概率进行抽样
x <- letters
sample(x, size=12)
y <- array(LETTERS[1:24], dim=c(3,4,2))
sample(y,size=12)
如果对数据框和列表使用sample()函数,那么得到的结果是对列或元素的随机抽样。对数据框来说,希望得到对行的随机抽样,所以需要先对行号随机抽样,然后选取相应的行。
对列表进行随机抽样:
x <- list(a = c(1,3,4), b = letters, c=3:15, d=month.abb)
x
sample(x, size=3)
对数据框进行随机抽样:
tips[sample(1:nrow(tips), 3),]
三、合并数据
paste()和paste0()函数
将向量以字符串的形式拼接起来。
c()函数
将几个向量合并为更大的向量或列表
data.frame()函数
合并数据框。
cbind()函数
按列合并
x <- tips[,c(1,2)]
head(x)
y <- tips[,c(5,6)]
head(y)
z <- cbind(x,y)
head(z)
rbind()函数
按行合并,且在合并时数据的列名称必须一样,但对列的顺序没要求。
x <- tips[sample(1:nrow(tips), 100),]
head(x)
y <- tips[sample(1:nrow(tips), 50),][,7:1] # y的列名称顺序与x相反
head(y)
z <- rbind(x,y)
head(z)
merge()函数
# 构建作者信息表
authors <- data.frame(
name = I(c("Tukey", "Venables", "Tierney", "Ripley", "McNeil")),
nationality = c("US", "Australia", "US", "UK", "Australia"),
deceased = c("yes", rep("no", 4)))
authors
authors.new <- within(authors,
{ surname <- name; rm(name) })
authors.new
# 构建著作信息表
books <- data.frame(
name = I(c("Tukey", "Venables", "Tierney",
"Ripley", "Ripley", "McNeil", "R Core")),
other.author = c(NA, "Ripley", NA, NA, NA, NA,"Venables & Smith"),
title = c("Exploratory Data Analysis",
"Modern Applied Statistics with S-PLUS",
"LISP-STAT",
"Spatial Statistics",
"Stochastic Simulation",
"Interactive Data Analysis",
"An Introduction to R"),
publishers = c("Addison-Wesley","Springer","Wiley-Interscience",
"Springer","Wiley-Interscience",
"Wiley","Samurai Media Limited"),
year = c(1977,1994,1990,1988,2006,1992,2015))
books
合并有相同列名的数据框
merge(authors,books,by = "name")
合并没有相同列名的数据框
merge(authors.new,books,by.x = "surname",by.y = "name")
四、分组和汇总
cut()函数
x <- rnorm(20,10,5)
# 按c(min(x),5,10,15,max(x))区间将x分成4个区间(组)
# include.lowest表示第一组是否包含最小值
cut(x,breaks = c(min(x),5,10,15,max(x)),include.lowest = T)
# 可以为每一个组赋予标签
cut(x,breaks = c(min(x),5,10,15,max(x)),
labels = c("第一组","第二组","第三组","第四组"),
include.lowest = T)
# 实际应用中往往是在数据框中生成新列
a <- data.frame(x = x)
a$y <- cut(a$x,breaks = c(min(a$x),5,10,15,max(a$x)),
labels = c("第一组","第二组","第三组","第四组"),
include.lowest = T)
head(a)
split()函数