R语言学习笔记之高效数据操作

news2025/1/26 15:01:23

一、概要

数据操作是R语言的一大优势,用户可以利用基本包或者拓展包在R语言中进行复杂的数据操作,包括排序、更新、分组汇总等。R数据操作包:data.tabletidyfst两个扩展包。

data.table是当前R中处理数据最快的工具,可以实现快速的数据汇总、连接、删除、分组计算等操作,具有稳定、速度快、省内存、特性丰富、语法简洁等特点。由于其函数语法结构相对来说较为抽象,对于初学者而言往往需要花更多的时间来掌握。

tidyfst包应运而生,用以提高data.table代码的可读性和可维护性。tidyfst包参考了tidyverse体系的语法结构,让用户能够见名知义;同时,其底层由data.table代码构成,因此实现速度非常快。对于较为复杂的data.table操作,tidyfst包提供了简便的调用函数进行实现。

资料来源:《机器学习全解(R语言版)》 黄天元  2024年7月出版

二、数据读写

在data.table包中可以使用freadfwrite函数对csv格式的文件进行读写。

如果需要保存规模较大的数据,可以使用tidyfst包的import_fstexport_fst函数来进行数据读写,其数据保存格式为以fst为扩展名的二进制文件。它的特点就是数据高保真读写速度快压缩效果好,因此保存下来的fst文件往往要比csv格式占用内存更小

library(pacman)
p_load(tidyfst,data.table)

fwrite(iris,"D:/iris.csv")
ir=fread("D:/iris.csv")

export_fst(iris,"D:/iris.fst")
ir=import_fst("D:/iris.fst")

三、筛选列

1、选择需要的列

library(pacman)
p_load(tidyfst,data.table)
ir=as.data.table(iris)
ir

# 选取上面构造的数据框ir中的第1、3和4列,以下两种写法等价
ir %>% select_dt(1,3,4)    #tidyfst
ir[,c(1,3,4)]    # data.table

2、选择连续的列

可以使用“:”符号:

# 选择1到3列
ir %>% select_dt(1:3) 
ir[,1:3]

 3、根据变量名称选择单列

# 选择Sepal.Length列
ir %>% select_dt(Sepal.Length)
ir[,"Sepal.Length"]

4、根据变量名称选择多列

变量名称之间需要用逗号隔开 

# 选择Sepal.Length和Petal.Length两列
ir %>% select_dt(Sepal.Length,Petal.Length)
ir[,c("Sepal.Length","Petal.Length")]

5、根据正则表达式筛选列

# 选择列名称包含“Sepal”的列
ir %>% select_dt("Sepal")
ir[,.SD,.SDcols=patterns("Sepal")]

 

6、利用特殊函数选择列

# 选择数据类型为因子的列
ir %>% select_dt(is.factor)
ir[,.SD,.SDcols = is.factor]

7、排除列

排除一些列,则可以在原来基础上加上减号来实现:

# 排除Sepal.Length和Petal.Length这两列
ir %>% select_dt(-Sepal.Length,-Petal.Length)
ir[,-c("Sepal.Length","Petal.Length")]

# 排除因子列
ir %>% select_dt(-is.factor)
ir[,.SD,.SDcols = -is.factor]

四、筛选行

1、根据单个条件筛选行

# 筛选出Sepal.Length大于7的条目
ir %>% filter_dt(Sepal.Length>7)
ir[Sepal.Length>7]

2、多条件筛选行

如果要附加多个条件,那么条件之间可以利用逻辑运算符&(与)​、|(或)和!(非)进行修饰和连接。

# 筛选Species列不为versicolor且Sepal.Length大于6的条目
ir %>% filter_dt(Species != "versicolor" & Sepal.Length > 6)
ir[Species != "versicolor" & Sepal.Length > 6]

3、tidyfst包中现成的筛选函数

slice_max_dt

获得Sepal.Length最大的10个条目

ir %>% slice_max_dt(Sepal.Length,10)

slice_min_dt

获得Sepal.Length最小的10个条目

ir %>% slice_min_dt(Sepal.Length,10)

slice_sample_dt

随机选择10个条目

ir %>% slice_sample_dt(10)

slice_dt

根据条目的位置来进行筛选。获得ir数据框的第100行

ir %>% slice_dt(100)ir[100]

选择多行,则可以使用数值向量。选出第100行到第105行

ir %>% slice_dt(100:105)ir[100:105]
unique

去重

ir %>% unique()

 

 

五、更新

更新是指对数据框的一列或多列进行修饰,或根据已有列构造新列。

mutate_dt新增常数列、修改列
mutate_when按照一定的条件进行列的更新
mutate_vars对多个列同时进行原位修饰
ir %>% mutate_dt(one=1)
ir %>% mutate_dt(Sepal.Length=Sepal.Length+1)
ir %>% mutate_when(Sepal.Width=0.2,one=1)
ir %>% mutate_vars("^Petal",function(x) x-1)

1、新增一列名为one的常数列,其所有数值均为1

2、让Sepal.Length列的所有数值加1

3、在Petal.Width等于0.2的时候新增名为one的常数列

4、让列名称以Petal开头的列都减去1

六、排序

对数据框进行排序有两种方法,一种是按照行进行排序,另一种是按照列进行排序。

arrange_dt按列排序
relocate_dt调整列的位置
ir %>% arrange_dt(Sepal.Length)
ir[order(Sepal.Length)]

ir %>% arrange_dt(Sepal.Length,Sepal.Width)
ir[order(Sepal.Length,Sepal.Width)]

ir %>% arrange_dt(-Sepal.Length)
ir[order(-Sepal.Length)]

ir %>% relocate_dt(Species,how="first")
ir %>% relocate_dt(Species,how="last")

ir %>% relocate_dt(Petal.Length,how = "after",where = Petal.Width)


# 对列的位置进行重新排列
new_order=names(ir)[c(3,2,4,5,1)]
new_order
ir[,.SD,.SDcols = new_order]

# 直接写上列名称
ir %>% select_mix(Petal.Length,
                  Sepal.Width,
                  Petal.Width,
                  Species,
                  Sepal.Length)

1、按照Sepal.Length列从小到大进行排列

多列:先按照Sepal.Length列进行排列,然后再按照Sepal.Width列进行排列

2、从大到小进行排列,在原来的变量之前加入负号

3、调整列的位置

把Species列放到第一列:

把Sepal.Length列放到最后一列:

七、汇总

汇总的过程是用较少信息表征较多信息的方法。

tidyfst包中使用summarise_dt函数来对数据框中的列进行汇总。

ir %>% summarise_dt(avg=mean(Sepal.Length))
ir %>% summarise_dt(mean=mean(Sepal.Length))
ir %>% summarise_when(Petal.Width==.2,avg=mean(Petal.Length))
ir %>% summarise_vars(2:4,sum)
ir %>% summarise_vars(is.numeric,sum)

八、分组计算

分组计算就是根据分组结果来对每一个组进行相同的操作。

在tidyfst包中,很多函数都具有by参数,by用来指定分组的变量。

如果需要对多个变量进行分组,那么by参数的指定方式有以下几种:

●在by参数中放入字符串,变量之间以逗号分隔(如by="vs,am")​;

●在by参数中放入字符向量,字符是分组的列名称(如by=c("vs","am"))​;

●在by参数中放入一个指定分组变量的列表(如by=list(vs,am))​。

ir %>% summarise_dt(avg=mean(Sepal.Length),by=Species)
ir %>% summarise_vars(is.numeric,sum,by=Species)


mt=as_dt(mtcars)
mt
mt %>% summarise_dt(avg=mean(mpg),by="vs,am")
mt %>% summarise_dt(avg=mean(mpg),by=c("vs","am"))
mt %>% summarise_dt(avg=mean(mpg),by=list(vs,am))
mt %>% summarise_dt(avg=mean(mpg),by=.(vs,am))

九、列的重命名

tidyfst包中使用rename_dt函数来对列进行重命名。对多个列进行重命名,只要用逗号隔开即可。

ir %>% rename_dt(sl=Sepal.Length)
ir %>% rename_dt(sl=Sepal.Length,sw=Sepal.Width)
ir %>% rename_with_dt(toupper)
ir %>% setNames(paste0("V",1:5))

十、多表连接

连接是指根据表格所包含的共同信息来对多个表格进行合并的过程。基本的连接可以分为内连接、全连接、左连接和右连接

内连接又称为自然连接,该操作会从结果表中删除与其他被连接表中没有匹配行的所有行,只保留两个表格中都包含的数据条目。

全连接会保留所有表格的所有信息。

左连接则仅会保证左边(即第一个出现的)表格的信息会被完全保留,右边(第二个)表格的信息只有与第一个表格的信息匹配的才能够保留。

右连接是左连接的逆运算,即完全保留第二个表格的信息,而第一个表格中只有与第二个表格的信息匹配的内容才能保留。

还有一种特殊的连接方式叫作过滤型连接,它包括反连接半连接

半连接与左连接相似,但是它只保留了左表格的所有列,而右表格的列则不会放入结果。这相当于只提取了右表格的匹配列,然后与左表格进行连接。

反连接则与半连接相反,它会保留左表和右表对应列相异的部分。

workers=fread("
              name company
              Nick Acme
              John Ajax
              Daniela Ajax
              ")

positions=fread("
                name position
                John designer
                Daniela engineer
                Cathie manager
                ")

workers
positions

workers %>% inner_join_dt(positions)
workers %>% merge(positions)

workers %>% full_join_dt(positions)
workers %>% merge(positions,all = T)

workers %>% left_join_dt(positions)
workers %>% merge(positions,all.x = T)


workers %>% right_join_dt(positions)
workers %>% merge(positions,all.y = T)

workers %>% left_join_dt(positions,by="name")
workers %>% merge(positions,all.x = T,by="name")


positions2=setNames(positions,c("worker","position"))
workers
positions2
workers %>% inner_join_dt(positions2,by=c("name"="worker"))
workers %>% inner_join_dt(positions2,on="name==worker")
workers %>% merge(positions2,by.x="name",by.y = "worker")

workers %>% semi_join_dt(positions)
workers %>% anti_join_dt(positions)

 

十一、长宽转换

tidyfst包中的longer_dt函数实现将“宽数据”转换成“长数据”。

tidyfst包中的wider_dt函数实现“长数据”转成“宽数据”。

stocks=data.frame(
  time=as.Date('2009-01-01')+0:9,
  X=rnorm(10,0,1),
  Y=rnorm(10,0,2),
  Z=rnorm(10,0,4)
)
stocks


# 转成长数据
stocks %>% longer_dt(time) -> long_stocks
long_stocks

stocks %>% longer_dt(time,name="NAME",value="VALUE")

# 转成宽数据
wide_stockes=long_stocks %>% wider_dt(name="name",value="value")
wide_stockes

 

十二、集合运算

tidyfst包函数data.table包函数
交集intersect_dtfintersect
并集union_dtfunion
差集setdiff_dtfsetdiff

注意:tidyfst包会自动地把任意数据框转化为data.table格式。 

十三、缺失值处理

1、删除缺失记录

na.omit函数可以删掉任意包含缺失值的行。

tidyfst包的drop_na_dt函数可以实现删除某一列中存在缺失值的条目。

2、缺失值填充

tidyfst包中的replace_na_dt函数实现填充指定的值。

tidyfst包的fill_na_dt函数实现将上一个观测值作为下面缺失的填充值。

tidyfst包中的impute_dt函数实现使用非缺失数值的均值、中位数或众数来对缺失值进行填充。

十四、列表列的应用

列表列(list column)是R语言中相对较新的一个概念,它能够根据分组把一整块数据集成在一起成为一列,而这个列的数据类型为列表(list)。在tidyfst包中可以使用nest_dt函数进行实现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2283496.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux的权限和一些shell原理

目录 shell的原理 Linux权限 sudo命令提权 权限 文件的属性 ⽂件类型: 基本权限: chmod改权限 umask chown 该拥有者 chgrp 改所属组 最后: 目录权限 粘滞位 shell的原理 我们广义上的Linux系统 Linux内核Linux外壳 Linux严格…

LearnOpenGL——光照

教程地址:简介 - LearnOpenGL CN 前言 这篇开始光照的学习。 颜色 原文链接: 颜色 - LearnOpenGL CN总结: 重新搭建了一个简单场景,为后面的学习做准备。 现实世界中有无数种颜色,每一个物体都有它们自己的颜色。我…

步入响应式编程篇(二)之Reactor API

步入响应式编程篇(二)之Reactor API 前言回顾响应式编程Reactor API的使用Stream引入依赖Reactor API的使用流源头的创建 reactor api的背压模式发布者与订阅者使用的线程查看弹珠图查看形成新流的日志 前言 对于响应式编程的基于概念,以及J…

利用Redis实现数据缓存

目录 1 为啥要缓存捏? 2 基本流程(以查询商铺信息为例) 3 实现数据库与缓存双写一致 3.1 内存淘汰 3.2 超时剔除(半自动) 3.3 主动更新(手动) 3.3.1 双写方案 3.3.2 读写穿透方案 3.3.…

【动态规划】--- 斐波那契数模型

Welcome to 9ilks Code World (๑•́ ₃ •̀๑) 个人主页: 9ilk (๑•́ ₃ •̀๑) 文章专栏: 算法Journey 🏠 第N个泰波那契数模型 📌 题目解析 第N个泰波那契数 题目要求的是泰波那契数,并非斐波那契数。 &…

php-phar打包避坑指南2025

有很多php脚本工具都是打包成phar形式,使用起来就很方便,那么如何自己做一个呢?也找了很多文档,也遇到很多坑,这里就来总结一下 phar安装 现在直接装yum php-cli包就有phar文件,很方便 可通过phar help查看…

java提取系统应用的日志中的sql获取表之间的关系

为了获取到对应的sql数据,分了三步骤 第一步,获取日志文件,解析日志文件中的查询sql,递归解析sql,获取表关系集合 递归解析sql,获取表与表之间的关系 输出得到的对应关联关系数据 第二步,根据获…

PyQt6医疗多模态大语言模型(MLLM)实用系统框架构建初探(下.代码部分)

医疗 MLLM 框架编程实现 本医疗 MLLM 框架结合 Python 与 PyQt6 构建,旨在实现多模态医疗数据融合分析并提供可视化界面。下面从数据预处理、模型构建与训练、可视化界面开发、模型 - 界面通信与部署这几个关键部分详细介绍编程实现。 6.1 数据预处理 在医疗 MLLM 框架中,多…

IMX6ull项目环境配置

文件解压缩: .tar.gz 格式解压为 tar -zxvf .tar.bz2 格式解压为 tar -jxvf 2.4版本后的U-boot.bin移植进SD卡后,通过串口启动配置开发板和虚拟机网络。 setenv ipaddr 192.168.2.230 setenv ethaddr 00:04:9f:…

Gradle buildSrc模块详解:集中管理构建逻辑的利器

文章目录 buildSrc模块二 buildSrc的使命三 如何使用buildSrc1. 创建目录结构2. 配置buildSrc的构建脚本3. 编写共享逻辑4. 在模块中引用 四 典型使用场景1. 统一依赖版本管理2. 自定义Gradle任务 3. 封装通用插件4. 扩展Gradle API 五 注意事项六 与复合构建(Compo…

六、深入了解DI

依赖注入是⼀个过程,是指IoC容器在创建Bean时,去提供运⾏时所依赖的资源,⽽资源指的就是对象. 在上⾯程序案例中,我们使⽤了 Autowired 这个注解,完成了依赖注⼊的操作. 简单来说,就是把对象取出来放到某个类的属性中。 关于依赖注…

【论文阅读】HumanPlus: Humanoid Shadowing and Imitation from Humans

作者:Zipeng Fu、Qingqing Zhao、Qi Wu、Gordon Wetstein、Chelsea Finn 项目共同负责人,斯坦福大学 项目网址:https://humanoid-ai.github.io 摘要 制造外形与人类相似的机器人的一个关键理由是,我们可以利用大量的人类数据进行…

第25篇 基于ARM A9处理器用C语言实现中断<一>

Q:怎样理解基于ARM A9处理器用C语言实现中断的过程呢? A:同样以一段使用C语言实现中断的主程序为例介绍,和汇编语言实现中断一样这段代码也使用了定时器中断和按键中断。执行该主程序会在DE1-SoC的红色LED上显示流水灯&#xf…

Spring WebSocket 与 STOMP 协议结合实现私聊私信功能

目录 后端pom.xmlConfig配置类Controller类DTO 前端安装相关依赖websocketService.js接口javascripthtmlCSS 效果展示简单测试连接: 报错解决方法1、vue3 使用SockJS报错 ReferenceError: global is not defined 功能补充拓展1. 安全性和身份验证2. 异常处理3. 消息…

RabbitMQ5-死信队列

目录 死信的概念 死信的来源 死信实战 死信之TTl 死信之最大长度 死信之消息被拒 死信的概念 死信,顾名思义就是无法被消费的消息,一般来说,producer 将消息投递到 broker 或直接到queue 里了,consumer 从 queue 取出消息进…

[JavaScript] 面向对象编程

JavaScript 是一种多范式语言,既支持函数式编程,也支持面向对象编程。在 ES6 引入 class 语法后,面向对象编程在 JavaScript 中变得更加易于理解和使用。以下将详细讲解 JavaScript 中的类(class)、构造函数&#xff0…

Windows上通过Git Bash激活Anaconda

在Windows上配置完Anaconda后,普遍通过Anaconda Prompt激活虚拟环境并执行Python,如下图所示: 有时需要连续执行多个python脚本时,直接在Anaconda Prompt下可以通过在以下方式,即命令间通过&&连接,…

主机监控软件WGCLOUD使用指南 - 如何设置主题背景色

WGCLOUD运维监控系统,从v3.5.7版本开始支持设置不同的主题背景色,如下 更多主题查看说明 如何设置主题背景色 - WGCLOUD

C语言教程——文件处理(2)

目录 前言 一、顺序读写函数(续) 1.1fprintf 1.2fscanf 1.3fwrite 1.4fread 二、流和标准流 2.1流 2.2标准流 2.3示例 三、sscanf和sprintf 3.1sprintf 3.2sscanf 四、文件的随机读写 4.1fseek 4.2ftell 4.3rewind 五、文件读取结束的…

ios打包:uuid与udid

ios的uuid与udid混乱的网上信息 新人开发ios,发现uuid和udid在网上有很多帖子里是混淆的,比如百度下,就会说: 在iOS中使用UUID(通用唯一识别码)作为永久签名,通常是指生成一个唯一标识&#xf…