R语言之数据框的合并

news2025/1/24 5:09:45

文章和代码已经归档至【Github仓库:https://github.com/timerring/dive-into-AI 】或者公众号【AIShareLab】回复 R语言 也可获取。

文章目录

  • 1.纵向合并:rbind( )
  • 2. 横向合并:cbind ( )
  • 3. 按照某个共有变量合并:merge( )
        • full_join( )
  • 4. 数据框的长宽格式的转换

有时数据集来自多个地方,我们需要将两个或多个数据集合并成一个数据集。合并数据框的操作包括纵向合并、横向合并和按照某个共有变量合并。

1.纵向合并:rbind( )

要纵向合并两个数据框,可以使用 rbind( )函数。被合并的两个数据框必须拥有相同的变量,这种合并通常用于向数据框中添加观测。例如:

data1 <- data.frame(id = 1:5, 
                    sex = c("female", "male", "male", "female", "male"),
                    age = c(32, 46, 25, 42, 29))
data1

data2 <- data.frame(id = 6:10, 
                    sex = c("male", "female", "male", "male", "female"),
                    age = c(52, 36, 28, 34, 26))
data2

rbind(data1, data2)

2. 横向合并:cbind ( )

要横向合并两个数据框,可以使用 cbind( ) 函数。用于合并的两个数据框必须拥有相同的行数,而且要以相同的顺序排列。这种合并通常用于向数据框中添加变量。例如:

data3 <- data.frame(days = c(28, 57, 15, 7, 19),
                    outcome = c("discharge", "dead", "discharge", "transfer", "discharge"))
data3

cbind(data1, data3)

3. 按照某个共有变量合并:merge( )

有时我们有多个相关的数据集,这些数据集有一个或多个共有变量,我们想把它们按照共有变量合并成一个大的数据集。函数 merge( ) 可以实现这个功能,例如:

data4 <- data.frame(id = c(2, 1, 3, 5, 4), 
                    outcome = c("discharge", "dead", "discharge", "transfer", "discharge"))
data4

mydata <- merge(data1, data4, by = "id")
mydata

full_join( )

dplyr 包中的 full_join( ) 函数也能实现上述功能上面的命令等价于:

options(warn=-1) # 清爽显示
library(dplyr)
mydata <- full_join(data1, data4, by = "id")
mydata

dplyr 包提供了多种用于合并数据框的函数,例如 bind_rows( )、bind_cols( )、left_join( )、right_join( ) 等,你可以查看这些函数的帮助文档了解它们的用法。

4. 数据框的长宽格式的转换

基本包里的函数 reshape( ) 可以对数据进行长宽格式之间的转换。

下面以 datasets 包里的数据集 Indometh 为例进行说明。该数据集是关于药物吲哚美辛(indometacin)的药物代谢动力学数据,一共有 6 名试验对象,每名试验对象在连续的 8 小时内定时测定了血液中的药物浓度,共有 11 次的测定值。该资料是长格式,下面将其转换为宽格式。

data(Indometh)
head(Indometh,12) # 这里增加一行,预览数据前 12 行,方便对比

wide <- reshape(Indometh, v.names = "conc", idvar = "Subject", timevar = "time", direction = "wide")
wide
  • Indometh:这是一个数据框或数据集,表示要进行重塑操作的原始数据。
  • v.names:这是一个字符串,表示要重塑的值变量的名称。在这种情况下,"conc"表示原始数据中的浓度变量。
  • idvar:这是一个字符串或向量,表示标识变量的名称或变量列表。在这种情况下,"Subject"表示原始数据中的主体标识变量。
  • timevar:这是一个字符串,表示时间变量的名称。在这种情况下,"time"表示原始数据中的时间变量。
  • direction:这是一个字符串,表示重塑的方向。在这种情况下,"wide"表示要将数据从长格式重塑为宽格式。

我们还可以将宽格式数据 wide 重新转换为长格式:

long <- reshape(wide, idvar = "Subject", varying = list(2:12),
        v.names = "conc", direction = "long")
head(long, 12)

函数 reshape( ) 功能强大,但里面的参数很多,使用起来略显不便。

tidyr 包以一种比较简洁统一的格式实现数据长宽格式的转换,其中,函数 pivot_wider( ) 用于把长格式数据转换为宽格式,而函数 pivot_longer( ) 用于把宽格式数据转换为长格式。上面的结果也可以用下述命令得到:

library(tidyr)
wide <- pivot_wider(as.data.frame(Indometh),
                    names_from = time,
                    values_from = conc)
wide

注意在上面的函数 pivot_wider( ) 中,我们用函数 as.data.frame( ) 将数据 Indometh 转换成了数据框,这是因为其默认类型不是数据框。数据框 wide 也能重新转换为长格式:

long <- pivot_longer(wide, -Subject, 
                     names_to = "time", values_to = "conc")
long

一个“整洁”的数据集(tidy data)应该满足:每一行代表一个观测,每一列代表一个变量。在对医学数据进行分析之前,通常情况下应先把数据集转换为长格式,因为 R 中的大多数函数都支持这种格式的数据。

tidyr 包中的 gather()spread() 同样可以用于长型、宽型数据类型转换,详见 Cookbook for R。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/932621.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

测开面经分享(偏Python)

某基金管理公司线下测试开发面试题总结。 预计阅读时间&#xff1a; 25分钟 测开题目如下 可以尝试自己先写&#xff0c;写完之后再去看参考解法哦 ~ 1、编写一段代码&#xff0c;把 list 的数平方(语言不限) ListA [1, 3, 5, 7, 9, 11] 2、使用 Python 语言编写一个日志…

如何把本地项目上传github

一、在gitHub上创建新项目 【1】点击添加&#xff08;&#xff09;-->New repository 【2】填写新项目的配置项 Repository name&#xff1a;项目名称 Description &#xff1a;项目的描述 Choose a license&#xff1a;license 【3】点击确定&#xff0c;项目已在githu…

大语言模型之五 谷歌Gemini

近十年来谷歌引领着人工智能方向的发展&#xff0c;从TensorFlow到TPU再到Transformer&#xff0c;都是谷歌在引领着&#xff0c;然而&#xff0c;在大语言模型上&#xff0c;却被ChatGPT&#xff08;OpenAI&#xff09;抢了风头&#xff0c;并且知道GPT-4&#xff08;OpenAI&a…

基于Python的网上宠物用品销售网站SpringBoot+Vue宠物用品商城系统源码+lw

&#x1f495;&#x1f495;作者&#xff1a;计算机源码社 &#x1f495;&#x1f495;个人简介&#xff1a;本人七年开发经验&#xff0c;擅长Java、Python、PHP、.NET、微信小程序、爬虫、大数据等&#xff0c;大家有这一块的问题可以一起交流&#xff01; &#x1f495;&…

java.lang.NullPointerException: null 不显示异常栈

一、问题 排查线上问题时&#xff0c;发现日志中异常输出的地方&#xff0c;仅有一行java.lang.NullPointerException: null&#xff0c;截图如下。 丢失了具体的异常栈&#xff0c;导致无法定位是哪行代码抛出了异常。 这里排除日志用法的问题&#xff0c;以前是正常能输出异…

设计模式--单例模式(Singleton Pattern)

一、什么是单例模式 单例模式是一种创建型设计模式&#xff0c;它旨在确保一个类只有一个实例&#xff0c;并提供一个全局访问点来访问该实例。换句话说&#xff0c;单例模式限制了类的实例化次数为一个&#xff0c;并提供一种在应用程序中共享一个实例的方式。这对于需要只有…

4 多层感知机-个人理解

多层感知机是一组前向结构的人工神经网络&#xff0c;映射一组输入向量到一组输出向量。除了输入节点&#xff0c;每一个节点都是一个带有非线性激活函数的神经元。多层感知机在输入层和输出层之间添加了一个或者多个隐藏层&#xff0c;并通过激活函数转换隐藏层输出。以下介绍…

eclipse中设置按backspace键、或者delete键,一次删除代码中多个空格

选择菜单Window->Preferences&#xff1a; 在弹出窗口中&#xff0c;找到General->Text Editors&#xff0c;在右面的选项中勾选Insert spaces for tabs和Remove multiple spaces on backspace/delete&#xff0c;然后点击窗口下面的Applay and Close按钮&#xff1a; …

简单js逆向案例(2)

文章目录 前文分析完整代码结尾 前文 本文章中所有内容仅供学习交流&#xff0c;严禁用于商业用途和非法用途&#xff0c;否则由此产生的一切后果均与作者无关&#xff0c;若有侵权&#xff0c;请联系我立即删除&#xff01; 分析 目标网址 aHR0cHM6Ly9zZWFyY2guYmlkY2VudGV…

【Go 基础篇】Go语言中的defer和recover:优雅处理错误

Go语言以其简洁、高效和强大的特性受到了开发者的热烈欢迎。在错误处理方面&#xff0c;Go语言提供了一种优雅的机制&#xff0c;即通过defer和recover组合来处理恐慌&#xff08;panic&#xff09;错误。本文将详细介绍Go语言中的defer和recover机制&#xff0c;探讨其工作原理…

vscode流程图插件使用

vscode流程图插件使用 1.在vscode中点击左下角设置然后选择扩展。 2.在扩展中搜索Draw.io Integration&#xff0c;安装上面第一个插件。 3.安装插件后在工程中创建一个后缀为drawio的文件并且双击打开即可绘制流程图

暴力枚举专题之统计方形

P2241 统计方形&#xff08;数据加强版&#xff09; - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 你以为这篇文章的标题是暴力枚举那么我们就直接枚举长方形和正方形的数量吗&#xff0c;nonono&#xff0c;小伙子&#xff08;小美女&#xff09;&#xff0c;洛谷哪会这么善…

使用Coding对vue项目进行自动化的部署 (亲测有用) coding部署vue项目

使用Coding对vue项目进行自动化的部署 &#xff08;亲测有用&#xff09; 登陆coding 官网 1. 新建项目看下面 这篇文字&#xff0c;新建 vue 项目和 java 一样 选择这个新建 选择代码仓库 点击确定 选择文本编辑器 把下面 内容 粘贴 进去 &#xff0c;然后改几个内容 服务器…

多维时序 | Matlab实现LSTM-Adaboost和LSTM多变量时间序列预测对比

多维时序 | Matlab实现LSTM-Adaboost和LSTM多变量时间序列预测对比 目录 多维时序 | Matlab实现LSTM-Adaboost和LSTM多变量时间序列预测对比预测效果基本介绍模型描述程序设计参考资料 预测效果 基本介绍 多维时序 | Matlab实现LSTM-Adaboost和LSTM多变量时间序列预测对比 模型…

Linux 内核page migration设计文档

概述 page migration设计之初是在numa system的各个node之间迁移physical pages&#xff0c;意味着进程页面的虚拟地址不会变化&#xff0c;物理地址发生改变&#xff0c;migration的目的将page迁移到临近的cpu上降低内存访问延迟。 页面迁移粗略步骤 A. In kernel use of m…

SpringBoot简单上手

spring boot 是spring快速开发脚手架&#xff0c;通过约定大于配置&#xff0c;优化了混乱的依赖管理&#xff0c;和复杂的配置&#xff0c;让我们用java-jar方式,运行启动java web项目 入门案例 创建工程 先创建一个空的工程 创建一个名为demo_project的项目&#xff0c;并且…

人员操作行为识别监测

人员操作行为识别监测实时监测人员的操作行为&#xff0c;人员操作行为识别监测通过yolov7深度学习算法网络模型&#xff0c;对前端采集人员操作行为的图像使用算法进行分析&#xff0c;识别出不符合规范的操作行为&#xff0c;并发出告警信号以提醒相关人员。在训练之前&#…

C++笔记之rolling counter(滚动计数器)

C笔记之rolling counter&#xff08;滚动计数器&#xff09; 一个 rolling counter&#xff08;滚动计数器&#xff09;是一个计数器&#xff0c;可以在给定的范围内不断增加&#xff0c;当达到最大值时会从最小值重新开始。 code review! 文章目录 C笔记之rolling counter&…

【Git】测试持续集成——Git+Gitee+PyCharm

文章目录 概述一、使用Gitee1. 注册账号2. 绑定邮箱3. 新建仓库4. 查看项目地址 二、安装配置Git1. 下载安装包2. 校验是否安装成功。3. 配置Git4. Git命令5. Git实操 三、PyCharmGit1. 配置Git2. Clone项目3. 提交文件到服务器4. 从服务器拉取文件 概述 持续集成&#xff08;…

【Mac】编译Spring 源码和Idea导入

今天我们开始Spring源码的阅读之旅。阅读Spring的源码的第一步当然是编译Spring源码。首先我们要去GitHub上将spring源码给clone下来。 笔者编译环境如下&#xff1a; Spring版本&#xff1a;5.28 https://github.com/spring-projects/spring-framework/tree/v5.2.8.RELEASE …