新手（初学者）学R语言第一课，从学正确导入数据开始

news2026/2/13 13:45:54

初看题目好像我在教你怎么导入数据，不不不，我是在教你正确的导入数据，不是说数据导入R就叫正确导入数据了。本章为新手教程，老手可以跳过。
这个内容早就想写了，今天有点空和大家聊一下。为什么R语言对于新手而言不太友好，有些人觉得R很难学。很多原因都有，我今天来说下没有正确导入数据的报错，比如下面报错

Error in xtfrm.data.frame(x) : cannot xtfrm data frames

在这里插入图片描述
这对新手来说绝对是个大打击，你根本没法找到原因，会影响及的积极性和学R的信心，因为我就是这么走过来的。
因为R语言是个注重格式的语言，目前导入数据的R包种类繁多，有些R包存在格式转换问题，所以导入数据后分析容易出现各种各样的问题。我以我一个粉丝发给我的数据和代码为例子，就是以我写得scitb5函数来做个亚组分析得交互表，分析的内容详见这篇文章《scitb5函数2.1版本（交互效应函数P for interaction）发布----用于一键生成交互效应表、森林图》
先导入R包和我写得函数

library(tidyverse)
setwd("E:/公众号文章2024年/新手第一课，从学导入数据开始/scitb5")
source("./helper/21scitb5.R")

用我文章示例得代码导入数据

d1 <- read.csv("zaochan.csv", sep = ",", header = TRUE)

在这里插入图片描述
设置协变量和交互变量，

cov1        <- c("lwt", "smoke", "ptl", "ui", "ftv", "race")
interaction <- c("race", "smoke", "ui")

转换数据

bc1 <- d1 %>%
  mutate(
    race = case_match(race,
                      "black" ~ 1,
                      "white" ~ 2,
                      "other" ~ 3
    )
  ) %>%
  mutate(smoke = if_else(smoke == "nonsmoker", 0, 1)) %>%
  mutate(across(c(race, low, ht, ui), factor))

最后使用我的sicitb5函数生成表，似乎一切很顺利，得出结果。

out <- scitb5(data        = bc1, 
              x           = "age", 
              y           = "low", 
              Interaction = interaction, 
              cov         = cov1, 
              family      = "glm"
            )

在这里插入图片描述
下面咱们用readr包导入数据再跑一次

library(readr)
d2 <- readr::read_csv("zaochan.csv")

在这里插入图片描述
好像几乎一样，没什么问题，但是还是不一样的

bc2 <- d2 %>%
  mutate(
    race = case_match(race,
                      "black" ~ 1,
                      "white" ~ 2,
                      "other" ~ 3
    )
  ) %>%
  mutate(smoke = if_else(smoke == "nonsmoker", 0, 1)) %>%
  mutate(across(c(race, low, ht, ui), factor))

生成结果

out <- scitb5(data        = bc2, 
              x           = "age", 
              y           = "low", 
              Interaction = interaction, 
              cov         = cov1, 
              family      = "glm"
)

在这里插入图片描述
同样的代码，换个导入数据方法就跑不出来了，而且这个报错你根本看不出来是什么回事，没办法修改。
有人可能会说这是我scitb5函数的bug，但其实不是是这句很普通代码的报错，一句涉及数据转换的代码，这句代码应该很常用，涉及很多场景，很多R包都会用

length(levels(factor(bc2[,"low"]))) == 2

在这里插入图片描述
还有这句很普通的代码也会经常报错

d2<-rbind(d2,d1)

也会有人会说这只是个小概率事件，但是这样的例子很多，两三页都翻不完
在这里插入图片描述
这只是一个小例子，还有其他很多千奇百怪的报错。
这样类似容易出错的R包还有readxl包，haven包等因为这些包可以直接导入excel文件，方便是方便了，但是有时会容易出现莫名其妙的错误。不是说这些包没有用，还是有很大用处的（比如在一些特殊的场景），但是对新手来说，稳定不容易出错才是他们目前最需要的。
因此正确的常规导入数据方法是很重要的
我推荐两种方法导入数据，这些都是我长期实践觉得比较稳定，不容易出错的，
第一：就是如果你是excel数据：
我们点：文件----另存为----csv格式
在这里插入图片描述
然后用R自带的格式导入，示例如下

bc<-read.csv("E:/r/test/nahnesme.csv",sep=',',header=TRUE)

第二：如果是SPSS数据，咱们可以使用foreign包，如我乳腺癌的例子，to.data.frame=T这个一定要有，因为这句等于把数据转成数据框。

library(foreign)
bc <- read.spss("E:/r/Breast cancer survival agec.sav",
                use.value.labels=F, to.data.frame=T)

在这里插入图片描述
上面这个报错在部分情况使用下面代码把数据强制转成数据框格式有一定几率也可以解决问题

d2<-as.data.frame(d2)

但是对于新手来说，良好的数据导入习惯是成长很好的帮助。

其他数据以此参考，本期结束。

下面是个视频介绍

新手学R第一课，从学正确导入数据开始

最后和大家汇报一下，目前nhanes阈值效应函数已经基本写好，目前正在测试中，估计过段时间就可以和大家见面了。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1849906.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

新手（初学者）学R语言第一课，从学正确导入数据开始

相关文章

threeJS 基础 03---动画

区块链会议投稿资讯CCF A--WINE 2024 截止7.15 附录用率附录用的区块链文章

Pyqt5 + Qt Creator实现QML开发环境配置

高效22KW双向DCDC储能、充电电源模块项目设计开发

Python+Selenium自动化入门

基于SpringBoot+协同过滤算法的家政服务平台设计和实现(源码+LW+调试文档+讲解等)

Java 超详细实现导入导出（包含时间转换问题和样式）

STM32学习笔记（十）--I2C、IIC总线协议详解

代码随想录算法训练营第六十七天 | 字符串接龙、有向图的完全可达性、岛屿的周长

Stable Diffusion AI绘画助力建筑设计艺术创新——城市建筑设计大模型分享

临时关闭Windows安全中心

材料科学SCI期刊，中科院3区，收稿范围广，易录用

multiprocessing多进程计算及与rabbitmq消息通讯实践

展讯-源码编译

尽管担任社长宫崎英高95%时间还是在做游戏

数据库精选题（一）（关系数据库设计）

在scrapy中使用Selector提取数据

DAY10-力扣刷题

8.华为两台交换机的三种连接方式access 、trunk、undo portswitch

空间复杂度线性表，顺序表尾插。