【R语言数据分析】函数

news2025/1/13 17:46:44

目录

自定义函数

apply函数

分类汇总函数aggregate


自定义函数

R语言中的自定义函数更像是在自定义一种运算规则。

自定义函数的语法是

函数名

函数体

}

比如

表示定义了一个名为BMI_function的函数,这个函数代表了一种运算规则,就是把传入的x和y进行x/((y/100)^2)的操作。然后把体重与身高作为实参并把运行结果产生的向量作为新的一列加到原来的数据框中。R语言中return并不是刚需。

本次代码中自定义的函数只能在本次代码中使用,如果我们想要在其他工程中使用这次写的函数,可以把本次定义函数的代码复制下来保存到一个txt格式的文档里,在开启一个新工程的时候我们就可以使用source函数,source() 函数用于读取并执行一个R脚本文件中的代码。当你在R环境中运行source()函数时,它会将指定脚本中的代码逐行读取并执行,就像你在R控制台中手动输入并执行这些代码一样。source函数只接收一个参数,就是想要让他读取的R代码的路径。

再举个例子,有这样一个表格,这个表格用数据框mydata存储

我想要看看整体的人际关系评估,展示形式是所有人人际关系得分的平均值±所有人人际关系得分的标准差,自定义的函数如下

这是一个针对单个向量的函数,round(mean(x),2)表示对向量x的平均值保留两位小数,paste函数用于把x的均值和标准差连接起来,连接符号为±

如图是我们把数据框mydata的某一列作为参数时候的运行结果

我们当然也可以直接使用循环来得到mydata每一列这个向量的运算结果

其中mydata[i]表示提取数据框的第i个元素,也就是第i列的向量

可以写成mydata[,i],表示提取第i列所有行的元素。但是这样难免造成一些理解上的困扰,这两种写法就好比我买糖,第一种是老板用一个袋子把糖装起来给我,第二种写法是老板直接抓了一把糖给我,至于我能不能接受就要看我的脾气好坏了,回到这个代码,至于R能不能识别,就要看R的兼容能力了。不过测试来看R是可以理解这种写法的。实际上我们通过all(mydata[2]==mydata[,2])这句代码的运行结果为TRUE可以知道这两个向量是完全一样的。

注:比较两个向量(假设是x和y)是否相等的方法:如果是比较两个向量每个位置上的元素是否相等,可以直接使用x==y,这样会返回很多结果,如果单纯想要比较两个向量是否相等,可以搭配函数all,例如all(x==y),如果两个向量的比较结果中所有元素都是TRUE,则返回TRUE。

如果想要把这个for循环的结果存储起来,应该先找一个空盒子,也就是代码中的ret,然后使用rbind函数按行合并即可。这里我们在每次合并的时候还把每一列的名字加了进去,以便于清楚地看到反映的是哪一列的整体水平。

但是这样的运行结果是产生了一个向量,这个向量的内容是列名与均值标准差函数的运行结果相间的,我们如何把这个向量分成两列?思路就是把名字和函数运行结果分别提取出来存到两个向量(比如x和y)里面,然后再使用data.frame(x,y)就可以了,首先是提取列名,因为使用的就是列表中三到九列的名字,因此x

apply函数

apply函数族比较常用的函数有apply,lapply,sapply,vapply,mapply等。

重点来介绍一下apply函数,语法为apply(数据集,行/列,计算规则),第一个参数指定要操作的数据集,一般是数据框或者矩阵,第二个参数指定是按照行为单位进行运算,如果该参数为1则表示按照行进行运算,该参数为2则表示按照列进行运算。第三个参数指定运算的规则,本质上这个参数是一个函数,因此实际上我们在对apply函数传参的时候第三个参数通常是传的函数名,但是要求这个函数必须是针对单一向量进行运算的。整个一句代码的意思是数据框或者矩阵中的所有行(或者列)都按照指定的运算规则来运算,所以调用一次apply函数就相当于调用了一次循环。实际上apply函数能做的事情使用for循环都可以解决,但是apply胜在语法简洁,而对于一些比较复杂的逻辑,还是推荐使用for循环。

比如有这样一个名为mydata2的数据框

我想要对后四列求一个均值来观察这几个向量整体的水平。则可以运行代码apply(mydata2[5:8],2,mean),其中mydata2[5:8]表示提取5到8列,2表示按列进行运算,mean表示对每一列进行的运算都是求均值。运行结果如图

使用for循环的话就业这样写

运行结果如下

注:在求均值的时候mean函数的参数传的是mydata2[,i],这表示第i列所有的元素,每个元素都是一个数值型的,如果我们传mydata2[i],表示拿到数据框mydata2的第i个元素,也就是他的第i列,这仍然是一个数据框,只不过这个数据框只有一列罢了,而mean函数的参数要求必须是数值型或者逻辑型。因此要注意函数参数需要的是一列,还是这一列的每个元素。

我们还想用均值±标准差的形式展示后四列的整体状况,可以这样写

其中均值标准差函数使我们自定义的,apply中mydata2[,5:8]表示提取mydata2这个数据框5到8列的所有元素,对拿到的每一列都进行均值标准差函数的运算,运行结果如图

我们使用ret把这个结果存储起来并查看他的类型,发现是字符型,为了方便后续的操作,我们把它转换成具有表格形式的类型也就是数据框或者矩阵,这里是转换成了数据框,最后把转换完成之后的ret结果保存起来写出到当前目录中去。

我们现在又想要观察mydata2这个数据框的5到8列整体的概况,那就可以写成

但是class(ret)结果显示ret的类型是一个列表,列表这种类型属于是对后续的操作非常不友好,ret的内容如图

没有表格,就像是一个清单一样,没法复制到excel进行后续操作,因此我们现在要把这个列表转换成数据框,从而方便操作,前面我们介绍过类似的例子,列表转数据框,如果直接使用as.data.frame,将会得到一个这样的数据框

这个数据框有1行,20列,这仍然不符合后续分析的格式。

将列表转换成数据框常用的方法是do.call函数,但是并不是说do.call函数是用来专门把列表转换成数据框类型的。do.call根据一个名称或函数以及要传递给它的参数列表构造并执行一个函数调用。

ret长这样子

本来的ret是一个列表,列表的内容如下

do.call函数会把ret这个列表的元素作为rbind函数的参数并调用rbind。列表的每一个元素仍然是列表类型,这一点可以通过class函数验证。列表中每个元素都有名字,这些名字被当做了合并后的数据框的行名。

刚才对于apply的应用都是按照列来的,再来介绍一个按照行来应用的例子。

有这样一个名为mydata1的数据框

里面的内容是根据这样的一个量表得到的

但是有几个反向计分题,需要先进行逆向化处理以确保每一类的题目得分都是同一方向的。由于存在多个需要处理的题目,所以我们干脆写一个逆向化处理的函数以避免后续代码的冗余。需要处理的题目分别在mydata1的第7,9,13列,准备工作可以通过这段代码来完成

首先自定义了一个函数re,则个函数的功能是让x向量里面的1变成5,2变成4等等,中间用分号连接且需要用引号括起来。之后使用apply把mydata1的7,9,13列作为参数调用re,这样调用完apply函数之后7,9,13列的逆向化处理就做完了,同时返回一个数据框,这个数据框就是逆向化之后的这三列,我们使用ret接收这个数据框,并把这个数据框的列名修改掉,最后合并到mydata1这个数据框中去。这样准备工作就做完了,我们开始想要求这些学生某一类问题的平均得分,比如计算一号学生继续承诺的平均得分,就需要把继续承诺这类问题中对应的题号下得分加起来求平均值,这显然是一个按行处理的方法,因此运行代码

apply(mydata1[,c(4,29,30,12,20,25)],1,mean)即可得到每个学生继续承诺这类问题的平均得分。其中第一个参数是这一类问题的题号对应的列,第二个参数是1表示按照行处理,第三个参数是mean表示要对每一行这些列的元素求平均值。

分类汇总函数aggregate

有这样一个名为mydata的数据框

现在要求出除了性别和是否患病的其他列的平均值,代码为

apply(mydata[,c(2,4:14)],2,mean)

结果如图

但是如果我们想要根据性别分别统计这些数据,就要使用aggregate函数了。

语法为aggregate(x=list(数据框),by=list(分组向量),FUN=函数名),aggregate函数无法指定按照行还是按照列来进行操作,这个函数只能以列进行运算。

运行代码

aggregate(x=list(mydata[,c(2,4:14)]),by=list(mydata$性别),FUN=mean)

结果如图

也可以通过代谢综合征进行分类,代码为

aggregate(x=list(mydata[,c(2,4:14)]),

by=list(mydata$代谢综合征),FUN=mean)

结果如图

还可以通过性别和是否有代谢综合征这两个标准进行分类,代码为

aggregate(x=list(mydata[,c(2,4:14)]),

by=list(mydata$代谢综合征,mydata$性别),FUN=mean)

只需要在by这个参数中把两个分类标准都加进去就行。

aggregate中的FUN参数还可以是自定义的函数名,比如

运行结果为

有时候样本不遵循正态分布,需要用中位数(下四分位点~上四分位点)这样的格式来统计数据。这时候我们就这样写

运行结果如图

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1639544.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

12_Scala_package

文章目录 Scaal面向对象编程1.回顾Java2.package可以多次声明3.设置作用域,设置上下级4.包可以当作对象使用5.import6.Scala用_取代Java *7.导入多个包8.屏蔽类9.类起别名10.import的规则11.有些包无需导入 Scaal面向对象编程 Scala是一门完全面向对象语言&#xf…

【力扣】203、环形链表 II

142. 环形链表 II 要解决这道题,首先需要对问题进行拆解: 确定链表是否存在环确定环的入口点 如何判断是否存在环呢?这个比较容易想到,使用快慢指针即可判断链表是否存在环。我们定义两个指针: ListNode slow head…

网络安全风险里的威胁建模

文章目录 前言一、威胁建模的必要性二、威胁建模的过程三、威胁建模框架及方法1、NIST威胁模型框架2、STRIDE Model框架3、DREAD框架4、PASTA流程5、LINDDUN框架6、TRIKE知识库7、安全决策树四、威胁建模应用实践前言 网络安全的本质是攻防双方的对抗与博弈。然而,由于多种攻…

面试:Mybatis(MyBatis执行流程、延迟加载、MyBatis的缓存)

目录 一、MyBatis执行流程 二、MyBatis是否支持延迟加载? 1、什么是延迟加载? 2、延迟加载的原理 三、MyBatis的缓存 1、一级缓存 2、二级缓存 3、注意事项 一、MyBatis执行流程 读取MyBatis配置文件: mybatis-config.xml加载运行环境和映射文件构…

政安晨:【Keras机器学习示例演绎】(二十八)—— 使用 卷积神经网络与循环神经网络 架构进行视频分类

目录 数据收集 设置 定义超参数 数据准备 序列模型 推论 政安晨的个人主页:政安晨 欢迎 👍点赞✍评论⭐收藏 收录专栏: TensorFlow与Keras机器学习实战 希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎在评论区提出指正…

kubectl_入门_service详解

Service 我们知道 Pod 的生命周期是有限的。可以用 ReplicaSet 和Deployment 来动态的创建和销毁 Pod,每个 Pod 都有自己的 IP 地址,但是如果 Pod 重建了的话那么他的 IP 很有可能也就变化了。 这就会带来一个问题:比如我们有一些后端的 Po…

<Linux> 权限

目录 权限人员相对于文件来说的分类更改权限文件的拥有者与所属组 权限 权限是操作系统用来限制对资源访问的机制,权限一般分为读、写、执行。系统中的每个文件都拥有特定的权限、所属用户及所属组,通过这样的机制来限制哪些用户、哪些组可以对特定文件…

Scala应用 —— JDBC的创建

文章目录 Scala应用 —— JDBC的创建前言一、JDBC的创建过程1.初始化连接1.1 配置驱动1.2 创建连接对象 2. 初始化执行器2.1 创建执行器对象2.2 初始化执行器参数 3. 执行操作并返回结果 二、Scala JDBC的基本设计思路1. 操作步骤设计2. 解决结果差异化3.实现jdbc方法并输出结果…

RabbitMQ入门教学(浅入浅出)

进程间通信 互联网的通讯时网络的基础,一般情况下互联网的资源数据对储存在中心服务器上,一般情况下个体对个体的访问仅限于局域网下,在公网即可完成资源的访问,如各种网站资源,下载资源,种子等。网络通讯…

NDK 基础(一)—— C 语言知识汇总

本系列文章主要是介绍一些 NDK 开发所需的基础知识,目录如下: NDK 基础(一)—— C 语言知识汇总 NDK 基础(二)—— C 语言基础与特性1 NDK 基础(三)—— C 语言基础与特性2 NDK 基础…

大数据之数据仓库技术:ETL工具和Kettle简介

大数据之数据仓库技术:ETL工具和Kettle简介 ETL简介ETL工具和KettleKettle家族 Kettle资源KettlePack 任务调度工具 ETL简介 ETL(Extract-Transform-Load): 在大数据技术领域内,用来描述将数据从 来源端 经过 抽取(extract), 转换(transform), 加载(loa…

[1678]旅游景点信息Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 JSP 旅游景点信息管理系统是一套完善的java web信息管理系统,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开发,数据库为Mysql…

【介绍下Apache的安装与目录结构】

🎥博主:程序员不想YY啊 💫CSDN优质创作者,CSDN实力新星,CSDN博客专家 🤗点赞🎈收藏⭐再看💫养成习惯 ✨希望本文对您有所裨益,如有不足之处,欢迎在评论区提出…

Spark RDD的分区与依赖关系

Spark RDD的分区与依赖关系 RDD分区 RDD,Resiliennt Distributed Datasets,弹性式分布式数据集,是由若干个分区构成的,那么这每一个分区中的数据又是如何产生的呢?这就是RDD分区策略所要解决的问题,下面我…

Luminar开始为沃尔沃生产下一代激光雷达传感器

在自动驾驶技术的浪潮中,激光雷达(LiDAR)传感器以其高精度和强大的环境感知能力,逐渐成为了该领域的技术之星。Luminar(路安达)公司作为自动驾驶技术的领军企业,近日宣布已开始为沃尔沃汽车生产…

智能家居|基于SprinBoot+vue的智能家居系统(源码+数据库+文档)

智能家居目录 基于SprinBootvue的智能家居系统 一、前言 二、系统设计 三、系统功能设计 1管理员:个人中心管理功能的详细实现 2管理员:用户信息管理功能的详细实现 3管理员:家具管理功能的详细实现 4管理员:任务管理功能…

Golang | Leetcode Golang题解之第63题不同路径II

题目&#xff1a; 题解&#xff1a; func uniquePathsWithObstacles(obstacleGrid [][]int) int {n, m : len(obstacleGrid), len(obstacleGrid[0])f : make([]int, m)if obstacleGrid[0][0] 0 {f[0] 1}for i : 0; i < n; i {for j : 0; j < m; j {if obstacleGrid[i]…

leetCode65. 有效数字

leetCode65. 有效数字 题目思路 代码 class Solution { public:bool isNumber(string s) {int l 0, r s.size() - 1;// 1.忽略前后的空格while(l < r && s[l] ) l;while(l < r && s[r] ) r--;if(l > r) return false;s s.substr(l,r - l 1)…

Docker——生产案例(如何修改Docker部署服务的端口映射)

目录 前言 1. 测试环境中新建Apache服务 2.停止容器和Docker服务 3.修改容器配置 4.重启Docker服务并访问测试 前言 由于接替原工作人员的工作之后&#xff0c;上级需要修改Docker部署Apache服务的端口映射&#xff0c;将89端口修改为99端口&#xff0c;那我们该如何修改呢…

GitHub Copilot 简单使用

因为公司安全原因&#xff0c;并不允许在工作中使用GitHub Copilot&#xff0c;所以&#xff0c;一直没怎么使用。最近因为有一些其它任务&#xff0c;所以&#xff0c;试用了一下&#xff0c;感觉还是很不错的。&#xff08;主要是C和Python编程&#xff09; 一&#xff1a;常…