R语言对偏态换数据进行转换(对数、平方根、立方根)

news2025/3/31 8:15:53

我们进行研究的时候经常会遇见偏态数据,数据转换是统计分析和数据预处理中的一项基本技术。使用 R 时,了解如何正确转换数据有助于满足统计假设、标准化分布并提高分析的准确性。在 R 中实现和可视化最常见的数据转换:对数、平方根和立方根转换。

在这里插入图片描述
为什么要转换数据?

了解数据分布
当您的数据集不满足统计分析所需的假设时(例如绘制限制立方样条或者曲线拟合不理想的时候),数据转换就变得必要。常见方案包括:

高度偏斜的分布
非线性关系
异方差性(不等方差)
非正态分布

下面咱们正式开始:
先生成两个偏态数据

# 种子
set.seed(123)

# 生成两个偏态数据
right_skewed_data <- rchisq(1000, df=3)  # 右倾数据

在这里插入图片描述

count_data <- rpois(1000, lambda=5)  # 计数数据
hist(count_data,
     main="Original Count Data",
     xlab="Value",
     col="lightblue",
     breaks=30)

在这里插入图片描述
咱们可以看到上面两个数据都是偏态数据,下面进行数据转换

数据转换的类型
1. 对数变换

# 创建一个包含2行和2列的绘图窗口
par(mfrow=c(2,2))

# #原始数据
hist(right_skewed_data, 
     main="Original Right-Skewed Data",
     xlab="Value",
     col="lightblue",
     breaks=30)

# 自然日志转换(加1处理零)
log_data <- log1p(right_skewed_data)
hist(log_data,
     main="Natural Log Transformed",
     xlab="log(x+1)",
     col="lightgreen",
     breaks=30)

# Log10 转换
log10_data <- log10(right_skewed_data + 1)
hist(log10_data,
     main="Log10 Transformed",
     xlab="log10(x+1)",
     col="lightpink",
     breaks=30)

# QQ日志转换数据图
qqnorm(log_data)
qqline(log_data, col="red")

在这里插入图片描述
左上图是原始数据,咱们可以看到转换后分布明显不一样

2. 平方根变换

平方根变换对于计数数据和适度的右偏度特别有效:

par(mfrow=c(2,2))

# 原始数据
hist(count_data,
     main="Original Count Data",
     xlab="Value",
     col="lightblue",
     breaks=30)

# 平方根转换
sqrt_data <- sqrt(count_data)
hist(sqrt_data,
     main="Square Root Transformed",
     xlab="sqrt(x)",
     col="lightgreen",
     breaks=30)

# 比较分布
boxplot(count_data, sqrt_data,
        names=c("Original", "Square Root"),
        main="Distribution Comparison")

# QQ 图
qqnorm(sqrt_data)
qqline(sqrt_data, col="red")

在这里插入图片描述
左上图是原始数据,咱们可以看到转换后分布明显不一样,而且箱线图看出明显差异。

3. Cube Root 转换(立方根转换)

par(mfrow=c(2,2))

# 具有负值的原始数据
hist(right_skewed_data,
     main="Original Data (with negatives)",
     xlab="Value",
     col="lightblue",
     breaks=30)

# Cube root 转换
cbrt_data <- sign(right_skewed_data) * abs(right_skewed_data) ^ (1/3)
hist(cbrt_data,
     main="Cube Root Transformed",
     xlab="cbrt(x)",
     col="lightgreen",
     breaks=30)

# 显示密度分布
plot(density(right_skewed_data),
     main="Density Plot Comparison",
     xlab="Value")
lines(density(cbrt_data), col="red")
legend("topright", 
       legend=c("Original", "Cube Root"),
       col=c("black", "red"),
       lty=1)

# QQ 图
qqnorm(cbrt_data)
qqline(cbrt_data, col="red")

在这里插入图片描述
最后总结一下,上面三种方法侧重点不同,但是经过转换都能把偏态数据很好的转成正态分布

参考文献:https://www.r-bloggers.com/2024/12/how-to-transform-data-in-r-log-square-root-cube-root/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2323873.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【云服务器】在 Linux(Ubuntu / CentOS 7)上快速搭建我的世界 Minecraft 服务器,并实现远程联机,详细教程

【云服务器】在 Linux&#xff08;Ubuntu / CentOS 7&#xff09;上快速搭建我的世界 Minecraft 服务器&#xff0c;并实现远程联机&#xff0c;详细教程 一、 服务器介绍二、下载 Minecraft 服务端二、安装 JRE 21三、安装 MCS manager 面板四、搭建服务器五、本地测试连接六、…

docker torcherve打包mar包并部署模型

使用Docker打包深度网络模型mar包到服务端 参考链接&#xff1a;Docker torchserve 部署模型流程——以WSL部署YOLO-FaceV2为例_class myhandler(basehandler): def initialize(self,-CSDN博客 1、docker拉取环境镜像命令 docker images出现此提示为没有权限取执行命令&…

【安当产品应用案例100集】042-基于安当KADP实现机密文件安全流转

一、客户需求 某集团公司客户&#xff0c;在系统业务流中&#xff0c;存在大量的内部文件流转的需求。内部业务文件有不同的安全密级&#xff0c;最初在文件流转时&#xff0c;公司内部规定点对点的文件传输&#xff0c;要使用加密工具加密后再发给需要的一方。这种方式虽然能…

附录C SLAC匹配过程命令定义与实际抓包

附录C SLAC匹配过程命令定义与实际抓包 ISO15118-3 附录A中规定了SLAC匹配过程中的请求命令及应答&#xff0c; 本文将会对比协议中的定义和实际抓包内容&#xff0c;以便读者获得直观的认识。 1 CM_SET_KEY.REQ 定义内容&#xff1a; 实际数据&#xff1a; 注意报文中的 08…

【QT】新建QT工程(详细步骤)

新建QT工程 1.方法(1)点击new project按钮&#xff0c;弹出对话框&#xff0c;新建即可&#xff0c;步骤如下&#xff1a;(2) 点击文件菜单&#xff0c;选择新建文件或者工程&#xff0c;后续步骤如上 2.QT工程文件介绍(1).pro文件 --》QT工程配置文件(2)main.cpp --》QT工程主…

安装Webpack并创建vue项目

1、新建一个工程目录 在E盘中进行新建项目 2、从命令行进入该目录,并执行NPM 的初始化命令 3、会看到目录中生成了一个“package.json”文件,它相当于NPM项目的说明书&#xff0c;里面记录了项目名称、版本、仓库地址等信息。 4、执行安装 Webpack 的命令 npm install webpac…

如何快速解决django存储session变量时出现的django.db.utils.DatabaseError错误

我们在学习django进行web编程的时候&#xff0c;有时需要将一些全局变量信息存储在session中&#xff0c;但使用过程中&#xff0c;却发现会引起数据库的报错。通过查看django源码信息&#xff0c;发现其对session信息进行了ORM映射&#xff0c;如果数据库中不存在对应的表信息…

04 单目标定实战示例

看文本文,您将获得以下技能: 1:使用opencv进行相机单目标定实战 2:标定结果参数含义和数值分析 3:Python绘制各标定板姿态,查看图像采集多样性 4:如果相机画幅旋转90,标定输入参数该如何设置? 5:图像尺寸缩放,标定结果输出有何影响? 6:单目标定结果应用类别…

极速全场景 MPP数据库starrocks介绍

目录 一、引子 二、起源 &#xff08;一&#xff09;前身 &#xff08;二&#xff09;定位 三、特点 &#xff08;一&#xff09;高性能架构 &#xff08;二&#xff09;实时分析 &#xff08;三&#xff09;高并发与扩展性 &#xff08;四&#xff09;兼容性与生态 …

RS232转Profinet网关技术,检漏仪新篇章!

RS232转Profinet网关技术&#xff0c;检漏仪新篇章&#xff01; 在现代医疗监控系统中&#xff0c;RS232转PROFINET网关扮演着至关重要的角色。这种转换设备能够将传统的RS232串行通讯接口无缝转换为PROFINET以太网通信接口&#xff0c;确保老旧设备与现代自动化系统之间的顺畅…

Linux操作系统7- 线程同步与互斥7(RingQueue环形队列生产者消费者模型改进)

上篇文章&#xff1a;Linux操作系统7- 线程同步与互斥6&#xff08;POSIX信号量与环形队列生产者消费者模型&#xff09;-CSDN博客 本篇代码仓库&#xff1a;myLerningCode/l36 橘子真甜/Linux操作系统与网络编程学习 - 码云 - 开源中国 (gitee.com) 目录 一. 单生产单消费单保…

将 Markdown 表格结构转换为Excel 文件

在数据管理和文档编写过程中&#xff0c;我们经常使用 Markdown 来记录表格数据。然而&#xff0c;Markdown 格式的表格在实际应用中不如 Excel 方便&#xff0c;特别是需要进一步处理数据时。因此&#xff0c;我们开发了一个使用 wxPython 的 GUI 工具&#xff0c;将 Markdown…

微信小程序逆向开发

一.wxapkg文件 如何查看微信小程序包文件&#xff1a; 回退一级 点击进入这个目录 这个就是我们小程序对应的文件 .wxapkg概述 .wxapkg是微信小程序的包文件格式&#xff0c;且其具有独特的结构和加密方式。它不仅包含了小程序的源代码&#xff0c;还包括了图像和其他资源文…

Spring Data审计利器:@LastModifiedDate详解!!!

&#x1f552; Spring Data审计利器&#xff1a;LastModifiedDate详解&#x1f525; &#x1f31f; 简介 在数据驱动的应用中&#xff0c;记录数据的最后修改时间是常见需求。Spring Data的LastModifiedDate注解让这一过程自动化成为可能&#xff01;本篇带你掌握它的核心用法…

wms窗口/多窗口/自由窗口systemui侧边栏手势退出实战-学员作业

背景&#xff1a; 再学习了马哥的分屏自由窗口专题课程时候&#xff0c;有一个需求就是实现自由窗口置顶的功能&#xff0c;这个需求实现后&#xff0c;自由窗口就会一直处于顶端&#xff0c;不会因为打开其他Activity导致自由窗口退出。 不会因为打开了其他Activity而导致短…

服装零售行业数据分析方案

在数据洪流的时代&#xff0c;大数据分析已成为服装产业的强大引擎&#xff0c;助力企业飞速提升运营效率&#xff0c;削减成本&#xff0c;并优化资源配置。在服饰行业的生产运营链中&#xff0c;商业智能&#xff08;BI&#xff09;工具扮演着至关重要的角色&#xff0c;它们…

基于大模型的pc版语音对话问答

Vosk基础知识&#xff1a; Vosk 是一个强大的开源语音识别工具包&#xff0c;以下是对它的详细介绍&#xff1a; 特点 离线识别&#xff1a;Vosk 的显著特点是支持离线语音识别。这意味着在没有网络连接的情况下&#xff0c;也能进行语音识别操作&#xff0c;避免了因网络问…

深入理解 Linux 内核中的 GPU 子系统:从 DRM 到 NXP 驱动架构全解读

本文不仅为 GPU 子系统的深入复习笔记&#xff0c;更是一本面向 Linux 内核开发者、嵌入式图形系统开发人员的实践指南。本文围绕 drivers/gpu 展开&#xff0c;特别聚焦 NXP i.MX 系列平台的 GPU 架构和 Linux-imx 的实现方式&#xff0c;内容超 5000 字&#xff0c;适合收藏学…

Allegro界面颜色改变设置

概述&#xff1a;本文主要讲解如何改变allegro的背景颜色&#xff0c;改为自己喜欢的颜色 1、 打开Allegro文件 2、 Setup—User Preference—UI—General—Allegro_theme选择Light即可 改变前 改变后

ThreadLocal与Cookie + Session?

这篇文章主要在做 Echo 社区项目的时候写的&#xff0c;在保持用户登录态的这个需求下&#xff0c;为啥要用 ThreadLocal 存储用户信息&#xff0c;而不是采用常见的 Cookie Session。 Cookie Session 由于 HTTP 协议是无状态的&#xff0c;完成操作关闭浏览器后&#xff0c;…