【图书推荐】《R语言医学数据分析实践》

news2024/11/25 4:22:40

本书重点

梅俏、卢龙、丁健、张晟、黄龙、胡志坚、张琼瑶、林志刚等业内专家联袂推荐。

以公共医学数据为例,精选大量的实用案例,深入浅出地介绍统计建模分析方法。

帮助读者解决医学数据分析中遇到的实际问题。

通过实际操作引导读者入门科研论文数据分析。

内容简介

公共医学数据库的应用越来越广泛,利用这些数据库进行论文写作可以显著减少研究成本和时间。《R语言医学数据分析实践》以公共医学数据为例,讲解如何使用R语言进行数据挖掘和统计分析。《R语言医学数据分析实践》通过大量精选的实例,对统计分析方法进行了深入浅出的介绍,旨在帮助读者解决医学数据分析中遇到的实际问题。《R语言医学数据分析实践》配套提供示例源码、PPT课件、作者微信群答疑服务。

《R语言医学数据分析实践》共分为12章,内容包括R语言介绍、R语言基本语法、R语言数据清洗、R语言数据可视化、R语言统计建模分析方法、R语言机器学习实战入门、列线图在预测模型中的应用、临床数据挖掘中的生存分析、NHANES 数据库挖掘实战、GEO数据库挖掘实战、孟德尔随机化分析实战、单细胞测序实战。

适合读者

《R语言医学数据分析实践》适用于临床医学、公共卫生及其他医学相关专业的本科生和研究生使用,也可作为其他专业的学生和科研工作者学习数据分析的参考书。阅读本书,读者不仅能够掌握使用R语言及相关包快速解决实际问题的方法,还能更深入地理解公共医学数据库挖掘的实战精髓。

作者简介

李丹,福建医科大学附属协和医院消化内科主任医师,教授,博士生导师,福建省高层次人才,福建省青年五四奖章、福建省青年科技奖获得者。中华医学会消化病分会青年委员。以通讯作者或第一作者身份发表SCI论文16篇。
宋立桓,曾服务于微软中国有限公司,国内互联网头部企业解决方案资深架构师,专注于人工智能和大数据挖掘分析,拥有多项人工智能发明专利。著有《Python深度学习从零开始学》《云原生构建数字世界》《MySQL性能优化和高可用架构实践》《PyTorch深度学习与企业级项目实战》等科技著作。
蔡伟祺,福建医科大学协和临床医学院2022级专业学位硕士研究生,精通R语言和公共医学数据库挖掘。

前言

传统临床研究设计方法论产生的前提,是当时无法处理的海量临床数据,以及无法考察全集而必须抽样。无论是随机对照试验还是队列研究,其核心技术本质上都是围绕恰当的抽样设计而展开的。然而,由于疾病本身的复杂性和患者个体之间不可避免的差异性,随机对照试验和队列研究所揭示的真相是有限的。虽然扩大样本量可以减少异质性,但样本量的增加带来的异质性减少呈边际递减趋势,而成本却呈数量级上升。

随着计算机科学的进步,我们对临床数据的记录和处理能力已经远非20世纪80年代的研究者所能想象。但是,在利用计算机工具对这些海量数据进行清洗、建模和计算时,旧有的、适用于传统临床设计的统计工具已经无法胜任。这需要更为强大的计算机语言来实现。这种语言不仅能够用于假设和猜想的验证,还能在没有假设和猜想时,通过对数据进行模式识别来提取海量临床数据中的重要信息。这种模式识别分析方法对分析工具的灵活性要求很高,传统的固定分析软件难以实现。

R语言比现有商业化软件更适用于临床数据挖掘的新分析模式。在未来医学统计的工具中,R语言必将占有一席之地。特别是在公共医学数据库的应用日益广泛的背景下,基于这些数据库来撰写论文,不需要自己进行实验或采集数据,从而可以减少研究成本和时间。通过挖掘现有的临床大数据来发现新思路,也是一种有效的研究手段。目前,许多国际权威的公共医学数据库平台都鼓励医学科研人员使用R语言进行数据挖掘和科学研究。这些数据库中的数据来源可靠,样本量大,而且不用担心原始数据追溯和伦理等问题。

关于本书

培养精通数据挖掘、人工智能等新一代信息技术的未来医生,是时代赋予医科院校的重要使命。推进医学与IT信息技术的融合教育是培养未来医生的核心内容。

本书以让非统计专业读者易于理解为原则,强调实战和应用,着重介绍数据分析的思路和方法,以及数据分析的实质、特点、应用条件和结果,尽量减少统计方法的推导和计算。

本书力求以通俗易懂的方式,详细介绍R语言的基础理论和公共医学数据库挖掘,同时通过实际操作引导读者入门科研论文数据分析实战。

配套资源下载

本书的配套资源包括示例源码、PPT课件、作者微信群答疑服务,读者可以通过微信扫描下面的二维码获取来获取。

本书读者

本书适合临床医学、公共卫生及其他医学相关专业的本科生或研究生使用,也可作为其他专业的学生和科研工作者进行数据挖掘和统计分析的参考书。希望本书能够帮助读者更深入地理解数据分析,并将其进一步应用于临床和科研领域。

致  谢

感谢我的父母、先生和女儿,你们一直在默默地支持我!

感谢我的福州三中校友宋立桓同学,他深厚的IT专业知识与医学视野的融合,为本书的撰写提供了宝贵的跨界合作!

感谢清华大学出版社的夏毓彦编辑为本书的出版提供的帮助!

万事开头难,只有打开一扇窗户,才能发现一个全新的世界。希望这本书能帮助读者打开学习R语言的大门,让更多的人感受并享受到大数据时代带来的便利!

 李  丹

福建医科大学附属协和医院消化内科主任医师、教授、博士生导师

2024年8月

目录

目    录
第1章  R语言介绍 1
1.1  R语言概述 1
1.1.1  什么是R语言 1
1.1.2  临床医生使用R语言的优势 1
1.2  R编程环境的搭建 2
1.2.1  R语言的下载和安装 3
1.2.2  RStudio的下载和安装 5
1.2.3  RStudio操作 6
1.3  R语言包 8
1.3.1  什么是R包 8
1.3.2  R包的安装 8
1.4  初识R语言的注意事项 9
第2章  R语言的基本语法 11
2.1  R语言的数据结构 11
2.1.1  向量 11
2.1.2  矩阵 13
2.1.3  数组 15
2.1.4  数据框 16
2.2  R语言函数简介 17
2.2.1  函数的定义 17
2.2.2  常用内置函数的使用 18
2.3  R语言中的数据读写 19
2.3.1  读取文件 19
2.3.2  写入文件 20
2.3.3  读写其他数据文件 21
2.4  R语言流程控制 21
2.4.1  判断语句 21
2.4.2  循环语句 23
2.5  字符串操作 24
2.6  R语言数据保存 26
第3章  R语言数据清洗 27
3.1  数据清洗的重要性 27
3.2  数据质量评估 28
3.3  数据清洗 30
3.3.1  缺失值检查及处理 30
3.3.2  异常值检查及处理 32
3.3.3  重复值检查及处理 34
3.4  数据清洗dplyr包的使用 34
3.5  数据清洗实战 37
第4章  R语言数据可视化 42
4.1  基础绘图 42
4.2  ggplot2绘图 45
4.2.1  ggplot2语法入门及相关软件包 46
4.2.2  ggplot2绘制简单的统计图形 46
4.2.3  ggplot2绘制复杂图形(统计图的组合、分面展示) 54
4.3  高质量SCI论文绘图 58
4.3.1  聚类分析和相关分析的热图详解 58
4.3.2  ROC曲线的绘制 63
4.3.3  火山图的绘制 67
第5章  R语言统计建模分析 71
5.1  经典统计分析 71
5.1.1  t检验 71
5.1.2  方差分析 73
5.1.3  卡方检验 74
5.1.4  简单线性回归分析 75
5.2  高级回归分析 77
5.2.1  多重线性回归分析 77
5.2.2  Logistic回归分析 78
5.2.3  回归分析实战 80
5.3  SCI文章两表一图实战 84
5.3.1  SCI文章—基线资料表 84
5.3.2  SCI文章—单因素回归分析表或多因素回归分析表 88
5.3.3  SCI文章—亚组分析的森林图 89
5.3.4  限制性立方样条图 92
第6章  R语言机器学习实战入门 95
6.1  什么是机器学习 95
6.2  机器学习的流程 96
6.2.1  数据收集 96
6.2.2  数据预处理 97
6.2.3  特征工程 97
6.2.4  模型构建和训练 98
6.3  机器学习分类 98
6.3.1  监督学习 98
6.3.2  无监督学习 99
6.3.3  强化学习 100
6.4  过拟合和欠拟合 101
6.4.1  过拟合 101
6.4.2  欠拟合 101
6.5  衡量机器学习模型的指标 102
6.5.1  正确率、精确率和召回率 102
6.5.2  几个常见的比率 104
6.5.3  混淆矩阵 104
6.5.4  F1 score和ROC曲线 105
6.6  K折交叉验证 108
6.7  支持向量机概述 108
6.8  随机森林概述 110
6.9  糖尿病风险预测实战 110
6.9.1  数据集背景 110
6.9.2  数据预处理 112
6.9.3  模型建立 113
6.9.4  模型评估 113
6.10  ICU患者死亡率预测实战 115
6.10.1  数据集背景 115
6.10.2  数据预处理 115
6.10.3  模型建立 118
6.10.4  模型评估 120
第7章  列线图在预测模型中的应用 122
7.1  列线图基本原理 122
7.2  列线图的三大要素 123
7.3  列线图解读 123
7.4  列线图的实战 124
7.4.1  列线图R实例一 124
7.4.2  列线图R实例二 126
7.5  列线图在数据挖掘中的应用 128
第8章  临床数据挖掘中的生存分析 133
8.1  基本概念和原理 133
8.1.1  什么是生存数据 133
8.1.2  生存分析的含义 134
8.1.3  为什么要用生存分析 134
8.1.4  生存分析的删失 135
8.1.5  生存分析的常用方法 135
8.2  Kaplan-Meier法生存分析实战 137
8.2.1  Kaplan-Meier法介绍 137
8.2.2  Kaplan-Meier生存曲线R语言实战 137
8.3  Cox生存分析实战 142
8.3.1  Cox回归模型介绍 142
8.3.2  Cox回归模型实战 143
8.4  竞争风险模型 144
8.4.1  临床研究中如何处理竞争事件 145
8.4.2  竞争风险模型R语言实战 145
第9章  NHANES数据库挖掘实战 149
9.1  NHANES数据库介绍 149
9.2  NHANES数据库的下载与合并 152
9.3  NHANES权重介绍及使用 155
9.3.1  什么是权重 156
9.3.2  NHANES权重分析的必要性 156
9.3.3  NHANES权重如何选择 158
9.3.4  NHANES权重实战 160
9.4  NHANES数据分析实战 162
9.5  NHANES数据库发文选题介绍 173
第10章  GEO数据库挖掘实战 175
10.1  GEO数据库介绍 175
10.1.1  GEO数据库概况 175
10.1.2  GEO数据库组织结构 176
10.2  GEO数据库检索 176
10.3  芯片基础知识 179
10.4  GEO数据库分析实战 179
10.4.1  找GSE编号 180
10.4.2  安装生物信息分析所需的R包 181
10.4.3  下载表达矩阵 182
10.4.4  获取分组信息 184
10.4.5  获取表达矩阵并检查数据 185
10.4.6  转换探针ID 186
10.4.7  差异分析 189
10.4.8  分析结果可视化—火山图、热图 192
10.5  GEO多数据集差异分析 195
第11章  孟德尔随机化分析实战 200
11.1  什么是孟德尔随机化 200
11.1.1  基因型和表型 200
11.1.2  孟德尔随机化简介 201
11.2  孟德尔随机化研究流程 204
11.2.1  MR研究流程七步法 204
11.2.2  MR分析数据库介绍 207
11.3  孟德尔随机化分析实战 211
11.3.1  TwoSampleMR包双样本MR分析 211
11.3.2  MR分析网站—MR-Base实战 219
11.4  孟德尔随机化研究论文复现实战 225
11.5  孟德尔随机化分析的优势和论文选题 236
第12章  单细胞测序实战 239
12.1  单细胞测序概述 239
12.1.1  为什么要做单细胞测序 239
12.1.2  单细胞测序技术原理 240
12.2  单细胞测序分析流程 241
12.2.1  读取原始数据并建立表达矩阵 241
12.2.2  消除技术误差 242
12.2.3  细胞聚类与可视化 244
12.3  单细胞转录组分析实战 248
12.3.1  安装Seurat包 248
12.3.2  数据导入 249
12.3.3  数据质控 251
12.3.4  寻找高变基因 253
12.3.5  PCA降维 254
12.3.6  细胞聚类 258
12.3.7  寻找差异表达标记基因 260
12.3.8  细胞注释 262
12.4  单细胞测序多样本分析实战 267
12.5  单细胞测序临床应用 278

出版社链接

清华大学出版社-图书详情-《R语言医学数据分析实践》 (tsinghua.edu.cn)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2211636.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

生信分析流程:从数据准备到结果解释的完整指南

介绍 生物信息学(生信)分析是一个复杂的过程,涉及从数据准备到结果解释的多个步骤。随着高通量测序技术的发展和生物数据的迅猛增长,了解和掌握生信分析的标准流程变得尤为重要。这不仅有助于提高分析的准确性,还能优…

HarmonyOS NEXT 应用开发实战(五、页面的生命周期及使用介绍)

HarmonyOS NEXT是华为推出的最新操作系统,arkUI是其提供的用户界面框架。arkUI的页面生命周期管理对于开发者来说非常重要,因为它涉及到页面的创建、显示、隐藏、销毁等各个阶段。以下是arkUI页面生命周期的介绍及使用举例。 页面的生命周期的作用 页面…

7-I2C与AHT20温湿度传感器

I2C与AHT20温湿度传感器 嵌入式领域另一种常见的通信IIC通信,并用其与AHT20传感器进行交互,获取房间的温度与湿度。 I2C有一条用于传递数据的数据线称为SDA(Serial Data),另一条是用于提供同步时钟脉冲的时钟线SCL&am…

看图识微分与导数概念。

可建立如草图所示的局部坐标系。增量Δydy余项是草图中曲线的方程,微分dyydx(是关于dx的一次函数)是草图中切线的方程。草图形象直观地显示曲线Δy不切线dy。

安全可靠测评结果公告(2024年第1号)

大家可以选择对应的数据库,中央处理器,供参考;尤其是 水资源安可系统 智慧农业安可系统 智慧水利安可系统、智慧水务安可系统,企业安可系统 等参考使用

# 在执行 rpm 卸载软件使用 nodeps 参数时,报错 error: package nodeps is not installed 分析

在执行 rpm 卸载软件使用 nodeps 参数时,报错 error: package nodeps is not installed 分析 一、问题描述: 在执行 rpm 卸载软件使用 nodeps 参数时,报错 error: package nodeps is not installed 如下图: 二、报错分析&…

Java项目分层思路

Java项目分层思路 一、前言二、了解常见的术语1. 应用开发中使用的术语2. 建模和架构设计层面术语总结 三、如何划分1. 单个module2. 多个module 一、前言 每个人、每个开发团队的规范习惯都不太一样,没有固定标准,合适的才是最好的。 二、了解常见的术…

Python Django 查询集的延迟加载特性

Django 查询集的延迟加载特性 一、引言 在 Django 的开发过程中,查询集(QuerySet)是我们与数据库进行交互的重要工具。查询集提供了一种高效的方式来检索和操作数据库中的数据,且能够进行懒加载(Lazy Loading&#x…

Gin框架教程02:AsciiJSON

什么是 AsciiJSON? AsciiJSON 是 Gin 框架中的一个方法,用于生成仅包含 ASCII 字符的 JSON。对于非 ASCII 字符(例如汉字、特殊符号),AsciiJSON 会将其转义为 Unicode 表示(如 \uXXXX)&#xff…

使用CSS+SVG实现加载动画

使用CSSSVG实现加载动画 效果展示 CSS知识点 SVG元素使用SVG相关CSS属性运用 整体页面布局 <section><div class"box"><div class"loader"><svg><circle cx"40" cy"40" r"40"></circl…

vue从0开始的项目搭建(含环境配置)

一、环境准备 下载node.js 检查node.js版本 替换npm下载源 1.下载node.js: Node.js — 在任何地方运行 JavaScript (nodejs.org) 2.查看版本: windowsr输入cmd进入输入node -v命令查看版本号是否出现确认是否安装 2.替换npm下载源: npm config set registry https://reg…

深入Semantic Kernel:插件开发与实践应用(进阶篇)

文章目录 一、引言二、开发Semantic Kernel插件三、实战3.1 时间信息插件3.2 小部件工厂插件3.3 初始化Semantic Kernel实例3.4 四个实战示例3.4.1 模型幻觉3.4.2 给模型提供时间信息3.4.3 AI自动调用函数3.4.4 AI自动调用和使用枚举 四、结论 一、引言 在上一篇入门文章《探索…

vue3.x系列之v-model的使用技巧及面试高频问题

在前面的一篇文章中&#xff0c;我们分析了v-model在v2版中的用法。这次我们分析下在v3中的使用技巧。学习之前&#xff0c;请忘记之前的v2语法&#xff0c;现在的更加简洁易用。 组件上面的v-model 在v3.4版之前的写法如下 子组件Child.vue <!-- Child.vue --> <…

MobileViews: A Large-Scale Mobile GUI Dataset论文学习

这一片论文的工作主要集中在探索app上。 “ 设计#1&#xff1a;LLM增强型自动应用爬虫。为了提高应用程序遍历效率&#xff0c;我们引入了MobileViews Crawler&#xff0c;它使用固定的交互规则来处理繁琐的应用程序操作&#xff0c;LLM增强了其处理复杂UI状态的能力。在这个…

[C++ 核心编程]笔记 4.1.2 struct和class的区别

4.1.2 struct和class的区别 在C中 struct和class唯一的区别就在于 默认的访问权限不同 区别: struct 默认权限为公共class 默认权限为私有 #include<iostream> using namespace std;class C1 {int m_A;//默认私有 }; struct C2 {int m_A;//默认共有 };int main() {//s…

Android -- [SelfView] 多动画效果图片播放器

Android – [SelfView] 多动画效果图片播放器 效果&#xff08;录制的有点卡&#xff09; 1. 引用&#xff1a; <com.nepalese.virgolib.widget.image.BaseImageViewandroid:id"id/base_image"android:layout_width"match_parent"android:layout_heigh…

2024让我爱不释手的Mac清理神器CleanMyMac X4.15.8免费版

大家好&#xff0c;今天我要和大家分享一款让我爱不释手的Mac清理神器——CleanMyMac X。作为一个长期使用Mac的用户&#xff0c;我深知电脑在长时间使用后容易出现卡顿、存储空间不足等问题。而自从我遇到了CleanMyMac X&#xff0c;这些问题都迎刃而解啦&#xff01; #### 一…

实现一个进度条对话框

效果如下&#xff1a; 点击按钮后开启1个线程模拟加载什么东西&#xff0c;同时弹出1个进度条对话框&#xff0c;进度条达到最大值后&#xff0c;进度条对话框慢慢变透明然后消失 关键点是我们要在进度条类中添加1个槽函数&#xff0c;在这个槽函数中设置进度条的值 代码如下…

高校学科竞赛平台:SpringBoot实现的高效开发流程

3系统分析 3.1可行性分析 通过对本高校学科竞赛平台实行的目的初步调查和分析&#xff0c;提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。 3.1.1技术可行性 本高校学科竞赛平台采用SSM框架&#xff0c;JAVA作为开发语…

【Java】集合中单列集合详解(一):Collection与List

目录 引言 一、Collection接口 1.1 主要方法 1.1.1 添加元素 1.1.2 删除元素 1.1.3 清空元素 1.1.4 判断元素是否存在 1.1.5 判断是否为空 1.1.6 求取元素个数 1.2 遍历方法 1.2.1 迭代器遍历 1.2.2 增强for遍历 1.2.3 Lambda表达式遍历 1.2.4 应用场景 二、…