R 是数据科学领域的一门大热的编程语言,可以说它是专门为统计分析而生的。
相比起其他语言,R 简单易学,代码可读性强,并且不需要搭建复杂的编程环境,对初学者非常友好。
今天就和大家分享两本学习R的宝藏图书,不仅能够帮你学习统计知识,还能提升代码编写能力,助你从入门到精通!
《R速成:统计分析和科研数据分析快速上手》是挪威一位心理学教授和神经科学教授联手写成,第一次在国内推出中文版,由庄亮亮和赵子茜翻译,电子工业出版社于2023年4月出版。
全书共 15 章:
第 1 章详细介绍了 R 和 RStudio 的安装方法;
第 2 章至第 3 章介绍了导入数据的方法,以及 R 的基本工作原理;
第 4 章介绍了 R 中重要的数据 管理方法;
第 5 章讲解数据可视化的知识;
第 6 章至第 15 章介绍了统计知识点,如描述性统计、 简单线性回归、多元线性回归、虚拟变量回归等。
生信媛主理人徐洲更对这本书有清晰的介绍,摘录如下:
这是一本比《R语言实战》更懂入门的书,前半部分介绍了R语言的一些基础,后半部分开始介绍R语言统计学上的应用!
接下来,我将从一下几个层面来讲讲我的阅读感受:
使用RStudio替代了基础的R图形界面。
只介绍初学者比较常用的数据导入方法,即文本文件(csv,txt)、Excel表格和SPSS格式。
特别好评的是,键盘输入的方法基本一笔带过了,我觉得与其用fix函数,不如打开一个Excel表格。
在数据管理上采用更为好用的dplyr和tidyr里的方法。
毕竟split,apply的思路对于初学者而言,有点艰难了。
画图采取了更加友好的ggplot2,以比较简明的方式实现了更加美观的图。
除此之外,《R数据科学》的理念集中于tibble这一数据结构,可能对初学者来说有些激进。
相比之下,《R速成》采用了更为基础的向量和矩阵等数据结构,并且较为全面地介绍了常见的统计方法,使得初学者可更轻松地入门和理解R语言的数据科学应用,也方便他们阅读他人的代码。
还有一个亮点是开头介绍了比较常见的R语言报错,比如说cannot open the connection error这个特别常见的报错。
因为刚开始学习的时候,敲代码不熟悉就是容易敲错字符,然后发现文件打不开,亦或者就是工作目录没有配置好,要打开的文件不在当前目录下,这些问题提前了解下,就可以少走很多坑。
但这里要注意的事,书里的报错信息都是英文,而我们默认安装的R会安装一个翻译文件,使得报错信息是中文,需要用Sys.setenv(LANGUAGE = “en_US”)转换输出信息。
迈赫迈特·迈赫梅托格鲁(Mehmet Mehmetoglu)是挪威科技大学心理学系的研究方法教授。他的研究方向包括消费者心理学,进化心理学和统计方法。他在大约 35 种不同的国际期刊上发表过相关论文,其中包括 Personality and Individual Differences、 Evolutionary Psychology 和 Journal of Statistical Software。
马蒂亚斯·米特纳(Matthias Mittner)是挪威北极大学认知神经科学教授和认知 神经科学研究小组组长。他的研究方向包括神经科学、认知心理学和统计方法。他是几个神经科学领域 R 包和 Python 软件包的作者。
这本书是南方医科大余光创教授写的关于ggtree数据整合和可视化的书,全书90%以上是代码和图,贴近实战,展示了很多数据可视化探索的方式。
《R实战:系统发育树的数据集成操作及可视化》系统地介绍使用treeio、tidytree、ggtree 和ggtreeExtra 等R软件包操作系统发育树的全套流程,包括对树文件的解析,以及树与其相关数据的操作、整合、可视化等内容。
关于ggtree也无须太多介绍,如果用R画进化树,应该都会有一些了解。具体见南医大余光创组ggtree最新文章(在iMeta上发表)。
这本书在京东预售期间便荣登畅销榜第一,且售空了货源。
南方医科大学基础医学院生物信息学系主任、教授、博导。
一直专注于生物信息学方法工具开发及应用,在系统发育、组学数据分析和数据可视化上开发了多款广受同行认可的生物信息学工具。
在Molecular Biology and Evolution, Methods in Ecology and Evolution, Briefings in Bioinformatics, Bioinformatics, The Innovation, iMeta等国际学术期刊上发表论文40余篇,其中有7篇ESI高被引论文,他引频数超过2万次,连续两年入选爱思唯尔中国高被引学者,连续两年入选全球前2%顶尖科学家榜单终身科学影响力和年度科学影响力排行榜。