R 作为一个开源项目,在很多操作系统上都可以免费获得,包括 Windows、macOS 和 Linux。不管你用 R 做数据收集、汇总、转换,还是探索、建模、可视化或展示方面的工作,它都可以满足你。
目前 R 已经成为统计、预测分析和数据可视化的全球通用语言。它提供各种用于分析和理解数据的方法,从最基础的到最复杂、最前沿的,无所不包。
R 最为人所知的是能够创建漂亮优雅的图形,但实际上它也可以处理各种统计问题。R 的基本安装版本就提供了数以百计的数据管理、统计和图形函数等功能。不过,R 很多强大的功能都来自社区成员所开发的数以千计的扩展功能(包)。
这种扩展的广度也是有代价的。对于新手来说,经常遇到的两个基本难题就是,R 到底是什么?R 究竟能做什么?甚至是经验丰富的 R 用户也常常惊讶地发现一些他们之前闻所未闻的新功能。
一本有助于新手学习的 R 指南就显得尤其必要。熟悉 R 语言的人对这本领域内的经典著作《R语言实战》一定不陌生。这本书为 R 语言初学者铺就了平缓的学习之路,帮助了很多 R 语言学习者入门。
这本书中文版第 1 版于 2012 年出版,距今已有 11 年,第 2 版于 2016 年出版,豆瓣评分 9.2,全系列累计销量已经突破 30 万册,是一本口碑与品质兼具的佳作。
这几年 R 发生了一些变革,大数据的增长、tidyverse 软件的广泛应用、新的预测性分析和机器学习方法的快速发展,以及更多崭新且强大的数据可视化技术的进步促使 R 也发生了变革。
而本书的原作者也一直关注着这些变化,他针对读者反馈的新需求,对书中的内容进行了全新升级,力求能够跟上 R 的新变化。这本作为经典 R 书的延续,在 2023 年终于迎来了全新的第 3 版,书中内容不仅保留了前两版易于学习的章节设置,还增加了很多符合当下的新内容。
全书共 22 章,分为“入门”“基本方法”“中级方法”“高级方法”“技能扩展"等 5 个部分,更多的相关内容将呈现在 7 个附录中。
本书阅读路径
对于有数据处理需求的读者来说,这本书不需要你有任何统计编程或者 R 知识背景,就算是 R 新手也能够读懂。对于有经验的 R 老手,书中也有足够多的实用内容。
作者尽可能地让每一章都能同时满足数据分析新手和数据分析专家的需求,让所有人都能发现有趣和实用的内容,并从中获益。
读者可以根据自身所处阶段和需求来阅读。
第 3 版更新了哪些内容?
第 3 版有许多变化,尤其是新增了 tidyverse 系列包在数据管理和数据分析方面的各种功能。以下将列出一些重要变化:
第 2 章(创建数据集)将介绍用于导入数据的 readr、readxl 和 haven 包。另外,新增的一节将专门介绍 tibble 数据结构。tibble 是对传统数据框的一种全新改进。
第 3 章(基本数据管理)和第 5 章(高级数据管理)将介绍用于数据管理、转换和汇总的 dplyr 和 tidyr 包。
第 4 章(图形初阶)、第 6 章(基本图形)、第 11 章(中级绘图)和第 19 章(高级绘图)是新增内容,将详细介绍 ggplot2 及其扩展包。
第 16 章(聚类分析)将提供改进后的图形绘制方法。其中新增的一节将专门介绍如何计算数据聚类。
第 17 章(分类)新增了一节,将介绍 Shapley 值图和细分图的用法,以便读者更好地理解黑箱模型。
第 18 章(处理缺失数据的高级方法)新增了几节,将介绍用于缺失值插补的 k 近邻方法和随机森林方法。
第 20 章(高级编程)新增的几节将介绍非标准计算和可视化调试。
第 21 章(创建动态报告)新增了 R Markdown 的内容,以及有关参数化报告和常见编码错误的内容。
第 22 章(创建包)被全面重写,以便涵盖使用新工具来简化包的创建步骤的内容。另外,这一章还新增了如何通过 CRAN、GitHub 和软件生成网站来分发和改进包的内容。
根据图形用户界面的最新变化,作者对附录 A(图形用户界面)进行了更新。
还对附录 B(自定义启动环境)进行了修订,增加了新的自定义启动环境的方法,以及对可重复性研究的潜在副作用的更多提醒。
针对附录 F(处理大型数据集)还新增了一些包,用于处理超过内存大小的数据集,新增了用于解决 TB 级数据问题的分析方法,以及将 R 和云服务进行整合的新包。
第 3 版更是新增了使用 RStudio 进行编程、调试、编写报告和创建包的内容。还第 3 版还对文字进行了大量的更新和修正。
作译者简介
作者 Robert I. Kabacoff. 数据科学家、统计编程专家、R 语言社区专家及 Quick-R 网站运营者。拥有 30 多年的教学、科研和实践经验,曾在全球多家公司和科研机构任首席数据科学家。目前任教于美国著名文理学院—维思大学(Wesleyan University)。
译者王韬,毕业于中国农业大学生物物理学专业(应用统计分析方向),曾在互联网垂直电商领军企业长期担任高级大数据工程师,目前就职于某银行金融风险分析部,擅长使用 R 语言及 Python 语言实现数据建模。
大咖推荐
第 3 版新增了 R 语言的最新数据分析包的用法,是提升数据分析能力的实战用书,可引导读者在编写 R 代码的同时熟练掌握数据分析方法。
——王小宁,中国传媒大学数据科学与智能媒体学院副教授、统计之都秘书长
作者在本已精良的前版基础上,又补充与更新了大量内容,实现了自我超越。
——Alain Lompo,IsO-Gruppe公司
多年来,《R语言实战》一直是我不离手的参考书。第 3 版对 tidyverse 系列包和其他工具包的增补实在及时。我当然会毫不犹豫地推荐此书。
——Daniel Kenney-Jung,美国杜克大学儿科医学部医学博士
在我读过的多本 R 语言教程中,这本书实在是出类拔萃。
——Kelvin Meeks,International Technology Ventures公司
本书循序渐进地带领读者掌握一个又一个实用的技能,这正是你需要的 R 语言参考书。
——Martin Perry,微软公司