1.认识R语言
1.1 选择R语言的依据
- 免费的软件
- 编程方便,语言灵活,图形功能强大
- 优秀的内在帮助系统
- 高质量、广泛的统计分析、数据挖掘平台
- 国际上R语言已然是专业数据分析领域的标准
1.2 R的来源
R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。
S-PLUS是一个商业软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。后来Auckland大学的Robert Gentleman 和 Ross Ihaka 及其他志愿人员开发了一个R系统。R的使用与S-PLUS有很多类似之处,两个软件有一定的兼容性。
1.3 R的优缺点
描述:
- 与起源于贝尔实验室的S语言类似,R也是一种为统计计算和绘图而生的语言和环境,它是一套开源的数据分析解决方案,由一个庞大且活跃的全球性研究型社区维护。但是,世面上也有许多其他流行的统计和制图软件,如Miscrosoft Excel、SAS、IBM SPSS、Stata以及Minitab。为何还要选择R?
- R有着非常多值得推荐的特性。
- 多数商业统计软件价格不菲,而R是免费的!
- R语言由一个庞大且活跃的全球性研究型社区维护。
- R语言具备可扩展能力且拥有丰富的功能选项,帮助开发人员构建自己的工具及方法,从而顺利实现数据分析。
- R可运行与多种平台之上,包括Windows、Unix和Mac OS X。这基本上意味着它可以运行于你所能拥有的任何计算机上。
优点:
- 开源;
- 庞大且活跃的社区维护;
- 可扩展能力强,灵活度高;
- 多平台运行,Windows、Linux和Mac OS X;
- 已然是专业数据分析领域的标准工具。
缺点:
- 解释性语言,速度略慢;
- 所有计算都是在内存中进行的;
- 标准相对不统一
1.4 R环境安装
R 语言的开发环境本身具备了图形开发环境,这与其他很多工程语言是不同的,所以开发环境最好安装在为桌面个人计算机设计的操作系统上(如 Windows, macOS 或 Ubuntu 桌面版 等)。
首先,我们需要下载 R 语言环境的安装包:
Windows
- 官方地址:https://cloud.r-project.org/bin/windows/base/
- USTC 镜像:https://mirrors.ustc.edu.cn/CRAN/bin/windows/base/
- TUNA 镜像:https://mirrors.tuna.tsinghua.edu.cn/CRAN/bin/windows/base/
Linux
- 官方地址:https://cloud.r-project.org/bin/linux/
- USTC 镜像:https://mirrors.ustc.edu.cn/CRAN/bin/linux/
- TUNA 镜像:https://mirrors.tuna.tsinghua.edu.cn/CRAN/bin/linux/
macOS
- 官方地址:https://cloud.r-project.org/bin/macosx/
- USTC 镜像:https://mirrors.ustc.edu.cn/CRAN/bin/macosx/
- TUNA 镜像:https://mirrors.tuna.tsinghua.edu.cn/CRAN/bin/macosx/
以上的版本有可能是过时的,如果你需要最新版本,可以访问:
- 清华大学源: https://mirrors.tuna.tsinghua.edu.cn/CRAN/bin/
- 官网:https://cloud.r-project.org/bin/
window中安装
Windows 安装很简单,下载安装包后,双击下载的安装包,开始安装向导:
**注意:**这里使用的操作系统是 64 位的,但现在仍有少数的计算机使用的是 32 位的操作系统,如果你的操作系统是 32 位的,请在此步骤选择"32-bit 用户安装"选项。(不同的版本有可能不一样)
1.5 R的图形用户界面
在R安装完后的GUI窗口里,有菜单栏、工具栏和R的控制台。
2.R的编译环境
2.1 Rstudio的IDE编辑器
R自身带的编辑器很不好用,因此可以寻找很多的替代方案,比如可以选择Emacs和Vim来替代。这里推荐Rstudio,它是专门用于R语言环境的IDE。
Rstudio可以从其官网http://www.rstudio.com/上免费下载安装。
2.2 获取R的帮助
R提供了大量的帮助功能,学会如何使用这些帮助文档可以在很大程度上助力你的编程工作。通过命令窗口输入代码查看帮助。
函数 | 功能 |
---|---|
help.start() | 打开帮助文档 |
help(“plot”)或者?plot | 查看函数plot的帮助(引号可以省略) |
help.search(“plot”)或者??plot | 以plot为关键词搜索本地帮助文档 |
example(“plot”) | 函数plot的使用示例(引号可以省略) |
RSiteSearch(“plot”) | 以plot为关键词搜索在线文档个邮件列表存档 |
apropos(“plot”,mode=“function”) | 列出名称中含有plot的所有可用函数 |
data() | 列出当前以加载包中所含的所有可用示例数据集 |
vignette() | 列出当前已经安装包中所有可能的vignette文档 |
vignette(“plot”) | 为主题plot显示指定的vignette文档 |
在RStudio中,资源管理窗口的Help子窗口则可以直接通过函数的输入查看相关的帮助文档。
2.3 R的工作空间
- 工作空间(workspace)就是当前R的工作环境,它储存着所有用户定义的对象(向量、矩阵、函数、数据框、列表)。
- 在一个R会话结束时,你可以将当前工作空间保存到一个镜像中,并在下次启动R时自动载入它。
- 当前的工作目录(working directory)是R用来读取文件和保存结果的默认目录。
- 我们可以使用函数**getwd( )来查看当前的工作目录,或使用函数setwd( )**设定当前的工作目录。
- 如果需要读入一个不在当前工作目录下的文件,则需要在调用语句中写明完整的路径。
在RStudio中的环境管理窗口中可以直观看到R的工作空间中储存的对象。
R的部分工作空间管理函数。
函数 | 功能 |
---|---|
getwd**()** | 显示当前的工作目录。 |
setwd(“new_path”) | 修改当前的工作目录为new_path。 |
ls() | 列出当前工作空间中的对象。 |
rm(objectList) | 移除(删除)一个或多个对象。 |
rm(list = ls()) | 移除当前工作空间的所有对象,即清除R工作空间中的内存变量。 |
help(options) | 显示可用选项的说明。 |
options() | 显示或设置当前选项。 |
history(n) | 显示最近使用过的n个命令(默认值为25)。 |
savehistory(“myfile”) | 保存命令历史到文件myfile中(默认值为.Rhistory)。 |
loadhistory(“myfile”) | 载入一个命令历史文件(默认值为.Rhistory)。 |
save.image(“myfile”) | 保存工作空间到文件myfile中(默认值为.RData)。 |
save(objectlist,file=“myfile”) | 保存指定对象到一个文件中。 |
load(“myfile”) | 读取一个工作空间到当前会话中(默认值为.RData)。 |
q() | 退出R,并将会询问是否保存工作空间。 |
3.使用R包
3.1R包概述
- 包是R函数、数据、预编译代码以一种定义完善的格式组成的集合。
- 计算机上存储包的目录称为库(library)。
- 函数.**libPaths()**能够显示库所在的位置。
- 函数**library()**则可以显示库中有哪些包。
- R自带了一系列默认包(包括base、datasets、utils、grDevices、graphics、stats以及methods),它们提供了种类繁多的默认函数和数据集。其他包可通过下载来进行安装。
3.2 包的安装
- 第一次安装一个包,使用命令install.packages(“package_name”,“dir”)即可。
- dir:包安装的路径。默认情况下是安装在…\library 文件夹中的。可以通过本参数来进行修改,来选择安装的文件夹。
- 一个包仅需要安装一次。但和其他软件类似,包经常被其作者更新。使用命令update.packages()可以更新已经安装的包。
- 要查看已安装包的描述,可以使用installed.packages()命令,这将列出安装的包,以及它们的版本号、依赖关系等信息。
3.3 查看包的相关信息
- 查看包帮助:library(help=“package_name”)
- 主要内容包括:例如:包名、作者、版本、更新时间、功能描述、开源协议、存储位置、主要的函数
- 查看当前环境哪些包加载:find.package()
- 加载包:library(package_name) 或者 require(package_name)
- 移除包出内存:detach(package:package_name)
- 把包的数据加载到内存中:attach(iris)
- 列出所有安装的包:library()
3.4 包的使用
- 包的安装是指从某个CRAN镜像站点下载它并将其放入库中的过程,。要在R会话中使用它,还需要使用library()命令载入这个包。
- 载入一个包之后,就可以使用一系列新的函数和数据集了。
3.5 常用R包
常用R包可划分为:
- 空间数据分析类
- 机器学习与统计学习类
- 多元统计类
- 药物动力学数据分析类
- 计量经济类
- 金融分析类
- 并行计算类
- 数据库访问类
机器学习与统计学习类别就包含有实现分类、聚类、关联规则、时间序列分析等功能的R包,通过加载不同的R包就能够实现相应的数据挖掘功能.
功能 | 函数及加载包 |
---|---|
分类与预测 | nnet函数需要加载BP神经网络nnet包; randomForest函数需要加载随机森林randomForest包; svm函数需要加载e1071包; tree函数需要加载CRAT决策树tree包等 |
聚类分析 | hclust函数、kmeans()函数在stats包中 |
关联规则 | apriori函数需要加载arules包 |
omForest函数需要加载随机森林randomForest包; svm函数需要加载e1071包; tree函数需要加载CRAT决策树tree包等 | |
聚类分析 | hclust函数、kmeans()函数在stats包中 |
关联规则 | apriori函数需要加载arules包 |
时间序列 | arima函数需要加载forecast、tseries包 |