课程视频链接:https://www.bilibili.com/video/BV19x411X7C6?p=1
本笔记参照该视频,笔记顺序做了些调整【个人感觉逻辑顺畅】,并删掉一些不重要的内容
系列笔记目录【持续更新】:https://blog.csdn.net/weixin_42214698/category_11393896.html
1.R语言
R语言是S语言的一种实现。R是一个全面的统计研究平台,提供了各式各样的数据分析技术,拥有顶尖的绘图功能。
R中有大量的扩展功能,这些扩展功能称为R的包,目前R已经有5000个以上的扩展包
R的官网:https://www.r-project.org/,可以通过CRAN(R综合档案网络)下载R的扩展包。
2.数据分析的过程
数据采集->数据存储->数据分析->数据挖掘->数据可视化->进行决策
3.Rstudio的基本使用
设置:
改变样式:Tools->Global Options->Appearance。
设定工作目录:
getwd():显示当前工作目录
setwd(dir=“c:/……路径”): 设置工作目录
list.files():查看当前工作目录下的所有文件
.libPaths() 显示包的路径(前面有一点)
基本操作:
- tab键:语句提示,自动补齐。
- esc中断当前操作。
- x<-3 给x变量赋值3,R中也可以使用=赋值,但这样有时候会出问题。5->x这样的向右赋值也不推荐使用。
- x<<-5 表示强制赋值给一个全局变量,而不是局部变量。
- ls.str():查看当前工作空间中定义的变量的详细信息。
- str(x):列出变量x的详细信息。
- rm(x):删除对象(变量)。
- rm(list=ls()):删除所有对象(变量)。
- history():列出历史记录。
- history(25):列出最近的25条历史记录。
- ctrl+L:清空屏幕。
- save.image():保存工作空间,保存在当前工作目录下的.RData中,不过保存的工作空间只会保留数据和绘图函数等,绘制出来的图形不会单独保存。
- q():退出软件。
4.R包的安装
联网在线安装:能够自动解决包与包之间的依赖关系,绝大多数包只需要使用一条命令就可以安装完成。
在命令控制窗口输入: install.packages(“包名”) 或者 install.packages(c(“包名1”,“包名2”,…))
library()
:查看已有包。
update.packages():更新安装的包。
5.R包的使用
library(包名) 或者 require(包名):载入包。(注意没有引号)
help(package=“包名”):列出包的帮助文档。
library(help=“包名”):列出包的基础信息。
ls(“package:包名”):列出R包中所有包含的函数。
data(package=“包名”):列出R包中包含的所有数据集。
detach(“package:包名”):移除加载的包。
remove.packages(“包名”):删除已安装的包。
两台设备之间的R包的批量移动:
installed.packages():显示所有已安装的包。
installed.packages()[,1]:显示所有已安装的包的名字(即访问的是所有已安装包列表的第一列)。
Rpack<-installed.packages()[,1]
save(Rpack,file=“Rpack.Rdata”):在当前工作目录下会保存一个“Rpack.Rdata”文件。
在另一台设备上可以使用load函数打开这个文件。存到另外一个变量Rpack中。
for(i in Rpack) install.packeges(i) 可以一一安装包,已存在的包会跳过安装。
6.获取帮助
help(函数名)
或者
?函数名
args(函数名):快速 了解函数参数而不想查阅详细的文档。
example(函数名):查看函数使用的案例。
demo(graphics):列出R的一些案例图。
help(package=包名):查看R安装的某个加载的包的文档。
??包名:查看R安装的某个未加载的包的文档。
apropos(“关键字”):列出所有包含关键字的内容。 如apropos(“A”),就是列出“xxxAxxx” 的内容
apropos(“关键字”,mod=“function”):列出所有包含关键字的函数。
7. 内置数据集
R中的内置数据集存储在datasets这个包中,这些数据一般搜集于真实的调查数据。
help(package=“datasets”):查看数据集包。
data():列出所有数据集。
data(package = .packages(all.available = TRUE)):列出可用数据集
直接输入数据集名字,就可以使用该数据集。
这些内置数据集的名字都是默认的,我们在创建变量的时候最好不要与内置数据集的名字重叠。

