SAS在企业使用的情况:
SAS是一个很昂贵的商业软件。在企业中使用SAS比较多,在企业界中是比较流行,在学术界使用R比较多。
SAS简介:统计分析系统
处理生物分析数据。
SAS成为统计领域的国际标准软件,服务全球50000多家企业。
在医学和金融领域,在进行数据分析的时候,要求使用SAS软件。
数据分析软件的基本问题:
1)怎么建立数据集?
ETL,SAS有专门的语句和过程做这个事情。
2)怎样进行数据分析(自己写代码,或者利用现有函数)?
SAS语言有自己的特点。丰富的解读结果。统计指标。
3)输出图表
输出图表比较简陋,专门花钱买数据展现模块,有非常好的效果。
SAS基本界面:
编辑窗、输出窗、日志窗
SAS资源管理器
SAS处理流程:
数据步 过程步:
一个完整的数据步和过程步:
代码说明:
1)$符号表示这个变量是一个字符串类型;宽度缺省是8个字符;空格作为分隔符;cards和run之间数据;内置数据集第一行循环读取;读到student数据集中。把整个内置数据全部读完。
2) 变量是列;正常是叫变量。
3)每一行是一个观测值、样本;
4)student是数据集;放在磁盘里的文件。专门SAS的一种格式;如果打开文件,发现是二进制的,是乱码。
5)proc: 过程步:print:输出过程,将student数据集进行输出,keep我们只要显示id name和score这三个变量。
6)obs:观测:每一行是一个观测值,每一行是一个样值。noobs:无观测值。
7)预先创建逻辑库mydb;
SAS是商业软件,是按年来付费的。
SAS的模块:
逻辑库:
对应于一条物理路径的逻辑名,用于存放SAS数据集合数据文件。
这种数据集只能在SAS中进行读取。
建立逻辑库:
1)先在硬盘上建立相应目录;
2)在编辑窗中输入libname命令;
3)按F8或者提交按钮提交命令;
libname mydb 'c:\mydb';
代码说明:
1)末尾要加分号;
内置逻辑库:Maps、sashelp、sasusers都是内置,里面还有样本数据。
work是临时逻辑库:加入我们建的数据集临时放在临时逻辑库中,
逻辑库名丢弃;可使用libname重新建立连接;
使用图形界面建立逻辑库:
鼠标指向逻辑库,在右键菜单选择“删除”;
删除后目录和数据在物理上依然存在,只是拆除了连接;
那些保存在硬盘上数据,只要通过在硬盘上进行删除才行。
人工建立的逻辑库都是永久的。
逻辑库连接数据库:
libname oradb oracle user=scott password=tiger path=orcl;
以上命令可以直接连接Oracle数据库,其他数据库操作类似。
代码说明:path:连接实例。
变量:数据集中列、属性等。统计学中就叫变量。
命名规则:以字母或下划线开头,由字母、下划线、数字等组成,不区分大小写。
不要使用中文作为变量名。SAS中是不区分大小写的。
变量赋值。
SAS中的变量就是数据集中的列,值就是一行观测值。
代码解读:
1) 数据集是sfz;是在临时逻辑库work中;
2)length 语句定义了一个变量id, $表示这是一个字符串变量,18表示18个字符这么长;如果是数值型数据,小数点后面为4位。
3)input语句是指定我们读入数据的列是怎么切割的,先读入id,然后再读入sex列,分隔符是空格,没有特殊说明的话,sex后面有一个$,说明是一个字符型变量。
4)字符串变量默认是8个字符,没有这个length语句,就只有8个字符,使用length语句调整变量的长度。
5)在cards和run之间定义了内置数据,读数据的方法是每次一行,到run,然后到数据步开始位置,然后再读入第二行,到run,然后再到数据步开始位置;
6)proc print就是打印当前数据集;就是我们刚刚操作的sfz数据集。
Date、time、datetime类型:
1)标准时间的时间戳方法;
读文本文件中的数据: