一、数据CSV文件的存取
- CSV文件(Comma-Separated Value,逗号分隔值)
- 是一种常见的文件格式,用来存储批量数据。
如常见的数据存储为CSV后
NumPy中有两个函数可以写入CSV格式,并从CSV文件中读取数据。
CSV文件的存储
- np.savetxt(),原则上可以存储任意格式的文件。
np.savetxt(frame,array,fmt='%.18e',delimiter=None
- frame:文件、字符串或产生器,可以是.gz或者bz2的压缩文件。
- array:存入文件的数组。
- fmt:写入文件的格式,例如:%d;%.2f;%.18e。
- delimiter:分割字符串,默认是任何空格。
a=np.arange(100).reshape(5,20)
np.avetxt('a.csv',a,fmt='%d',delimiter=',')
np.avetxt('a.csv',a,fmt='%.2f',delimiter=',')
CSV文件的读取
- np.loadtxt()
np.loadtxt(frame,dtype=np.float,delimiter=None,unpack=False)
- frame:文件、字符串或产生器,可以是.gz或者bz2的压缩文件。
- dtype:数据类型,可选。
- delimiter:分割字符串,默认是任何空格。
- unpack:如果是False,则将读入的数据写入同一个数组,否则如果是True,读入属性将分别写入不同变量。
b=np.loadtxt('a.csv',delimiter=',')
b
b=np.loadtxt('a.csv',dtype=np.int,delimiter=',')
b
CSV文件可以很好的进行数据的存储与读取,但是CSV只能有效存储一维和二维数组,np.savetxt()和np.loadtxt()只能有效存取一维和二维数据。
二、多维数据的存取
数据的储存
a.tofile(frame,sep='',format='%s')
- frame:文件、字符串。
- sep:数据分隔字符串,如果是空串,写入文件为二进制格式。
- format:写入数据的格式。
a=np.arange(100).reshape(5,10,2)
a.tofile("b.dat",sep=",",format='%d')
a.tofile("b.dat",format='%d')###去掉分隔符后,存储的为二进制的文件,比商议中更节省空间。
数据的读取
np.fromfile(frame,dtype=float,count=-1,sep='')
- frame:文件、字符串。
- dtype:读取的数据类型。
- count:读入元素个数,-1表示读入整个文件。
- sep:数据分隔字符串,如果是空串,写入文件为二进制。
a=np.arange(100).reshape(5,10,2)
a.tofile("b.dat",sep=",",format='%d')
c=np.fromfile("b.dat",dtype=np.int,sep=",")##读出的是一个一维文件,使得原文件的维度丢失
c=np.fromfile("b.dat",dtype=np.int,sep=",").reshape(5,10,2)##在知道原数据的维度信息和元素类型的时候,使用reshape()函数,可以还原原数据的数据维度和元素,但是前提需要提前知道数据的维度信息
numpy的便捷文件存取
np.save(fname,array)或者np.savez(fname,array)
np.load(fname)
np.save(fname,array)
- frame:文件名,以.npy为扩展名,压缩扩展名为.npz。
- array:数组变量。
np.load(fname)
- fname:文件名,以.npy为扩展名,压缩扩展名为.npz。
a=np.arange(100).reshape(5,10,2)
np.save("a.npy",a)
b=np.load("a.npy")
b
为什么np.save()函数能这么神奇的还原数据的维度和元素信息呢?
使用二进制的方式读取np.save()保存的数据,可以看到存储的数据是以二进制的形式储存的,且在储存的文件的第一行中记录了原文件的维度和数据类型,因此在使用np.load()函数读取的时候,直接将原来存储的二进制文件按原格式进行读取了,因此很便捷还原原文件的信息。
介绍多种数据读取和存储的方法的原因是:
- 程序间需要使用数据文件缓存,可以便捷的使用save和load函数进行文件读取
- 如果需要与其他的程序间进行数据交互和对接,需要采用通用的数据格式如CSV进行程序间的数据交换,此时就需要使用tofile()和fromfile()函数进行读取和存储。
NumPy库的随机函数子库random
四个基本函数
函数 | 说明 |
---|---|
rand(d0,d1,…,dn) | 根据d0-dn创建随机数数组,浮点数,[0,1),均匀分布 |
randn(d0,d1,…,dn) | 根据d0-dn创建随机数数组,标准正态分布 |
randint(low[,high,shape]) | 根据shape创建随机整数或整数数组,范围是[low,high) |
seed(s) | 随机种子数,s是给定的种子值 |
import numpy as np
a=np.random.rand(3,4,5)##随机生成0-1之间的随机数组
a
sn=np.random.randn(3,4,5)##随机生成一组正态分布的随机数(包括负数)
sn
b=np.random.randint(100,200,(3,4))##根据shape生成整数型的随机数组
b
c=np.random.seed(10)##使用随机数种子可以保证每次生成的随机数组相同,当后续如果需要再次使用该随机数组,调用相同的种子序列,可获得相同的随机序列数组用于后续测试。
较高级的随机序列函数
函数 | 说明 |
---|---|
shuffle(a) | 根据数组a的第一轴进行随机排序,改变数组X,是一个混淆函数 |
permutation(a) | 根据数组a的第一轴产生一个新的乱序数组,不改变数组X |
choice(a[,size,replace,p]) | 从一维数组a中依概率p抽取元素,形成size形状新数组,replace表示是否可以重用元素,默认为False |
import numpy as np
a=np.random.randint(100,200,(3,4))
np.random.shuffle(a)##根据数组a的第一轴进行随机排序,改变数组X
np.random.permutation(a)##根据数组a的第一轴产生一个新的乱序数组不改变数组X
a
import numpy as np
b=np.random.randint(100,200,(8,))
b
np.random.choice(b,(3,2))##随机放回抽取,可以抽到重复的数字
np.random.choice(b,(3,2),replace=False)##replace=Flase表示,随机不放回的抽取,因此抽取的结果是不重复的数据
np.random.choice(b,(3,2),p=b/np.sum(b))##这里的p是抽取的概率,这里设置的概率是元素的值越大,抽取的概率越大
np.random的随机函数
函数 | 说明 |
---|---|
uniform(low,high,size) | 产生具有均匀分布的数组,low起始值,high结束值,size是形状 |
normal(loc,scale,size) | 产生具有正态分布的数组,loc均值,scale标准差,size形状 |
poisson(lam,size) | 产生具有泊松分布的数据,lam随机事件发生率,size形状 |
import numpy as np
u=np.random.uniform(0,10,(3,4))
u
n=np.random.normal(10,5,(3,4))
n
p=np.random.poisson(10,(2,5))
p
NumPy的统计函数
np.random的统计函数(1)
函数 | 说明 |
---|---|
sum(a,axis=None) | 根据给定轴axis计算数组a相关元素之和,axis整数或元组 |
mean(a,axis=None) | 根据给定轴axis计算数组a线管元素的期望,axis整数或元组 |
average(a,axis=None,weights=None) | 根据给定轴axis计算数组a相关元素的加权平均值 |
std(a,axis=None) | 根据给定轴axis计算数组a相关元素的标准差 |
var(a.axis=None) | 根据给定轴axis计算数组a相关元素的方差 |
说明:axis=None是统计函数的标配参数
import numpy as np
a=np.arange(15).reshape(3,5)
a
np.sum(a)
np.mean(a,axis=1)
np.mean(a,axis=0)
np.average(a,axis=0,weights=[10,5,1])
np.std(a)
np.var(a)
np.random的统计函数(2)
函数 | 说明 |
---|---|
min(a);max(a) | 计算数组a中元素的最小值、最大值 |
argmin(a);argmax(a) | 计算数组a中元素最小值、最大值的降一维后的下标 |
unravel_index(index,shappe) | 根据shape将一维下标index转换成多为下标 |
ptp(a) | 计算数组中元素最大值与最小值的差 |
median(a) | 计算数组a中元素的中位数(中值) |
import numpy as np
b=np.arange(15,0,-1).reshape(3,5)##这里的-1表示倒序生成数组
np.max(b)
np.argmax(b)##扁平化后的下标
np.unravel_index(np.argmax(b),b.shape)##重塑成多维下标
np.ptp(b)
np.median(b)
Numpy的梯度函数
函数 | 说明 |
---|---|
np.gradient(f) | 计算数组f中元素的梯度,当f为多维时,返回每个维度梯度 |
梯度:连续值之间的变化率,即斜率。
举个例子:在XY坐标轴连续三个X坐标对应的Y轴值是:a,b,c,其中b的梯度是:(c-a)/2
import numpy as np
a=np.random.randint(0,10,(5))
##:array([9, 1, 6, 9, 0])##对于起始端点的值,梯度为后一个值减去自身然后除以距离,终点值是其自身,减去上一个值,然后除以距离(为1)。
np.gradient(a)
##:array([-8. , -1.5, 4. , -3. , -9. ])##-1.5为两侧值,为该点的后一个值和前一个值的差除以距离(距离为2)。
b=np.random.randint(0,20,(5))
##:array([11, 6, 7, 11, 13])
np.gradient(b)
##:array([-5. , -2. , 2.5, 3. , 2. ])
多维数组
import numpy as np
c=np.random.randint(0,50,(3,5))
np.gradient(c)
单元小结:
数据的存取与函数
CSV文件
-
np.loadtxt()
-
np.savetxt()
多维数据存取 -
a.tofile()
-
np.fromfile()
-
np.save()
-
np.savez()
-
np.load()
随机函数 -
np.random.rand()
-
np.random.randn()
-
np.random.randint()
-
np.random.seed()
-
np.random,choice()
-
np.random.permutation()
NumPy的统计函数 -
np.sum()
-
np.mean()
-
np.average()
-
np.std()
-
np.var()
-
np.median()
-
np.min()
-
np.max()
-
np.argmin()
-
np.argmax()
-
np.unravel_index()
-
np.ptp()
NumPy的梯度函数 -
np.gradient() 用于分析数据的变化速率,可用于图象、声音等数据的分析。