机器学习 学习知识点
- 什么是消融实验(Ablation experiment)?
- num_step与batch_size的区别
- python glob.glob()函数认识
- python的条件判断之is not、is not None、is None
- tqdm介绍及常用方法
- softmax 激活函数。
- type_as(tesnor)
- Python OpenCV cv2.imwrite()用法及代码示例
- 详解 torch.max 函数
什么是消融实验(Ablation experiment)?
消融实验类似于之前学习实验方法中的控制变量法
在一个实验中,涉及到a,b,c三个部分,不知道那个部分对实验起到效果,如果想知道a部分对整个实验的作用,去掉a部分,从而知道a在实验中起到的效果。
num_step与batch_size的区别
举个例子,我有1000个人,每个人有12条记录,分别代表一个人过去12个月每个月花的钱。我训练模型时,发现一次性选1000个人训练内存会溢出,所以我一次给内存里加载100个人,那么我训练一轮模型就要加载10次数据。那么100就是batch size,12就是num step,1000乘12就是你所有的样本。
举个栗子:在自然语言处理中,一句话是由很多个词(假设一句话已经分词)组成;1.然后在训练的时候,把所有的句子截取为相同的长度,如果某一个句子长度大于长度L,则截断;如果句子长度小于L,则填充0,补充长度至L。2.如果训练的时候,每次迭代的时候只有一句话,那么梯度下降的时候,可能较为随意;但是如果整个数据集一起训练,一是训练时间较长,二是自然语言处理的时候数据量很大,会导致内存溢出等,所以一般是sample batch_size的句子做一次迭代。3.回到第一点,则每次输入的数据大小应该是 [batchsize, sequence_length]的矩阵,这里的sequencelength就是上文中提到的num_step。
python glob.glob()函数认识
glob()函数就像Linux中的find -name *.type一样,可以将某目录下所有跟通配符模式相同的文件放到一个列表中,有了这个函数,我们再想生成所有文件的列表就不需要使用for循环遍历目录了,直接使用glob.glob(path+pattern)的方式获取,
这个例子中,我们的目的是生成daisy中的所有图片的列表,该列表中可能出现的图片格式如extensions中列出的那样,执行结果如下所示
可以看到glob.glob(file_glob)的结果就是符合相应模式的文件列表,需要注意的一点是,该函数对大小写不敏感,.jpg与.JPG是一样的,在extensions中即便是格式一样,包含大小写,在循环过程中,函数并不区分这种情况,所以在书写时一定要注意不要写错,否则列表的长度会让你莫名其妙。
python的条件判断之is not、is not None、is None
is:是不是某种对象
None:在Python中是一个单例对象,一个特殊的常量:没有值、空值、值不存在
对于在判断条件中的对象值的判断,除了False外,None、0、数据为空[]、“”、{}、()都是False,即bool(None)、bool(0)、bool([])、bool(“”)、bool({})、bool(())的值均为false
综上,最佳实践如下:
if val:
print('if val')
if not val:
print('if not val')
if val is not None:
print('if val is not None')
if val is None:
print('if val is None')
1、val为None时:
if not val
if val is None
2、val为False时:
if not val
if val is not None
3、val为0时:
if not val
if val is not None
4、val为1时:
if val
if val is not None
5、val为[]空列表时:
if not val
if val is not None
6、val为[1,2]非空列表时:
if val
if val is not None
7、val为某具体对象时:
if val
if val is not None
tqdm介绍及常用方法
tqdm 是一个快速,可扩展的Python进度条,可以在 Python 长循环中添加一个进度提示信息,用户只需要封装任意的迭代器 tqdm(iterator)。
对可迭代对象用tqdm处理下,再去处理时,控制台就会显示进度条了。在我理解来就是tqdm就是一个装饰器,虽然网上查了没人这么说,但是应该就是一个装饰器的原理,这么理解是没问题的。
Tqdm 是一个快速,可扩展的Python进度条,可以在 Python 长循环中添加一个进度提示信息,用户只需要封装任意的迭代器 tqdm(iterator)。
使用pip就可以安装。
tqdm(list)方法可以传入任意一种list,比如数组
from tqdm import tqdm
for i in tqdm(range(1000)):
#do something
pass
或者string的数组
for char in tqdm(["a", "b", "c", "d"]):
#do something
pass
效果:
image████████████████████████████████████████████████████████████████▍ | 930/992 [27:29<01:51, 1.79s/it]
softmax 激活函数。
在多分类任务中,最后通常使用 softmax 函数作为网络输出层的激活函数,softmax 函数可以对输出值作归一化,把所有的输出值转换为概率,所有的概率值加起来等于 1。在做分类的时候,概率值高的那个类别即为预测类别。
type_as(tesnor)
使用type_as(tesnor)将张量转换为给定类型的张量。
如果张量已经是正确的类型,则不会执行操作。具体操作方法如下:
self = torch.Tensor(3, 5)
tesnor = torch.IntTensor(2,3)
print self.type_as(tesnor)
Python OpenCV cv2.imwrite()用法及代码示例
OpenCV-Python是旨在解决计算机视觉问题的Python绑定库。cv2.imwrite()方法用于将图像保存到任何存储设备。这将根据指定的格式将图像保存在当前工作目录中。
-
用法: cv2.imwrite(filename, image)
-
参数:
filename:代表文件名的字符串。文件名必须包含图像格式,例如.jpg,.png等。
image:就是要保存的图像。 -
返回值:如果成功保存图像,则返回true。
-
示例:
# Python program to explain cv2.imwrite() method
# importing cv2
import cv2
# importing os module
import os
# Image path
image_path = r'C:\Users\Rajnish\Desktop\GeeksforGeeks\geeks.png'
# Image directory
directory = r'C:\Users\Rajnish\Desktop\GeeksforGeeks'
# Using cv2.imread() method
# to read the image
img = cv2.imread(image_path)
# Change the current directory
# to specified directory
os.chdir(directory)
# List files and directories
# in 'C:/Users/Rajnish/Desktop/GeeksforGeeks'
print("Before saving image:")
print(os.listdir(directory))
# Filename
filename = 'savedImage.jpg'
# Using cv2.imwrite() method
# Saving the image
cv2.imwrite(filename, img)
# List files and directories
# in 'C:/Users / Rajnish / Desktop / GeeksforGeeks'
print("After saving image:")
print(os.listdir(directory))
print('Successfully saved')
- 输出:
Before saving image:
['geeks.png']
After saving image:
['geeks.png', 'savedImage.jpg']
Successfully saved
详解 torch.max 函数
torch.max()
返回输入张量所有元素的最大值。
- 参数: input (Tensor) – 输入张量
例子:
>>> a = torch.randn(1, 3)
>>> a
0.4729 -0.2266 -0.2085
[torch.FloatTensor of size 1x3]
>>> torch.max(a)
0.4729
torch.max(input, dim, max=None, max_indices=None) -> (Tensor, LongTensor)
返回输入张量给定维度上每行的最大值,并同时返回每个最大值的位置索引。
输出形状中,将dim维设定为1,其它与输入形状保持一致。
- 参数:
input (Tensor) – 输入张量
dim (int) – 指定的维度
max (Tensor, optional) – 结果张量,包含给定维度上的最大值
max_indices (LongTensor, optional) – 结果张量,包含给定维度上每个最大值的位置索引
例子:
>> a = torch.randn(4, 4)
>> a
0.0692 0.3142 1.2513 -0.5428
0.9288 0.8552 -0.2073 0.6409
1.0695 -0.0101 -2.4507 -1.2230
0.7426 -0.7666 0.4862 -0.6628
torch.FloatTensor of size 4x4]
>>> torch.max(a, 1)
(
1.2513
0.9288
1.0695
0.7426
[torch.FloatTensor of size 4x1]
,
2
0
0
0
[torch.LongTensor of size 4x1]
)
torch.max(input, other, out=None) → Tensor
返回输入张量给定维度上每行的最大值,并同时返回每个最大值的位置索引。
即,( out_i=max(input_i,other_i) \)
输出形状中,将dim维设定为1,其它与输入形状保持一致。
- 参数:
input (Tensor) – 输入张量
other (Tensor) – 输出张量
out (Tensor, optional) – 结果张量
例子:
>>> a = torch.randn(4)
>>> a
1.3869
0.3912
-0.8634
-0.5468
[torch.FloatTensor of size 4]
>>> b = torch.randn(4)
>>> b
1.0067
-0.8010
0.6258
0.3627
[torch.FloatTensor of size 4]
>>> torch.max(a, b)
1.3869
0.3912
0.6258
0.3627
[torch.FloatTensor of size 4]