目录
一·,统计学习
1.统计学习的特点
2.统计学习的对象
3.统计学习的目的
4.统计学习的方法
5.统计学习方法的研究
6.重要性
二,统计学习的基本种类
1.监督学习
(1)输入空间,输出空间和特征空间
(2)联合概率分布
(3)假设空间
(4)问题的形式化
2.无监督学习
3.强化学习
4.半监督学习与主动学习编辑
三,统计学习方法三要素
1.模型
2.策略
(1)损失函数和风险函数
(2)经验风险最小化与结构风险最小化
3.算法
一·,统计学习
1.统计学习的特点
定义:统计学习(statistical learning)是一门计算机基于数据构建概率模型并运用模型对数据进行预测和分析的一门学科。
统计学习也称为统计机器学习。
- 统计学习以计算机网络为平台
- 统计学习以数据为研究对象
- 统计学习的目的是对数据进行预测和分析
- 统计学习以方法为中心
- 统计学习是概率论,统计学,信息论,计算机理论,最优化理论及计算机科学等对各领域的交叉学科。
2.统计学习的对象
对象是数据(data)——数字,文字,图像,视频及其组合
过程:从数据出发,提取数据的特征,抽象出数据模型,发现数据的知识,又回到数据
的分析与预测上取,
3.统计学习的目的
考虑学习什么样的模型和如何学习模型,以使模型能对数据准确的预测和分析。
同时考虑尽可能地提高学习效率。
4.统计学习的方法
基于数据构建概率统计模型从而对数据进行预测和分析。
统计学习由监督学习,无监督学习和强化学习组成。
5.统计学习方法的研究
统计学习方法的研究一般包括统计学习方法,统计学习理论和统计学习应用三个方面
6.统计学习的重要性
二,统计学习的基本种类
统计学习(统计机器学习)一般包括监督学习,无监督学习,强化学习
有时还包括半监督学习和主动学习
1.监督学习
监督学习(supervised learning)是指从标注数据中学习预测模型的机器学习问题。
标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。
监督学习的本质是学习输入到输出的映射的统计规律。
(1)输入空间,输出空间和特征空间
(2)联合概率分布
监督学习假设输入与输出的随机变量X和Y遵循
联合概率分布P(X,Y)
P(X,Y)表示分布函数和或分布密度函数
训练数据与测试数据被看作是依联合概率分布
P(X,Y)独立同分布产生的。
(3)假设空间
模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。
假设空间也即监督学习所要学习的范围。
(4)问题的形式化
监督学习分为学习和预测两个过程,由学习系统和预测系统共同完成。
预测形式:选择大的条件概率进行输出
y表示输出(like/dislike),x表示实例x的特征向量
2.无监督学习
无监督学习(unsupervised learning)是指从无标注数据中学习预测模型的机器学习问题。
无标注数据是自然得到的数据,预测模型表示数据的类型,转换或概率。
无监督学习的本质是学习数据中的统计规律或潜在结构。
无监督学习可用于对已有数据的分析,也可用于对未来数据的预测。流程与监督学习相同。
3.强化学习
强化学习(reinforcement learning)是指智能系统与环境的连续互动中学习最优行为的机器学习问题。
强化学习的本质是学习最优的序贯决策。
强化学习过程中,智能系统不断地试错,以达到学习最优策略的目的。
4.半监督学习与主动学习
三,统计学习方法三要素
统计学习方法是由模型,策略和算法三要素构成
1.模型
统计学习首要考虑的问题是学习什么样的模型。
在监督学习过程中,模型就是所要学习的条件概率分布和决策函数。
模型的假设空间包含所有可能的条件概率分布或决策函数
2.策略
有了模型的假设空间,接下来要考虑的就是按照什么样的准则学习或选择最优的模型
(1)损失函数和风险函数
损失函数:度量模型一次预测的好坏
风险函数:度量平均意义下模型预测的好坏
由于模型的输入,输出(X,Y)是随机变量,遵循联合分布P(X,Y)
所以损失函数的期望是:
注意损失函数:
为Y(真实值)与f(x)预测值的不同方式的接近程度的比较。
(
- 0-1损失函数针对的是分类问题
- 平方损失函数和绝对损失函数针对的是回归问题
- 对数损失函数针对的是概率模型
)
(2)经验风险最小化与结构风险最小化
根据大数定律,当N趋向于无穷大时:
经验损失(Remp)就会趋于 风险函数
经验风险:那每一个属性的值对应的损失函数的求一遍取平均值。取不同属性影响的最小值。
(经验风险越小,说明越拟合模型)
结构风险:
在后面加上了一个正则项,防止模型过拟合。
————过度的拟合数据,反而会使结果变差。
策略就是选取一个目标函数:(是经验风险还是结构风险)
从而达到优化模型的目的
我们在训练集中发现拟合程度越来越好
但在dev(验证集)中有一个类似于二次函数的图像
(这就是一个过拟合的现象)
我们最终选择module2作为我们的模型,因为验证集下最贴近真实结果。
测试集下的73就是最终可以拿出来跟别人比较的分数。
3.算法