1.2 监督学习
- 监督学习的定义
- 监督学习的相关概念
- 监督学习流程图
监督学习的定义
监督学习(Supervised Learning)是指从标注数据中学习预测模型的机器学习问题,其本质是学习输入到输出的映射的统计规律。
- 输入空间 (Input Space):输入的所有可能取值的集合
- 实例 (lnstance) :每一个具体的输入,通常由特征向量 (FeatureVector) 表示
- 特征空间 (Feature Space):所有特征向量存在的空间
一般情况下,输入空间和特征空间相同,但在下面核技巧该情况下则不同!
核技巧:通过一个非线性变化,将输入空间对应到特征空间上。
比如下面这种情况:
输入空间:
R
2
\mathbf{R}^2
R2; 实例:
x
=
(
x
(
1
)
,
x
(
2
)
)
T
x=\left(x^{(1)}, x^{(2)}\right)^T
x=(x(1),x(2))T
ϕ
(
x
)
:
R
2
→
H
;
ϕ
(
x
)
=
(
(
x
(
1
)
)
2
,
2
x
(
1
)
x
(
2
)
,
(
x
(
2
)
)
2
)
T
\phi(x): \mathbf{R}^2 \rightarrow \mathcal{H} ; \quad \phi(x)=\left(\left(x^{(1)}\right)^2, \sqrt{2} x^{(1)} x^{(2)},\left(x^{(2)}\right)^2\right)^T
ϕ(x):R2→H;ϕ(x)=((x(1))2,2x(1)x(2),(x(2))2)T
ϕ
(
x
)
\phi(x)
ϕ(x)特征空间变成三维,但输入空间还是二维,故明显不是一个空间。
- 输出空间(Output Space):输出的所有可能取值的集合
根据变量类型不同:
输入变量与输出变量均为连续变量的预测问题 ------ 回归问题
输出变量为有限个离散变量的预测问题 ------ 分类问题
输入变量与输出变量均为变量序列的预测问题 ------- 标注问题
监督学习的相关概念
输入变量:X; 输入变量的取值:x
输出变量:Y; 输出变量的取值:y
输入实例X的特征向量表示:
x
=
(
x
(
1
)
,
x
(
2
)
,
⋯
,
x
(
j
)
,
⋯
,
x
(
n
ˉ
)
)
T
x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(j)}, \cdots, x^{(\bar{n})}\right)^T
x=(x(1),x(2),⋯,x(j),⋯,x(nˉ))T
样本容量为N的训练集:
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
⋯
,
(
x
N
,
y
N
)
}
T=\left\{\left(x_1, y_1\right),\left(x_2, y_2\right) \cdots,\left(x_N, y_N\right)\right\}
T={(x1,y1),(x2,y2)⋯,(xN,yN)}
监督学习的目的:学习一个输入到输出的映射,这一映射以模型表示
模型的形式:条件概率分布
P
(
Y
∣
X
)
P(Y\mid X)
P(Y∣X)或决策函数
Y
=
f
(
X
)
Y=f(X)
Y=f(X)
假设空间(Hypothesis Space):所有这些可能模型的集合。
监督学习流程图
注:以上笔记素材来自:B站简博士,十分钟 机器学习 系列视频 《统计学习方法》