【机器学习】西瓜书学习心得及课后习题参考答案—第3章线性模型

news2026/2/11 10:49:34

过了一遍第三章，大致理解了内容，认识了线性回归模型，对数几率回归模型，线性判别分析方法，以及多分类学习，其中有很多数学推理过程以参考他人现有思想为主，没有亲手去推。

术语学习

线性模型 linear model
非线性模型 nonlinear model
可解释性 comprehensibility
可理解性 understandability
线性回归 linear regression
均方误差 square loss
欧氏距离 Euclidean distance
最小二乘法 least square method
参数估计 parameter estimation
闭式 closed-form
多元线性回归 multivariate linear regression
满秩矩阵 full-rank matrix
正定矩阵 positive definite matrix
正则化 regularization
对数线性回归 log-linear regression
广义线性模型 generalized linear model
联系函数 link function
单位阶跃函数 unit-step function
替代函数 surrogate function
对数几率函数 logistic function
几率 odds
对数几率 log odds
对数几率回归 logistic regression
极大似然法 maximum likelihood method
对数似然 log-likelihood
梯度下降法 gradient descent method
牛顿法 Newton method
线性判别分析 Linear Discriminant Analysis
类内散度矩阵 within-class scatter matrix
类间散度矩阵 between-class scatter matrix
广义瑞利商 generalized Rayleigh quotient
迹 trace
分类器 classifier
拆分策略一对一 OvO One vs. One
一对其余 OvR One vs. Rest
多对多 MvM Many vs. Many
纠错输出码 ECOC Error Correcting Output Codes
编码矩阵 coding matrix
类别不平衡 class-imbalance
再缩放 rescaling
再平衡 rebalance
欠采样 undersampling
下采样 downsampling
过采样 oversampling
上采样 upsampling
阈值移动 threshold-moving
代价敏感学习 cost-sensitive learning
稀疏表示 sparse representation
稀疏性 sparsity
多标记学习 multi-label learning

3.1 试析在什么情形下式 (3.2) 中不必考虑偏置项 b.

可以理解的解释：

$f(x)=w_{i}x_{i}$ 始终经过原点，b=0，可以不考虑
考虑输出 $f (x)$ 和 $x$ 的变化关系时，不考虑
当两个线性模型相减时，消除了b。可用训练集中每个样本都减去第一个样本，然后对新的样本做线性回归，不用考虑偏置项b。

3.2 试证明，对于参数 ω，对率回归的目标函数 (3.18)是非凸的，但其对数似然函数 (3.27)是凸的.

对实数集上的函数，可通过求二阶导数来判别：若二阶导数在区间上非负，则称为凸函数；若二阶导数在区间上恒大于 0，则称为严格凸函数。

对率回归的目标函数 (3.18)是非凸的证明
式 3.18 ，其一阶导 $\frac{\partial{y}}{\partial{w}}=x(y-y^{2})$
二阶导 $\frac{\partial^{2}{y}}{\partial{w}\partial{w^{T}}}=xx^{T}y(1-y)(1-2y)$ （即海森矩阵），
其中 $xx^{T}$ 秩为1，非零特征值只有一个，其正负号取决于 $y (1 - y) (1 - 2 y)$ ，显然当 $y$ 在(0.5,1)之间变化时，特征值为负，于是3.18式关于 $w$ 的海森矩阵非半正定，因此非凸。

对数似然函数 (3.27)是凸的证明参考南瓜书
在这里插入图片描述

3.3 编程实现对率回归，并给出西瓜数据集 3.0α 上的结果.

（待补充）

3.4 选择两个 UCI 数据集，比较 10 折交叉验证法和留法所估计出的对率回归的错误率.

（待补充）

3.5 编辑实现线性判别分析，并给出西瓜数据集 3.0α 上的结果.

（待补充）

3.6 线性判别分析仅在线性可分数据上能获得理想结果?试设计一个改进方法，使其能较好地周于非线性可分数据

人们发展出一系列基于核函数的学习方法，统称为"核方法" (kernel methods). 最常见的，是通过"核化" (即引入核函数)来将线性学习器拓展为非线性学习器.下面我们以线性判别分析为例来演示如何通过核化来对其进行非线性拓展 7 从而得副"核线性判别分析" (Kernelized Linear Discriminant Analysis，简称 KLDA).