最优化方法

牛顿法和拟牛顿法都是求解无约束最优化问题的常用方法，具有收敛速度快的优点。牛顿法是迭代算法，每一步需要求解目标函数的海森矩阵的逆矩阵，计算比较复杂，而且有时候海森矩阵不一定存在逆阵。拟牛顿法通过正定矩阵近似海森矩阵的逆矩阵或海森矩阵，简化了这一计算过程。

牛顿法

考虑无约束最优化问题
$\min_{x \in \Bbb R^n} f(x) \tag{23}$
其中 $x^*$ 为目标函数的极小值点。

假设 $f (x)$ 具有二阶连续偏导数，若第k次迭代值为 $x^{(k)}$ ，则可将 $f (x)$ 在 $x^{(k)}$ 附近进行二阶泰勒展开：
$f(x^{(k)}) + g_k^T(x - x^{(k)}) + \frac{1}{2}(x-x^{(k)})H(x^{(k)}) (x-x^{(k)}) \tag{24}$
根据公式 $(20)$ 在 $x^{(k)}$ 处进行二阶展开，并忽略高阶项。

这里， $g_k=g(x^{(k)}) = \nabla f(x^{(k)})$ 是 $f (x)$ 的梯度向量在点 $x^{(k)}$ 的值， $H(x^{(k)})$ 是 $f (x)$ 的海森矩阵(Hessian matrix):
$\left[ \frac{\partial^2 f}{\partial x_i\partial x_j}\right]_{n \times n} \tag{25}$
在点 $x^{(k)}$ 的值。其中 $\frac{\partial^2 f}{\partial x_i \partial x_j}$ = $\frac{\partial^2 f}{\partial x_j \partial x_i}$ ，所以它也是一个对称矩阵，并且二阶偏导为实数，所以它是一个实对称矩阵。

函数 $f (x)$ 有极值的必要条件是在极值点处一阶导数为0，即梯度向量为0.当 $H(x^{(k)})$ 是正定矩阵时，函数 $f (x)$ 的极值为极小值。

牛顿法(Newton Method)在每个迭代点处将目标函数近似为二次函数，然后通过求解梯度为 $\pmb 0$ 的方程得到迭代方向。

具体地，牛顿法寻找目标函数作二阶近似后梯度为 $\pmb 0$ 的点，逐步逼近极值点。根据费马引理，函数在点 $x$ 处取得极值的必要条件是梯度为 $\pmb 0$ ：
$\nabla f( x) = \pmb 0 \tag{26}$
每次迭代中从点 $x^{(k)}$ 开始，求目标函数的极小点，作为第 $k + 1$ 次迭代值 $x^{(k+1)}$ 。具体地，假设 $x^{(k+1)}$ 满足：
$\nabla f(x^{(k+1)}) = \pmb 0 \tag{27}$
由于式 $(24)$ 对 $x$ 求偏导有：
$\nabla f(x) = g_k + H_k(x-x^{(k)}) \tag{28}$
其中 $H_k=H(x^{(k)})$ 。

上式 $(28)$ 是如何得到的呢？

可以把该式 $(24)$ 展开：

$f(x^{(k)}) + \begin{pmatrix} \frac{\partial f x^{(k)}}{\partial x_1}& \frac{\partial f x^{(k)}}{\partial x_2} & \cdots & \frac{\partial f x^{(k)}}{\partial x_n} \end{pmatrix}_{1 \times n} (x-x^{(k)})_{n \times 1} + \frac{1}{2}(x-x^{(k)})^T_{1\times n} \begin{bmatrix} \frac{\partial^2 f x^{(k)}}{\partial x_1^2} & \frac{\partial^2 fx^{(k)}}{\partial x_1\partial x_2} & \dots & \frac{\partial^2 f x^{(k)}}{\partial x_1\partial x_n}\\ \frac{\partial^2 f x^{(k)}}{\partial x_2\partial x_1}& \frac{\partial^2 f x^{(k)}}{\partial x_2^2} & \dots & \frac{\partial^2 f x^{(k)}}{\partial x_2\partial x_n}\\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2 f x^{(k)}}{\partial x_n\partial x_1} & \frac{\partial^2 f x^{(k)}}{\partial x_n\partial x_2}& \dots & \frac{\partial^2 f x^{(k)}}{\partial x_n^2}\end{bmatrix}_{n\times n} (x-x^{(k)})_{n\times 1} \tag{29}$

上式两边同时对 $x$ 求梯度，可得式 $(28)$ 。

但式 $(28)$ 是怎么来的呢？

首先，等式 $(24)$ 右边与 $x$ 有关的项有只有 $g_k^T(x-x^{(k)})$ 和$\frac{1}{2}(x-x^{(k)})H(x{(k)}) (x-x^{(k)}) $。这里利用到了下面两个公式：
$\begin{aligned} \frac{\partial a^T x}{\partial x} &= \frac{\partial x^T a}{\partial x} = a \\ \frac{\partial x^Tax}{\partial x} &= (a+a^T)x \end{aligned}$
以及海森矩阵是对称阵，有 $H_k = H^T_k$ 。

联合式 $(27)$ 和式 $(28)$ 有
$g_k + H_k(x^{(k+1)}-x^{(k)}) = 0 \tag{30}$
牛顿法要求海森矩阵是可逆的，解等式 $(30)$ 有：
$x^{(k+1)} = x^{(k)} - H_k^{-1} g_k \tag{31}$
或
$x^{(k+1)} = x^{(k)} +p_k \tag{32}$
其中
$H_kp_k = -g_k \tag{33}$

由于在泰勒公式中忽略了高阶项将函数进行了近似，因此这个解不一定是目标函数的驻点，需要反复用式 $(31)$ 进行迭代，这个迭代算法就是牛顿法。

$p_k= - H_k^{-1} g_k $称为牛顿方向。

算法牛顿法

输入：目标函数 $f (x)$ ，梯度 $\nabla f(x)$ ，海森矩阵 $H (x)$ ，精度要求 $\epsilon$ ;

输出： $f (x)$ 的极小点 $x^*$ 。

(1) 取初始值 $x^{(0)}$ ，置 $k = 0$ 。

(2) 计算 $g_k=g(x^{(k)})$ 。

(3) 若 $||g_k ||< \epsilon$ ，则停止计算，得近似解 $x^*=x^{(k)}$ 。

(4) 计算 $H_k=H(x^{(k)})$ ，并求 $p_k$
$p_k =- H_k^{-1} g_k$
(5) 置 $x^{(k+1)} = x^{(k)} + p_k$ 。

(6) 置 $k = k + 1$ ，转(2)。

与梯度下降法相比，牛顿法有更快的收敛速度，但每次迭代的成本也更高，每次迭代需要计算梯度向量与海森矩阵，并计算海森矩阵的逆矩阵，最后计算矩阵与向量乘积。

牛顿法面临的问题是计算量大且海森矩阵不可逆的问题，拟牛顿法是对它的改进，拟牛顿法构造出一个矩阵作为海森矩阵或其逆矩阵的近似。

拟牛顿法

拟牛顿法(Quasi-Newton Methods)核心思路是不精确计算目标函数的海森矩阵然后求逆矩阵，而是通过其他手段得到海森矩阵的逆。

具体做法是构造一个近似海森矩阵或其逆矩阵的n阶正定对称矩阵 $G_k= G(x^{(k)})$ ，用该矩阵进行牛顿法迭代。

先看牛顿法中海森矩阵 $H_k$ 满足的条件。首先， $H_k$ 满足以下关系。在式 $(28)$ 中取 $x=x^{(k+1)}$ ，得
$g_{k+1} - g_k = H_k(x^{(k+1)} - x^{(k)}) \tag{34}$
记 $y_k=g_{k+1} - g_k, \delta_k = x^{(k+1)} - x^{(k)}$ ，则
$y_k = H_k\delta_k \tag{35}$
或
$H_k^{-1}y_k = \delta_k \tag{36}$
式 $(35)$ 或 $(36)$ 称为拟牛顿条件，用于近似代替海森矩阵和它的逆矩阵需要满足该条件。

如果 $H_k$ 是正定的( $H_k^{-1}$ 也是正定的)，那么可以保证牛顿法搜索方向 $p_k$ 是下降方向。因为搜索方向是 $p_k = -H_k^{-1} g_k$ ，由式 $(31)$ 有
$=x^{(k)} + \lambda p_k = x^{(k)} - \lambda H_k^{-1} g_k \tag{37}$
根据梯度下降法，所以在 $x^{(k)}$ 的一阶泰勒展开式 $(19)$ 为：
$f(x) = f(x^{(k)}) + g_k^T(x-x^{(k)})$
把 $(x-x^{(k)} ) = - \lambda H_k^{-1} g_k$ 代入上式，有：
$=f(x^{(k)}) -\lambda g_k^T H_k^{-1} g_k\tag{38}$
因为 $H_k^{-1}$ 正定，所以有 $g_k^T H_k^{-1} g_k > 0$ 。当 $\lambda$ 为一个充分小的正数时，总有 $f(x) <f(x^{(k)})$ ，也就是说 $p_k$ 是下降方向。

根据二次型的定义， $g^T H g$ 可以表示为二次型的形式，即 $x^T A x$ 的形式，其中 $x$ 是向量， $A$ 是一个对称矩阵。对于一个对称矩阵 $A$ 而言，如果它是正定矩阵，则对于任何非零向量 $x$ ，都有 $x^T A x > 0$ 。

二次型是一个由平方项组成的多项式函数，其中每个变量的次数不超过2。在矩阵论中，一个关于向量 $x_1,x_2,\cdots,x_n$ 的二次型可以表示为：
$Q(x_1,x_2,\cdots,x_n)=\sum_{i=1}^{n}\sum_{j=1}^{n}{a_{ij}x_i x_j}$

拟牛顿法将 $G_k$ 作为 $H_k^{-1}$ 的近似(海森矩阵的逆矩阵的近似)，要求矩阵 $G_k$ 满足同样的条件。首先，每次迭代矩阵 $G_k$ 是正定的。同时， $G_k$ 满足下面的拟牛顿条件：
$G_{k+1}y_k =\delta_k \tag{39}$
按照拟牛顿条件选择 $G_k$ 作为 $H_k^{-1}$ 的近似或选择 $B_k$ 作为 $H_k$ 的近似的算法称为拟牛顿法。

按照拟牛顿条件，在每次迭代中可以选择更新矩阵 $G_{k+1}$ ：
$G_{k+1} = G_k +\Delta G_k \tag{40}$

DFP算法

DFP(Davidon-Fletcher-Powell)算法采用了这种思路，DFP算法以其3为发明人的名字命名。DFP算法构造海森矩阵逆矩阵的近似，DFP算法选择 $G_{k+1}$ 的方法是，假设每一步迭代中的矩阵 $G_{k+1}$ 是由 $G_k$ 加上两个附加项构成的，即
$G_{k+1} = G_k + \alpha_k \mu_k \mu_k^T + \beta_k v_k v_k^T \tag{41}$
其中 $\mu_k$ 和 $v_k$ 为待定的 $n$ 维向量， $\alpha_k$ 和 $\beta_k$ 为待定的系数。显然，按照上式构造的 $G_k$ 是一个对称矩阵。

这时，
$G_{k+1} y_k = G_ky_k +\alpha_k \mu_k \mu_k^Ty_k + \beta_k v_k v_k^Ty_k \tag{42}$
为了使 $G_{k+1}$ 满足拟牛顿条件，即 $G_{k+1}y_k= \delta_k$ ：
$G_{k+1} y_k= G_ky_k+\alpha_k \mu_k \mu_k^Ty_k + \beta_k v_k v_k^Ty_k = \delta_k$
上式的解不唯一，可以取某些特殊值从而简化问题的求解，可使 $\alpha_k \mu_k \mu_k^T$ 和 $\beta_k v_k v_k^T$ 满足：
$\alpha_k \mu_k \mu_k^Ty_k = \delta_k \tag{43}$

$\beta_k v_k v_k^Ty_k = -G_ky_k \tag{44}$

不难找出这样的解，比如可以令
$\mu_k = \delta_k \tag{45}$

$v_k = G_ky_k \tag{46}$

将 $(45)$ 代入到 $(43)$ 可得
$\alpha_k \mu_k \mu_k^Ty_k=\alpha_k \delta_k \delta_k^Ty_k = \alpha_k \delta_k ( \delta_k^Ty_k ) = \alpha_k ( \delta_k^Ty_k )\delta_k = \delta_k \tag{47}$
这里利用了 $\delta_k^T y_k$ 是标量。从而得到
$\alpha_k = \frac{1}{\delta_k^Ty_k } \tag{48}$
同理，将 $(46)$ 代入 $(44)$ 可得
$\begin{aligned} \beta_k v_k v_k^T y_k &= \beta_k G_ky_k (G_ky_k )^T y_k \\ &= \beta_k G_ky_ky_k^TG_k^Ty_k \\ &= \beta_k G_ky_k (y_k^TG_ky_k)\\ &= \beta_k(y_k^TG_ky_k) G_ky_k \\ &= -G_ky_k \end{aligned} \tag{49}$
这里利用了 $G_k$ 是对称矩阵，以及 $y_k^TG_ky_k$ 也是标量。从而得到
$\beta_k = -\frac{1}{y_k^TG_ky_k} \tag{50}$

把 $(48), (50)$ 这两个解以及 $(45), (46)$ 代入 $(41)$ ，得到矩阵 $G_{k+1}$ 的迭代公式：
$G_{k+1} = G_k + \frac{\delta_k\delta_k^T}{ \delta_k^Ty_k } -\frac{G_ky_ky_k^TG_k}{y_k^TG_ky_k}\tag{51}$
称为DFP算法。如果初始矩阵 $G_0$ 是正定的，则迭代过程中每个矩阵 $G_k$ 都是正定的，通常初始矩阵可以选取单位阵。

DFP算法如下：

DFP算法

输入：目标函数 $f (x)$ ，梯度 $g(x)=\nabla f(x)$ ，精度要求 $\epsilon$ ；

输出： $f (x)$ 的极小点 $x^*$ 。

(1) 选定初始值 $x^{(0)}$ ，取 $G_0$ 为正定对称矩阵，置 $k = 0$ 。

(2) 计算 $g_k=g(x^{(k)})$ 。若 $||g_k||<\epsilon$ ，则停止计算，得近似解 $x^*=x^{(k)}$ ；否则转(3)。

(3) 置 $p_k=-G_kg_k$ 。

(4) 一维搜索：即求得 $\lambda_k$ 使得
$f(x^{(k)} + \lambda_k p_k) = \min_{\lambda \geq 0} f(x^{(k)} + \lambda p_k)$
(5) 置 $x^{(k+1)}=x^{(k)} + \lambda_kp_k$ 。

(6) 计算 $g_{k+1} = g(x^{(k+1)})$ ，若 $||g_{k+1} || < \epsilon$ ，则停止计算，得近似解 $x^*=x^{(k+1)}$ ；否则，按式 $(51)$ 算出 $G_{k+1}$ 。

(7) 置 $k = k + 1$ ，转(3)。

BFGS算法

BFGS(Broyden-Fletcher-Goldfarb-Shanno)算法以其4位发明人的名字命名，是最流行的拟牛顿算法。

该算法用 $B_k$ 近似海森矩阵，此时对应的拟牛顿条件是：
$B_{k+1}\delta_k = y_k \tag{52}$
用同样的方法得到另一个迭代公式，首先令
$B_{k+1} = B_k + \alpha_k \mu_k \mu_k^T + \beta_k v_k v_k^T \tag{53}$

$B_{k+1}\delta_k = B_k\delta_k + \alpha_k \mu_k \mu_k^T\delta_k + \beta_k v_k v_k^T\delta_k \tag{54}$

可使 $\alpha_k \mu_k \mu_k^T$ 和 $\beta_k v_k v_k^T$ 满足：
$\alpha_k \mu_k \mu_k^T\delta_k = y_k\tag{55}$

$\beta_k v_k v_k^T\delta_k = -B_k\delta_k \tag{56}$

不难找出这样的解，比如可以令
$\mu_k = y_k \tag{57}$

$v_k = B_k\delta_k \tag{58}$

分别将 $(57), (58)$ 代入 $(55), (56)$ ，可得
$\alpha_k y_k y_k^T \delta_k = \alpha_k y_k (y_k^T \delta_k) = \alpha_k (y_k^T \delta_k)y_k = y_k \Rightarrow \alpha_k = \frac{1}{y_k^T \delta_k} \tag{59}$
和
$\begin{aligned} \beta_k v_k v_k^T\delta_k &= \beta_k B_k\delta_k (B_k\delta_k)^T\delta_k\\ &= \beta_k B_k\delta_k \delta_k^TB_k\delta_k \\ &= \beta_k B_k\delta_k (\delta_k^TB_k\delta_k ) \\ &= \beta_k (\delta_k^TB_k\delta_k ) B_k\delta_k = -B_k\delta_k \end{aligned} \Rightarrow \beta_k = -\frac{1}{\delta_k^TB_k\delta_k} \tag{60}$

同理，代入 $(53)$ 可得BFGS算法的迭代公式：
$B_{k+1} = B_k + \frac{y_ky_k^T}{y_k^T \delta_k} -\frac{B_k\delta_k \delta_k^TB_k}{\delta_k^TB_k\delta_k} \tag{61}$
可以证明，如果初始矩阵 $B_0$ 是正定的，则迭代过程中的每个矩阵 $B_k$ 都是正定的。

下面写成BFGS拟牛顿法。

BFGS算法

输入：目标函数 $f (x)$ ，梯度 $g(x)=\nabla f(x)$ ，精度要求 $\epsilon$ ；

输出： $f (x)$ 的极小点 $x^*$ 。

(1) 选定初始值 $x^{(0)}$ ，取 $B_0$ 为正定对称矩阵，置 $k = 0$ 。

(2) 计算 $g_k=g(x^{(k)})$ 。若 $||g_k||<\epsilon$ ，则停止计算，得近似解 $x^*=x^{(k)}$ ；否则转(3)。

(3) 由 $B_kp_k=-g_k$ 求出 $p_k$ 。

(4) 一维搜索：即求得 $\lambda_k$ 使得
$f(x^{(k)} + \lambda_k p_k) = \min_{\lambda \geq 0} f(x^{(k)} + \lambda p_k)$
(5) 置 $x^{(k+1)}=x^{(k)} + \lambda_kp_k$ 。

(6) 计算 $g_{k+1} = g(x^{(k+1)})$ ，若 $||g_{k+1} || < \epsilon$ ，则停止计算，得近似解 $x^*=x^{(k+1)}$ ；否则，按式 $(61)$ 算出 $B_{k+1}$ 。

(7) 置 $k = k + 1$ ，转(3)。

BFGS算法在每次迭代时需要计算 $\times n$ 的矩阵 $B_k$ ，当 $n$ 很大时，存在该矩阵将耗费大量内容。为此， L-BFGS算法(有限存储的BFGS)算法进行了改进，其思想是不存才完整的矩阵 $B_k$ ，只存储向量 $\delta_k$ 和 $y_k$ 。

改进的迭代尺度法

改进的迭代尺度法(improved iterative scaling, IIS)是一种最大熵模型学习的最优化算法。

基于统计学习方法中最大熵模型内容。

假设已知最大熵模型为
$P_w(y|x) = \frac{1}{Z_w(x)} \exp\left( \sum_{i=1}^n w_if_i(x,y) \right)$
其中，
$Z_w(x) = \sum_y \exp \left( \sum_{i=1}^n w_if_i(x,y) \right)$
对数似然函数为
$\sum_{x,y} \tilde P(x,y) \sum_{i=1}^n w_if_i(x,y) - \sum_x \tilde P(x) \log Z_w(x)$
目标是通过极大似然估计学习模型参数，即求对数似然函数的极大值 $\hat w$ 。

IIS的想法是：假设最大熵模型当前的参数向量是 $w=(w_1,w_2,\cdots,w_n)^T$ ，希望找到一个新的向量 $w+\delta=(w_1+\delta_1,w_2+\delta_2,\cdots,w_n+\delta_n)^T$ ，使得模型的对数似然函数值增大。

如果能有这样一种参数向量更新的方法 $\tau: w \rightarrow w + \delta$ ，那么久可以重复使用这一方法，直到找到对数似然函数的最大值。

对于给定的经验分布 $\tilde P(x,y)$ ，模型参数从 $w$ 到 $w+\delta$ ，对数似然函数的改变量是
$\begin{aligned} L(w+\delta) - L(w) &= \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n (w_i+\delta_i)f_i(x,y) - \sum_x \tilde P(x) \log Z_{w+\delta}(x) - \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n w_if_i(x,y) + \sum_x \tilde P(x) \log Z_w(x) \\ &= \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_if_i(x,y) - \sum_x \tilde P(x) \log \frac{Z_{w+\delta}(x)}{Z_w(x)} \end{aligned}$
利用不等式
$-\log \alpha \geq 1 -\alpha, \quad \alpha > 0$
建立对数似然函数改变量的下界：
$\begin{aligned} L(w+\delta) - L(w) &\geq \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_i f_i(x,y) + 1 - \sum_x \tilde P(x) \frac{Z_{w+\delta}(x)}{Z_w(x)} \\ &= \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_i f_i(x,y) + 1 - \sum_x \tilde P(x) \frac{\sum_y\exp\left(\sum_{i=1}^n (w_i+\delta_i)f_i(x,y) \right)}{\sum_y\exp\left(\sum_{i=1}^n w_if_i(x,y) \right)} \\ &= \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_i f_i(x,y) + 1 - \sum_x \tilde P(x) \frac{\sum_y\exp \left(\sum_{i=1}^n w_if_i(x,y) \right) \cdot \exp(\sum_{i=1}^n\delta_if_i(x,y))}{\sum_y\exp\left(\sum_{i=1}^n w_if_i(x,y) \right)} \\ &= \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_i f_i(x,y) + 1 - \sum_x \tilde P(x) \sum_y P_w(y|x) \cdot \exp(\sum_{i=1}^n\delta_if_i(x,y)) \\ \end{aligned}$
记这个关于 $\delta$ 的函数为 $A(\delta|w)$ ：
$A(\delta|w) = \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_i f_i(x,y) + 1 - \sum_x \tilde P(x) \sum_y P_w(y|x) \cdot \exp(\sum_{i=1}^n\delta_if_i(x,y))$
代表了在已知参数 $w$ 的情况下所对应的 $\delta$ 的函数。

于是有
$L(w+\delta) -L(w) \geq A(\delta|w)$
即 $A(\delta|w)$ 是对数似然函数该变量的一个下界。

这个不等式为什么成立，这里来证明一下。

把这个不等式写成下面的形式：
$f(\alpha) = -\log \alpha - (1 -\alpha)$

它的函数图像是上面这样子的。

我们需要证明 $f(\alpha ) \geq 0$ ，其中 $\alpha > 0$ 。对上式求导数：
$f^\prime(\alpha) = -\frac{1}{\alpha} + 1 = \frac{\alpha-1}{\alpha}$
显然 $\alpha=1$ 时导数为零。

当 $\alpha > 1$ 时， $f^\prime (\alpha) > 0$ ，说明在 $\alpha > 1$ 是 $f(\alpha)$ 是单调递增的；
当 $\alpha > 0$ 时， $f^\prime(\alpha) < 0$ ，说明在 $\alpha > 0$ 时， $f(\alpha)$ 是单调递减的；

因此， $\alpha=1$ 是函数的极小值。把 $\alpha=1$ 代入得
$-\log 1 -(1-1) = 0$
说明 $f(\alpha ) \geq 0$ 。

如果能找到合适的 $\delta$ 式下界 $A(\delta|w)$ 提高，那么对数似然函数也会提高。但是，函数 $A(\delta|w)$ 中的 $\delta$ 是一个向量，含有多个变量，不利于同时优化。IIS试图一次只优化其中一个变量 $\delta_i$ ，而固定其他变量 $\delta_j ,\, i \neq j$ 。

为了达到这一目的，IIS进一步降低下界 $A(\delta|w)$ 。具体地，IIS引进一个量 $f^\#(x,y)$ ：
$f^\#(x,y) = \sum_i f_i(x,y)$
同时有：
$\frac{f_i(x,y)}{f^\#(x,y)} \geq 0$
且
$\sum_i \frac{f_i(x,y)}{f^\#(x,y)} =1$
显然这是成立的。

因为 $f_i$ 是二值函数，当特征函数满足时取1，否则取0。因此 $f^\#(x,y)$ 表示特征在 $(x, y)$ 出现的次数，对于固定的训练集来说是一个常量。这样 $A(\delta|w)$ 可以改写为：
$\begin{aligned} A(\delta|w) &= \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_if_i(x,y) + 1 - \sum_x \tilde P(x) \sum_y P_w(y|x) \exp \left( f^\#(x,y) \sum_{i=1}^n \frac{\delta_i f_i(x,y)}{f^\#(x,y)}\right) \end{aligned} \tag{62}$
如果尝试计算 $\frac{\partial A(\delta|w)}{\partial \delta_i}$ ，会发现第三项的 $\exp (\sum_i \delta_i f_i(x,y))$ 项不好消，还是会和所有的 $\delta_i$ 有关，因此我们尝试利用Jesen不等式，改写这个式子。

根据Jesen不等式，得到
$\exp \left( \sum_{i=1}^n \frac{ f_i(x,y)}{f^\#(x,y)} \delta_if^\#(x,y) \right) \leq \sum_{i=1}^n \frac{f_i(x,y)}{f^\#(x,y)} \exp(\delta_i f^\#(x,y))$

Jensen不等式的说明参见：EM算法

于是式 $(6.30)$ 可以改写为
$A(\delta|w) \geq \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_if_i(x,y) + 1 - \sum_x \tilde P(x) \sum_y P_w(y|x) \sum_{i=1}^n \left( \frac{f_i(x,y)}{f^\#(x,y)}\right) \exp(\delta_i f^\#(x,y)) \tag{63}$
记不等式右端为
$B(\delta|w) = \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_if_i(x,y) + 1 - \sum_x \tilde P(x) \sum_y P_w(y|x) \sum_{i=1}^n \left( \frac{f_i(x,y)}{f^\#(x,y)}\right) \exp(\delta_i f^\#(x,y))$
进而得到
$L(w+\delta) -L(w) \geq B(\delta|w)$
此时， $B(\delta|w)$ 是对数似然函数改变量的一个新的下界。

求 $B(\delta|w)$ 对 $\delta_i$ 的偏导数：
$\frac{\partial B(\delta|w)}{\partial \delta_i} = \sum_{x,y} \tilde P(x,y) f_i(x,y) - \sum_x \tilde P(x) \sum_y P_w(y|x) f_i(x,y) \exp(\delta_i f^\#(x,y)) \tag{64}$
在上式中，除 $\delta_i$ 外不含其他任何变量。令偏导数为0得到
$\sum_{x,y} \tilde P(x) P_w(y|x) f_i(x,y) \exp(\delta_if^\#(x,y)) = E_{\tilde P}(f_i) \tag{65}$
于是，依次对 $\delta_i$ 求解方程 $(65)$ 就可以求出 $\delta$ 。

这样就得到了一种求 $w$ 的最优解的迭代算法，即改进的迭代尺度算法IIS。

算法6.1 (改进的迭代尺度算法IIS)

输入：特征函数 $f_1,f_2,\cdots,f_n$ ；经验分布 $\tilde P(X,Y)$ ，模型 $P_w(y|x)$ ；

输出：最优参数值 $w^*_i$ ；最优模型 $P_{w^*}$ 。

(1) 对所有 $\in \{1,2,\cdots,n\}$ ，取初值 $w_i=0$ 。

(2) 对每一 $\in \{1,2,\cdots, n\}$

(a) 令 $\delta_i$ 是方程
$\sum_{x,y} \tilde P(x) P_w(y|x) f_i(x,y) \exp(\delta_if^\#(x,y)) = E_{\tilde P}(f_i)$
的解，这里，
$f^\#(x,y) = \sum_{i=1}^n f_i(x,y)$
(b) 更新 $w_i$ 值： $w_i \leftarrow w_i + \delta_i$ 。