文章目录
- 一、偏导数
- 二、目标函数(损失函数)求解方法
- 2.1 梯度下降法
- 2.2 坐标轴下降法
- 2.2.1 坐标轴下降法算法公式
- 2.2.2 坐标轴下降法算法过程
- 2.3 坐标轴下降法和梯度下降法的区别
- 三、概率
- 3.1 大数定律、中心极限定理
- 3.2 最大似然函数
- 3.3 概率知识
- 3.3.1 二项分布
- 3.3.2 多项分布
- 3.3.3 Beta分布
- 3.3.4 Beta分布和二项分布
- 3.3.5 Dirichlet分布
- 四、线性代数
- 4.1 QR分解、SVD分解
- 4.2 向量的导数
一、偏导数
二、目标函数(损失函数)求解方法
2.1 梯度下降法
2.2 坐标轴下降法
-
坐标轴下降法(Coordinate Descent, CD)是一种迭代法,通过启发式的方法一步步的迭代求解函数的最小值,和梯度下降法(GD)不同的时候,坐标轴下降法是沿着坐标轴的方向去下降,而不是采用梯度的负方向下降。
-
坐标轴下降法利用EM算法的思想,在参数更新过程中,每次均先固定m-1个参数值,求解剩下的一个参数的局部最优解;然后进行迭代式的更新操作。
-
坐标轴下降法的核心思想是多变量函数F(X)可以通过每次沿着一个方向优化来获取最小值;其数学依据是:对于一个可微凸函数f(θ),其中θ为n*1的向量。如果对于一个解θ=(θ1,θ2,…,θn),使得f(θ)在每一个坐标轴θi(i=1,2,…,n)上都能达到最小值,则 θ=(θ1,θ2,…,θn) 就是的f(θ)全局的最小值点。
2.2.1 坐标轴下降法算法公式
- 在坐标轴下降法中,优化方向从算法的一开始就固定了,即沿着坐标的方向进行变化。在算法中,循环最小化各个坐标方向的目标函数。 即:如果xk给定,那么xk+1的第i维度为:
- 因此,从一个初始的x0求得函数F(x)的局部最优解,可以迭代获取x0、x1、x2… 的序列,从而可以得到:
2.2.2 坐标轴下降法算法过程
- 给θ向量随机选取一个初值,记做θ0;
- 对于第k轮的迭代,从θ1k开始计算,θnk到为止,计算公式如下:
- 检查θk和θk-1向量在各个维度上的变化情况,如果所有维度的变化情况都比较小的话,那么认为结束迭代,否则继续k+1轮的迭代。
- 在求解每个参数局部最优解的时候可以用求导的方式来求解。
2.3 坐标轴下降法和梯度下降法的区别
-
坐标轴下降法在每次迭代中,计算当前点处沿一个坐标方向进行一维搜索 ,固定其它维度的坐标方向,找到一个函数的局部极小值。而梯度下降总是沿着梯度的负方向求函数的局部最小值;
-
坐标轴下降优化方法是一种非梯度优化算法。在整个过程中依次循环使用不同的坐标方向进行迭代,一个周期的一维搜索迭代过程相当于一个梯度下降的迭代;
-
梯度下降是利用目标函数的导数来确定搜索方向的,该梯度方向可能不与任何坐标轴平行。而坐标轴下降法是利用当前坐标方向进行搜索,不需要求目标函数的导数,只按照某一坐标方向进行搜索最小值;
-
两者都是迭代算法,且每一轮迭代都需要**O(mn)**的计算量(m为样本数,n为维度数)
三、概率
3.1 大数定律、中心极限定理
3.2 最大似然函数
3.3 概率知识
先验概率: 在事情尚未发生前,对该事件发生概率的估计。利用过去历史资料计算出来得到的先验概率叫做客观先验概率;凭主观经验来判断而得到的先验概率叫做主观先验概率。
后验概率: 通过调查或其它方式获取新的附加信息,利用贝叶斯公式对先验概率进行修正后,而得到的概率。
似然函数: 给定模型参数θ的条件下,样本数据服从这一概率模型的相似程度。
**先验分布:**反映在进行统计试验之前根据其他有关参数知识得到的分布;也就是说在观测获取样本之前,人们对θ已经有一些知识,此时这个θ的分布函数为H(θ),θ的密度函数为h(θ),分别称为先验分布函数和先验密度函数,统称先验分布。
**后验分布:**根据样本X的分布以及θ的先验分布π(θ),使用概率论中求解条件概率的方式可以计算出来已知X的条件下,θ的条件分布π(θ|x)。因为该分布是在获取样本x之后计算出来的,所以称为后验分布。
后验分布 = 历史数据(先验概率) + 样本(似然函数)
共轭分布:如果先验分布和后验分布具有相同的形式,那么先验分布和似然函数被称为共轭分布。
如:先验分布是一个正太分布,加上似然函数后形成的后验分布也是一个正太分布,那么先验分布和似然函数称为共轭分布。
3.3.1 二项分布
- 二项分布是从伯努利分布推导过来的。伯努利分布,又称两点分布或0-1分布,是一个离散型的随机分布,其中的随机变量只有两类取值,非正即负{+,-}。
- 而二项分布即重复n次的伯努利试验,记为 X ~ b(n,p);
- 简言之,只做一次实验,是伯努利分布,重复做了n次,是二项分布。
3.3.2 多项分布
-
多项分布(Multinomial Distribution)是二项分布的推广。
-
多项分布是指单次试验中的随机变量的取值不再是0/1的,而是有多种离散值可能(1,2,3…,k)。比如投掷6个面的骰子实验,N次实验结果服从K=6的多项分布。其中K个离散值的概率为:
3.3.3 Beta分布
Beta分布是二项分布的共轭分布,是指一组定义在(0,1)区间的连续概率分布,具有两个参数:α,β>0;
3.3.4 Beta分布和二项分布
-
我们认为当Beta分布作为先验分布,二项分布作为条件分布(似然函数),最终得到的后验分布的分布和Beta分布的分布形式相同。即,Beta分布作为其后验分布的分布形式。
-
除去系数不看,Beta分布和二项分布具有相同的形式。将Beta分布当做先验分布,将二项分布当做似然函数。
3.3.5 Dirichlet分布
Dirichlet分布是由Beta分布推广而来的,是多项式分布的共轭分布。
四、线性代数
4.1 QR分解、SVD分解
4.2 向量的导数