学习记录之数学表达式(5)

news2024/11/17 21:47:34

文章目录

  • 十、线性回归
    • 10.1 示例
    • 10.2 拟合
    • 10.3 推导
    • 10.4 岭回归
    • 10.5 作业
  • 十一、Logistic回归
    • 11.1 分割超平面
    • 11.2 点到直线的距离
    • 11.3 sigmoid函数
    • 11.4 优化目标
    • 11.5 求解
    • 11.6 作业

十、线性回归

  线性回归是一个常用的机器学习算法;

10.1 示例

  • 表 1.单变量的股价预测
时间(天)股价
110
211
3?

  令 x 表示第 x 天, y = f ( x ) y=f(x) y=f(x) 表示第 x 天的股价,由此建立线性模型:
y = f ( x ) = a x + b y = f(x) = ax + b y=f(x)=ax+b
  求系数 a 和 b.
解:
{ 10 = 1 a + b 11 = 2 a + b ⇒ { a = 1 b = 9 ⇒ f ( x ) = x + 9 \left\{ \begin{matrix} 10 = 1a + b \\ 11 = 2a + b \end{matrix} \right. \Rightarrow \left\{ \begin{matrix} a = 1 \\ b = 9 \end{matrix} \right. \Rightarrow f(x) = x + 9 {10=1a+b11=2a+b{a=1b=9f(x)=x+9
  源码为:\left{ \begin{matrix} 10 = 1a + b \ 11 = 2a + b \end{matrix} \right. \Rightarrow \left{ \begin{matrix} a = 1 \ b = 9 \end{matrix} \right. \Rightarrow f(x) = x + 9;
  将 x = 3 带入,可以预测第 3 天的股价为 12 元;

  • 表 2.多变量的股价预测
时间(天)外围股指股价
12500010
22550011
32560011.4
425800

  令 x 1 x_1 x1 表示时间, x 2 x_2 x2 表示外围股数, y y y 表示股价,由此建立线性模型:
y = f ( x 1 , x 2 ) = a 1 x 1 + a 2 x 2 + b (1) y = f(x_1,x_2) = a_1x_1 + a_2x_2 + b \tag{1} y=f(x1,x2)=a1x1+a2x2+b(1)
  由于有三个变量 a 1 , a 2 , b a_1,a_2,b a1,a2,b,因此需要用三天的数据求得它们;
{ 10 = 1 a 1 + 25000 a 2 + b 11 = 2 a 1 + 25500 a 2 + b 11.4 = 3 a 1 + 25600 a 2 + b \left\{ \begin{matrix} 10 = 1a_1 + 25000a_2 + b \\ 11 = 2a_1 + 25500a_2 + b \\ 11.4 = 3a_1 + 25600a_2 + b \end{matrix} \right. 10=1a1+25000a2+b11=2a1+25500a2+b11.4=3a1+25600a2+b
  然后就可以对第 4 天的股价进行预测;
  但是当自变量(属性)较多时,这样写太麻烦;
  因此可以将第 i 天的数据写成向量 x i = [ x i 1 , … , x i m ] \mathbf{x}_{i} = [x_{i1},\dots,x_{im}] xi=[xi1,,xim],相应的系数写为 w = [ w 1 , … , w m ] \mathbf{w} = [w_1,\dots,w_m] w=[w1,,wm],则(1)式可以修改为:
y i = x i w + b (2) y_i = \mathbf{x}_i\mathbf{w} + b \tag{2} yi=xiw+b(2)
  进一步地,扩展 x i = [ x i 0 , x i 1 , … , x i m ] \mathbf{x}_i = [x_{i0},x_{i1},\dots,x_{im}] xi=[xi0,xi1,,xim],其中 x i 0 ≡ 1 x_{i0} \equiv 1 xi01
  同时扩展 w = [ w 0 , w 1 , … , w m ] T \mathbf{w} = [w_0,w_1,\dots,w_m]^{\mathrm{T}} w=[w0,w1,,wm]T,其中 w 0 = b w_0 = b w0=b,则(2)式改写为:
y i = x i w (3) y_i = \mathbf{x}_{i} \mathbf{w} \tag{3} yi=xiw(3)
  该方案看起来很完美,但是在实际数据中, m m m 个属性远远不止 m + 1 m+1 m+1 条训练数据,因此需要更加复杂的方案;

10.2 拟合

  给定数据集 X = [ x i j ] n × ( m + 1 ) \mathbf{X} = [x_{ij}]_{n \times (m+1)} X=[xij]n×(m+1) 与其标签 Y = [ y 1 , … , y N ] T \mathbf{Y} = [y_1,\dots,y_N]^{\mathrm{T}} Y=[y1,,yN]T,线性回归的目的是获得一个系数向量 w \mathbf{w} w (它是 ( m + 1 ) × 1 (m+1)\times 1 (m+1)×1 列向量)使得 X w ≈ Y \mathbf{X} \mathbf{w} \approx \mathbf{Y} XwY,源码为:\mathbf{X} \mathbf{w} \approx \mathbf{Y};或者更为准确地说,是:
arg ⁡ w min ⁡ ∥ X w − Y ∥ 2 2 (4) \arg_{\mathbf{w}}\min \Vert \mathbf{X}_{\mathbf{w}} - \mathbf{Y} \Vert_{2}^{2} \tag{4} argwminXwY22(4)
  源码为:\arg_{\mathbf{w}}\min \Vert \mathbf{X}{\mathbf{w}} - \mathbf{Y} \Vert{2}^{2} \tag{4};
  注意:双竖线在Latex中需要换成 | 表示;另外,这里已经扩展了 X \mathbf{X} X w \mathbf{w} w
  表 2 所对应的:
X = [ 1 1 25000 1 2 25500 1 3 25600 ] \mathbf{X} = \left[ \begin{matrix} 1&1&25000 \\ 1&2&25500 \\ 1&3&25600 \end{matrix} \right] X= 111123250002550025600
  源码为:\mathbf{X} = \left[ \begin{matrix} 1&1&25000 \ 1&2&25500 \ 1&3&25600 \end{matrix} \right];
  分析:

  • 希望使用 ∑ j = 0 m x i j w j \sum_{j=0}^{m} x_{ij}w{j} j=0mxijwj 来拟合 y j y_j yj
  • 对于新的实例 x \mathbf{x} x ,则将 x w \mathbf{xw} xw 作为 y y y 的预测值;
  • X \mathbf{X} X w \mathbf{w} w 的维度分别为 n × ( m + 1 ) n \times (m + 1) n×(m+1) ( m + 1 ) × 1 (m+1)\times 1 (m+1)×1,因此其乘积的维度为 n × 1 n \times 1 n×1
  • 复习矩阵的乘法 A = U V \mathbf{A} = \mathbf{U}\mathbf{V} A=UV,则 a i j a_{ij} aij U \mathbf{U} U 的第 i i i 行与 U \mathbf{U} U j j j 行的乘积;

10.3 推导

  如何获得 w \mathbf{w} w ?
  推导过程:
∣ ∣ X w − Y ∣ ∣ 2 2 = ( X w − Y ) T ( X w − Y ) = ( w T X T − Y T ) ( X w − Y ) = w T X T X w − w T X T Y − Y T X w + Y T Y \begin{array}{ll}||\mathbf{X} \mathbf{w} - \mathbf{Y}||_2^2 &= (\mathbf{X} \mathbf{w} - \mathbf{Y})^{\textrm{T}} (\mathbf{X} \mathbf{w} - \mathbf{Y})\\ &= (\mathbf{w}^{\textrm{T}} \mathbf{X}^{\mathrm{T}} - \mathbf{Y}^{\mathrm{T}}) (\mathbf{X} \mathbf{w} - \mathbf{Y})\\ &= \mathbf{w}^{\mathrm{T}} \mathbf{X}^{\mathrm{T}}\mathbf{X} \mathbf{w} - \mathbf{w}^{\mathrm{T}} \mathbf{X}^{\mathrm{T}}\mathbf{Y} - \mathbf{Y}^{\mathrm{T}}\mathbf{X} \mathbf{w}+\mathbf{Y}^{\mathrm{T}}\mathbf{Y} \end{array} ∣∣XwY22=(XwY)T(XwY)=(wTXTYT)(XwY)=wTXTXwwTXTYYTXw+YTY
  将该式关于 w \mathbf{w} w 求导(使用向量求导法则)并令其为0,可得:
  KaTeX parse error: Expected 'EOF', got '}' at position 80: …m{T}}\mathbf{Y}}̲ = 0
  最后: w = ( X T X ) − 1 X T Y \mathbf{w} = \left( \mathbf{X}^{\mathbf{T}} \mathbf{X} \right)^{-1}\mathbf{X}^{\mathrm{T}}\mathbf{Y} w=(XTX)1XTY
  更多知识请点击:向量求导法则和线性回归与最小二乘法;

  • 注意:若公式需要对齐,在需要对齐的地方加&,并加换行符\

10.4 岭回归

  将优化目标改为:
arg ⁡ w min ⁡ ∥ X w − Y ∥ 2 2 + λ ∥ w ∥ 2 2 (5) \arg_{\mathbf{w}}\min \Vert \mathbf{X}_{\mathbf{w}} - \mathbf{Y} \Vert_{2}^{2} + \lambda \Vert \mathbf{w} \Vert_{2}^{2} \tag{5} argwminXwY22+λw22(5)
  源码为:\arg_{\mathbf{w}}\min \Vert \mathbf{X}{\mathbf{w}} - \mathbf{Y} \Vert{2}^{2} + \lambda \Vert \mathbf{w} \Vert_{2}^{2} \tag{5};
  可以推导出: X T X w − X T Y + λ w = 0 \mathbf{X}^{\mathrm{T}}\mathbf{X}\mathbf{w} - \mathbf{X}^{\mathrm{T}} \mathbf{Y} + \lambda\mathbf{w} = 0 XTXwXTY+λw=0
  最后: w = ( X T X + λ I ) − 1 X T Y \mathbf{w} = \left( \mathbf{X}^{\mathrm{T}}\mathbf{X} + \lambda \mathbf{I}\right)^{-1} \mathbf{X}^{\mathrm{T}}\mathbf{Y} w=(XTX+λI)1XTY

10.5 作业

  • 写一个小例子 ( n = 3 , m = 1 ) \left( n=3,m=1 \right) (n=3,m=1) 来验证最小二乘法;

首先解释一下m与n的含义:
  在最小二乘法中,n通常表示数据点的数量。可以理解为:在拟合一条直线或者更高层次的多项式到一组数据点时,n代表拥有的观测值(即数据点)的数量。
  若有一组(x,y)的数据,那么n表示数据点的数量,等于数组x和y的长度。
x: [x1, x2, x3, ..., xn] y: [y1, y2, y3, ..., yn]
在最小二乘法的计算中,需要使用所有n个数据点来计算残差平方和,并找到使这个和最小的参数值(如直线的斜率和截距)。这些参数通过最小化残差平方和(即每个数据点的预测值与实际观测值之间的差的平方和)来确定。

  因此,在上述例子中,n=3, m=1,这里的 n=3 表示有三个数据点,而 m=1 表示正在拟合的直线的斜率被固定为1(在该特定例子中,我们只需要找到截距即可)。

  • 假设有以下三个数据点:
  • x: [1, 2, 3] y: [2, 3, 5]
  • 由于m=1,因此直线假设为y=x+b。最小二乘法的目标是找到使以下残差平方和最小的 b 值: S ( b ) = ∑ i = 1 n ( y i − ( x i + b ) ) 2 S(b) = \sum_{i=1}{n} (y_i - (x_i + b))^2 S(b)=i=1n(yi(xi+b))2
  • 将三组(x,y)代入得: S ( b ) = ( 2 − ( 1 + b ) ) 2 + ( 3 − ( 2 + b ) ) 2 + ( 5 − ( 3 + b ) ) 2 S(b) = (2 - (1 + b))^2 + (3 - (2 + b))^2 + (5 - (3 + b))^2 S(b)=(2(1+b))2+(3(2+b))2+(5(3+b))2
  • 化解可得: S ( b ) = 3 b 2 − 8 b + 6 S(b) = 3b^2 - 8b + 6 S(b)=3b28b+6
  • 为找到S(b)的最小值,对S(b)关于b求导并令其等于0
  • 解得: b = 4 3 b=\frac{4}{3} b=34
  • 将b值代入直线可得: y = x + 4 3 y = x + \frac{4}{3} y=x+34 3 y = 3 x + 4 3y = 3x + 4 3y=3x+4

十一、Logistic回归

  logistic回归用于分类,特别是二分类(仅有两个类别)。

11.1 分割超平面

  • 线性分类模型的目标,是找到一个超平面,把正例、负例分割;
  • 问题:如何评价每个超平面的性能?
  • 方案之一,是最小化错分对象的数量,但如果多个超平面都有满足条件怎么办?
  • 哪个超平面是最优的,就体现不同算法的设计理念;
  • 方案之二,就是根据每个对象到超平面的距离,来计算损失;如果分类正确,则离超平面越远越好;如果错误分类,则离超平面越近越好;
    在这里插入图片描述
图11.1 分割超平面

11.2 点到直线的距离

  • m \mathbf{m} m 维空间上, m \mathbf{m} m 维向量 w \mathbf{w} w 确定了一条直线;
  • 为方便起见,令 w \mathbf{w} w 为列向量;
  • x \mathbf{x} x w \mathbf{w} w 的距离为 x w \mathbf{xw} xw
  • 这个距离带符号,正号代表 x \mathbf{x} x w \mathbf{w} w 的某一边,负号则表示另一边;
  • 参见《高等数学》;

11.3 sigmoid函数

在这里插入图片描述

  • x \mathbf{x} x 到超平面的距离(带符号)取值范围为: ( − ∞ , + ∞ ) \left( -\infty , +\infty \right) (,+),希望将其转成概率;
  • 如果距离为负而且离超平面很远,则它为正例的概率就接近0;
  • 如果距离为正而且离超平面很远,则它为正例的概率就接近1;
  • 使用sigmoid函数将距离转换为(我们以为的)概率;

P ( y = 1 ∣ x ; w ) = 1 1 + e − x w (1) P \left( y=1 \vert \mathbf{x} ; \mathbf{w} \right) = \frac{1}{1+e^{-\mathbf{xw}}} \tag{1} P(y=1∣x;w)=1+exw1(1)
  源码为:P \left( y=1 \vert \mathbf{x} ; \mathbf{w} \right) = \frac{1}{1+e^{-\mathbf{xw}}};

11.4 优化目标

  • 统一 y i \mathbf{y}_{i} yi 不同取值(0或1):
    P ( y i ∣ x i ; w ) = P ( y i = 1 ∣ x i ; w ) y i ( 1 − P ( y i = 1 ∣ x i ; w ) ) 1 − y i (2) P\left( \mathbf{y}_{i} \vert \mathbf{x}_{i} ; \mathbf{w} \right) = P\left( \mathbf{y}_{i} =1 \vert \mathbf{x}_{i} ; \mathbf{w} \right)^{\mathbf{y}_{i}} \left( 1-P\left( \mathbf{y}_{i}=1 \vert \mathbf{x}_{i}; \mathbf{w} \right) \right)^{1-\mathbf{y}_{i}} \tag{2} P(yixi;w)=P(yi=1∣xi;w)yi(1P(yi=1∣xi;w))1yi(2)
    显然,这个概率越大越好;
    要针对全部对象进行优化,可将相应的概率相乘(最大似然,maximal likelihood):
    arg ⁡ w max ⁡ L ( w ) = ∏ i = 1 n P ( y i ∣ x i ; w ) (3) \arg_{\mathbf{w}}\max \mathrm{L}(\mathbf{w}) = \prod_{i=1}^{n} P(\mathbf{y}_{i} \vert \mathbf{x}_{i};\mathbf{w}) \tag{3} argwmaxL(w)=i=1nP(yixi;w)(3)

11.5 求解

  相乘计算困难,将其求一个对数,不改变单调性:
log ⁡ L ( w ) = ∑ i = 1 n log ⁡ P ( y i ∣ x i ; w ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) + ( 1 − y i ) log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) 1 − P ( y i = 1 ∣ x i ; w ) + log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i x i w − log ⁡ ( 1 + e x i w ) (4) \begin{aligned} \log L(\mathbf{w}) &= \sum_{i=1}^{n} \log P(\mathbf{y}_{i} \vert \mathbf{x}_{i};\mathbf{w}) \\ &= \sum_{i=1}^{n} \mathbf{y}_{i} \log P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w}) + (1-\mathbf{y}_{i}) \log(1-P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})) \\ &= \sum_{i=1}^{n} \mathbf{y}_{i} \log \frac{P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})}{1-P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})}+ \log(1-P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})) \\ &= \sum_{i=1}^{n} \mathbf{y}_{i} \mathbf{x}_{i} \mathbf{w} - \log(1+e^{\mathbf{x}_{i}\mathbf{w}}) \end{aligned} \tag{4} logL(w)=i=1nlogP(yixi;w)=i=1nyilogP(yi=1∣xi;w)+(1yi)log(1P(yi=1∣xi;w))=i=1nyilog1P(yi=1∣xi;w)P(yi=1∣xi;w)+log(1P(yi=1∣xi;w))=i=1nyixiwlog(1+exiw)(4)

  • 源码为:
    \begin{aligned} \log L(\mathbf{w})
    &= \sum_{i=1}^{n} \log P(\mathbf{y}{i} \vert \mathbf{x}{i};\mathbf{w}) \
    &= \sum_{i=1}^{n} \mathbf{y}{i} \log P(\mathbf{y}{i}=1 \vert \mathbf{x}{i};\mathbf{w}) + (1-\mathbf{y}{i}) \log(1-P(\mathbf{y}{i}=1 \vert \mathbf{x}{i};\mathbf{w})) \
    &= \sum_{i=1}^{n} \mathbf{y}{i} \log \frac{P(\mathbf{y}{i}=1 \vert \mathbf{x}{i};\mathbf{w})}{1-P(\mathbf{y}{i}=1 \vert \mathbf{x}{i};\mathbf{w})}+ \log(1-P(\mathbf{y}{i}=1 \vert \mathbf{x}{i};\mathbf{w})) \
    &= \sum
    {i=1}^{n} \mathbf{y}{i} \mathbf{x}{i} \mathbf{w} - \log(1+e^{\mathbf{x}_{i}\mathbf{w}})
    \end{aligned} \tag{4}

  对 w \mathbf{w} w 求编导:
∂ log ⁡ L ( w ) ∂ w = ∑ i = 1 n y i x i − e x i w 1 + e x i w x i = ∑ i = 1 n ( y i − e x i w 1 + e x i w ) x i (5) \begin{aligned} \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}} &= \sum_{i=1}^{n}\mathbf{y}_{i} \mathbf{x}_{i} - \frac{e^{\mathbf{x}_{i}\mathbf{w}}}{1+e^{\mathbf{x}_{i}\mathbf{w}}}\mathbf{x}_{i} \\ &= \sum_{i=1}^{n}\left(\mathbf{y}_{i} - \frac{e^{\mathbf{x}_{i}\mathbf{w}}}{1+e^{\mathbf{x}_{i}\mathbf{w}}} \right) \mathbf{x}_{i} \end{aligned} \tag{5} wlogL(w)=i=1nyixi1+exiwexiwxi=i=1n(yi1+exiwexiw)xi(5)

  • 源码为:
    \begin{aligned}
    \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}}
    &= \sum_{i=1}^{n}\mathbf{y}{i} \mathbf{x}{i} - \frac{e{\mathbf{x}_{i}\mathbf{w}}}{1+e{\mathbf{x}{i}\mathbf{w}}}\mathbf{x}{i} \
    &= \sum_{i=1}^{n}\left(\mathbf{y}{i} - \frac{e{\mathbf{x}_{i}\mathbf{w}}}{1+e{\mathbf{x}{i}\mathbf{w}}} \right) \mathbf{x}_{i}
    \end{aligned} \tag{5}

  令该偏导为0,无法获得解析式,因此用梯度下降:
w t + 1 = w t − α ∂ log ⁡ L ( w ) ∂ w (6) \mathbf{w}^{t+1} = \mathbf{w}^{t} - \alpha \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}} \tag{6} wt+1=wtαwlogL(w)(6)

11.6 作业

  自己推导一遍,并描述这个方法的特点(不少于5条)

  推导过程如下:

  • m \mathbf{m} m维空间上,由点到直线的距离可得:点 x \mathbf{x} x m \mathbf{m} m维超平面上的 m \mathbf{m} m维向量 w \mathbf{w} w可确定一条直线,将 w \mathbf{w} w表示为列向量,则点 x \mathbf{x} x w \mathbf{w} w之间的距离为 x w \mathbf{xw} xw
  • 接着,使用Sigmoid激活函数将距离转换到0和1之间:若距离为负且离超平面很远,则输出接近0;若距离为正且离超平面远,则输出接近1。可表示为下述式子:
    P ( y = 1 ∣ x ; w ) = 1 1 + e − x w P \left( y=1 \vert \mathbf{x} ; \mathbf{w} \right) = \frac{1}{1+e^{-\mathbf{xw}}} P(y=1∣x;w)=1+exw1
  • 统一 y i \mathbf{y}_{i} yi 不同取值(0或1):
    P ( y i ∣ x i ; w ) = P ( y i = 1 ∣ x i ; w ) y i ( 1 − P ( y i = 1 ∣ x i ; w ) ) 1 − y i P\left( \mathbf{y}_{i} \vert \mathbf{x}_{i} ; \mathbf{w} \right) = P\left( \mathbf{y}_{i} =1 \vert \mathbf{x}_{i} ; \mathbf{w} \right)^{\mathbf{y}_{i}} \left( 1-P\left( \mathbf{y}_{i}=1 \vert \mathbf{x}_{i}; \mathbf{w} \right) \right)^{1-\mathbf{y}_{i}} P(yixi;w)=P(yi=1∣xi;w)yi(1P(yi=1∣xi;w))1yi
  • 显然,这个概率越大越好。要针对全部对象进行优化,可将相应的概率相乘:
    arg ⁡ w max ⁡ L ( w ) = ∏ i = 1 n P ( y i ∣ x i ; w ) \arg_{\mathbf{w}}\max \mathrm{L}(\mathbf{w}) = \prod_{i=1}^{n} P(\mathbf{y}_{i} \vert \mathbf{x}_{i};\mathbf{w}) argwmaxL(w)=i=1nP(yixi;w)
  • 简化求解:将其求一个对数,不改变单调性:
    log ⁡ L ( w ) = ∑ i = 1 n log ⁡ P ( y i ∣ x i ; w ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) + ( 1 − y i ) log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i log ⁡ P ( y i = 1 ∣ x i ; w ) 1 − P ( y i = 1 ∣ x i ; w ) + log ⁡ ( 1 − P ( y i = 1 ∣ x i ; w ) ) = ∑ i = 1 n y i x i w − log ⁡ ( 1 + e x i w ) \begin{aligned} \log L(\mathbf{w}) &= \sum_{i=1}^{n} \log P(\mathbf{y}_{i} \vert \mathbf{x}_{i};\mathbf{w}) \\ &= \sum_{i=1}^{n} \mathbf{y}_{i} \log P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w}) + (1-\mathbf{y}_{i}) \log(1-P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})) \\ &= \sum_{i=1}^{n} \mathbf{y}_{i} \log \frac{P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})}{1-P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})}+ \log(1-P(\mathbf{y}_{i}=1 \vert \mathbf{x}_{i};\mathbf{w})) \\ &= \sum_{i=1}^{n} \mathbf{y}_{i} \mathbf{x}_{i} \mathbf{w} - \log(1+e^{\mathbf{x}_{i}\mathbf{w}}) \end{aligned} logL(w)=i=1nlogP(yixi;w)=i=1nyilogP(yi=1∣xi;w)+(1yi)log(1P(yi=1∣xi;w))=i=1nyilog1P(yi=1∣xi;w)P(yi=1∣xi;w)+log(1P(yi=1∣xi;w))=i=1nyixiwlog(1+exiw)
  • w \mathbf{w} w 求编导:
    ∂ log ⁡ L ( w ) ∂ w = ∑ i = 1 n y i x i − e x i w 1 + e x i w x i = ∑ i = 1 n ( y i − e x i w 1 + e x i w ) x i \begin{aligned} \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}} &= \sum_{i=1}^{n}\mathbf{y}_{i} \mathbf{x}_{i} - \frac{e^{\mathbf{x}_{i}\mathbf{w}}}{1+e^{\mathbf{x}_{i}\mathbf{w}}}\mathbf{x}_{i} \\ &= \sum_{i=1}^{n}\left(\mathbf{y}_{i} - \frac{e^{\mathbf{x}_{i}\mathbf{w}}}{1+e^{\mathbf{x}_{i}\mathbf{w}}} \right) \mathbf{x}_{i} \end{aligned} wlogL(w)=i=1nyixi1+exiwexiwxi=i=1n(yi1+exiwexiw)xi
  • 令该偏导为0,无法获得解析式,因此用梯度下降:
    w t + 1 = w t − α ∂ log ⁡ L ( w ) ∂ w \mathbf{w}^{t+1} = \mathbf{w}^{t} - \alpha \frac{\partial \log L(\mathbf{w})}{\partial \mathbf{w}} wt+1=wtαwlogL(w)
  • 特点
    将损失用距离表示,并转换为概率;
    损失函数不同,得到的分类可能不同;
    使用对数相关公式对函数进行化解;
    y i \mathbf{y}_i yi的两种取值的不同情况用同一个式子表示出来;
    使用Sigmoid激活函数将距离转换到0和1之间,实现二分类;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1857283.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

推荐一款好用的浏览器翻译插件——欧路翻译

近些年,机器翻译的效果越来越好,于是也有更多的开发者,开发了免费使用的浏览器翻译插件。这大大的帮助了我们查看国外的网站,有利于大家获取更多的信息。 在此,给大家推荐一款免费好用的浏览器插件——欧路翻译。支持…

百元左右蓝牙耳机的牌子有哪些?盘点性价比最高的百元机推荐

随着智能手机的普及,蓝牙耳机以其便携性和灵活性逐渐成为人们日常生活不可或缺的配件。尤其是百元左右的蓝牙耳机,因其价格亲民且功能齐全,深受广大消费者的青睐。无论是通勤途中隔绝嘈杂,还是运动时候的动感伴侣,或是…

GPT-5:AI新时代的曙光与我们的准备

一、引言:GPT-5的即将来临 随着科技的飞速发展,人工智能领域正迎来一场前所未有的变革。OpenAI再次引领了这场变革的浪潮,即将发布的GPT-5无疑将成为AI领域的一颗璀璨明星。从GPT-4到GPT-5,每一次的迭代都代表着AI技术的巨大飞跃…

[保姆级教程]在uniapp中使用vant框架

文章目录 导文安装 Vant在uniapp项目中的pages.json中配置easycom,实现组件的自动按需引入:在页面中使用Vant Weapp组件,例如使用按钮组件(Button):其他安装报错官网地址 导文 在 uni-app 中使用 Vant 框架…

使用 GitHub Actions 编译和发布 Android APK

使用 GitHub Actions 编译和发布 Android APK 在现代软件开发中,持续集成和持续部署(CI/CD)已成为不可或缺的一部分。对于 Android 开发者来说,自动化编译和发布 APK 不仅节省时间,还能确保每次发布的一致性。本文将介…

人工智能大模型走向“百花齐放”

前言 去年以来,人工智能大模型浪潮持续涌动。国内外一大批创新企业和高校院所加大研究力度,纷纷推出各自的大模型产品,尤其国产大模型取得了长足进步,大量高质量模型百花齐放,助力中国成为全球人工智能发展的领头羊之…

cmake或vcpkg安装opencv-contrib中遇到raw.githubusercontent.com下载文件失败的错误记录

问题总结:你的网络无法正常在raw.githubusercontent.com网站中下载文件 问题解决:将你的梯子切换为全局的美国节点(香港、日本等均不可行) 问题记录—— cmake: 我在opencv_code中放置了opencv和opencv-contrib的sou…

新建的springboot项目启动报错:找不到或无法加载主类

检查编译问题 在使用Spring Boot时,我们通常使用Maven或Gradle进行项目的构建和编译。如果在编译过程中出现了错误,可能会导致无法加载主类的问题。 在使用Maven时,可以尝试使用 mvn clean install 命令清理并重新构建项目。 如果使用Grad…

Hi3861 OpenHarmony嵌入式应用入门--LiteOS Event

CMSIS 2.0接口使用事件标志是实时操作系统(RTOS)中一种重要的同步机制。事件标志是一种轻量级的同步原语,用于任务间或中断服务程序(ISR)之间的通信。 每个事件标志对象可以包含多个标志位,通常最多为31个&…

LabVIEW高精度电能质量监测系统

LabVIEW和研华采集卡的高精度电能质量监测系统利用虚拟仪器技术,实时监测电能质量的关键指标,如三相电压、频率和谐波。通过提高监测精度和效率,改善电网的电能质量。系 一、系统背景 电能作为现代社会的关键能源,其质量直接影响…

MySQl配置环境变量

配置环境变量 (a)添加一个系统变量,变量名:CATALINA-HOME,变量值:MySql在自己电脑当中的安装路径,注意:5.7版本需要配置的路径是MySQL.Sever5.7的文件夹路径。 (b)在Path变量的结尾添加一个英文分号,之后把上面添加的路径导入进去(%CATALINA-HOME%)在这个结尾处添加\bin. (2)登…

Python爬虫项目集:豆瓣电影排行榜top250

关于整理日常练习的一些爬虫小练习,可用作学习使用。 爬取项目以学习为主,尽可能使用更多的模块进行练习,而不是最优解。 爬虫概要 示例python 库爬取模块request解析模块BeautifulSoup存储类型list(方便存入数据库&#xff09…

GPT+网络安全,新时代风口如何把握?

GPT-5 一年半后发布?对此你有何期待? 前言 IT之家6月22日消息,在美国达特茅斯工程学院周四公布的采访中,OpenAI首席技术官米拉穆拉蒂被问及GPT-5是否会在明年发布,给出了肯定答案并表示将在一年半后发布。此外&#…

应用图扑 HT for Web 搭建拓扑关系图

拓扑结构在计算机网络设计和通信领域中非常重要,因为它描述了网络中的设备(即“点”)如何相互连接(即通过“线”)。这种结构不仅涉及物理布局,即物理拓扑,还可以涉及逻辑或虚拟的连接方式&#…

iOS Swift5 视频播放

文章目录 1.截图2.代码3.导入本地文件 1.截图 2.代码 import UIKit import AVKit import AVFoundationclass ViewController: UIViewController {override func viewDidLoad() {super.viewDidLoad()view.backgroundColor .white// 创建按钮let button UIButton(type: .syste…

【数据结构】程序填空题

假设顺序表的长度为 n 【插入操作】若在位序 1 处插入元素,则需要移动(n)个元素若在位序 n1 处插入元素,则需要移动(0)个元素若在位序 i (1≤i≤n1) 处插入元素,则需要移动(n-i1&…

stm32学习笔记---EXTI外部中断(理论部分)

目录 STM32的中断 NVIC的基本结构 中断的优先级 优先级分组 EXTI(Extern Interrupt)外部中断 支持的触发方式 支持的GPIO口 外部中断占用的通道 外部中断的触发响应方式 外部中断的基本结构 GPIO口的外设 AFIO中断引脚选择 EXTI边沿检测及控…

HCIP-数通 V1.0 培训教材总结01

HCIP-数通 V1.0 培训教材总结01 01 认识网络设备框式设备及其硬件模块盒式设备框式、盒式设备的区别网络设备逻辑架构网络设备对报文的处理流程 01 认识网络设备 框式设备及其硬件模块 S12700E-8 (S-switch,交换机) (8,业务槽位…

构建LangChain应用程序的示例代码:38、自主RAG的概念及其实现方法,使用LangChain和OpenAI工具从头开始构建一个结合检索和生成的系统

# 安装必要的库 ! pip install langchain_community tiktoken langchain-openai langchainhub chromadb langchain langgraph自主RAG (Self-RAG) 自主RAG是最近的一篇论文,介绍了一种用于主动RAG的有趣方法。 该框架训练单个任意的语言模型(如LLaMA2-7…

u盘sd卡格式化怎么恢复,3种恢复方法教学

u盘sd卡格式化怎么恢复,这是许多人在误操作后最关心的问题。我们会详细介绍五种有效的恢复方法,并且提供恢复原理的教学视频,帮助您轻松找回U盘和SD卡上被格式化的数据。 一. 数据存储与恢复的原理 1. U盘、移动硬盘、硬盘以及固态盘存储数据…