大数据机器学习算法和计算机视觉应用07:机器学习

news2025/2/14 6:31:56

Machine Learning

  • Goal of Machine Learning
  • Linear Classification
  • Solution
  • Numerical output example: linear regression
  • Stochastic Gradient Descent
  • Matrix Acceleration

Goal of Machine Learning 机器学习的目标

假设现在有一组数据 x i , y i {x_i,y_i} xi,yi,其中 x c ∈ R d x_c \in \R^d xcRd,d指的是特征数,而 y c ∈ R y_c \in \R ycR标签值(label)

上述数据被称为训练集(training data set)。而机器学习的目的就是训练一个模型(model)(或者假说) h h h在某种条件下最贴近该训练集数据。

现在假设出现了一个新的点 x ∗ ∈ R d x* \in \R^d xRd,我们需要用我们的模型去预测其标签值 y ∗ y* y,这个值 x ∗ x* x就被称作检验数据(test data),模型检测标签值的准确程度被叫做泛化误差(generalization error)

Linear Classification 线性分类

上述情景的一个经典例子是线性分类。

条件:在平面上有一堆红色的点和黑色的点。

目标:找到一条直线,使得所有红色的点都在直线一侧,而黑色点都在直线另一侧。

我们保证这个直线是存在的,如何找到满足条件的直线呢?

我们将点到直线的垂直距离记为模型的标签值,并且希望所有红色点的垂直距离为正,而黑色点的垂直距离为负,这样他们就一定分布在直线的异侧。

因此我们得到训练集:
( x 1 , 0 ) , ( x 2 , 1 ) , ⋯ (x_1,0),(x2,1),\dotsb (x1,0),(x2,1),
其中标签值为0表示红色点,为1表示黑色点。

目标:我们将所有的 x i x_i xi丢到模型里面,模型给出的标签值可以和训练集的标签值尽量一致。

那么我们如何找到这个模型 h h h呢?

Solution 解决办法

平面,直线,你想到了我们之前学过的什么东西?没错,线性规划。

所有的红色点和黑色点都对应一个约束条件,而我们的目标是寻找可行域。

实际上我们会有无数条直线满足上面的约束条件,我们如何定义其中最好的一条决定了我们如何训练模型。我们给出的答案是,有**最大边界(maximum margin)**的一条直线。也就是说,所有的点到直线的距离都大于一个常数 σ \sigma σ,这个 σ \sigma σ就是边界。

上面的最优化模型也有一个名称:支持向量机(support vector machine,SVM)
我们使用二分搜索来确定 σ \sigma σ,而对于每一个 σ \sigma σ我们解一个线性规划即可。

Numerical output example: linear regression 数值输出:线性回归

在更多的情况下,我们需要返回一个预测值,一个常见的例子就是线性回归。
我们定义了一系列训练集 ( x i , y i ) (x_i,y_i) (xi,yi)和损失函数 L ( h ) = 1 n Σ ( < x i , h > − y i ) 2 L(h) = \frac{1}{n}\Sigma(<x_i,h> - y_i)^2 L(h)=n1Σ(<xi,h>yi)2
模型生成之后我们给出测试集 x ∗ x* x,模型给出预测值 y ∗ y* y。损失函数计算预测值和实际值的垂直距离,使得模型可以持续优化。

如何找到线性回归的模型呢?前面我们提到的梯度下降是一个好方法。

我们回忆一下梯度下降的方法:

  1. 选择初始点 h 0 h_0 h0,步数 T T T和学习率 η \eta η
  2. 在每步迭代中,计算当前点的梯度,并且迭代点 h i + 1 = h i − η ∇ L ( h ) h_{i+1} = h_i -\eta \nabla L(h) hi+1=hiηL(h)
  3. 最后输出 1 T Σ h i \frac{1}{T}\Sigma h_i T1Σhi
    (或者直接输出 h T h_T hT)

我们发现 L ( h ) L(h) L(h)具有一个很好的性质:由于 x 2 x^2 x2是凸函数,因此其线性组合也是凸的。所以我们可以在这个问题中使用梯度下降法。

另外一个问题是: L ( h ) L(h) L(h)的梯度是什么?

要解决这个问题,我们需要关注损失函数 f i f_i fi的梯度:

∇ f i = ( < h , x i > − y i ) 2 \nabla f_i = (<h,x_i>-y_i)^2 fi=(<h,xi>yi)2

由于链式法则,令 z = < h , x i > − y i z = <h,x_i>-y_i z=<h,xi>yi,那么有
d f i d h j = d f i d z d z d h d f i d z = 2 z d z d h = x i , j \frac{df_i}{dh_j} = \frac{df_i}{dz}\frac{dz}{dh} \\ \frac{df_i}{dz} = 2z \\ \frac{dz}{dh} = x_{i,j} dhjdfi=dzdfidhdzdzdfi=2zdhdz=xi,j
因此
d f i d h = 2 ( < h j , x i , j > − y i ) x i , j \frac{df_i}{dh} = 2 (<h_j,x_{i,j}>-y_i)x_{i,j} dhdfi=2(<hj,xi,j>yi)xi,j
因此求和一下就得出损失函数的梯度:
∇ L ( h ) = 2 n < ( Σ < h 1 , x t , 1 > − y t ) x t , 1 , Σ ( < h 2 , x t , 2 > − y t ) x t , 2 , ⋯ > \nabla L(h) = \frac{2}{n} < (\Sigma<h_1,x_{t,1}>-y_t)x_{t,1},\Sigma (<h_2,x_{t,2}>-y_t)x_{t,2},\dots> L(h)=n2<(Σ<h1,xt,1>yt)xt,1,Σ(<h2,xt,2>yt)xt,2,>

Overfitting 过拟合

过拟合是机器学习中一种另外的状况,这种情况下模型为了贴合数据而变得十分奇怪且复杂。这一样也是我们不希望看到的。如下图所示:

过拟合

也就是说,我们希望我们的模型要好,而且要直观简单,要有鲁棒性。我们有什么方法来保证鲁棒性吗?

一种简单的方法是,控制模型 h h h范数。由前一小节我们看到,预测结果由 h i x t , i h_ix_{t,i} hixt,i控制,也就是说当 h i h_i hi的范数很大时,单个数据的变化就会对整体造成很大的影响,这是我们不希望看到的。反过来看,控制模型的范数也就减小了单个数据的整体影响,提高了鲁棒性。

Ridge Regression 岭回归算法

岭回归算法在原来 L ( h ) L(h) L(h)的基础上添加了一项正则项(regularization),使得新的损失函数变为:
L ( h ) = 1 n Σ ( < h , x > − y ) 2 + λ ∣ ∣ h ∣ ∣ 2 L(h) = \frac{1}{n}\Sigma(<h,x>-y)^2 + \lambda||h||^2 L(h)=n1Σ(<h,x>y)2+λ∣∣h2
在这个损失函数中,我们将模型的范数也加入考虑,在欠拟合和过拟合之间做出了平衡。

由于两个平方项都是凸的,因此新的损失函数很明显也是凸的。

Stochastic Gradient Descent SGD 随机梯度下降

另外一个问题在于,当训练数据量很大的时候,损失函数的计算就会变得十分缓慢,这种情况应该怎么办呢?

如果我们随机取一个样本点,并且用这个样本点直接代表 L ( h ) L(h) L(h),我们的计算量就只有这些点了,对吧?其实这种方法是有一定道理的,因为
E ( ∇ L ′ ) = 1 n ∑ f i = ∇ L ( h ) E(\nabla L') = \frac{1}{n}\sum f_i = \nabla L(h) E(L)=n1fi=L(h)
所以这种方法是无偏的。

假设我们随机采样 b b b个点(这个值被称为批大小(batch size)),并且定义损失函数为
∇ ^ L ( h ) = 1 b ∑ i f i \widehat{\nabla} L(h)=\frac{1}{b}\sum_i f_i L(h)=b1ifi

也就是说,当 b = n b=n b=n时,这种方法是GD(梯度下降法);当 b = 1 b=1 b=1时,这种方法是SGD(随机梯度下降法)。

随机取一个训练样本是有风险的,估计出来的模型可能是不准确的,而且一般需要更多的迭代步骤。但是如果 n n n数量过大,这种开销比起每步计算 n n n次要好上很多。这是一个方差和时间的权衡。

Matrix Acceleration 矩阵加速计算

我们将变量看作一个矩阵 x 1 x 2 . . . x n \begin {matrix} \bold{x_1}\\ \bold{x_2}\\ ...\\ \bold{x_n} \end{matrix} x1x2...xn,这是一个 n × d n\times d n×d矩阵,然后和 d × 1 d \times 1 d×1模型向量 h 相乘 \bold{h}相乘 h相乘得到最终结果 y \bold{y} y,我们要计算 min ⁡ ∣ ∣ X ⋅ h − y ∣ ∣ 2 \min ||\bold{X}\cdot \bold{h}-\bold{y}||^2 min∣∣Xhy2

其实上述矩阵有一个近似解 X T X − 1 y \bold{X^TX}^{-1}\bold{y} XTX1y,但是在 n n n非常大的时候,求矩阵的转置和逆一样非常的麻烦,怎么办呢?

我们可以先找一个 b × n ( b < < n ) b\times n(b<<n) b×n(b<<n)的稀疏矩阵 S \bold{S} S,然后用 S X \bold{SX} SX代替原来的 X \bold{X} X,这样我们就把前面的矩阵变成了一个小得多的 b × d b\times d b×d矩阵,这个小矩阵求转置和逆就轻松多了。

这种方法和SGD有异曲同工之妙,矩阵 S \bold{S} S类似于一种随机采样矩阵,计算出来的 b × d b\times d b×d矩阵就好像从 n n n个样本点中采样 b b b个。

Feedforward Neural Network 前馈神经网络

前馈神经网络是一种最简单的神经网络。他的结构是一个分层图,每层有节点,每层节点和下一层的节点之间有加权的边连接。如下图所示:

神经网络节点

对于每层的节点,我们将所有的输入边加权作为总的输入,然后处理则使用一个非线性的函数得出本节点的输出,这个函数被称为激活函数。激活函数在不同的情况下一般不同,但是有一种比较常见的函数叫做整流线性单元(ReLU)函数,另外一种函数叫做Sigmoid函数。

OK,根据上面的说法,神经网络包含输入,加权,和每个节点的处理。关于输入和处理我们都给出了具体的例子,但是我们仅仅通过SGD减少了计算的样本数量,并没有实际的加快梯度的计算。这就是我们下节课要介绍的方法:反向传播(Back Propagation)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2266014.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

华院计算参与项目再次被《新闻联播》报道

12月17日&#xff0c;央视《新闻联播》播出我国推进乡村振兴取得积极进展。其中&#xff0c;华院计算参与的江西省防止返贫监测帮扶大数据系统被报道&#xff0c;该系统实现了由原来的“人找人”向“数据找人”的转变&#xff0c;有效提升监测帮扶及时性和有效性&#xff0c;守…

【视觉惯性SLAM:相机成像模型】

相机成像模型介绍 相机成像模型是计算机视觉和图像处理中的核心内容&#xff0c;它描述了真实三维世界如何通过相机映射到二维图像平面。相机成像模型通常包括针孔相机的基本成像原理、数学模型&#xff0c;以及在实际应用中如何处理相机的各种畸变现象。 一、针孔相机成像原…

使用RTP 协议 对 H264 封包和解包,h264的avpacket和NAL的关系

学习内容&#xff1a; 本章探讨如何将h264的 avpacket的视频 数据&#xff0c;通过RTP协议发送到 流媒体 服务器 或者 对端接受者。 前提 我们在将 YUV数据变成avframe后&#xff0c;通过h264 编码变成AVPacket&#xff0c;例如&#xff0c;在安防项目中&#xff0c;或者直播…

python 随笔80%核心笔记(一)

目录 一、海龟 二、pygame 三、函数 四、类与对象 五、列表与元组 六、其他 1、格式化输出 2、最大公约数、最小公倍数 3、print、多变量一起定义赋值、end以及列表的方法 4、序列重复、字符串方法、其他列表方法、input 5、字典的方法、ASCII码转换、返回值、修改私人…

MySQL数据库函数——字符函数

目录 引言 常用字符函数表 举例 例子一——工号前加0凑够5位 引言 字符函数&#xff0c;顾名思义就是运用在字符串的函数&#xff0c;下列是一些较为常用的字符函数。 常用字符函数表 函数功能concat&#xff08;S1,S2,.....Sn&#xff09;字符串拼接&#xff0c;将S1&…

算法练习——位运算

前言&#xff1a;位运算的方法大多比较抽象&#xff0c;很难想到。 一&#xff1a;判断字符是否唯一 题目要求&#xff1a; 解题思路&#xff1a; 法一&#xff1a;使用hash的思想&#xff0c;统计每一个字母出现的次数&#xff0c;再通过一次循环遍历查询是否有超过1的字母&…

TCN-Transformer+LSTM多变量回归预测(Matlab)添加气泡图、散点密度图

TCN-TransformerLSTM多变量回归预测&#xff08;Matlab&#xff09;添加气泡图、散点密度图 目录 TCN-TransformerLSTM多变量回归预测&#xff08;Matlab&#xff09;添加气泡图、散点密度图预测效果基本介绍程序设计参考资料 预测效果 基本介绍 基本介绍 1.双路创新&#xff…

【免费分享】mysql笔记,涵盖查询、缓存、存储过程、索引,优化。

概括 本篇笔记涵盖基础查询、视图、存储过程、函数、索引、优化、分库分表。适合在学完mysql后进行时常观看。下面展示部分内容。如果需要可以在文章底部的链接进行下载查看。 简介 数据库 数据库&#xff1a;DataBase&#xff0c;简称 DB&#xff0c;存储和管理数据的仓库…

DataSourceClosedException_ dataSource already closed

修改了项目中kafka相关配置&#xff0c;准备上线&#xff0c;控制台一直报错&#xff1a; 一直不停的在刷数据库连接池已关闭&#xff1f;&#xff1f;&#xff1f; 只改了kafka相关的配置&#xff0c;为什么数据库连接池一直在报错&#xff1f;即使kafka配置写错了&#xff…

SpringCloudAlibaba技术栈-Nacos

1、什么是Nacos&#xff1f; Nacos是个服务中心&#xff0c;就是你项目每个功能模块都会有个名字&#xff0c;比如支付模块,我们先给这个模块起个名字就叫paymentService,然后将这个名字和这个模块的配置放到Nacos中&#xff0c;其他模块也是这样的。好处是这样能更好地管理项…

Java中使用四叶天动态代理IP构建ip代理池,实现httpClient和Jsoup代理ip爬虫

在本次爬虫项目中&#xff0c;关于应用IP代理池方面&#xff0c;具体完成以下功能&#xff1a; 从指定API地址提取IP到ip池中&#xff08;一次提取的IP数量可以自定义更改&#xff09; 每次开始爬虫前&#xff08;多条爬虫线程并发执行&#xff09;&#xff0c;从ip池中获取一…

MySQL 数据库优化详解【Java数据库调优】

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c; 忍不住分享一下给大家。点击跳转到网站 学习总结 1、掌握 JAVA入门到进阶知识(持续写作中……&#xff09; 2、学会Oracle数据库入门到入土用法(创作中……&#xff09; 3、手把…

工业大数据分析算法实战-day15

文章目录 day15特定数据类型的算法工业分析中的数据预处理工况划分数据缺失时间数据不连续强噪声大惯性系统趋势项消除 day15 今天是第15天&#xff0c;昨日是针对最优化算法、规则推理算法、系统辨识算法进行了阐述&#xff0c;今日主要是针对其他算法中的特定数据类型的算法…

定时任务——定时任务技术选型

摘要 本文深入探讨了定时任务调度系统的核心问题、技术选型&#xff0c;并对Quartz、Elastic-Job、XXL-Job、Spring Task/ScheduledExecutor、Apache Airflow和Kubernetes CronJob等开源定时任务框架进行了比较分析&#xff0c;包括它们的特点、适用场景和技术栈。文章还讨论了…

前端遇见AI:打造智能应用的新时代

随着技术的发展&#xff0c;AI&#xff08;人工智能&#xff09;不再局限于后端服务器上运行的复杂算法&#xff0c;而是逐渐渗透到前端领域&#xff0c;成为提升用户体验和应用智能水平的关键因素。本文将探讨前端与AI结合的趋势&#xff0c;以及如何利用前端技术实现AI功能&a…

KNN分类算法 HNUST【数据分析技术】(2025)

1.理论知识 KNN&#xff08;K-Nearest Neighbor&#xff09;算法是机器学习算法中最基础、最简单的算法之一。它既能用于分类&#xff0c;也能用于回归。KNN通过测量不同特征值之间的距离来进行分类。 KNN算法的思想&#xff1a; 对于任意n维输入向量&#xff0c;分别对应于特征…

使用 Three.js 创建一个 3D 人形机器人仿真系统

引言 在这篇文章中&#xff0c;我们将探讨如何使用 Three.js 创建一个简单但有趣的 3D 人形机器人仿真系统。这个机器人可以通过键盘控制进行行走和转向&#xff0c;并具有基本的动画效果。 技术栈 HTML5Three.jsJavaScript 实现步骤 1. 基础设置 首先&#xff0c;我们需要…

Android unitTest 单元测试用例编写(初始)

文章目录 了解测试相关库导入依赖库新建测试文件示例执行查看结果网页结果其他 本片讲解的重点是unitTest&#xff0c;而不是androidTest哦 了解测试相关库 androidx.compose.ui:ui-test-junit4: 用于Compose UI的JUnit 4测试库。 它提供了测试Compose UI组件的工具和API。 and…

【蓝桥杯——物联网设计与开发】拓展模块3 - 温度传感器模块

目录 一、温度传感器模块 &#xff08;1&#xff09;资源介绍 &#x1f505;原理图 &#x1f505;STS30-DIS-B &#x1f319;引脚分配 &#x1f319;通信 &#x1f319;时钟拉伸&#xff08;Clock Stretching&#xff09; &#x1f319;单次触发模式 &#x1f319;温度数据转…

如何在任何地方随时使用本地Jupyter Notebook无需公网IP

文章目录 1.前言2.Jupyter Notebook的安装2.1 Jupyter Notebook下载安装2.2 Jupyter Notebook的配置2.3 Cpolar下载安装 3.Cpolar端口设置3.1 Cpolar云端设置3.2.Cpolar本地设置 4.公网访问测试5.结语 1.前言 今天就来给大家安利一套神器组合&#xff1a;通过Windows系统本地部…