统计机器学习基础知识

news2024/9/21 0:29:08

一、统计机器学习定义

统计机器学习(Statistical Machine Learning)又称为统计学习(Statistical Learning),是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,具有独自的理论体系与方法论。

严格来讲,统计机器学习是机器学习的一个分支,但由于统计机器学习在机器学习领域的地位,现在人们提及机器学习时,往往就是指统计机器学习。

二、统计学习的研究对象和目的

统计学习研究的对象是数据,它基于同类数据具有一定的统计规律性作为前提,即同类数据是独立同分布的,用随机变量描述数据中的特征,用概率分布描述数据的统计规律。

统计学习从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。因此统计学习用于对数据的预测与分析,特别是对未知新数据的预测与分析。

在统计学习中,对数据的预测与分析是通过构建概率统计模型来实现的。

三、统计学习方法及类型

统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法,模型(Model)、策略(Strategy)和算法(Algorithm)为统计学习方法三要素。

模型是一个能够从数据中学习并做出预测或决策的算法或数学函数,用于表示输入到输出的映射,模型输入和输出所有可能的集合分别称为输入空间输出空间。每个具体的输入是一个实例,通常有特征向量表示,所有特征向量存在的空间称为特征空间(Feature Space),特征空间的每一维对应一个特征。

模型定义在特征空间上,有时假设输入空间和特征空间为相同的空间,有时不同,不同时需要将输入空间映射到特征空间。

统计学习的方法可以概括为

从给定的有限的用于学习的训练数据(Training Data)集合出发,假设数据是独立同分布产生的,并假设学习的模型属于某个函数的集合(称为假设空间,Hypothesis Space),应用某个评价准则(Evaluation Criterion)从假设空间中通过算法选取一个最优模型,使得它对已知的训练数据和未知的测试数据(Test Data)在给定的评价准则下有最优的预测。

统计学习可以分为几种主要类型

  • 监督学习:在监督学习中,模型从标记的训练数据中学习,以便预测未知数据的输出。例如,我们可以使用标记好的图像数据集训练一个图像分类模型,使其能够识别新的未标记图像中的物体。
    监督学习的训练数据和测试数据由输入输出对组成,输入 输出对称为样本(sample)或样本点。
    监督学习中输入变量X和输出变量Y可以是连续的或离散的,X和Y都连续的预测问题称为回归问题,X为连续变量Y为离散变量的预测问题为分类问题,X和Y都为离散的预测问题为标注问题
  • 无监督学习:与监督学习不同,无监督学习中的模型在没有标记响应的情况下,从数据中学习模式或结构。例如,聚类算法就是一种无监督学习方法,它可以将数据集中的相似项分组在一起。
  • 强化学习:强化学习是一种通过试错来学习的方法,模型通过与环境的交互来最大化累积奖励。这种方法在机器人控制、游戏AI等领域有广泛应用。

四、统计学习的过程步骤

  1. 数据收集:获取用于训练模型的有限数据集合。这些数据可以来自各种来源,如数据库、传感器、互联网等。

  2. 数据预处理:收集到的数据通常需要经过清洗、转换和格式化等预处理步骤,以便模型可以更好地学习

  3. 确定假设空间:确定包含所有可能的模型的假设空间,即学习的模型的集合;
    老猿注:老猿理解模型为某种表达形式的函数,其表达式中除因变量、自变量外的其他内容因子(如系数、指数、常数等)为函数的参数,假设空间即表示函数参数所有可能取值组合形成的函数集合,在统计学习中,模型可以带有限固定参数(称为参数化模型)或不固定参数(称为非参数化模型),如线性假设空间是固定参数模型,是由所有不同a、b取值的线性函数y=ax+b构成的集合。

  4. 确定模型选择准则:模型的选择准则即模型的评价准则,也即学习策略;

  5. 学习算法:实现求解最优模型的算法,即学习的算法;

  6. 训练模型:使用数据训练选定的算法,以找到最佳参数确认模型结构,如线性模型中找到合适的a和b的值;

  7. 评估模型:使用独立的测试数据评估模型的性能,以确保模型在实际应用中具有良好的泛化能力;

  8. 参数调优:根据评估结果,对模型的参数进行调整和优化,以提高性能。

  9. 部署模型:将训练好的模型应用于实际问题中,实现自动化决策、预测等任务。

小结

本文介绍了人工智能特别是机器学习的一些基础知识,机器学习是人工智能的一个分支,而借助于机器学习中的神经网络,通过多层神经网络进行知识学习的深度学习是机器学习领域中的一个重要研究方向。

更多人工智能知识学习请关注专栏《零基础机器学习入门》后续的文章。

写博不易,敬请支持:

如果阅读本文于您有所获,敬请点赞、评论、收藏,谢谢大家的支持!

关于老猿的付费专栏

  1. 付费专栏《https://blog.csdn.net/laoyuanpython/category_9607725.html 使用PyQt开发图形界面Python应用》专门介绍基于Python的PyQt图形界面开发基础教程,对应文章目录为《 https://blog.csdn.net/LaoYuanPython/article/details/107580932 使用PyQt开发图形界面Python应用专栏目录》;
  2. 付费专栏《https://blog.csdn.net/laoyuanpython/category_10232926.html moviepy音视频开发专栏 )详细介绍moviepy音视频剪辑合成处理的类相关方法及使用相关方法进行相关剪辑合成场景的处理,对应文章目录为《https://blog.csdn.net/LaoYuanPython/article/details/107574583 moviepy音视频开发专栏文章目录》;
  3. 付费专栏《https://blog.csdn.net/laoyuanpython/category_10581071.html OpenCV-Python初学者疑难问题集》为《https://blog.csdn.net/laoyuanpython/category_9979286.html OpenCV-Python图形图像处理 》的伴生专栏,是笔者对OpenCV-Python图形图像处理学习中遇到的一些问题个人感悟的整合,相关资料基本上都是老猿反复研究的成果,有助于OpenCV-Python初学者比较深入地理解OpenCV,对应文章目录为《https://blog.csdn.net/LaoYuanPython/article/details/109713407 OpenCV-Python初学者疑难问题集专栏目录 》
  4. 付费专栏《https://blog.csdn.net/laoyuanpython/category_10762553.html Python爬虫入门 》站在一个互联网前端开发小白的角度介绍爬虫开发应知应会内容,包括爬虫入门的基础知识,以及爬取CSDN文章信息、博主信息、给文章点赞、评论等实战内容。

前两个专栏都适合有一定Python基础但无相关知识的小白读者学习,第三个专栏请大家结合《https://blog.csdn.net/laoyuanpython/category_9979286.html OpenCV-Python图形图像处理 》的学习使用。

对于缺乏Python基础的同仁,可以通过老猿的免费专栏《https://blog.csdn.net/laoyuanpython/category_9831699.html 专栏:Python基础教程目录)从零开始学习Python。

如果有兴趣也愿意支持老猿的读者,欢迎购买付费专栏。

老猿Python,跟老猿学Python!

☞ ░ 前往老猿Python博文目录 https://blog.csdn.net/LaoYuanPython ░

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2091503.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ET6框架(十)通讯消息编写

文章目录 一、消息在的定义:二、客户端消息的发送:三、服务器消息的处理:四、查看结果 一、消息在的定义: ET消息主要分为两类,一个种是普通消息,一种时通过Gate网关转发的消息叫Local消息 这里我们编写客…

【突发事件】Runway删库了,文章结尾有解决方法

最近,Runway 悄悄地从 Hugging Face 平台上删除了自己的代码库,其中包括备受瞩目的 Stable Diffusion v1.5 项目,这在科技界引起了轩然大波。 Runway 的行为不仅没有留下任何痕迹,也没有通知 Hugging Face 或任何社区成员。 更令人…

QEMU - user network

Documentation/Networking - QEMUQEMU/KVM中的网络虚拟化--Part2 User Networking | Xiaoye Zhengs blog (zxxyy.github.io)QEMU Network — ARM SoC Device Assignment Notes documentation (cwshu.github.io)slirp / libslirp GitLabGitHub - virtualsquare/libvdeslirp: li…

运用Premiere自学视频剪辑,这些岗位你能胜任!

随着短视频的兴起和火热,短视频后期制作越来越受到人们的重视,甚至衍生出很多岗位的高薪工作。如大家所了解的,Adobe premiere正是一款视频后期剪辑和制作工具,其功能强大,应用也十分广泛,是从事后期工作者…

【舞动生命,不缺营养!】亨廷顿舞蹈症患者的维生素秘籍✨

Hey小伙伴们~👋 在这个充满色彩的世界里,每个人都是独一无二的舞者,但对于患有亨廷顿舞蹈症的朋友来说,他们的舞蹈却多了几分挑战与不易。💪 今天,就让我带你一起揭秘,那些能够助力亨…

机器学习/数据分析案例---糖尿病预测

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 前言 这是一篇数据分析/机器学习很好的入门案例,对糖尿病的影响进行预测和分析通过随机森林预测,平均准确率和召回率都不错不足&#x…

Photomator 3.3.22 (macOS Universal) - 照片编辑软件

Photomator 3.3.22 (macOS Universal) - 照片编辑软件 适用于 Mac、iPhone 和 iPad 的终极照片编辑器 请访问原文链接:https://sysin.org/blog/photomator/,查看最新版。原创作品,转载请保留出处。 作者主页:sysin.org Photoma…

美发店拓客营销预约到店连锁小程序拓展

传统印象里的10元美发店,在城市里已然升级为大店,服务多样化,价格也是几十元到几千元不等数个区间,除了单店外也有连锁品牌进行区域拓展,以量和品牌形象收获更多客户和自身的宣传等。 尤其是规模相对较大的门店&#…

AcWing 896. 最长上升子序列 II

学习视频↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓ 【E04 线性DP 最长上升子序列 二分优化】 O ( n l o g n ) O(nlogn) O(nlogn) #include<iostream> #include<algorithm> #define N 100010 using namespace std; int n; int a[N],q[N]; i…

【软件工程】软件工程

考点2 软件工程 一、定义 二、软件工程基本原理 三、软件工程方法学&#xff08;范型&#xff09; 题目 选择题

数字乡村振兴智慧农业整体规划建设方案

1. 项目建设需求 《数字乡村振兴智慧农业整体规划建设方案》旨在通过遥感、物联网等技术&#xff0c;实现土地资源监测、测土配方施肥、农产品销售分析、农资监管、物流配送监管、农业专家库、市场分析、产业链应用和金融服务。 2. 项目需求分析 项目需求覆盖生产、经营、监…

关于计算机网络原理问题

2017年12月07日星期四&#xff0c; 问题&#xff1a; 答案&#xff1a; 接下来&#xff0c;我们来分析和解答&#xff0c; 首先&#xff0c;你要知道&#xff0c;一个byte&#xff08;字节&#xff09;能表示两个十六进制数&#xff0c;那么四个字节就可以表示8个十六进制数…

Simulink代码生成:关系运算与逻辑运算

文章目录 1 引言2 模块使用实例2.1 关系运算2.2 关系运算 3 代码生成4 总结 1 引言 在Simulink中经常需要判断两个信号的大小关系、是否相等&#xff0c;或者判断布尔类型信号的与、或、非等。本文研究通过关系运算与逻辑运算模块实现上述需求。 2 模块使用实例 2.1 关系运算…

hello树先生——二叉搜索树

文章目录 一.搜索二叉树的性质二&#xff0c;功能函数接口1.二叉树的节点结构&#xff0c;分为左右指针和数据2.二叉树的插入函数3.删除接口4.中序遍历 三.测试项目 一.搜索二叉树的性质 若它的左子树不为空&#xff0c;则左子树上所有节点的值都小于根节点的值若它的右子树不…

uniapp scroll-view滚动触底加载 height高度自适应

背景&#xff1a; scroll-view组件是使用&#xff0c;官网说必须给一个高度height&#xff0c;否则无法滚动&#xff0c;所以刚开始设置了<scroll-view :style"height: 94vh" :scroll-y"true">设置了一个高度&#xff0c;想着vh应该挺合适的&#xf…

眼镜清洗机哪个品牌好?2024超声波清洗机推荐

眼镜作为日常生活不可或缺的配件&#xff0c;其卫生状况直接影响着我们的健康。日常简单的擦拭往往忽略了隐匿于镜片细微处的细菌群落&#xff0c;未彻底清洁的眼镜可能潜藏健康隐患。因此&#xff0c;深度清洁眼镜显得尤为关键&#xff0c;而超声波清洗机正是一种高效便捷的解…

探索《黑神话:悟空》背后的先进技术

黑神话&#xff1a;悟空》是一款备受期待的国产动作角色扮演游戏&#xff0c;凭借其令人惊叹的画面效果和极具深度的游戏玩法&#xff0c;吸引了全球玩家的目光。究竟是什么让这款游戏如此出色&#xff1f;让我们一起来探讨《黑神话&#xff1a;悟空》在开发过程中采用的几项尖…

java计算机毕设课设—固定资产管理系统(附源码、文章、相关截图、部署视频)

这是什么系统&#xff1f; java计算机毕设课设—固定资产管理系统(附源码、文章、相关截图、部署视频) 获取资料方式在最下方 本系统主要用于高校中的“资产”进行管理。具体地讲&#xff0c;固定资产管理系统就是通过资产的增加、删除、查看、借出、归还、维修等一系列手段…

lvs-nat的https模式设置

前言&#xff1a;LVS工作模式分为NAT模式、TUN模式、以及DR模式。在lvs服务器上&#xff0c;设置虚拟ip并做负载均衡使用。使用LVS架设的服务器集群系统有三个部分组成&#xff1a;最前端的负载均衡层&#xff08;Loader Balancer&#xff09;&#xff0c;中间的服务器群组层&a…

NCH DrawPad Pro for Mac/Win:强大的图像编辑处理软件

NCH DrawPad Pro for Mac/Win是一款功能全面的图像编辑和设计软件&#xff0c;专为Mac和Windows用户设计。它不仅适用于专业设计师&#xff0c;也深受业余爱好者和创意工作者的喜爱。DrawPad Pro凭借其丰富的绘图工具、强大的编辑功能和便捷的模板库&#xff0c;为用户提供了卓…