(统计学习方法|李航)第一章统计学习方法概论-一二三节统计学习及统计学习种类,统计学习三要素

news2024/11/26 0:25:48

目录

一·,统计学习

1.统计学习的特点

2.统计学习的对象

3.统计学习的目的

4.统计学习的方法

5.统计学习方法的研究

6.重要性

二,统计学习的基本种类

1.监督学习

(1)输入空间,输出空间和特征空间

(2)联合概率分布

(3)假设空间

(4)问题的形式化

2.无监督学习

3.强化学习

4.半监督学习与主动学习​编辑

三,统计学习方法三要素

1.模型

2.策略

(1)损失函数和风险函数

(2)经验风险最小化与结构风险最小化

3.算法


一·,统计学习

1.统计学习的特点

定义:统计学习(statistical learning)是一门计算机基于数据构建概率模型并运用模型对数据进行预测和分析的一门学科。

统计学习也称为统计机器学习。

  • 统计学习以计算机网络为平台
  • 统计学习以数据为研究对象
  • 统计学习的目的是对数据进行预测和分析
  • 统计学习以方法为中心
  • 统计学习是概率论,统计学,信息论,计算机理论,最优化理论及计算机科学等对各领域的交叉学科。

2.统计学习的对象

对象是数据(data)——数字,文字,图像,视频及其组合

过程:从数据出发,提取数据的特征,抽象出数据模型,发现数据的知识,又回到数据

的分析与预测上取,

3.统计学习的目的

考虑学习什么样的模型如何学习模型,以使模型能对数据准确的预测和分析

同时考虑尽可能地提高学习效率。

4.统计学习的方法

基于数据构建概率统计模型从而对数据进行预测和分析。

统计学习由监督学习无监督学习强化学习组成。

5.统计学习方法的研究

统计学习方法的研究一般包括统计学习方法统计学习理论统计学习应用三个方面

6.统计学习的重要性

二,统计学习的基本种类

统计学习(统计机器学习)一般包括监督学习,无监督学习,强化学习

有时还包括半监督学习和主动学习

1.监督学习

监督学习(supervised learning)是指从标注数据学习预测模型的机器学习问题。

标注数据表示输入输出的对应关系预测模型给定的输入产生相应的输出

监督学习的本质是学习输入到输出的映射的统计规律

(1)输入空间,输出空间和特征空间

(2)联合概率分布

监督学习假设输入与输出的随机变量X和Y遵循

联合概率分布P(X,Y)

P(X,Y)表示分布函数和或分布密度函数

训练数据与测试数据被看作是依联合概率分布

P(X,Y)独立同分布产生的。

(3)假设空间

模型属于由输入空间输出空间映射的集合,这个集合就是假设空间

假设空间也即监督学习所要学习的范围

(4)问题的形式化

监督学习分为学习预测两个过程,由学习系统和预测系统共同完成。

预测形式:选择大的条件概率进行输出

y表示输出(like/dislike),x表示实例x的特征向量

2.无监督学习

        无监督学习(unsupervised learning)是指从无标注数据中学习预测模型的机器学习问题。

无标注数据是自然得到的数据,预测模型表示数据的类型,转换或概率。

无监督学习的本质是学习数据中的统计规律或潜在结构

无监督学习可用于对已有数据的分析,也可用于对未来数据的预测。流程与监督学习相同。

 

3.强化学习

        强化学习(reinforcement learning)是指智能系统与环境的连续互动中学习最优行为的机器学习问题。

强化学习的本质是学习最优的序贯决策。

强化学习过程中,智能系统不断地试错,以达到学习最优策略的目的。

4.半监督学习与主动学习

三,统计学习方法三要素

统计学习方法是由模型,策略和算法三要素构成

1.模型

统计学习首要考虑的问题是学习什么样的模型

在监督学习过程中,模型就是所要学习的条件概率分布决策函数

模型的假设空间包含所有可能的条件概率分布或决策函数

2.策略

有了模型的假设空间,接下来要考虑的就是按照什么样的准则学习或选择最优的模型

(1)损失函数和风险函数

损失函数:度量模型一次预测的好坏

风险函数:度量平均意义下模型预测的好坏

由于模型的输入,输出(X,Y)是随机变量,遵循联合分布P(X,Y)

所以损失函数的期望是:

 注意损失函数:

为Y(真实值)与f(x)预测值的不同方式的接近程度的比较。

(

  • 0-1损失函数针对的是分类问题
  • 平方损失函数和绝对损失函数针对的是回归问题
  • 对数损失函数针对的是概率模型

)

(2)经验风险最小化与结构风险最小化

根据大数定律,当N趋向于无穷大时:

经验损失(Remp)就会趋于 风险函数

经验风险:那每一个属性的值对应的损失函数的求一遍取平均值。取不同属性影响的最小值。

(经验风险越小,说明越拟合模型)

结构风险:

在后面加上了一个正则项,防止模型过拟合。

————过度的拟合数据,反而会使结果变差。

策略就是选取一个目标函数:(是经验风险还是结构风险)

从而达到优化模型的目的

 我们在训练集中发现拟合程度越来越好

但在dev(验证集)中有一个类似于二次函数的图像

(这就是一个过拟合的现象)

我们最终选择module2作为我们的模型,因为验证集下最贴近真实结果。

测试集下的73就是最终可以拿出来跟别人比较的分数。

3.算法

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/867841.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

sklearn机器学习库(一)sklearn中的决策树

sklearn机器学习库(一)sklearn中的决策树 sklearn中决策树的类都在”tree“这个模块之下。 tree.DecisionTreeClassifier分类树tree.DecisionTreeRegressor回归树tree.export_graphviz将生成的决策树导出为DOT格式,画图专用tree.export_text以文字形式输出树tree.…

成像镜头均匀性校正——360°超广角均匀校准光源

随着空间技术的不断发展,遥感仪器在对地观测、大气探测及海洋探测等方面的应用也不断拓展,以实现不同任务的观测精度。空间遥感仪器热控技术旨在保证遥感器各部件所需温度水平、温度梯度和温度稳定度,以满足遥感器高质量成像要求。 近年来我国…

ubuntu20.04磁盘满了 /dev/mapper/ubuntu--vg-ubuntu--lv 占用 100%

问题 执行 mysql 大文件导入任务,最后快完成了,查看结果发现错了!悲催!都执行了 两天了 The table ‘XXXXXX’ is full ? 磁盘满了? 刚好之前另一个 centos 服务器上也出现过磁盘满了,因此&a…

变形金刚在图像识别方面比CNN更好吗?

链接到文 — https://arxiv.org/pdf/2010.11929.pdf 一、说明 如今,在自然语言处理(NLP)任务中,转换器已成为goto架构(例如BERT,GPT-3等)。另一方面,变压器在计算机视觉任务中的使用…

关于技术转管理角色的认知

软件质量保障:所寫即所思|一个阿里质量人对测试的所感所悟。 程序员发展的岔路口 技术人做了几年专业工作之后,会来到一个重要的“分岔路口”,一边是专业的技术路线,一边是技术团队的管理路线。不少人就开始犯难&…

sqlsessionfactory和sqlsession是否线程安全?

判断是否线程安全的规则:是否存在多线程间可共享的变量 sqlsessionfactory是线程安全的,默认的实现类只有一个final属性。 sqlsession单独来看是线程不安全的,但是我们用mybatis时,mapper接口的使用是基于动态代理,这…

计算机竞赛 GRU的 电影评论情感分析 - python 深度学习 情感分类

1 前言 🔥学长分享优质竞赛项目,今天要分享的是 🚩 GRU的 电影评论情感分析 - python 深度学习 情感分类 🥇学长这里给一个题目综合评分(每项满分5分) 难度系数:3分工作量:3分创新点:4分 这…

python爬虫5:requests库-案例3

python爬虫5:requests库-案例3 前言 ​ python实现网络爬虫非常简单,只需要掌握一定的基础知识和一定的库使用技巧即可。本系列目标旨在梳理相关知识点,方便以后复习。 申明 ​ 本系列所涉及的代码仅用于个人研究与讨论,并不会对网…

uniapp 小兔鲜儿 - 首页模块(1)

目录 自定义导航栏 静态结构 安全区域​ 通用轮播组件 静态结构 自动导入全局组件 全局组件类型声明 .d.ts文件 注册组件 vue/runtime-core 首页 – 轮播图指示点 首页 – 获取轮播图数据 首页 – 轮播图数据类型并渲染 首页 – 轮播图总结 首页分类 首页 – 前…

计算机竞赛 opencv python 深度学习垃圾图像分类系统

0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 opencv python 深度学习垃圾分类系统 🥇学长这里给一个题目综合评分(每项满分5分) 难度系数:3分工作量:3分创新点:4分 这是一个较为新颖的竞…

VR安全宣传系列:防触电虚拟现实体验

在电气工作中,安全问题始终是重中之重。为了更好地提高公众的电气安全意识和技能,广州华锐互动开发了一种基于虚拟现实技术的模拟系统——VR防触电虚拟体验系统。这种系统可以模拟各种因操作不当导致的触电事故场景,并提供沉浸式的体验&#…

浅谈机器人流程自动化(RPA)

1.什么是RPA RPA代表机器人流程自动化(Robotic Process Automation),是一种利用软件机器人或机器人工作流程来执行重复性、规范性和高度可预测性的业务流程的技术。这些流程通常涉及许多繁琐的、重复的任务,例如数据输入、数据处…

Amazon CloudFront 部署小指南(五)- 使用 Amazon 边缘技术优化游戏内资源更新发布...

内容简介 游戏内资源包括玩家的装备/弹药/材料等素材,对游戏内资源的发布和更新是游戏运营商的一个常规业务流程,使用频率会十分高,所以游戏运营商希望该流程可以做到简化和可控。针对这个需求,我们设计了 3 个架构,面…

电商3D产品渲染简明教程

3D 渲染让动作电影看起来更酷,让建筑设计变得栩栩如生,现在还可以帮助营销人员推广他们的产品。 从最新的《阿凡达》电影到 Spotify 的上一次营销活动,3D 的应用让一切变得更加美好。 在营销领域,3D 产品渲染可帮助品牌创建产品的…

玩机搞机--【开机出现您的设备内部出现了问题,请联系你的制造商了解详情】故障解决思路

很多友友在玩机过程中经常会遇到下图所示故障。大多数都是刷了第三方系统或者内核或者面具导致的。正常来说。这个提示可以无视的,不影响正常的手机使用。但强迫症例外。究其原因。一般是内核校验原因。解决方法也分为多种。今天就为大家解析下这个提示的解决思路 &…

如何微调优化你的ChatGPT提示来提高对话质量

ChatGPT会话质量很大程度上取决于微调优化提示的艺术。本文旨在阐明微调提示的复杂性,以确保你可以充分发挥ChaGPT这一颠覆性工具的潜力。 与ChatGPT对话的关键部分是“提示”。即:你输入的问题或陈述,它决定了人工智能的响应。类似于引导对…

分类预测 | Matlab实现基于MIC-BP最大互信息系数数据特征选择算法结合BP神经网络的数据分类预测

分类预测 | Matlab实现基于MIC-BP最大互信息系数数据特征选择算法结合BP神经网络的数据分类预测 目录 分类预测 | Matlab实现基于MIC-BP最大互信息系数数据特征选择算法结合BP神经网络的数据分类预测效果一览基本介绍研究内容程序设计参考资料 效果一览 基本介绍 Matlab实现基于…

详解Redis三大集群模式,轻松实现高可用!

1. Redis集群简介 1.1 什么是Redis集群 Redis集群是一种通过将多个Redis节点连接在一起以实现高可用性、数据分片和负载均衡的技术。它允许Redis在不同节点上同时提供服务,提高整体性能和可靠性。根据搭建的方式和集群的特性,Redis集群主要有三种模式&…

消息队列相关面试题

巩固基础,砥砺前行 。 只有不断重复,才能做到超越自己。 能坚持把简单的事情做到极致,也是不容易的。 消息队列有哪些作用 1.解耦:使用消息队列来作为两个系统直接的通讯方式,两个系统不需要相互依赖了 2.异步&#…

leetcode169. 多数元素

题目 给定一个大小为 n 的数组 nums ,返回其中的多数元素。多数元素是指在数组中出现次数 大于 ⌊ n/2 ⌋ 的元素。 你可以假设数组是非空的,并且给定的数组总是存在多数元素。 示例 示例 1: 输入:nums [3,2,3] 输出&#x…