第一章:统计学习方法概论

news2024/11/20 22:41:00

大纲

        • 1.1统计学习的特点
        • 1.2统计学习方法步骤
        • 1.3 统计学习的分类
            • 基本分类:
        • 1.4 监督学习方法的三要素
        • 1.5 训练误差与测试误差
        • 1.6过拟合与模型选择
        • image-20230106222807847
            • 在多项式拟合的过程中改变多项式的参数个数求解系数:
            • 训练误差和测试误差与模型复杂度的关系:
        • 1.7正则化和交叉验证
        • 1.8泛化能力
        • 1.9生成模型和判别模型
        • 1.10监督学习的应用-分类问题
        • 1.11监督学习的应用-标注问题
        • 1.12监督学习的应用-回归问题

1.1统计学习的特点

image-20221227144836416

1.2统计学习方法步骤

image-20221227145105733

1.3 统计学习的分类

image-20221227150127550

基本分类:
  • 监督学习:从标注数据 中学习预测模型,学习输入到输出映射的统计规律,这一映射一模型表示

    • 根据输入输出变量类型不同给予预测问题不同的名称

      1. 输入输出均连续:回归问题
      2. 输出有限个离散:分类问题
      3. 输入与输出均为变量序列:标注问题
    • 模型形式:条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)或决策分布 Y = f ( X ) Y=f(X) Y=f(X)

    • 流程图image-20221227152830305

  • 无监督学习:从无标注数据中学习预测模型的机器学习问题,学习数据中统计规律和潜在结构

    • 模型形式:函数 z = g ( x ) z=g(x) z=g(x),条件概率分布 P ( z ∣ x ) P(z|x) P(zx)或条件概率分布 P ( x ∣ z ) P(x|z) P(xz)
    • 流程图image-20221227153746107
  • 强化学习:智能系统在与环境的连续互动中学习最优行为策略的机器学习问题,学习最优的序贯决策

    • 可以基于最优策略或最优价值得到最优模型
    • 流程图image-20221227153817980

1.4 监督学习方法的三要素

image-20221227155658948

模型:条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)或决策分布 Y = f ( X ) Y=f(X) Y=f(X)

假设空间(Hypothesis Space):所有可能的条件概率分布或决策函数,假设空间模型数量一般为无限个

image-20221227155331447

策略:在所有假设空间中选择一个最优模型

度量模型好坏的几个概念:

  • 损失函数: L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X)),非负实值函数,也称为代价函数
    • 常见损失函数:
  • 风险函数: R e x p ( f ) = E P [ L ( Y , f ( x ) ) ] = R_{exp}(f)=E_{P}[L(Y,f(x))]= Rexp(f)=EP[L(Y,f(x))]= ∫ X × Y L ( Y , f ( X ) ) P ( x , y ) d x d y \int_{X\times Y}^{}L(Y,f(X))P(x,y)dxdy X×YL(Y,f(X))P(x,y)dxdy,度量平均意义下模型预测的好坏
  • 经验风险: R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i)) Remp(f)=N1i=1NL(yi,f(xi)),模型关于训练集的平均损失

根据大数定律,样本N趋于无穷时,经验风险趋于期望风险。但是由于现实样本数量通常是有限的,所以需要对经验风险进行一定的矫正,这就关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化

image-20221227163514287

注意事项:
  • 当模型是条件概率分布时,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。
  • 样本过小使用经验风险最小化会产生过拟合
  • 结构风险最小化等价于正则化,是为了防止过拟合在经验风险基础上加上表示模型复杂度的正则化项或罚项
  • 模型复杂度与惩罚项呈现正相关
  • 最大后验概率估计等价于模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示的结构风险最小化
算法:学习模型的具体计算方法

1.5 训练误差与测试误差

image-20230106222656375image-20230106222706637

image-20230106222718937

1.6过拟合与模型选择

image-20230106222807847

在多项式拟合的过程中改变多项式的参数个数求解系数:

image-20230106222936868

过拟合就是参数过多,对已知数据预测很好,但对未知数据预测很差的现象

训练误差和测试误差与模型复杂度的关系:

image-20230106223127556

要选择训练误差和测试误差都比较小的参数个数

1.7正则化和交叉验证

image-20230107152543594

image-20230107153716461

image-20230107160130241

image-20230107160401518image-20230107160453130

1.8泛化能力

image-20230107162908236

image-20230107164144891

泛化能力定理证明(二分类问题)

image-20230107202846708

1.9生成模型和判别模型

image-20230107203130202

image-20230107204033623

image-20230107204150871

1.10监督学习的应用-分类问题

image-20230107213438609

image-20230107213508845

image-20230107215211079

image-20230107215256431

1.11监督学习的应用-标注问题

image-20230107215509993

image-20230107215524623

image-20230107215642551

1.12监督学习的应用-回归问题

image-20230107215701837

image-20230107215726420

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/147288.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java设计模式中适配器模式是什么/适配器模式可以干什么/又如何实现

继续整理记录这段时间来的收获,详细代码可在我的Gitee仓库SpringBoot克隆下载学习使用! 5.3 适配器模式 5.3.1 概述 将一个类的接口转换为客户希望的另一种接口,使得原本由于接口不兼容而不能一起工作的那些类能一起工作分为类适配器模式和…

一套采用ASP.NET开发的工作通OA协同办公系统源码 流程审批 公文流转 文档管理

分享一套采用ASP.NET基于C#开发,使用桌面式的OA协同办公系统,超好用户体验效果的后台管理界面,集成 资讯、邮件、日程、文档(在线文件档案管理)、流程审批、公文流转、沟通与分享(在线聊天和内部论坛&#…

基于LLVM的C编译器--lcc——以CLion用SSH连接WSL Ubuntu22.04为例

Windows 10 22H2CLion 2022.3.1Ubuntu 20.04 (Microsoft Store内的WSL发行版) 一、下载WSL,换源,切换到WSL2 1.1 保证windows版本 在设置->系统->关于中查看 必须是win10及以上对于x64系统:版本1903或更高版…

ArcGIS基础实验操作100例--实验63由图片创建点符号

本实验专栏参考自汤国安教授《地理信息系统基础实验操作100例》一书 实验平台:ArcGIS 10.6 实验数据:请访问实验1(传送门) 高级编辑篇--实验63 由图片创建点符号 目录 一、实验背景 二、实验数据 三、实验步骤 (1&…

Java设计模式中代理模式是什么/JDK动态代理分为哪些,静态代理又怎么实现,又适合哪些场景

继续整理记录这段时间来的收获,详细代码可在我的Gitee仓库SpringBoot克隆下载学习使用! 5.结构型模式 5.1 概述 根据如何将类或对象按某种布局组成更大的结构,分为类结构模式和对象结构模式,前者采用继承机制来组织接口和类&am…

视频序列对比学习

前言 视频embedding化也即表征有很多实际的应用场景,比如文本-视频 pair的检索等等。由于视频一般来说较长,所以对于给定的一段话,其中的某些sentence句子一般对应着视频中某几个clip片段,之前常规的做法都是去匹配所有的sentence…

人工服务、人工智能和分析是联络中心的主要趋势

数字联络中心提供商 IPI 宣布了其对 2023 年的预测。IPI 非常重视提供卓越的客户联系,认为未来一年将由以下趋势定义:专注于人工服务;增加对人工智能和自动化的采用;以及更多地使用数据和分析。 关注人性化服务 据 IPI 称&#…

实现QTreeView、QTableView子项中的复选框勾选/取消勾选功能

1.前言本博文所说的技术点适用于同时满足下面条件的所有视图类:模型类从 QAbstractItemModel派生。代理类从QStyledItemDelegate派生。故本博文所说的技术点也适用于QTableView。2.需求提出基于Qt的model/view framework技术,利用QTreeView树视图实现业务…

【异常】SpringSecurity登录失败:Full authentication is required to access this resource

一、报错提示 SpringSecurity提示如下内容: 2023-01-07 06:08:51.843 [cdi-ids-commonprovider] [http-nio-9092-exec-14] WARN com.desaysv.tsp.logic.ids.config.MyAuthenticationEntryPoint - 登录失败:Full authentication is required to acces…

基于Java+Jsp+SpringMVC漫威手办商城系统设计和实现

基于JavaJspSpringMVC漫威手办商城系统设计和实现 博主介绍:5年java开发经验,专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域 作者主页 超级帅帅吴 Java毕设项目精品实战案例《500套》 欢迎点赞 收藏 ⭐留言 文末获取源码联…

2023 年值得关注的 7 大人工智能 (AI) 技术趋势

💂 个人网站:【海拥】【摸鱼游戏】【神级源码资源网】🤟 前端学习课程:👉【28个案例趣学前端】【400个JS面试题】💅 想寻找共同学习交流、摸鱼划水的小伙伴,请点击【摸鱼学习交流群】 人工智能 (AI) 已经接…

图数据库Neo4j实战(全网最详细教程)

1.图数据库Neo4j介绍 1.1 什么是图数据库(graph database) 随着社交、电商、金融、零售、物联网等行业的快速发展,现实社会织起了了一张庞大而复杂的关系网,传统数据库很难处理关系运算。大数据行业需要处理的数据之间的关系随数…

《Go 并发数据结构和算法实践》学习笔记 Day 1

极客时间21天打卡活动:2023.1.16-2.5 链表的接口: 插入元素删除元素读取元素 并发化改造: 并发插入元素并发删除元素并发读取元素 锁,每个节点都定义一把锁。 并发插入 区域猜想:如果某个CPU 锁定了某个节点&…

U3D客户端框架(资源管理篇)之资源热更新管理器 ResourceManager

一、资源热更新管理器模块设计 1.热更新是什么? 游戏或者软件内的 美术/脚本代码等资源 发生变化时,无需下载客户端重新进行安装,而是在应用程序启动的情况下,通过比对本地资源与CDN资源的MD5码,如果本地资源与CDN中…

Visual Code 打开方式添加到右键菜单

一、配置右键打开 文件 注册表找到分支: 计算机\HKEY_CLASSES_ROOT\*\shell 在这个里面 shell 分支里右键添加项 VisualCode(这个可以随便起,便于识别就行) 在 VisualCode 分支里右键添加项 Command(必须这个名&am…

【C++】双指针用法

快慢指针/同向指针 [0,i)的数据代表处理好的数据[i,j)的数据是那些处理过但不需要的数据[j,array.length)区间的数据为接下来待处理的数据。 以上三个区间的开和闭需要根据题目要求定义,但是要保持一致。 用此方法处理过的数组,处理好的数据相对位置会保…

(mysql)Waiting for table metadata lock

MySQL5.5 中引入了 metadata lock. 顾名思义,metadata lock 不是为了保护表中的数据的,而是保护 database objects(元数据)的。包括表结构、schema、存储过程、函数、触发器、mysql的调度事件(events). 要理解 metadata lock 最重要的一点就是&#xff1…

python连接mysql之PyMySQL的基本使用

一、PyMySQL的基本使用使用pymysql 直接连接mysqlPyMySQL安装pip3 install pymysqlimport pymysql# 连接数据库,创建连接对象connection # 连接对象作用是:连接数据库、发送数据库信息、处理回滚操作(查询中断时,数据库回到最初状…

关于Docker如何安装nginx

目录 1.Nginx 1.2. 安装nginx 2.容器之间相互通信 2.1.两个容器在同一网段 2.2.两个容器在不同网段 1.Nginx Nginx也是一款服务器,我们常用它做如:反向代理、负载均衡、动态与静态资源的分离的工作 反向代理:反向代理(Revers…

java spring下载步骤

首先 我们要下载一下 spring 我们访问spring的官网 地址非常的好记 spring.io project进入官网我们选择 project>Spring Framework 进入界面 我们选择 Learn 下面就会给我们列举出版本 这边建议大家下5.3.24 首先 要下GA的 因为这表示它比较稳定 其次 版本比较适中 大部分…