Datawhale 吃瓜教程组队学习 task01

news2024/11/15 21:10:01

Datawhale 吃瓜教程组队学习task01

还没写完,会持续更新~~

上个月看了周志华老师的机器学习视频课的前三章,但是后面中断了没看…(主要是懒🤐)

于是打算这个月继续来学习西瓜书和南瓜书🤯

Task01:概览西瓜书+南瓜书第1、2章 2天 截止时间 01月18日03:00

  • 既然上个月已经看过了视频课,那下面就结合上个月的笔记还有书来总结归纳一下,同时尝试一些学习方式
    • 先列出目录进行回忆
    • 部分地方画图总结
    • 给自己提出一些问题,不限于西瓜书,可以是联想到其他学习AI的过程中的内容从而提出的问题

文章目录

  • Datawhale 吃瓜教程组队学习task01
  • chap1 绪论
    • 1.1 引言 1.2 基本术语
      • 画图玩玩
        • 总结图1:关于数据集、样本、样本空间、样本维数、本书的向量记法、属性、属性值
        • 总结图2:关于学习过程、假设、真相、样例、标记、标记空间、泛化
      • 文字总结
        • 自问不答🤔
        • 术语列表
    • 1.3 假设空间
    • 1.4 归纳偏好
    • 1.5 发展历程
    • 1.6 应用现状
    • 填空答案(仅供参考)
  • chap2 模型评估与选择
    • 2.1 经验误差与过拟合
    • 2.2 评估方法
    • 2.3 性能度量
    • 2.4 比较检验
    • 2.5 偏差与方差
    • 填空答案(仅供参考)
    • 填空答案(仅供参考)
  • chap2 模型评估与选择
    • 2.1 经验误差与过拟合
    • 2.2 评估方法
    • 2.3 性能度量
    • 2.4 比较检验
    • 2.5 偏差与方差
    • 填空答案(仅供参考)

chap1 绪论

1.1 引言 1.2 基本术语

画图玩玩

总结图1:关于数据集、样本、样本空间、样本维数、本书的向量记法、属性、属性值

image-20230117223939952

总结图2:关于学习过程、假设、真相、样例、标记、标记空间、泛化

image-20230117231133010

文字总结

  • 下面列个大纲就算了吧, 毕竟一图胜千言,何况上面有两图👻👻👻

还是列出一些要点吧hhh

  • ”算法”是从数据中学得“模型”的具体方法

  • 模型是一个抽象的说法,可以理解为从数据里面产生出来的一个东西,可以是一个神经网络,甚至是一条规则

  • 机器学习是关于学习算法(learning algorithm)的设计、分析和应用的学问。所以我们研究的核心是学习算法。

    • 学习算法决定了获得什么样的模型,模型的性质很多时候来自于算法。
    • 算法是用到数据上,不一定每次都得到同样一个模型。
  • 训练:我们拿到的数据用来建立这个模型,建立这个模型的过程就是训练

  • 测试是把模型拿来用,而这个用 既可能是 考察模型好不好,也可能是 输入一个东西,让模型给结果

  • 假设(hypothesis) 真相 (ground-truth)

    • 模型

      • 所谓的模型,其实是找到了某种规律。

        比如现在要找到的是颜色是青绿色,耕地是蜷缩,敲起来声音很浑浊的这样的西瓜是一个好西瓜,就会得到了一个规则。这个规则假如我们把它当做一个模型,实际上它是揭示了 关于 什么是好西瓜 的一个规律。

      • 模型揭示了关于我们要判断的结果的一个规律。

        • 这个规律可能是显式的,比如我们一看就知道颜色,青绿色
        • 也可能是隐式的。比如一个神经网络,看不清楚它在干什么,但是反正输入一个西瓜,它就能告诉你是好还是不好。
      • 所以模型包含了一个规律。而模型找出来的这个规律不一定是正确的,所以它实际上是形成了一种假设

    • 当我们说 hypothesis 的时候,它其实就是在指我们学到的模型。对一个问题,我们可以形成很多的hypothesis,真的假设就是事实的真相(ground-truth)。

      • 🍉书的原话是 学得模型对应了关于数据的某种潜在规律,因此亦称"假设";这种潜在规律自身,则称为“真相”或“真实”
        • 我理解为:数据有规律,他们是客观存在的ground-truth,学习数据,学成归来得到模型,不一定功夫到家,所以只敢称自己学得了一种hypothesis
      • 比如我们要学习的是“青绿、蜷缩、浑浊是好西瓜“。这一条,它就是 ground-truth,是一个正确的答案。 模型学到了一个东西,而这个东西是关于结果的一个可能的规律,这个规律不一定对。如果它是对的,就是真相。
      • PAC模型中,f(x)就是hypothesis, y 就是 ground-truth

  • 在上个月的视频课里面记了些术语的笔记

自问不答🤔

引导思考~🙄

  • 这本书上的向量写法的区分是什么?什么时候行向量,什么时候列向量?

  • 为什么很多书上在没有指明的情况下,一般默认向量为列向量

    • prompt:和矩阵乘积的习惯性写法有关
  • 经常问自己

    • 一个算法针对什么样的数据是有效的
    • 这样的数据需要满足什么样的特点
    • 它产生的模型什么情况下有效
    • 这样的模型具有什么特点
  • 在脑子里想一下属性张成空间

    • prompt:点、向量、坐标轴
    • 联想一下词向量
  • 为什么要假设正类和负类是可交换的

  • 有哪些常见的监督学习和无监督学习任务?

  • 为什么要假定数据独立同分布

术语列表

  • 数据集 data set

    • 样本/示例 sample/instance
      • 属性/特征 attribute/feature
      • 属性值 attribute value
      • 属性空间/样本空间/输入空间 attribute space/sample space
    • 样例 example
      • 标记 label
      • 标记空间/输出空间 label space
    • 特征向量 feature vector
      • 维数 dimensionality
  • 学习/训练 learning/training

    • 假设 hypothesis
    • 真相/真实 ground-truth
  • 训练集 training set

    • 训练数据 training data
      • 训练样本 training sample
  • 测试集 testing set

    • 测试数据 testing data
      • 测试样本 testing sample
  • 模型/学习器 model/learner

    • 预测 prediction
    • 泛化 generalization
  • 监督学习 supervised learning

    • 分类 classification
      • 二分类 binary classification
      • 多分类 multi-class classification
      • 正类 positive class
      • 反类 negative class
    • 回归 regression
  • 无监督学习 unsupervised learning

    • 聚类 clustering
  • 分布 distribution

    • 独立同分布 independent and identically distributed(简称i.i.d)

1.3 假设空间

  • 归纳(induction)

    想想数学归纳法

    • 从特殊到一般:泛化(generalization)
    • 具体事实→一般规律
      • 例如,"从样例中学习"是一个归纳的过程,亦称 “归纳学习” (inductive learning) .
  • 演绎(deduction)

    • 从一般到特殊:特化(specialization)
    • 基础原理→具体情况
      • 例如,在数学公理系镜中,基于一组公理和推理规则推导出与之 相洽的定理,这是演绎;
  • 归纳学习有狭义与广义之分

    • 广义:大体相当于从样例中学习

    • 狭义:要求从训练数据中学得概念(concept) ,因此亦称为"概念学习"或"概念形成"

      概念学习技术目前研究、应用都比较少,因为要学得 泛化性能好且语义明确的概念实在太困难了,现实常用的技术大多是产生"黑 箱"模型.然而,对概念学习有所了解,有助于理解机器学习的一些基础思想.

  • 我们可以把学习过程看作一个在所有假设(hypothesis) 组成的空间中进行 搜索的过程,搜索目标是找到与训练集"匹配"(fit)的假设,即能够将训练集中 的瓜判断正确的假设

    • 假设的表示一旦确定,假设空间及其规模大小就确定了.
    • 现实问题中我们常面临很大的假设空间?但学习过程是基于 有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与 训练集一致的"假设集合",我们称之为"版本空间" (version space).

1.4 归纳偏好

1.5 发展历程

1.6 应用现状

填空答案(仅供参考)

  • 1.1
    • 001:算法
    • 002:数据
    • 003:模型

chap2 模型评估与选择

2.1 经验误差与过拟合

2.2 评估方法

2.3 性能度量

2.4 比较检验

2.5 偏差与方差

填空答案(仅供参考)

填空答案(仅供参考)

  • 1.1
    • 001:算法
    • 002:数据
    • 003:模型

chap2 模型评估与选择

2.1 经验误差与过拟合

2.2 评估方法

2.3 性能度量

2.4 比较检验

2.5 偏差与方差

填空答案(仅供参考)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/171063.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Kubernetes 企业项目实战】04、基于 K8s 构建 EFK+logstash+kafka 日志平台(上)

目录 一、日志对我们来说到底重不重要? 日志打印的常见级别 二、常见的日志收集方案 2.1 EFK 2.2 ELK Stack 2.3 ELKfilebeat 2.4 其他方案 三、EFK 组件详细介绍 3.1 Elasticsearch 组件介绍 3.2 Filebeat 组件介绍 1)Flebeat 和 Beat 关系…

贪心策略(五)主持人调度(一、二)

主持人调度(一)_牛客题霸_牛客网 有 n 个活动即将举办,每个活动都有开始时间与活动的结束时间,第 i 个活动的开始时间是 starti ,第 i 个活动的结束时间是 endi ,举办某个活动就需要为该活动准备一个活动主持人。 一位活动主持人在…

InnoDB与MyISAM引擎的区别

1. InnoDB与MyISAM引擎的区别 常用引擎: – InnoDB:支持事务,行级锁,外键,崩溃修复,多版本并发控制;读写效率相对较差,内存使用相对较高,占用数据空间相对较大。 – MyI…

学习IBDP中文A课程需要提前准备吗?

俗话说“宜未雨而绸缪,毋临渴而掘井”,也就说凡事都应该要预先做好充分的准备,防患于未然。而学习DP的中文课程也是如此。那么我们一起来看看,在正式进入中文A课程的学习之前,我们可以做哪些准备,令我们的学…

Qml开发之环境搭建

进入官网下载相应版本的qtcreator :https://download.qt.io/archive/qt/5.12/5.12.6/ 1.1 安装的时候注意如下对话框,需要选择下图所示的必须选项,因为我是mac 所以选择的macOS下载完之后进行点击安装,安装后运行软件图片如下&…

C#使用Spire.OCR框架识别图片中的字母,数字,文字等

OCR OCR(optical character recognition),光学字符识别。 OCR文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即&#xff0c…

AWS实战:S3 Cloud Watch Event 触发Lambda

架构 既然是S3 Cloud Watch Event 触发Lambda,首先就需要三个AWS的service: S3Event BridgeLambda S3有event产生时向Event Bridge发送event,Event Bridge通过event rule的配置过滤event,将符合规则的event发送给lambda进行处理。 S3如何向…

科研论文写作

科研论文写作 文章目录科研论文写作一、论文写作的重要性二、论文写作的总原则二、论文写作的注意事项数学符号上下文要保持一致英文表达存在天然的顺承关系比较级和最高级不可以轻易使用需要有甄别的使用其他论文中的句子数学符号需要有明确定义特定的缩写第一次出现需要指明全…

vue本地案例之记事本

新增 生成列表结构(v-for 数组)获取用户输入(v-model 双向数据绑定)回车,新增数据(v-on .enter添加数据:事件绑定v-on(可缩写为后面加事件名),限定回车.enter)删除 点击删除指定内容(v-on splice索引)数据…

posix API与网络协议栈

posix API与网络协议栈 scoket socket包含两部分:fd、tcb(tcp control block) 其中,fd属于文件系统,可在用户态进行操控;而tcb属于内核协议栈 三次握手 服务端API socekt():创建一个tcb和f…

Linux常用命令——tput命令

在线Linux命令查询工具(http://www.lzltool.com/LinuxCommand) tput 通过terminfo数据库对终端会话进行初始化和操作 补充说明 tput命令将通过 terminfo 数据库对您的终端会话进行初始化和操作。通过使用 tput,您可以更改几项终端功能,如移动或更改光…

关系数据库-2-[mysql8]python3操作mysql

参考文档Python-PyMysql详解 参考文档使用pandas操作MySQL数据库 1 pymysql操作mysql PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库。 PyMySQL 遵循 Python 数据库 API v2.0 规范,并包含了 pure-Python MySQL 客户端库。 pip install PyMySQL1.…

在线教育-谷粒学院学习笔记(八)

文章目录1 内容介绍2 微服务3 微服务实现删除nacos4 删除课程-删除视频5 Hystrix1 内容介绍 Spring Colud 删除小节-删除视频删除课程-删除视频 2 微服务 service 三个服务 service_edu 8001service_oss 8002service_vod 8003 微服务 微服务是架构风格把一个项目拆分成多个…

NUMA介绍

早期CPU访问内存结构 UMA1(Uniform Memory Access, 一致性内存访问 ) 早期的计算机,内存控制器还没有整合进 CPU,所有的内存访问都需要经过北桥芯片来完成。 在 UMA 架构下,CPU 和内存之间的通信全部都要通过前端总线…

【Java|golang】2293. 极大极小游戏

给你一个下标从 0 开始的整数数组 nums ,其长度是 2 的幂。 对 nums 执行下述算法: 设 n 等于 nums 的长度,如果 n 1 ,终止 算法过程。否则,创建 一个新的整数数组 newNums ,新数组长度为 n / 2 &#x…

go语言初识——数据类型

目录 go go与C语言区别 helloworld 数据类型 变量 定义 类型推导 简短声明 : 匿名变量 常量 iota 基本类型 指针 数组 结构体 go Go是2009年开源的编程语言,Go语言具有以下特性:语法简洁、并发编程、编译迅速、数组安全、丰富的内置类型…

如何在 Antd Pro 框架上实现样式自定义?

文章目录一、前言二、实操过程一、前言 Ant Design Pro 是一个企业级中后台前端/设计解决方案,已经有完善的 UI 组件及设计风格,在一些特定项目中,往往涉及到对其调整,来实现独特的 UI 设计,如不同的主题色、布局、卡…

帮助台技术员协助的自助服务

对于帮助台技术员例行电话带来成本高居不下的企业来说,最终用户自助服务是一个伟大的解决方案,允许用户解决自己的IT问题。然而,一些企业仍未部署自助服务。例如,即使在Active Directory中维护每个员工的最新个人资料信息是一件乏…

1. Python3的安装与环境搭建

1. 开发环境:Win10 Python3.10.5 PyCharm 2. 安装Python3 下载地址:https://www.python.org/ 运行刚下载的python-3.10.5-amd64.exe,并做以下操作: 然后Next,并进行以下操作: 最后点击Install&#…

会话跟踪技术:Cookie、Session和Token

会话跟踪技术背景:1. Cookie (客户端的会话跟踪技术)1.1 原理1.2 基本使用1.2.1 服务器发送Cookie1.2.2 服务器获取Cookie1.3 使用细节1.3.1 存活时间1.3.2 存储中文2. Session(服务端的会话跟踪技术)2.1 原理2.2 基本…