机器学习(二十一):错误分析、创造数据和迁移学习

news2024/9/22 3:36:14

一、错误分析

假设交叉验证集一共有500个数据点,模型拟合结果中,有100个数据点有误。

错误分析就是,手动地分析这100个错误数据(或随机选择一些错误数据),根据它们的共同属性、共同特征分类,然后根据特征进一步优化模型。

二、创造数据

首先,获取大量数据的成本很高,错误分析可以告诉我们,着重获取某一方面/特征的数据,而不是获取所有数据,可以减少成本。

当需要获取更多数据时,常用的添加数据的方法有数据增强和数据合成:

2.1 数据增强

数据增强:对原数据进行扭曲或改变,创造更多格外数据,常用于图像和语言类型的任务

例如,图像识别:通过把已有的图像进行旋转、放大、缩小、调整对比度、镜像、网格扭曲图像,创造更多的额外数据

语音识别:增加噪音背景,降低音质(像是在坏的录音机录制一样的声音)

2.2 数据合成

数据合成:创造合成,主要应用于计算机视觉任务。

例如:识别图像中文字的任务:可以在文本编辑器随机敲入一些文本,把不同字体、对比度、颜色的字体进行截图,创造合成数据。

          

三、迁移学习

对于没有大量数据的学习任务,可以使用迁移学习,使用来自不同任务的数据来帮助训练模型。

第一步:监督预训练

在拥有大型数据集的任务中,预先训练神经网络。例如此任务从大量图片中训练识别1000种分类:猫、狗、车、人等等,训练出隐藏层的参数。

第二步:微调

在数据量小的任务中,使用预先训练好的神经网络,隐藏层参数使用预先训练出的参数,然后使用本任务的数据进行参数微调。例如本任务需要从少量图片中训练识别数字0-9,可以使用上一步训练好的参数w1-w4,b1-b4,然后使用本任务的输入图片微调参数。

如果数据量很小,就只需要微调输出层参数;如果数据量大,可以微调所有参数。

微调的前提是使用和预训练相同类型的输入。

常用的操作:

  1. 下载具有相同类型的、在大型数据集上预先训练过的神经网络
  2. 使用自己的数据进行微调

四、机器学习项目的完整周期

机器学习项目的完整周期:

部署到生产环境以后,需要继续监控系统和维护系统,如果有需要,需要获取更多数据,重新训练模型。

学习来源:吴恩达机器学习,13.1-13.6节

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1947071.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一文了解论文检索中ESCI与SCI-E的关系

一、SCI与ESCI相关概念 1、SCI SCI全称为Science Citation Index, 简称 SCI 。于1957 年由美国科学信息研究所(Institute for Scientific Information, 简称 ISI)在美国费城创办,是由美国科学信息研究所(ISI)1961年创办出版的引文数据库。SCI收录全世界出版的数、…

深入了解 JMeter 中的响应断言

JMeter 是一个强大的性能测试工具,能够模拟大量用户并发访问网站或应用程序,以便测试其性能和稳定性。在进行性能测试时,我们需要对响应结果进行断言,以确保应用程序或网站的功能和性能符合预期。 JMeter 提供了一套丰富的响应断…

唐山养老院哪家好—安馨医康养中心,让家人放心,老人舒心

随着社会的发展和人口老龄化的加剧,养老问题逐渐成为社会关注的焦点。特别是在面对失能、失智和高龄老人的养老需求时,传统的“养儿防老”观念和家庭护理模式已经难以满足现代家庭的实际需求。因此,越来越多的家庭开始考虑将老人送入专业的养…

【Java】 力扣 跳跃游戏II

目录 题目链接题目描述思路代码 题目链接 45.跳跃游戏II 题目描述 思路 贪心算法:找到能跳到最远的 cover是记录当前能挑到的最远位置 end表示跳到的最远边界 step表示的是跳跃的次数 开始遍历i0,end0,step会step, 循环遍历为…

Docker搭建群晖

Docker搭建群晖 本博客介绍在docker下搭建群晖 1.编辑docker-compose.yml文件 version: "3" services:dsm:container_name: dsmimage: vdsm/virtual-dsm:latestenvironment:DISK_SIZE: "16G"cap_add:- NET_ADMIN ports:- 8080:50…

js引入和使用

ESMAScript标准 语句基础标准 DOM 针对HTML标签,CSS样式的语言部分 Document Object Model BOM 针对浏览器所使用的开发部分 Browser Object Model js引入 script只能写在head或者body中),如果写在html后这种写法本来就是错误的&am…

【C语言】英寸英尺转换米

运行的结果为 我们百度一下 恒明显我们的答案错了,那这个是为什么呢? 问题就出现在计算的地方,c语言规定两个整数计算,那么小数的部分会被丢弃. 如果计算的两个数中有一个数为小数,那么会将两个数都变为小数在进行计算,结果也会是小数. 那么我们现在就有解决办法了. 方法一…

学习记录day18——数据结构 算法

算法的相关概念 程序 数据结构 算法 算法是程序设计的灵魂,结构式程序设计的肉体 算法:计算机解决问题的方法护额步骤 算法的特性 1、确定性:算法中每一条语句都有确定的含义,不能模棱两可 2、有穷性:程序执行一…

【数据结构】顺序表(c语言实现)(附源码)

​ 🌟🌟作者主页:ephemerals__ 🌟🌟所属专栏:数据结构 目录 前言 1.顺序表的概念与结构 2.顺序表的分类 3.顺序表的实现 3.1 结构定义及方法的声明 3.2 方法的实现 3.2.1 初始化 3.2.2 销毁 3.2…

学习笔记之JAVA篇(0724)

p 方法 方法声明格式: [修饰符1 修饰符2 ...] 返回值类型 方法名(形式参数列表){ java语句;......; } 方法调用方式 普通方法对象.方法名(实参列表)静态方法类名.方法名(实参列表) 方法的详…

MongoDB教程(二十一):MongoDB大文件存储GridFS

💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 文章目录 引言一、GridFS…

传输层协议——TCP

TCP协议 TCP全称为“传输控制协议”,要对数据的传输进行一个详细的控制。 特点 面向连接的可靠性字节流 TCP的协议段格式 源/目的端口:表示数据从哪个进程来,到哪个进程4位首部长度:表示该TCP头部有多少字节(注意它…

汽车免拆诊断案例 | 2014 款上汽名爵 GT 车发动机无法起动

故障现象 一辆2014款上汽名爵GT车,搭载15S4G发动机,累计行驶里程约为18.4万km。该车因左前部发生碰撞事故进厂维修,更换损坏的部件后起动发动机,起动机运转有力,但无着机迹象。用故障检测仪检测,发现无法与…

昇思25天学习打卡营第23天 | CycleGAN图像风格迁移互换

昇思25天学习打卡营第23天 | CycleGAN图像风格迁移互换 文章目录 昇思25天学习打卡营第23天 | CycleGAN图像风格迁移互换CycleGAN模型模型结构循环一致损失函数 数据集数据下载创建数据集 网络构建生成器判别器损失函数和优化器前向计算梯度计算与反向传播 总结打卡 CycleGAN模…

W30-python01-Selenium Web自动化基础--百度搜索案例-chrome浏览器为例

原理图 一、下载webdriver--chrome浏览器 根据本机浏览器的版本号下载对应的webdriver版本 http://chromedriver.storage.googleapis.com/index.html 二、安装selenium库 pip install selenium -i Simple Index 三、第一个Web自动化脚本 selenium实现Web自动化的基本步骤&…

基于vue-grid-layout插件(vue版本)实现增删改查/拖拽自动排序等功能(已验证、可正常运行)

前端时间有个需求,需要对33(不一定,也可能多行)的卡片布局,进行拖拽,拖拽过程中自动排序,以下代码是基于vue2,可直接运行,报错可评论滴我 部分代码优化来自于GPT4o和Clau…

Nginx Proxy缓存

Proxy缓存 缓存类型 网页缓存 (公网)CDN数据库缓存 memcache redis网页缓存 nginx-proxy客户端缓存 浏览器缓存 模块 ngx_http_proxy_module 语法 缓存开关 Syntax: proxy_cache zone | off; Default: proxy_cache off; Context: http,…

C语言------指针讲解(3)

一、字符指针 在指针中,我们知道有一类指针类型为字符指针char*; int main() {char ch w;char* pc &ch;*pc w;return 0; } 还有一种使用方式如下: 上述代码中,本质是把hello的首字符的地址放到了pstr中。即把一个常量字符串的首字符…

CMakeList学习笔记

设置项目:project project(planning VERSION 1.0.0 LANGUAGES CXX) # 项目的名字 版本 1.1.0 编程语言 CXX 设置包含目录:include_directories、targer_include_directories 设置编译类型:add_executable、add_library add_executable(demo d…

VMware 上的 Debian Linux 虚拟机无法听到蓝牙耳机的声音解决方案

项目场景: 在Debian上安装QQ音乐,用来摸鱼 问题描述 在安装完QQ音乐后,发现虚拟机无法听到声音,音乐有在正常播放,但是蓝牙耳机没有听到任何声音: 原因分析: 感觉是虚拟机的声卡没有配置&…