CMU生成式人工智能大模型:从入门到放弃(四)

news2025/1/9 15:39:20


 

引言

在之前的系列博客中,我们深入探讨了生成式AI的基础知识、大型语言模型的发展,以及如何通过递归神经网络(RNN)和Transformer模型来学习语言模型。今天,我们将转向计算机视觉领域,探讨预训练与微调的概念,以及现代Transformer模型在视觉任务中的应用。

预训练与微调

在深度学习的早期,研究者们发现,通过无监督的逐层预训练,然后进行有监督的微调,可以显著提高深层网络的性能。这种方法被称为Idea #3,它通过使用大量未标记的数据进行预训练,然后在标记的数据上进行微调,从而优化模型的最终任务。

预训练的优势

预训练的主要优势在于它能够利用大量未标记的数据来学习有用的特征表示,这些特征表示可以在多种任务之间迁移。这种方法在自然语言处理(NLP)和计算机视觉(CV)中都取得了巨大的成功。

现代Transformer模型

现代Transformer模型在预训练阶段采用了多种技术来提高模型的性能和效率。这些技术包括:

  1. 键值缓存(Key-Value Cache):在每个时间步,我们重用所有之前的键和值,这意味着我们需要缓存它们。

  2. 旋转位置嵌入(Rotary Position Embeddings, RoPE):这是一种相对位置嵌入,它通过将每个维度的输入向量分解并旋转来捕捉位置信息。

  3. 分组查询注意力(Grouped Query Attention, GQA):这种技术通过为多个不同的查询头重用相同的键值头来减少参数数量。

  4. 滑动窗口注意力(Sliding Window Attention):也称为局部注意力,它通过仅关注当前 token 周围的一个窗口内的 token 来减少计算量和内存需求。

卷积神经网络(CNNs)

卷积神经网络(CNNs)是计算机视觉中用于图像识别和分类的常用模型。CNNs通过卷积层、池化层、激活函数和全连接层的组合来提取图像的特征,并进行分类。

CNN的关键概念

  • 卷积(Convolution):通过滑动滤波器(kernel)来提取图像的局部特征。
  • 池化(Pooling):通过下采样来降低特征图的空间维度,从而减少参数数量和计算量。
  • 激活函数(Activation Function):如ReLU,用于引入非线性,使模型能够学习更复杂的特征。
  • 全连接层(Fully-Connected Layer):在卷积层和池化层之后,用于将特征映射到最终的分类结果。

CNN的训练

CNN的训练通常涉及随机梯度下降(SGD)和反向传播。通过计算损失函数的梯度并更新模型参数,模型可以逐渐学习到区分不同类别的特征。

结语

在本篇博客中,我们探讨了预训练与微调的概念,以及现代Transformer模型在视觉任务中的应用。我们还简要介绍了卷积神经网络(CNNs)的基本原理和训练方法。在下一篇博客中,我们将继续深入探讨CNNs的架构和应用,以及它们在生成式AI中的作用。

课件下载地址

https://download.csdn.net/download/u013818406/89922762

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2223565.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

STM32--SPI原理及应用

1.什么是SPI SPI,Serial Peripheral interface,串行外围设备接口。是Motorola(摩托罗拉)首先在其MC68HCXX系列处理器上定义的。 2.SPI基本特性 SPI,是一种高速全双工的通信总线。广泛地应用在ADC、LCD等设备与MCU间,适用于对通…

微前端架构新选择:micro-app 框架一文全解析

目录 前言技术方案沙箱withiframe 环境变量主应用生命周期子应用生命周期初始化更新卸载缓存 JS 沙箱样式隔离元素隔离路由系统⭐数据通信⭐资源系统预加载umd 模式其他功能调试工具 前言 https://micro-zoe.github.io/micro-app/ micro-app 是由京东前端团队推出的一款微前端…

Qt 支持打包成安卓

1. 打开维护Qt,双击MaintenanceTool.exe 2.登陆进去,默认是添加或移除组件,点击下一步, 勾选Android, 点击下一步 3.更新安装中 4.进度100%,完成安装,重启。 5.打开 Qt Creator,编辑-》Preferences... 6.进…

【力扣】[Java版] 刷题笔记-21. 合并两个有序链表

题目: 21. 合并两个有序链表 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 解题思路 从题目和示例可以看出,应该是要循环遍历链表进行比较,然后组成新的链表。 第一种:递归…

人工智能_机器学习100_PCA数据降维算法_协方差和散度矩阵_深入理解_分析_协方差和散度矩阵计算过程---人工智能工作笔记0225

其实上一节我们已经把协方差和散度矩阵都已经说过一遍了。 1.可以看到平均值,我们不用再看了,这里面有一个样本平均值可以看到,其实就是样品样本的总和除以样本的均值. 2.然后样本方差这里我们需要注意一下样本方差和全体方差的区别。样本方差除以的是n-1。因为样本方差,…

基于微博评论的自然语言处理情感分析

目录 一、项目概述 二、需要解决的问题 三、数据预处理 1、词汇表构建(vocab_creat.py) 2、数据集加载(load_dataset.py) 四、模型构建(TextRNN.py) 1、嵌入层(Embedding Layer&#xff…

2024年10月21日计算机网络,乌蒙第一部分

【互联网数据传输原理 |OSI七层网络参考模型】 https://www.bilibili.com/video/BV1EU4y1v7ju/?share_sourcecopy_web&vd_source476fcb3b552dae37b7e82015a682a972 mac地址相当于是名字,ip地址相当于是住址,端口相当于是发送的东西拿什…

任务间通信(1)

任务间通信 目录 任务间通信 回顾 -- WiFi模块:1、所有和服务器相关的操作,2、可以实现局域网通信 -- 操作系统(Freertos): FreeRTOS之任务间通信 消息队列 信号量 更改接收数据方式 互斥量 回顾 -- 我们要…

CSS设置层叠样式时报红(identifier expected css/selector expected css)

不规范语法 如上图所示,在一个 css 文件中添加层叠样式时报红:at-rule or selector expected,意思就是说我们的语句不符合 css 的语法书写规范,虽然不会导致启动报错并且还能达到预期的样式效果,但是对于有强迫症的同学…

Python爬虫进阶(实战篇一)

接,基础篇,链接:python爬虫入门(所有演示代码,均有逐行分析!)-CSDN博客 目录 1.爬取博客网站全部文章列表 ps:补充(正则表达式) 爬虫实现 爬虫代码: 2.爬…

java控制台打印乘法口诀表

目录 前言具体代码完整代码 前言 背乘法口诀表我没记错话,应该是我们在上小学二年级的时候,相信大家对乘法表相当熟悉,那你知道如何用java打印这个漂亮的表吗?下面咱们一起来学习学习。 具体代码 数字乘法表 关键代码&#xf…

shell编程实例1—猜数字游戏

脚本生成一个100以内的随机数,提示用户猜数字,根据用户的输入,提示用户猜对了, 猜小了或猜大了,直至用户才对数字结束 #!/bin/bash #脚本生成一个100以内的随机数,提示用户猜数字,根据用户的输…

大模型生图安全疫苗注入——进阶解决方案与系统优化(DataWhale组队学习)

引言 大家好,我是GISer Liu😁,上篇博客中,我们基于DataWhale 2024年10月大模型生图安全疫苗注入赛道的任务,介绍了攻击与防御的基本策略,如通过上下文稀释法、隐喻替换等绕过检测机制,并提出了多…

分布式IO模拟量模块:多领域应用的高效能解决方案

分布式IO模拟量模块是分布式IO系统中的重要组件,用于实现现场设备或过程的模拟量信号的采集、监视和控制。该模块通常与现场总线耦合器配合使用,能够接收来自现场设备的模拟量信号(如电流、电压等),并将其转换为数字信…

利用飞腾派进行OpenCV开发

实验目标: 完成飞腾平台OpenCV开发。 实验大纲: Mat数据结构加载、显示、保存图像读写像素RGB图像分离彩色图转灰度图 Mat数据结构 Mat是一个类,由两个数据部分组成:矩阵头(大小,通道,数据类型等)和数据块(像素 值)。创建示例…

Chat-macOS:HuggingChat 开源 MACOS 原生 AI 聊天神器,让你的 Mac 变成智能助手!

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦! 🥦 微信公众号&#xff…

毕业设计—基于 Inception-ResNet模型的皮肤癌分类系统实现

1.摘要 皮肤癌是人类最常见的恶性肿瘤,主要通过视觉诊断进行初步临床筛查。但是由于皮肤病变外观的细微变化性,使用图像自动分类皮肤病变是一项具有挑战性的任务。本文为了提高深度学习算法在皮肤病检测上的准确率,本文提出了基于Inception和…

bootstrap模态框myModalLabel遇到做复制的功能失效解决方案整理

bootstrap模态框myModalLabel遇到做复制的功能失效解决方案整理 解决办法:标红色的去掉就可以 tabindex“-1”

SOLIDWORKS专业版企业购买多少钱一套?

SOLIDWORKS正版软件分为三个版本,主要以每个版本的功能不同对价格进行划分,SOLIDWWORKS代理商硕迪科技将为企业提供优惠的采购价格,欢迎通过电话或者在线咨询联系我们,洽谈价格和服务。 ▲ SOLIDWORKS Professional 是应用最为广…

网站建设中需要注意哪些安全问题?----雷池社区版

服务器与应用安全指南 1. 服务器安全 1.1 操作系统安全 及时更新补丁:确保操作系统始终安装最新补丁,以防范系统漏洞。例如,Windows Server 定期推送安全更新,修复如远程代码执行等潜在威胁。优化系统服务配置:关闭不…