第十九节大语言模型与多模态大模型loss计算

第十九节大语言模型与多模态大模型loss计算

news2025/4/19 4:39:46

文章目录

前言
一、大语言模型loss计算
- 1、loss计算代码解读
- 2、构建模型输入内容与label标签
二、多模态大模型loss计算方法
- 1、多模态loss计算代码解读
- 2、多模态输入内容
- 2、大语言模型输入内容
- 3、图像embending如何嵌入文本embeding

前言

如果看了我前面文章，想必你基本对整个代码有了更深认识。实际上，大多大模型都是使用huggingface搭建，而大多LORA训练也是调用PEFT库。然而，LLaVA代码却没有相关VIT模型训练内容，也没有不同组合训练。而我也是想探索单独使用vit的lora训练、单独使用llm的lora训练或全都使用会有什么效果呢？因此，本篇文章将探索LLaVA如何按需构建LORA训练，我会给出如何构建参数与修改源码，也会给出我实验结果。实验结果表明，视觉、语言、映射三着结合训练基本没有效果，视觉与语言训练也不会有效果，而其它基本会有转好效果。

一、大语言模型loss计算

1、loss计算代码解读

我以llama3的loss计算方法来说明，大语言模型的loss计算逻辑，我们可以发现输出logits是取前n-1个位置内容，而lables是取了1：n的内容。如此，使用计算前面内容推理后面内容，假如你输出是5个可推理第6个token内容，如此类推就可以生成式的给出推理内容，这也是推理逐字生成方法，其代码如下图：

在这里插入图片描述
我们从代码中可已发现，大语言模型使用交叉熵来计算的，至于有关交叉熵相关原理，可自行参考其它博客内容。

2、构建模型输入内容与label标签

我给出大概loss计算标签，我们可以发现inpu

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1992712.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Java学习Day24：基础篇14：多线程

Java学习Day24：基础篇14：多线程

1.程序、进程和线程程序进程进程(process)是程序的一次执行过程，或是一个正在执行的程序。是一个动态的过程：有它自身的产生、存在和消亡的过程。如： 运行中的QQ运行中的音乐播放器视频播放器等；程序是静态的&#xff0c…

阅读更多...

写给小白程序员的一封信

写给小白程序员的一封信

文章目录 1.编程小白如何成为大神？大学新生的最佳入门攻略2.程序员的练级攻略3.编程语言的选择4.熟悉Linux5.学会git6.知道在哪寻求帮助7.多结交朋友8.参加开源项目9.坚持下去 1.编程小白如何成为大神？大学新生的最佳入门攻略编程已成为当代大学生的必…

阅读更多...

音视频开发，最新学习心得与感悟

音视频开发，最新学习心得与感悟

音视频技术的知识海洋浩瀚无垠，自学之路显得尤为崎岖，技术门槛的存在是毋庸置疑的事实。对于渴望踏入这一行业的初学者而言，学习资源的匮乏成为了一道难以逾越的障碍。本次文章主要是给大家分享音视频开发进阶学习路线，虽然我…

阅读更多...

三大口诀不一样的代码，小小的制表符和换行符玩的溜呀

三大口诀不一样的代码，小小的制表符和换行符玩的溜呀

# 小案例，打印输出加法口诀 for i in range(1,10):for j in range(1,10):if j>i:breakprint(f"{j}{i}{ji}".strip(),end\t)print() print(\n) for i in range(1,10):for j in range(1,10):if j>i:breakprint(f"{j}x{i}{j*i}",end\t)print…

阅读更多...

[Spring] Spring AOP

[Spring] Spring AOP

🌸个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 🏵️热门专栏: 🧊 Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 🍕 Collection与…

阅读更多...

【Linux】sudo提升权限（入门）

【Linux】sudo提升权限（入门）

相关专栏：《Linux》目录 1. sudo功能介绍 2. 任何人都能用 sudo 吗？ （1）查看配置文件/etc/sudoers （2）修改/etc/sudoers提权 3. 改变sudo输入密码时间 4. 显示sudo 密码 5.常见 sudo 命令 -k 参数 …

阅读更多...

ajax part4

ajax part4

图片上传 <!DOCTYPE html> <lang"en"><head>cmeta charset"UTF-8><meta http-equiv"X-UA-Compatibleb content" IEedge"><meta name"viewportR content" wiclthdevic6-widths initial-scalel. 0"&…

阅读更多...

做报表用什么工具？不想再用Excel了！！！

做报表用什么工具？不想再用Excel了！！！

一、什么是中国式报表？ 不知道大家现在还是使用Excel来制作报表，然后跟领导汇报工作吗？虽然Excel功能很强大，但是用Excel做过中国式报表的小伙伴一定知道它的制作过程有多复杂。中国式报表可以用一句话简单概括：格式…

阅读更多...

C++笔试强训11

C++笔试强训11

文章目录一、选择题1-5题6-10题二、编程题题目一题目二一、选择题 1-5题 A. 不是任何一个函数都可定义成内联函数：这是正确的。因为内联函数需要在编译时展开，如果函数体过大或包含复杂的控制结构（如循环、递归等）&#xff0c…

阅读更多...

Linux/C 高级——分文件编程

Linux/C 高级——分文件编程

1.头文件：.h结尾的文件头文件引用、宏定义、重命名typedef、结构体、共用体、枚举的定义、函数声明、外部引用extern。一般全局变量不会定义在头文件中 2.源文件：.c结尾的文件包含main函数的.c文件：main函数包含子函数的.c文件&#xff1…

阅读更多...

【LLM】-17-会话存储

【LLM】-17-会话存储

目录 1、会话存储类型 2、版本代码说明 3、对话缓存存储 3.1、示例代码 3.2、响应response说明 3.3、流式输出 3.4、添加提示词模板 3.5、指定回答语言 4、限制令牌数存储 4.1、trim_messages 4.1.1、自定义tokens计数器 4.1.2、自定义tokens计数器 4.2、完整chat…

阅读更多...

HookNet- 用于病理全切片图像的多分辨率语义分割模型｜顶刊精析·24-08-08

HookNet- 用于病理全切片图像的多分辨率语义分割模型｜顶刊精析·24-08-08

小罗碎碎念今天分享的这篇文章是关于一种名为HookNet的新型语义分割模型，它专为病理学全切片图像设计，于2021年发表于《Med Image Anal》，目前IF10.7。作者角色姓名单位（中文翻译）第一作者Mart van Rijthoven荷兰Ra…

阅读更多...

Spring-boot 集成 SocketIO（看这一篇就够了）

Spring-boot 集成 SocketIO（看这一篇就够了）

1 前言 1.1 什么是 SocketIO ? Socket.IO 是一个可以在浏览器与服务器之间实现实时、双向、基于事件的通信的工具库。 Socket.IO 能够在任何平台、浏览器或设备上运行,可靠性和速度同样出色。 1.2 websocket和socket.io区别？ websocket a：一种让客户…

阅读更多...

video标签，去除上下默认边距

video标签，去除上下默认边距

不知道为什么，video标签上下会有空白清除方法 style"width 100%; height100%; object-fit: fill"

阅读更多...

校园二手物品交易网站/校园闲置物品交易系统

校园二手物品交易网站/校园闲置物品交易系统

摘要本文论述了校园二手物品交易网站的设计和实现，该网站从实际运用的角度出发，运用了计算机网站设计、数据库等相关知识，网络和JSP技术、SSM框架Mysql数据库设计来实现的，网站主要包括学生注册、学生登录、浏览商品、搜索商品…

阅读更多...

Vue+Element Plus后台管理主界面搭建实现

Vue+Element Plus后台管理主界面搭建实现

续接Django REST Framework，使用Vite构建Vue3的前端项目 1. 后台管理系统主界面框架搭建后台系统主界面搭建新建后台管理文件目录完成后台整体布局 // 1.主界面 index.vue<script setup lang"ts"></script><template><el-…

阅读更多...

应用层HTTP协议

应用层HTTP协议

文章目录应用层HTTP协议1、HTTP协议概念2、URL（统一资源定位符）2.1、URL的encode（编码）和decode（解码） 3、HTTP请求和响应报头格式3.1、请求报头3.2、响应报头 4、HTTP的方法4.1、GET方法4.2、POST方法4.3…

阅读更多...

生成模型VAE

生成模型VAE

VAE likelihood-basedELBOVAESGVB估计器和AEVB算法重参数化 likelihood-based likelihood-based generative models是生成模型的一类范式，通过最大化所有观测数据的似然函数来学习模型参数。该怎么去理解likelihood-based，基于似然的生成模型&#xf…

阅读更多...

互联网重构“规则制定权”，周期性谋咒开始轮转！

互联网重构“规则制定权”，周期性谋咒开始轮转！

周期“魔咒”又开始轮转了。产业趋势叠加资本周期，使得任何产业都有其周期性规律，传统资源产业是如此，科技产业亦非例外。刚刚迎来30周年庆的中国互联网赛道就正处于新一轮小周期的节点。随着移动用户量逐渐被开发利用至阶段性顶峰&#…

阅读更多...

学习c语言第24天（练习）

学习c语言第24天（练习）

编程题第一题最大公约数最小公倍数求和 //求最大公约数和最小公倍数之和 //暴力求解 //int main() //{ // int n 0; // int m 0; // while (scanf("%d %d", &n, &m)2) // { // int min n < m ? n : m; // int max n > m ? n : m; //…

阅读更多...

推荐文章

最新文章