如何进行大模型训练和微调?(实战)

news2024/11/16 17:51:38

1、在项目中,如果prompt和function calling足够好,尽量不要微调,节约成本。
以下是针对function calling的slot,评估准确率(识别准确度)、召回率(全面率),F1值。
从中可以看出,训练微调并不能比function calling增强太多。

在这里插入图片描述

2、大模型训练和微调工具
https://huggingface.co/
分类器示例:https://huggingface.co/datasets/cornell-movie-review-data/rotten_tomatoes

3、模型训练数据,以开源数据库为例,包含酒店,景点,餐馆等信息。
https://github.com/thu-coai/CrossWOZ/
酒店数据库
https://github.com/thu-coai/CrossWOZ/blob/master/data/crosswoz/database/hotel_db.json
可以通过训练实现下面的对话机器人。
在这里插入图片描述
4.数据增强,可以用chatgpt对以上数据库改写,得到增强数据库,更加口语化。
在这里插入图片描述
5、模型训练环境
AutoDL的4090云GPU,显存大于20GB
https://www.autodl.com/home
在这里插入图片描述
6、训练、微调代码示例
https://github.com/agiclass/fine-tuning-lab/tree/v4
https://github.com/agiclass/fine-tuning-lab/blob/main/web_demo/web_demo.py

7、连接租用的容器后即可进行训练、微调。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2133728.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

error: subprocess-exited-with-error

error: subprocess-exited-with-error 欢迎来到英杰社区https://bbs.csdn.net/topics/617804998 欢迎来到我的主页,我是博主英杰,211科班出身,就职于医疗科技公司,热衷分享知识,武汉城市开发者社区主理人 擅长.net、C、…

论文速递! Attention-LSTM特征融合,用于剩余使用寿命(RUL)预测

论文标题:Machine Remaining Useful Life Prediction via an Attention-Based Deep Learning Approach 期刊信息:IEEE TIE (中科院1区, JCR Q1 TOP, IF7.5) 引用:Chen Z, Wu M, Zhao R, et al. Machine remaining useful life prediction v…

借助Aspose.Email、用C# 渲染 HTML 格式 电子邮件

对于构建电子邮件通信应用程序的开发人员来说,电子邮件渲染对于确保通过应用程序发送的电子邮件在不同的电子邮件客户端、设备和设置中正确且一致地显示至关重要。 为了有效地执行此任务,Aspose.Email for .NET提供了多种功能,用于格式化和自…

C++ Primer Plus(速记版)-容器和算法

第九章 顺序容器 容器是存储特定类型对象的集合,标准库提供了多种容器类型以支持不同的使用场景。其中,顺序容器(如vector、list、deque)根据元素添加到容器中的顺序来存储和访问元素,与元素值无关。 这些顺序容器各有…

昆仑通态触摸屏——历史曲线XY轴调节功能

目录 1、添加参数 2、规划界面 3、编写脚本 4、结果演示 前言 在工程中有时会遇到因环境等变化而导致参数波动较大,对于这种参数我们想要在触摸屏中直观地看到变化的趋势,就需要比较大的显示屏或者可调节的曲线显示。但是在历史曲线的设置中没有直接…

MySQL底层为什么选择用B+树作为索引

首先,我们来想想为什么这么多数据结构,为什么要用树这种数据结构? 众多的数据结构在逻辑层面可分为:线性结构 和 非线性结构。 线性结构有:数组、链表,基于它们衍生出的有哈希表(哈希表也称散…

01_Python基本语法

Hello Python 与其他编程一样,第一个程序都是输出Hello World!。 print("Hello World!")print() 函数由两部分构成 : 指令:print指令的执行对象,在 print 后面的括号里的内容 Hello World!。 Python程序的执行流程如…

JS - 获取剪切板内容 Clipboard API

目录 1,需求最终效果 2,实现示例 3,注意点1,只支持安全上下文环境2,只能读取当前页面的剪切板3,权限获取问题4,获取内容的 MIME_TYPE 问题1,文本内容2,图片内容 5&#x…

深入MySQL的索引实践及优化

文章目录 一、什么是索引二、数据结构——为什么是B树平衡二叉查找树红黑树B树(多叉)B树(多叉) 三、MySQL索引实战1.索引创建(1)自动创建索引(2)手动创建非聚簇索引(3)索引的代价 2.B树索引原则(1)等值匹配…

make 程序规定的 makefile 文件的书写语法(4)

(29)接着学习 make 支持的变量追加操作, , 在变量的原有字符串的基础上,再追加字符串,并用一个空格隔开: (30)再学习 make 的语法,shell 运行赋值&#xff1…

关于Redis缓存一致性问题的优化和实践

目录标题 导语正文分布式场景下无法做到强一致即使是达到最终一致性也很难缓存的一致性问题缓存是如何写入的 如何感知数据库的变化最佳实践一:数据库变更后失效缓存最佳实践二:带版本写入 总结与展望阿里XKV腾讯DCache 导语 Redis缓存一致性的问题是经…

大模型→世界模型下的「认知流形」本质·下

本篇内容节选自今年初我撰写的那篇10万的文章《融合RL与LLM思想,探寻世界模型以迈向AGI》,其观点也是文章中核心中的核心。 想进一步完整阅读的小伙伴可关注评论,节选内容如下↓ 接上篇..“因此当前无论对先验自回归学习下的LLMs也好还是未来…

ASR(自动语音识别)识别文本效果的打分总结

ASR(自动语音识别)识别文本效果的打分总结 1. 词错误率(WER, Word Error Rate)2. 字正确率(W.Corr, Word Correct)3. 编辑距离(Edit Distance)4. 特定错误率5. 句子错误率(SER, Sentence Error Rate)6. 基于模型的评估方法对于ASR(自动语音识别)识别文本效果的打分…

【python】python中非对称加密算法RSA实现原理与应用实战

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…

9.13 DFSBFS 简单 101 Symmetric Tree 104 Maximum Depth of Binary Tree

101 Symmetric Tree class Solution { public:// 比较两个向量是否镜像对称bool isIdentical(const std::vector<int>& n1, const std::vector<int>& n2) {int n n1.size();for (int i 0; i < n; i) {if (n1[i] ! n2[n - i - 1]) return false; // 镜…

AV1 Bitstream Decoding Process Specification--[2]:符号和缩写术语

原文地址&#xff1a;https://aomediacodec.github.io/av1-spec/av1-spec.pdf没有梯子的下载地址&#xff1a;AV1 Bitstream & Decoding Process Specification摘要&#xff1a;这份文档定义了开放媒体联盟&#xff08;Alliance for Open Media&#xff09;AV1视频编解码器…

通过LiveGBS实现安防监控摄像头GB28181转成WebRTC流实现web浏览器网页无插件低延迟直播...

目录 1、WebRTC超低延时直播2、WebRTC延时对比3、LiveGBS的低延时的WebRTC流4、分屏页面如何选择默认播放流5、无法播放Webrtc6、搭建GB28181视频直播平台 1、WebRTC超低延时直播 需要低延时的视频流监控播放&#xff0c;之前可以用rtmp的低延时播放(1秒左右)&#xff0c;随着浏…

三星ZFlip5/ZFlip4/W7024刷安卓14国行OneUI6.1系统-高级设置-韩/欧/港版

三星ZFlip5/ZFlip4/W7024系列手机&#xff0c;基本都是高端玩家的一个产品&#xff0c;目前虽然国内销量不 如其他品牌&#xff0c;但依旧表现不错&#xff0c;并且大家都不知道三星全球第一&#xff0c;自然在国外销量也比较OK 由于三星全部设备基本都支持解锁BL&#xff08;美…

Spring Boot基础

项目创建 项目启动 请求响应 RestController 1.返回值处理 RestController&#xff1a;这个注解结合了Controller和ResponseBody的功能。它默认将所有处理请求的方法的返回值直接作为响应体内容返回&#xff0c;主要用于构建RESTful API。返回的数据格式通常是JSON或XML&…

vue使用TreeSelect设置带所有父级节点的回显

Element Plus的el-tree-select组件 思路&#xff1a; 选中节点时&#xff0c;给选中的节点赋值 pathLabel&#xff0c;pathLabel 为函数生成的节点名字拼接&#xff0c;数据源中不包含。 在el-tree-select组件中设置 props“{ label: ‘pathLabel’ }” 控制选中时input框中回…