大模型微调 - 自动加载预训练模型

news2025/1/17 6:19:32

大模型微调 - 自动加载预训练模型

flyfish

AutoModelFor 是 Hugging Face transformers 库中的一个通用接口,这里用的是modelscope ,用于自动加载预训练模型,涵盖多种任务的模型。AutoModelFor 后面接不同的任务名称会对应不同的模型架构,适合不同的自然语言处理任务。

tokenizer = AutoTokenizer.from_pretrained("qwen/Qwen2-0.5B-Instruct", use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("qwen/Qwen2-0.5B-Instruct", device_map="auto", torch_dtype=torch.bfloat16)

在这里插入图片描述
截图来源 https://huggingface.co/docs/transformers/model_doc/auto

举例子

AutoModelFor 系列是 Hugging Face transformers 库中的重要组件,主要用于加载不同任务的预训练模型。这些模型类封装了多种自然语言处理任务所需的不同模型架构,提供了便捷的接口。以下是对这些类的更详细描述:

  1. AutoModel
    用途 : 加载基础的 Transformer 模型,不带任何任务头部。
    典型模型 : BERT、GPT 等。
    应用场景 : 当你只需要基础的 Transformer 表示,例如用于进一步的微调或嵌入提取。

  2. AutoModelForCausalLM
    全称 : AutoModel For Causal Language Modeling
    用途 : 用于自回归语言建模任务,适合文本生成任务。这类模型在生成下一个词时,依赖于前面的词作为上下文。
    典型模型 : GPT、GPT-2、GPT-3、GPT-Neo、GPT-J。
    应用场景 : 生成下一个词或句子,常用于聊天机器人、自动文本生成、语言建模。

  3. AutoModelForSeq2SeqLM
    全称 : AutoModel For Sequence-to-Sequence Language Modeling
    用途 : 适用于序列到序列任务,如机器翻译、文本摘要生成。模型使用 Encoder-Decoder 结构。
    典型模型 : T5、BART、mBART、MarianMT。
    应用场景 : 翻译、摘要生成、问答系统、对话系统等。

  4. AutoModelForMaskedLM
    全称 : AutoModel For Masked Language Modeling
    用途 : 用于掩码语言建模任务,在模型的预训练阶段非常常用,模型需要根据上下文推测被掩盖的词。
    典型模型 : BERT、RoBERTa、DistilBERT。
    应用场景 : 预训练阶段的掩码填充任务,或者后续的句子填空任务。

  5. AutoModelForQuestionAnswering
    全称 : AutoModel For Question Answering
    用途 : 处理提问和回答任务,给定一段上下文,模型需要从中找到并返回问题的答案。
    典型模型 : BERT、RoBERTa、ALBERT、DistilBERT。
    应用场景 : 经典的问答系统,如基于文本的问答任务,常用于 SQuAD 数据集。

  6. AutoModelForTokenClassification
    全称 : AutoModel For Token Classification
    用途 : 标记分类任务,特别适用于命名实体识别(NER)、词性标注等任务。
    典型模型 : BERT、RoBERTa、XLM-R。
    应用场景 : 识别句子中的命名实体、标注词性、分类每个单词或 token。

  7. AutoModelForSequenceClassification
    全称 : AutoModel For Sequence Classification
    用途 : 序列分类任务,适用于情感分析、文本分类等任务。
    典型模型 : BERT、RoBERTa、XLNet。
    应用场景 : 情感分析、垃圾邮件检测、新闻分类等。

  8. AutoModelForMultipleChoice
    全称 : AutoModel For Multiple Choice
    用途 : 处理多项选择问题任务,给定问题和多个选项,模型返回最可能的答案。
    典型模型 : BERT、RoBERTa。
    应用场景 : 各类考试题型的多项选择题任务。

  9. AutoModelForImageClassification
    全称 : AutoModel For Image Classification
    用途 : 图像分类任务,将输入图像映射到预定义的类别。
    典型模型 : ViT(Vision Transformer)、DeiT(Data-efficient Image Transformer)。
    应用场景 : 图像分类、物体识别、场景分类等任务。

  10. AutoModelForVision2Seq
    全称 : AutoModel For Vision to Sequence
    用途 : 视觉到序列任务,如图像描述生成任务。模型从图像生成文本描述,通常结合视觉和语言模型。
    典型模型 : Vision Encoder-Decoder、OFA。
    应用场景 : 图像描述生成,如给图片添加说明、图像到文本生成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2132737.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于 CycleGAN 对抗网络的自定义数据集训练

目录 生成对抗网络(GAN) CycleGAN模型训练 训练数据生成 下载开源项目CycleGAN 配置训练环境 开始训练 模型测试 可视化结果 生成对抗网络(GAN) 首先介绍一下什么是GAN网络,它是由生成器(Generator…

工具、环境等其他小问题归纳

此篇文章内容会不定期更新,仅作为学习过程中的笔记记录 一、查询Windows 10环境下python版本与安装路径 若电脑成功安装了python环境,不小心忘了版本。 I、查询版本 1、cmd窗口快捷查询 Win R 输入cmd 进入窗口; 直接输入 python --version …

2024.9.13 系统运维

学习目标:了解 云计算运维 “云计算是中国的骄傲!” 企业向云服务商租用云服务(省钱、省心、省力) 云计算:公有云、私有云(大公司,数据隐私性)、混合云(私有云跑重要…

前端刷新进不了登录页面

报错props.ts:15 Uncaught (in promise) SyntaxError: Unexpected token 错误截图: 原因:谷歌浏览器版本过低,升级浏览器 比如这边版本就过低了

ThinkCMF框架任意内容包含漏洞的讲解

本文来自无问社区,更多网安资料可前往查看http://www.wwlib.cn 背景描述 ThinkCMF是一款基于PHPMYSQL开发的中文内容管理框架,底层采用ThinkPHP3.2.3构建。 ThinkCMF提出灵活的应用机制,框架自身提供基础的管理功能,而开发者可…

CSP 2023 提高级第一轮单项选择题解析

CSP 2023 提高级第一轮单项选择题解析 第1题第2题第3题第4题第5题第6题第7题第8题第9题第10题第11题第12题第13题第14题第15题 第1题 在 Linux 系统终端中,以下哪个命令用于创建一个新的目录?(B) A.newdir B.mkdir C.create D.mkfold 解析:记…

部署Tomcat和抓包

部署Tomcat 复制文件到桌面 查看自己是否有java环境,下图所示是有的,若没有需另行下载 解压tomcat文件 tar -xzvf apache-tomcat-7.0.96.tar.gz 下列为tomcat文件的几个重要文件 进入到bin文件中 启动tomcat ./startup.sh 可以先用本机查看是否启动…

【PostgreSQL里的restartpoint重启点】

不知道大家有没有关注过,配置文件里archive_cleanup_command参数的注释部分有着这么一句"command to execute at every restartpoint",意思是在每个restartpoint时执行的命令。 提起checkpoint大家可能比较熟悉,对于这个restartpoint&#xff…

英文软件汉化中文软件教程asi exe dll 等汉化教程

相信大家在使用国际软件的时候,会经常碰到英文类型的软件 或者玩一些游戏使用一些工具,也基本都是外网的,那么对于用户来讲 就会非常的不方便! 小编为大家整理了一些国内大佬出的的英文软件汉化中文软件的视频教程 教程分为EX…

HarmonyOS开发实战( Beta5.0)滑动视频自动播放案例实践

鸿蒙HarmonyOS开发往期文章必看: HarmonyOS NEXT应用开发性能实践总结 最新版!“非常详细的” 鸿蒙HarmonyOS Next应用开发学习路线!(从零基础入门到精通) 介绍 本示例主要介绍视频列表滑动到屏幕中间自动播放场景&…

[项目] -登录框

前言 各位师傅大家好,我是qmx_07,今天来给大家讲解登录框的小练习,就此SDK的相关学习就此结束 登录框 对话框绘制 通过添加DIaLog对话框,添加 static test文本、Edit Control输入框、Button按钮,制作登录框passwor…

快速入门编写一个Java程序

一、jdk配置 下载完jdk后需要配置环境变量 以下是其步骤 1、我的电脑-属性-高级系统设置-环境变量 2、在系统变量中新建JAVA_HOME环境变量,指向jdk的安装目录 3、编辑path环境变量,新建%JAVA_HOME%\bin 4、打开Dos命令行,任意目录下敲入j…

CGAL and the Boost Graph Library

CGAL and the Boost Graph Library 许多几何数据结构都可以解释为图,因为它们由顶点和边组成。对于halfedge数据结构、多面体曲面、arrangement以及二维三角剖分类来说,情况都是如此。利用对偶性,人们也可以将面解释为顶点,相邻面…

AcWing119 袭击

目录 AcWing119 袭击题目描述背景输入输出数据范围 题解解法优化 打赏 AcWing119 袭击 题目描述 背景 特工进入据点突袭发电站,已知所有发电站的位置和所有特工的降落位置,求任意特工距离任意核电站的最短距离 输入 第一行一个整数 T T T&#xff0…

基于SpringBoot实现SpringMvc上传下载功能实现

SpringMvc上传下载功能实现 1.创建新的项目 1)项目信息填写 Spring Initializr (单击选中)Name(填写项目名字)Language(选择开发语言)Type(选择工具Maven)Group()JDK(jdk选择17 &…

深度学习——D1(环境配置)

课程内容 W-H-W 资源 AI地图 物体检测和分割 样式迁移 人脸合成 文字生成图片 预测与训练 本地安装

【IPV6从入门到起飞】5-2 IPV6+Home Assistant(ESP32+MQTT+DHT11+BH1750)传感器采集上传监测

IPV6Home Assistant[ESP32MQTTDHT11BH1750]传感器采集上传监测 1 背景2 实现效果3 Home Assistant配置3-1 MQTT配置3-2 yaml 配置3-3 加载配置 4 ESP32搭建4-1 开发环境4-2 工程代码 5 实现效果 1 背景 在上一小节【IPV6从入门到起飞】5-1 IPV6Home Assistant(搭建基本环境)我…

luogu基础课题单 入门 上

【深基2.例5】苹果采购 题目描述 现在需要采购一些苹果,每名同学都可以分到固定数量的苹果,并且已经知道了同学的数量,请问需要采购多少个苹果? 输入格式 输入两个不超过 1 0 9 10^9 109 正整数,分别表示每人分到…

chapter1-项目搭建

文章目录 序章1. 项目开发基础概念1.1 企业开发中常见的web项目类型1.2 企业项目开发流程1.3 立项申请阶段 2. 需求分析2.1 首页2.2 登录注册2.3 课程列表2.4 课程详情2.5 购物车2.6 商品结算2.7 购买成功2.8 个人中心2.9 我的课程及课程学习 3. 环境搭建3.1 创建虚拟环境3.2 相…

2024.9.13 Python与图像处理新国大EE5731课程大作业,索贝尔算子计算边缘,高斯核模糊边缘,Haar小波计算边缘

1.编写一个图像二维卷积程序。它应该能够处理任何灰度输入图像,并使用以下内核进行操作: %matplotlib inline import numpy as np import matplotlib.pyplot as plt from scipy import linalg import random as rm import math import cv2# import and …