Hugging Face发布重量级版本:Transformer 4.42

news2025/1/20 19:18:26

Hugging Face 宣布发布Transformer 4.42,该版本为流行的机器学习库带来了许多新功能和增强功能。此版本引入了几个高级模型,支持新工具和检索增强生成 (RAG),提供 GGUF 微调,并整合了量化的 KV 缓存,以及其他改进。

随着Transformer 4.42的发布,包括Gemma 2、RT-DETR、InstructBlip 和 LLaVa-NeXT-Video在内的新模型的发布也使其更加值得关注。下面就一起看下这些新的更新。

Gemma 2 模型系列由 Google 的 Gemma2 团队开发,这些模型在 6万亿个代币上进行了训练,并在语言理解、推理和安全方面的各种学术基准中表现出卓越的表现。在 18 个基于文本的任务中,它们在 11 个任务中的表现优于类似大小的开放模型。

RT-DETR,即实时DEtection Transformer,是另一个重要的补充。该模型专为实时对象检测而设计,利用 transformer 架构快速准确地识别和定位图像中的多个对象。它的发展使其成为目标检测模型的强大竞争对手。

InstructBlip使用BLIP-2架构增强了可视化指令调优。它将文本提示馈送到 Q-Former,从而实现更有效的视觉语言模型交互。该模型有望提高需要视觉和文本理解的任务的性能。

LLaVa-NeXT-Video通过合并视频和图像数据集来构建 LLaVa-NeXT 型。此增强功能使该模型能够执行最先进的视频理解任务,使其成为零样本视频内容分析的宝贵工具。AnyRes 技术将高分辨率图像表示为多个较小的图像,对于该模型有效地从图像泛化到视频帧的能力至关重要。

  • 使用 AnyRes 实现零镜头视频表示功能:AnyRes 技术自然地将高分辨率图像表示为预训练的 VIT 能够消化的多个图像,并将它们形成一个压缩序列。这种技术自然可以推广到表示视频(由多个帧组成),使仅经过图像训练的 LLaVA-Next 模型在视频任务上表现出色。值得注意的是,这是LMM首次表现出强大的零样本模态转移能力。

  • 长度泛化的推理在较长的视频上得到了改进。线性缩放技术支持长度泛化,使 LLaVA-NeXT 能够有效地处理max_token_length长视频,而超出了 LLM.

  • 较强的视频理解能力。(1) LLaVA-Next-Image 结合了上述两种技术,与在视频上调谐的开源 LMM 相比,产生了卓越的零样本性能。(2) LLaVA-Next-Video,对视频数据进行进一步的监督微调(SFT),与LLaVA-Next-Image相比,实现了更好的视频理解能力。(3) LLaVA-Next-Video-DPO,使用直接偏好优化 (DPO) 将模型响应与 AI 反馈保持一致,显示出显着的性能提升。

  • 使用 SGLang 进行高效部署和推理。它允许将视频任务的推理速度提高 5 倍,从而实现更具可扩展性的服务,例如百万级视频重新字幕。请参阅我们的存储库中的说明。

Hugging Face会自动为Python函数生成JSON架构描述,从而促进与工具模型的无缝集成。工具模型的标准化 API 确保了各种实现之间的兼容性。另一个值得注意的增强功能是GGUF微调支持。此功能允许用户在 Python/Hugging Face生态系统中微调模型,然后将它们转换回 GGUF/GGML/llama.cpp库。这种灵活性确保了模型可以在不同的环境中进行优化和部署。

量化改进(包括添加量化的 KV 缓存)进一步降低了生成模型的内存需求。此次更新,加上对量化文档的全面修订,为用户提供了更清晰的指导,帮助他们选择最适合其需求的量化方法。

除了这些主要更新之外,该版本还删除已弃用的组件,如 ConversationalPipeline 和 Conversation 对象。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1880682.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2029年AI服务器出货量将突破450万台,AI推理服务器即将爆发式增长

在2020年,新冠疫情与远程办公模式的兴起推动了所有类型服务器的出货量达到峰值,随后几年里,除了AI服务器之外的所有类别都回归到了正常水平。 根据Omdia的研究数据,AI服务器的出货量在2020年急剧上升,并且至今未显示出…

每日一题——Python实现PAT乙级1073 多选题常见计分法(举一反三+思想解读+逐步优化)9千字好文

一个认为一切根源都是“自己不够强”的INTJ 个人主页:用哲学编程-CSDN博客专栏:每日一题——举一反三Python编程学习Python内置函数 Python-3.12.0文档解读 目录 初次尝试 再次尝试 有何不同 版本一(原始版本):…

CVE-2019-12272 Openwrt可视页面LuCi命令注入漏洞复现(完结)

声明 本文所使用的一些源代码等内容已经上传至github,具体地址如下 Vulnerability_POC-EXP/OpenWrt/CVE-2019-12272 at main a2148001284/Vulnerability_POC-EXP GitHub 漏洞简介 参考内容: CVE-2019-12272 OpenWrt图形化管理界面LuCI命令注入分析 |…

C# YoloV8 模型效果验证工具(OnnxRuntime+ByteTrack推理)

C# YoloV8 模型效果验证工具(OnnxRuntimeByteTrack推理) 目录 效果 项目 代码 下载 效果 模型效果验证工具 项目 代码 using ByteTrack; using OpenCvSharp; using System; using System.Collections.Generic; using System.Diagnostics; using System.Drawing; using Sys…

Knife4j 2.2.X 版本 swagger彻底禁用

官方文档配置权限:https://doc.xiaominfo.com/v2/documentation/accessControl.html#_3-5-1-%E7%94%9F%E4%BA%A7%E7%8E%AF%E5%A2%83%E5%B1%8F%E8%94%BD%E8%B5%84%E6%BA%90 通常有时候我们碰到的问题如下: 在开发Knife4j功能时,同很多开发者经常讨论的问…

通用管理页面的功能实现

在Windows Forms(WinForms)应用程序中,创建一个通用的管理页面通常涉及对数据的增删改查(CRUD)操作,以及一些额外的功能,如数据过滤、排序、导出和导入等。 先看一个仓库管理页面要素。 仓库管…

基于elastic stack的docker-compose部署的ELK与LDAP集成

说明: ldap信息配置到es配置文件上,然后kibana读取es的配置信息 用户与角色的关系通过role_mapping.yml文件配置获取 角色与权限的关系通过elastic stack提供的DevTools或API进行维护 一、前置条件: 1.1 es已开启xpack(已开启…

基于Spring Boot的在线医疗咨询平台的设计与实现【附源码】

基于Spring Boot的在线医疗咨询平台的设计与实现 Design and implementation of the computer hardware mall based on Spring Boot Candidate: Supervisor: April 20th, 2024 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师…

怎么找python的运行路径

1.命令行中执行: import sys print(sys.argv[0]) 执行后为空。 2. import os os.path.abspath(os.curdir) 3. import os os.getcwd()

深度势能生成器(DP-GEN)入门讲解

文章目录 1.原子间相互作用1.为什么研究原子间相互作用2.研究原子间相互作用的传统方法 2.深度学习研究原子间相互作用1.深度势能平滑模型(DeepPot-se)2.Deep Potential 模型训练3.同步学习→充足采样&筛选样本 3.DP-GEN操作及运行1.DP-GEN主流程2.DP-GEN基本命令3.生成初始…

HarmonyOS APP应用开发项目- MCA助手(Day02持续更新中~)

简言: gitee地址:https://gitee.com/whltaoin_admin/money-controller-app.git端云一体化开发在线文档:https://developer.huawei.com/consumer/cn/doc/harmonyos-guides-V5/agc-harmonyos-clouddev-view-0000001700053733-V5注:…

用人工智能大模型预报气象,中国气象局示范计划公开征集火热报名中

近日,中国气象局发布了人工智能气象预报大模型示范计划(以下简称“示范计划”),推进气象大模型标准规范和有序发展,引导解决预报业务实际难题,促进人工智能气象预报大模型业务的应用转化、准入,…

k8s笔记——helm chat与k8s Operator区别

k8s Operator Kubernetes 为自动化而生。无需任何修改,你即可以从 Kubernetes 核心中获得许多内置的自动化功能。 你可以使用 Kubernetes 自动化部署和运行工作负载,甚至 可以自动化 Kubernetes 自身。 Kubernetes 的 Operator 模式概念允许你在不修改…

10位时间戳、13位时间戳、17位时间戳,以及在JavaScript中的格式转换

一、介绍 1、10位时间戳 2、13位时间戳 3、17位时间戳 4、时间戳转换工具 二、13位时间戳的转换 1、转标准日期 2、转格式化日期 三、10位时间戳的转换 1、转标准日期 2、转格式化日期 四、17位时间戳的转换 1、解析思路 2、解析过程 3、完整代码 4、新的问题 …

【学习笔记】Redis学习笔记——第5章 跳跃表

第5章 跳跃表 有序集合,ZSet关键组成部分,时间复杂度媲美平衡树,且实现简单。 5.1 跳跃表的实现 可以简单理解为每个节点会有一些指向后面跨越N个节点的指针,比如说Node1不仅有指向Node2的指针,还可以有Node5的&…

【分布式计算框架 MapReduce】高级编程—搜索日志数据分析

目录 一、对于 sogou_500w_utf 数据,使用 MapReduce 编程模型完成对以下数据的分析任务 1. 统计 2011-12-30 日搜索记录,每个时间段的搜索次数 (1)运行截图 (2) 源代码 2. 统计 2011-12-30 日 3 点至 …

SCCB协议介绍,以及与IIC协议对比

在之前的文章里已经介绍了IIC协议:iic通信协议 这篇内容主要介绍一下SCCB协议。 文章目录 SCCB协议:SCCB时序图iic时序图SCCB时序 VS IIC时序 总:SCCB协议常用在摄像头配置上面,例如OV5640摄像头,和IIC协议很相似&…

Kubernetes Artemis系列 | 使用 ArtemisCloud Operator 部署 artemis

目录 一、ArtemisCloud Operator 介绍二、部署ArtemisCloud Operator三、使用 ArtemisCloud Operator 部署 artemis四、管理队列五、缩减规模时消息迁移 一、ArtemisCloud Operator 介绍 ArtemisCloud Operator 是一个用于管理和部署云端基础设施的工具。它基于 Kubernetes 平…

ArtTS系统能力-通知的学习(3.1)

上篇回顾: ArtTS语言基础类库-容器类库内容的学习(2.10.2) 本篇内容: ArtTS系统能力-通知的学习(3.1) 一、 知识储备 1. 基础类型通知 按内容分成四类: 类型描述NOTIFICATION_CONTENT_BASIC_TEXT普通文…

大物3错题整理

平衡位置:在O点上的位置 相位: 当N很大的时候,wxwywz。因此,平均平动动能除以3,就是能量均分定理。 W F在x上的积分 Π时无单位 180,就是单位 1rad,rad就是单位 左手定则、右手定则、安培定…