Hugging Face发布重量级版本:Transformer 4.4.2

news2025/1/12 20:51:19

Hugging Face 宣布发布Transformer 4.4.2,该版本为流行的机器学习库带来了许多新功能和增强功能。此版本引入了几个高级模型,支持新工具和检索增强生成 (RAG),提供 GGUF 微调,并整合了量化的 KV 缓存,以及其他改进。

随着Transformer 4.4.2的发布,包括Gemma 2、RT-DETR、InstructBlip 和 LLaVa-NeXT-Video在内的新模型的发布也使其更加值得关注。下面就一起看下这些新的更新。

Gemma 2 模型系列由 Google 的 Gemma2 团队开发,这些模型在 6万亿个代币上进行了训练,并在语言理解、推理和安全方面的各种学术基准中表现出卓越的表现。在 18 个基于文本的任务中,它们在 11 个任务中的表现优于类似大小的开放模型。

RT-DETR,即实时DEtection Transformer,是另一个重要的补充。该模型专为实时对象检测而设计,利用 transformer 架构快速准确地识别和定位图像中的多个对象。它的发展使其成为目标检测模型的强大竞争对手。

InstructBlip使用BLIP-2架构增强了可视化指令调优。它将文本提示馈送到 Q-Former,从而实现更有效的视觉语言模型交互。该模型有望提高需要视觉和文本理解的任务的性能。

LLaVa-NeXT-Video通过合并视频和图像数据集来构建 LLaVa-NeXT 型。此增强功能使该模型能够执行最先进的视频理解任务,使其成为零样本视频内容分析的宝贵工具。AnyRes 技术将高分辨率图像表示为多个较小的图像,对于该模型有效地从图像泛化到视频帧的能力至关重要。

  • 使用 AnyRes 实现零镜头视频表示功能:AnyRes 技术自然地将高分辨率图像表示为预训练的 VIT 能够消化的多个图像,并将它们形成一个压缩序列。这种技术自然可以推广到表示视频(由多个帧组成),使仅经过图像训练的 LLaVA-Next 模型在视频任务上表现出色。值得注意的是,这是LMM首次表现出强大的零样本模态转移能力。

  • 长度泛化的推理在较长的视频上得到了改进。线性缩放技术支持长度泛化,使 LLaVA-NeXT 能够有效地处理max_token_length长视频,而超出了 LLM.

  • 较强的视频理解能力。(1) LLaVA-Next-Image 结合了上述两种技术,与在视频上调谐的开源 LMM 相比,产生了卓越的零样本性能。(2) LLaVA-Next-Video,对视频数据进行进一步的监督微调(SFT),与LLaVA-Next-Image相比,实现了更好的视频理解能力。(3) LLaVA-Next-Video-DPO,使用直接偏好优化 (DPO) 将模型响应与 AI 反馈保持一致,显示出显着的性能提升。

  • 使用 SGLang 进行高效部署和推理。它允许将视频任务的推理速度提高 5 倍,从而实现更具可扩展性的服务,例如百万级视频重新字幕。请参阅我们的存储库中的说明。

Hugging Face会自动为Python函数生成JSON架构描述,从而促进与工具模型的无缝集成。工具模型的标准化 API 确保了各种实现之间的兼容性。另一个值得注意的增强功能是GGUF微调支持。此功能允许用户在 Python/Hugging Face生态系统中微调模型,然后将它们转换回 GGUF/GGML/llama.cpp库。这种灵活性确保了模型可以在不同的环境中进行优化和部署。

量化改进(包括添加量化的 KV 缓存)进一步降低了生成模型的内存需求。此次更新,加上对量化文档的全面修订,为用户提供了更清晰的指导,帮助他们选择最适合其需求的量化方法。

除了这些主要更新之外,该版本还删除已弃用的组件,如 ConversationalPipeline 和 Conversation 对象。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1879296.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

机械设计简单介绍

机械设计简单介绍 1 介绍1.1 概述1.2 机械机构设计基本步骤1.3 关键1.3.1 静力学1.3.2 动力学1.3.3 运动学1.3.4 刚度学 1.4 示例【机械臂】 2 资料2.1 知识体系2.2 博客类汇总2.3 免费CAD模型获取2.4 3D打印2.5 SolidWorks 3 具备能力3.1 熟练翻阅 机械设计手册3.2 知道 N 家常…

BeautifulSoup 类通过查找方法选取节点

BeautifulSoup 类提供了一些基于 HTML 或 XML 节点树选取节点的方法,其中比较主流 的两个方法是 find() 方法和 find_all() 方法。 find() 方法用于查找符合条件的第一个节点; find_all() 方法用于查找所有符合条件的节点,并以列表的…

代码随想录算法训练营第三十五天(dp)|509. 斐波那契数、70. 爬楼梯、746. 使用最小花费爬楼梯

509. 斐波那契数 题目链接:509. 斐波那契数 文档讲解:代码随想录 状态:so easy 思路:最简单的递归就不说了。使用动态规划的话,状态转移方程 dp[i] dp[i - 1] dp[i - 2] 题解: public int fib(int n) {…

miniconda 弹出黑窗

etc\conda\activate.d 和 envs 中不同环境中的 etc\conda\activated.d,只保留下图中的三个文件即可。

综合项目实战--jenkins节点模式

一、DevOps流程 DevOps是一种方法论,是一系列可以帮助开发者和运维人员在实现各自目标的前提下,向自己的客户或用户交付最大化价值及最高质量成果的基本原则和实践,能让开发、测试、运维效率协同工作的方法。 DevOps流程(自动化测试部分) DevOps完整流程 二、gitee+j…

Leica Cyclone 3DR2024 一款功能强大的点云建模软件下载License获取

Leica Cyclone 3DR 2024 是一款功能强大的点云建模软件,使用旨在为用户提供全面的点云管理、自动化的点云分析,结合强大的建模,在一个直观友好的环境中,专注的完成挑战,提高生产力,轻松创建并交付专业的成果…

AWTK 用 icon_at 属性设置图标位置

1. style 在 style 文件中通过 icon_at 属性设置图标位置。 <style name"right_bottom" icon_at"right_bottom"><normal icon"unchecked_right_bottom" /><pressed icon"unchecked_right_bottom" /><over i…

揭开大语言模型(LLM)内部运作的算法逻辑

本文探讨了 Anthropic 的突破性技术&#xff0c;以揭示大型语言模型 (LLM) 的内部工作原理&#xff0c;揭示其不透明的本质。通过深入研究LLM Claude Sonnet 的“大脑”&#xff0c;Anthropic 增强了人工智能的安全性和可解释性&#xff0c;为人工智能的决策过程提供了更深入的…

语言模型:文本表征词嵌入技术调研

1 文本表征 文本表征是自然语言处理中的关键部分&#xff0c;尤其在当前大模型快速发展的背景下。由于大模型存在知识有限、处理文本长度有限、保密要求和大模型幻觉等问题&#xff0c;结合外部数据显得尤为重要。 为了便于存储和检索&#xff0c;除了保存纯文本外&#xff0…

机器学习基础:开源库学习-Numpy科学计算库

目录 Numpy科学计算库 什么是多维数组 数组基础 高维数组 操作和创建数组 Numpy介绍 创建数组 数组的属性 二维数组 三维数组 数组元素的数据类型 创建特殊的数组 np.arange() np.ones() np.zeros() np.eye() np.linspace() np.logspace() asarray() 数组运…

数据结构—判断题

1.数据的逻辑结构说明数据元素之间的顺序关系&#xff0c;它依赖于计算机的存储结构。 答案&#xff1a;错误 2.(neuDS)在顺序表中逻辑上相邻的元素&#xff0c;其对应的物理位置也是相邻的。 答案&#xff1a;正确 3.若一个栈的输入序列为{1, 2, 3, 4, 5}&#xff0c;则不…

模拟城市5: 未来之城 全DLC for Mac 下载安装包

模拟城市5&#xff1a;未来之城&#xff08;SimCity BuildIt&#xff09;是一款由Maxis开发并由 Electronic Arts&#xff08;EA&#xff09;发行的城市建设和管理模拟游戏。这款游戏最初在2014年发布&#xff0c;适用于iOS、Android以及Windows Phone平台&#xff0c;随后在20…

每天五分钟计算机视觉:人体姿势识别

本文重点 人体姿势识别是计算机视觉领域的一个重要研究方向,旨在通过图像或视频数据自动检测并识别出人体的各种姿势和动作。随着深度学习技术的快速发展,基于神经网络的方法在这一领域取得了显著进展。神经网络,特别是卷积神经网络(CNN)和循环神经网络(RNN),因其强大…

NVIDIA Visual Profiler启动失败报错

在银河麒麟V10安装完NVIDIA后&#xff0c;想着试着运行一下NVIDIA Visual Profiler&#xff0c;发现报错&#xff0c;如下图。 照着提示翻阅日志文件。看见其中写着 !ENTRY com.nvidia.viper.birt 2 0 2024-06-30 08:39:39.806 !MESSAGE Could not resolve module: com.nvidi…

【保姆级教程+配置源码】在VScode配置C/C++环境

目录 一、下载VScode 1. 在官网直接下载安装即可 2. 安装中文插件 二、下载C语言编译器MinGW-W64 三、配置编译器环境变量 1. 解压下载的压缩包&#xff0c;复制该文件夹下bin目录所在地址 2. 在电脑搜索环境变量并打开 3. 点击环境变量→选择系统变量里的Path→点击编…

内容营销专家刘鑫炜:碎片化时代,小微企业内容营销如何乘风破浪

当下&#xff0c;互联网高度发达&#xff0c;技术的飞速进步和社交媒体的普及&#xff0c;使得信息的产生和传播速度达到了前所未有的高度。互联网上的内容如同潮水般汹涌而来&#xff0c;不断刷新着我们的认知边界&#xff0c;但与此同时&#xff0c;这也导致了人们的注意力被…

SpringBoot:集成机器学习模型进行预测和分析

引言 机器学习在现代应用程序中扮演着越来越重要的角色。通过集成机器学习模型&#xff0c;开发者可以实现智能预测和数据分析&#xff0c;从而提高应用程序的智能化水平。SpringBoot作为一个强大的框架&#xff0c;能够方便地集成机器学习模型&#xff0c;并提供灵活的部署和…

各省地区市场化指数及分项指数+匹配上市公司+计算代码(1997-2023年)

数据简介&#xff1a;市场化指数是一个用于评估国家市场化程度的指标体系。该指数由中国经济学家樊纲提出&#xff0c;旨在衡量中国经济中市场化的程度和质量。 市场化指数包括经济自由度、金融市场化、行政干预程度以及社会保障水平等四个方面的指标。 其中&#xff0c;经济…

有关主流编程语言的几个问题及对比

参考&#xff1a;编程语言的历史&#xff08;https://blog.csdn.net/david_lv/article/details/104765347&#xff09; 静态与动态语言的优缺点分析 什么是强类型&#xff0c;什么是弱类型&#xff1f;哪种更好些&#xff1f;为什么? 强类型和弱类型的区别 几种常见的开发语言…

Springboot学习中错误与解决方法合集

1. 报错CONDITIONS EVALUATION REPORT &#xff08;1&#xff09;现象 类似&#xff1a; 出现问题原因&#xff1a;日志文件过多 &#xff08;2&#xff09; 解决方法&#xff1a; 在application.yml配置文件中增加 logging:level:org.springframework.boot.autoconfigure…