CogVLMv2环境搭建推理测试

CogVLMv2环境搭建推理测试

news2026/2/13 6:51:28

引子

之前写过一篇CogVLM的分享，感兴趣的移步CogVLM/CogAgent环境搭建&推理测试-CSDN博客，前一阵子，CogVLMv2横空出世，支持视频理解功能，OK，那就让我们开始吧。

一、模型介绍

CogVLM2 系列模型开源了两款基于 Meta-Llama-3-8B-Instruct 开源模型。与上一代的 CogVLM 开源模型相比，CogVLM2 系列开源模型具有以下改进：

1、在许多关键指标上有了显著提升，例如 TextVQA, DocVQA。

2、支持 8K 文本长度。

3、支持高达 1344 * 1344 的图像分辨率。

4、提供支持中英文双语的开源模型版本。

二、安装环境

docker run -it --rm --gpus=all -v /datas/work/zzq:/workspace cog:v1.0 bash

git clone GitHub - THUDM/CogVLM2: GPT4V-level open-source multi-modal model based on Llama3-8B

pip install decord

pip install pytorchvideo

三、推理测试

1、模型下载

https://huggingface.co/THUDM/cogvlm2-video-llama3-chat/tree/main

2、CogVLM2测试

cd /workspace/CogVLMv2/CogVLM2

修改模型路径

python video_demo/cli_video_demo.py --quant 8

显存占用

测试结果

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1948690.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

基于Vision Transformer的mini_ImageNet图片分类实战

基于Vision Transformer的mini_ImageNet图片分类实战

【图书推荐】《PyTorch深度学习与计算机视觉实践》-CSDN博客 PyTorch计算机视觉之Vision Transformer 整体结构-CSDN博客 mini_ImageNet数据集简介与下载 mini_ImageNet数据集节选自ImageNet数据集。ImageNet是一个非常有名的大型视觉数据集，它的建立旨在促进视觉…

阅读更多...

旗晟机器人仪器仪表识别AI智慧算法

旗晟机器人仪器仪表识别AI智慧算法

在当今迅猛发展的工业4.0时代，智能制造和自动化运维已然成为工业发展至关重要的核心驱动力。其中智能巡检运维系统扮演着举足轻重的角色。工业场景上不仅要对人员行为监督进行监督，对仪器仪表识别分析更是不可缺少的一个环节。那么我们说说旗晟仪器仪表识…

阅读更多...

AI模型大比拼：Claude 3系列 vs GPT-4系列最新模型综合评测

AI模型大比拼：Claude 3系列 vs GPT-4系列最新模型综合评测

AI模型大比拼：Claude 3系列 vs GPT-4系列最新模型综合评测引言人工智能技术的迅猛发展带来了多款强大的语言模型。本文将对六款领先的AI模型进行全面比较：Claude 3.5 Sonnet、Claude 3 Opus、Claude 3 Haiku、GPT-4、GPT-4o和GPT-4o Mini。我们将从性能…

阅读更多...

【Gin】精准应用：Gin框架中工厂模式的现代软件开发策略与实施技巧(下)

【Gin】精准应用：Gin框架中工厂模式的现代软件开发策略与实施技巧(下)

【Gin】精准应用：Gin框架中工厂模式的现代软件开发策略与实施技巧(下) 大家好我是寸铁👊 【Gin】精准应用：Gin框架中工厂模式的现代软件开发策略与实施技巧(下)✨ 喜欢的小伙伴可以点点关注 💝 前言本次文章分为上下两部分&…

阅读更多...

智能家居全在手机端进行控制，未来已来！

智能家居全在手机端进行控制，未来已来！

未来触手可及：智能家居，手机端的全控时代艾斯视觉的观点是：在不远的将来，家，这个温馨的港湾，将不再只是我们休憩的场所，而是科技与智慧的结晶。想象一下，只需轻触手机屏幕&#xf…

阅读更多...

如何实现CPU最大处理效率

如何实现CPU最大处理效率

如何实现CPU最大处理效率 CPU，或称为中央处理器，是计算机中负责执行指令和处理数据的核心部件。它的工作原理可简单概括为"取指、译码、执行、存储"四个步骤，也称为计算机的指令周期。取指（Fetch）：在取指阶段，CPU从内存中获取下一条要执行的指令，并存放在指…

阅读更多...

回顾网络路，心率就过速

回顾网络路，心率就过速

笔者上网写作已满16年，其间加盟过国内互联网的知名网站自媒体至少在40至50家之多，但由于有的被已被勒令停刊了（如《天涯论坛》），有的则因其改版而只保留了极少数擅于唱颂的写手（如《强国论坛》）…

阅读更多...

【SpringCloud】企业认证、分布式事务，分布式锁方案落地-1

【SpringCloud】企业认证、分布式事务，分布式锁方案落地-1

目录 HR企业入驻 HR企业入驻 - 认证流程解析 HR企业入驻 - 查询企业是否存在 HR企业入驻 - 上传企业logo与营业执照 HR企业入驻 - 新企业（数据字典与行业tree结构解析） 行业tree 行业tree - 创建节点行业tree - 查询一级分类行业tree - 查询子分…

阅读更多...

计算存储背景与发展

计算存储背景与发展

随着云计算、企业级应用以及物联网领域的飞速发展，当前的数据处理需求正以前所未有的规模增长，以满足存储行业不断变化的需求。这种增长导致网络带宽压力增大，并对主机计算资源（如内存和CPU）造成极大负担，进…

阅读更多...

Redis的使用场景——热点数据缓存

Redis的使用场景——热点数据缓存

热点数据缓存 Redis的使用场景——热点数据的缓存 1.1 什么是缓存为了把一些经常访问的数据，放入缓存中以减少对数据库的访问效率，从而减少数据库的压力，提高程序的性能。【在内存中存储】 1.2 缓存的原理查询缓存中是否存在对应的数据如…

阅读更多...

05 capture软件创建元器件库(以STM32为例)

05 capture软件创建元器件库(以STM32为例)

05 创建元器件库_以STM32为例一、新建原理图库文件二、新建器件三、开始创建元器件一些IC类元件，需要自己创建元器件库。先看视频，然后自己创建STM32F103C8T6的LQFP48的元器件。 STM32F103C8T6是目前为止，自己用的最多的芯片。先要有数据…

阅读更多...

nodejs安装及环境配置建材商城管理系统App

nodejs安装及环境配置建材商城管理系统App

✌网站介绍：✌10年项目辅导经验、专注于计算机技术领域学生项目实战辅导。 ✌服务范围：Java(SpringBoo/SSM)、Python、PHP、Nodejs、爬虫、数据可视化、小程序、安卓app、大数据等设计与开发。 ✌服务内容：免费功能设计、免费提供开题答辩P…

阅读更多...

文件包涵条件竞争（ctfshow82）

文件包涵条件竞争（ctfshow82）

Web82 利用 session.upload_progress 包含文件漏洞 <!DOCTYPE html> <html> <body> <form action"https://09558c1b-9569-4abd-bf78-86c4a6cb6608.challenge.ctf.show//" method"POST" enctype"multipart/form-data"> …

阅读更多...

C语言的发展过程介绍

C语言的发展过程介绍

引言 C语言，由丹尼斯里奇（Dennis Ritchie）在20世纪70年代初期于贝尔实验室开发，是计算机科学史上最具影响力的编程语言之一。本文将概述C语言的发展历程，并提供一些代码示例来展示其演变。起源：UNIX和C语言…

阅读更多...

自动化测试--WebDriver API

自动化测试--WebDriver API

1. 元素定位方法通过 ID 定位：如果元素具有唯一的 ID 属性，可以使用 findElement(By.id("elementId")) 方法来定位元素。通过 Name 定位：使用 findElement(By.name("elementName")) 来查找具有指定名称的元素。通过 Cl…

阅读更多...

重生之“我打数据结构，真的假的？”--5.堆（无习题）

重生之“我打数据结构，真的假的？”--5.堆（无习题）

1.堆的概念与结构如果有⼀个关键码的集合 ，把它的所有元素按完全⼆叉树的顺序存储⽅式存储，在⼀个⼀维数组中，并满⾜： （ 且 ）， i 0、1、2... ，则称为⼩堆(或⼤堆)。将根结点最⼤的…

阅读更多...

逻辑处理模块：FPGA复旦微JFM7VX690T36+网络加速器：雄立XC13080-500C

逻辑处理模块：FPGA复旦微JFM7VX690T36+网络加速器：雄立XC13080-500C

逻辑处理模块通常是指在计算机系统、软件应用或电子设备中负责执行逻辑运算和决策过程的组件。在不同的领域和技术中，逻辑处理模块可能有不同的实现方式和名称，但它们的核心功能都是基于输入数据进行逻辑判断和处理，并产生相应的输出结果。下…

阅读更多...

GO-学习-03-基本数据类型

GO-学习-03-基本数据类型

数据类型：基本数据类型和复合数据类型基本数据类型：整型、浮点型、布尔型、字符串复合数据类型：数组、切片、结构体、函数、map、通道（channel）、接口整型： package main import "fmt" im…

阅读更多...

react-native从入门到实战系列教程一环境安装篇

react-native从入门到实战系列教程一环境安装篇

充分阅读官网的环境配置指南，严格按照他的指导作业，不然你一直只能在web或沙箱环境下玩玩极快的网络和科学上网，必备其中的一个较好的心理忍受能力，因为上面一点就可以让你放弃坚持不懈，努力尝试成功效果三大件 …

阅读更多...

「Unity3D」场景中的距离单位Unit与相关设置PixelsToUnits、PixelsPerUnit

「Unity3D」场景中的距离单位Unit与相关设置PixelsToUnits、PixelsPerUnit

GameObject在场景的位置Position，并没有明确是什么具体单位——如：Transform的x、y、z，或RectTransform的PosX、PosY、PosZ。而RectTransform在面板上显示的Width和Height，也没有具体单位，其实并不是像素。事实上&am…

阅读更多...

推荐文章

最新文章