视频图文理解关联技术与创业团队(二)

news2024/11/14 19:32:42

上一篇:google gemini1.5 flash视频图文理解能力初探(一)提到了gemini 1.5 flash 可以对视频进行理解以及分析,但是整体在检索任务上效果不佳。

这几天参加了人工智能大会 + 网上收集,看一看有相似能力的一些技术点、创业团队有哪些


1 联汇科技 - OmAgent

现场Live震撼!OmAgent框架强势开源!行业应用已全面开花
我们正处于 L2 级别,并逐步向 L3、L4 迈进的过程中。
在这里插入图片描述
联汇科技全新发布了第二代思考大模型 OmChat V2,一个基于多模态模型原生预训练的生成大模型,不仅提供 8B、40B、60B 多个版本,适配不同需求。更能非常好地支持视频、图文混合、文字等多种复杂输入,完美适配智能体决策过程中所需要的复杂场景。
在这里插入图片描述

OmChat V2 支持高达 512K、50 万的上下文长度,折合视频长度 30 分钟,仅次于 Google Gemin-1.5,并远超 GPT-4o 及微软 LLaVa-1.5。
OmChat V2 不仅能够看准时序关系,更能够看懂多图关系。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
通过 OmAgent,能够快速、准确解决各类场景下的复杂问题。比如,从影视剧中总找出某个问题的答案,尽管影片没有直接呈现答案,但是 OmAgent 依然可以通过对全片的整体理解,掌握剧情并根据原片内容进行思考、作答。

在这里插入图片描述


2 Twelve Labs

AI+视频 | Nvidia 投资的AI公司,通过视频理解开创感知推理,获顶级风投5000万美元融资

Twelve Labs,一家旧金山初创公司,是由一支年轻的工程师团队Jae Lee 和 Aiden L 创立,该产品可在视频中提取特定视频瞬间,包括视觉、音频、文本和上下文信息,以实现语义搜索、分析和洞察。该公司的愿景是创建用于多模式视频理解的基础设施,其自研模型可用于媒体分析并自动生成精彩片段。目前已被从多个顶级风投机构投资。
主要的产品功能,只需通过对接API就可以使用:

1、视频搜索

此模型分析视频的语义内容(Sematic search),包括视频,音频,Logo等数字材料,文字等全面分析场景关联性,以实现高效且准确的特定视频片段检索,帮助用户在无需观看完整内容的情况下精准搜索到大量来自Youtube, Tiktok,Reels等视频库的材料。

在这里插入图片描述
2、视频分类

该模型通过分析视频中的语义特征、对象和动作,将视频自动分类为预定义的类别,如体育、新闻、娱乐或纪录片。这增强了内容发现能力,并提供个性化推荐。同时,此功能基于内容相似性对视频进行分组,而不需要标签数据。它使用视频嵌入来捕捉视觉和时间信息,便于测量相似性并将相似视频进行归类。

图片
3、视频-语言建模

该功能集成文本描述和视频内容,使模型能够理解并生成基于文本的摘要、描述或对视频内容的响应。它弥合了视觉和文本理解之间的差距。

在这里插入图片描述

4、视频描述和摘要

该模型生成自然语言描述和视频的简明摘要,捕捉关键信息和重要时刻。这改善了理解力和参与度,尤其适用于有视力障碍或时间限制的用户。还可以通过自由定义的prompt来生成不同侧重点的长文字型的视频总结,故事或者自媒体文章等。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1906711.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

越来越多用户和商家选择小程序商城的原因是什么?小程序商城怎么搭建?

得益于小程序的便捷性,越来越多的用户选择在小程序商城购物,越来越多的商家也开始搭建自己的小程序商城。背后原因是什么呢?小程序商城怎么搭建? 用户为何青睐小程序商城? 1、便捷性 小程序商城无需下载安装&#xff…

无线领夹麦克风哪个牌子好,领夹麦克风十大品牌推荐

​演讲、表演或录制视频时,高质量的无线麦克风能极大提升整体体验。它保证了声音的清晰度和真实感,让演讲者或表演者更自信舒适。基于市场研究和用户体验,我挑选了几款表现突出的无线领夹麦克风,均为我个人使用过并推荐的产品&…

复古也疯狂:诺基亚105新款,4MB内存竟能干这些大事

今天我带着一丝怀旧和一份惊喜,想和你们分享一款特别的产品——诺基亚105(2024)2G功能手机。在智能手机充斥的今天,这样一款功能手机似乎显得格外与众不同。 它不仅是对经典的一次致敬,更在细节上融入了现代的便利。让…

tauri + vue3 如何实现在一个页面上局部加载外部网页?

🏆本文收录于「Bug调优」专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&&…

设计模式探索:建造者模式

1. 什么是建造者模式 建造者模式 (Builder Pattern),也被称为生成器模式,是一种创建型设计模式。 定义:将一个复杂对象的构建与表示分离,使得同样的构建过程可以创建不同的表示。 建造者模式要解决的问题: 建造者模…

Vue脚手架搭建及vue项目创建---大屏

灵感在于上数据可视化这门课程,需要做大屏系统。 下面是使用VS Code搭建vue脚手架并创建项目。 第一步 安装node.js和vscode node.js在官网下载后安装,安装后输入命令看是否安装好,若没安装好,自行去网上搜索怎么配置环境变量&a…

数据库SQL Server常用字符串函数

文章目录 字符串函数 字符串函数 CONCAT:拼接字符串 CONCAT(COLUMN1,_,COLUMN2) AS COLCONVERT:转换数据类型 CONVERT(data_type(length),data_to_be_converted,style)例如:CONVERT(VARCHAR(10),GETDATE(),110) SUBSTRING():从字符串中返回…

动手实操微软开源的GraphRAG

微软在今年4月份的时候提出了GraphRAG的概念,然后在上周开源了GraphRAG,Github链接见https://github.com/microsoft/graphrag,截止当前,已有6900Star。 安装教程 官方推荐使用Python3.10-3.12版本,我使用Python3.10版本安装时,在…

快速上手:前后端分离开发(Vue+Element+Spring Boot+MyBatis+MySQL)

文章目录 前言项目简介环境准备第一步:初始化前端项目登录页面任务管理页面 第二步:初始化后端项目数据库配置数据库表结构实体类和Mapper服务层和控制器 第三步:连接前后端总结 🎉欢迎来到架构设计专栏~探索Java中的静态变量与实…

AutoHotKey自动热键(四)WINDOWS程序窗口的9种匹配方法与Window Spy窗口检索的使用方法

我们在进行窗口匹配的时候,根据匹配类型的不同可以多种匹配方法,根据使用者目录中可以找到九种匹配方式,这些匹配方式大都需自带的SPY监视工具用以查看窗口的名称.类名.进程名.句柄ID.位置信息等等 Window Spy的使用方法★★★ 软件界面 这个软件是安装好之后自带的一个脚本…

「API取数」FDL获取金蝶云星空的单据数据

很多企业的ERP系统都在用金蝶云星空,金蝶云星空API是IT人员获取数据的重要来源, 常常用来生成定制化报表,进行数据分析,或是将金蝶云的数据与OA系统、BI工具集成。 通常情况下,IT人员需要使用Python、Java等语言编写脚…

十款绚丽的前端 CSS 菜单导航动画

CSS汉堡菜单是一种非常流行的PC端和移动端web菜单风格,特别是移动端,这种风格的菜单应用更为广泛。这款菜单便非常适合在手机App上使用,它的特点是当顶部菜单弹出时,页面内容将会配合菜单出现适当的联动,让整个页面变得…

【UE Lua】 快速入门(基础语法、与UE引擎的交互)

目录 0 引言1 基础语法1.1 变量和数据类型1.2 注释1.3 控制结构1.4 函数1.5 表(Table)1.6 元表(Metatable)1.7 字符串操作1.8 模块和包1.9 错误处理 2 数据结构 - 表2.1 表(Table)2.2 元表(Meta…

ElasticSearch学习篇14_《检索技术核心20讲》进阶篇之大倒排索引

背景 学习极客实践课程《检索技术核心20讲》https://time.geekbang.org/column/article/215243,文档形式记录笔记。 内容 主要是海量数据的大倒排索引的一些原理设计思想,ES底层就是基于这些设计思想以及原理,主要涉及读写分离、索引分层等…

【DFS(深度优先搜索)详解】看这一篇就够啦

【DFS详解】看这一篇就够啦 🍃1. 算法思想🍃2. 三种枚举方式🍃2.1 指数型枚举🍃2.2 排列型枚举🍃2.3 组合型枚举 🍃3. 剪枝优化🍃4. 图的搜索🍃5. 来几道题试试手🍃5.1 选…

淘宝扭蛋机小程序搭建全攻略

一、引言 在数字化时代,线上娱乐方式层出不穷,其中扭蛋机小程序以其独特的互动性和趣味性,受到了广大用户的喜爱。淘宝扭蛋机小程序作为其中的佼佼者,不仅为用户提供了丰富的奖品选择,还通过创新的玩法和营销策略&…

【计算机毕业设计】018基于weixin小程序实习记录

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

Scrapy crawl spider 停止工作

Scrapy是一个用于爬取网站数据的流行框架,有时爬虫可能会停止工作,这通常是由多种原因引起的。以下是一些常见问题及其解决方法: 1、问题背景 用户在使用 Scrapy 0.16.2 版本进行网络爬取时遇到问题,具体表现为爬虫在运行一段时间…

OV SSL证书—防止钓鱼攻击的最佳证书

据Menlo Security日前发布的《2023年浏览器安全状况报告》,针对浏览器的高度规避自适应威胁(HEAT)呈现激增的发展趋势。 钓鱼攻击概率激增: 安全研究人员发现,与上半年相比,2023年下半年基于浏览器的网络…

大野耐一是如何为丰田铸就精益生产的?

在制造业的漫长历史中,无数的革新者和企业家为追求更高效、更精益的生产方式而不懈努力。其中,大野耐一的名字无疑是这段历史中最为耀眼的星辰之一。他,以其卓越的才智和坚韧的毅力,为丰田汽车公司铸就了一套享誉全球的精益生产体…