阿里开源多模态大模型Ovis1.6,重塑出海电商AI格局

news2024/12/23 14:06:59

阿里开源Ovis1.6:多模态领域再夺第一

阿里再一次证明了自己在多模态领域的实力。这一次,阿里国际AI团队开源的多模态大模型Ovis1.6,不仅成功开源,还在多模态评测基准OpenCompass上击败了Qwen2VL-7B、InternVL2-26B和MiniCPM-V-2.6等主流开源模型,荣登300亿参数以下模型榜首。

Ovis1.6不仅仅是在视觉感知推理、数学推理以及科学分析等多项任务中表现优异,甚至在一些评测中超过了闭源模型GPT-4o-mini。无论是学术研究、生活场景,还是金融财报分析,Ovis1.6的表现堪称卓越。

Ovis1.6的实际应用

在应用方面,Ovis1.6展示了多模态大模型的广泛适用性。例如,它可以通过视觉理解和数学推理来帮助用户处理复杂的大学数学问题;

还能够解析论文,生成关键内容,或进行财务报表的分析。

这一模型甚至可以通过图像分析,生成简单易懂的烹饪指导,例如教用户如何做一道经典的炸鱼薯条。

更重要的是,Ovis系列大模型遵循Apache 2.0开源协议,允许开发者进行商用。这种开放性和灵活性使其在开发和商用环境中具有极高的实用价值。​

技术细节揭秘:视觉与文本嵌入的对齐

阿里国际AI团队在开发Ovis1.6时,针对多模态模型存在的视觉与文本信息不协调的问题提出了创新性的解决方案。传统多模态大模型往往通过简单的连接器将预训练的大语言模型(LLM)与视觉Transformer结合,但这种方法导致文本和视觉模块难以有效融合,影响模型的整体性能。

Ovis1.6引入了视觉Tokenizer、视觉嵌入表以及大语言模型相结合的架构,通过可学习的视觉嵌入表,将连续的视觉特征转化为结构化的视觉token。然后,这些视觉token会和文本token一起被处理,完成多模态任务。

这种架构设计,不仅解决了视觉和文本信息的对齐问题,还显著提升了模型在处理复杂视觉任务和文本生成任务时的性能。

优化与应用

Ovis1.6相较于前代产品Ovis1.5,在架构、数据以及训练策略等方面进行了全面优化。例如,采用动态子图方案来灵活处理不同分辨率的图像特征,在实际任务中提升了模型的应对能力。数据方面,Ovis1.6涵盖了丰富的数据集,如Caption、OCR、表格、图表和数学数据,确保模型在多个应用场景中保持优异表现。训练策略方面,通过DPO等优化手段,进一步增强了模型的生成和理解复杂任务的能力。

实验表明,Ovis1.6与基于MLP连接器的架构相比,性能提升了8.8%。此外,Ovis1.6已经应用于阿里国际的多项实际业务中,特别是在出海电商领域,展现出了显著的降本增效效果。

Ovis1.6助力出海电商

阿里国际通过Ovis1.6的强大AI能力,改变了跨境电商领域的工作方式。特别是在退货和退款审核环节,Ovis1.6通过处理用户提供的图文、视频信息,实现了秒级别的审核,极大减少了人力成本,提高了效率和一致性,确保了商家与消费者的公平权益。

此外,Ovis1.6还在商品属性提取、生成卖点等应用场景中被广泛应用,优化了商品发布流程,并提升了商品的搜索量和曝光度。阿里国际的AI能力已覆盖营销、客户服务、商品发布等40多个应用场景,日均调用超过5000万次。

AI助力商家:降本增效的秘密武器

Ovis1.6只是阿里国际AI能力的一部分,阿里国际还构建了多语言增强大模型Marco,以及电商版多模态大模型MarcoVL,专门为电商领域提供定制化服务。这些AI技术已经成为跨境商家在全球市场中提升竞争力的重要工具。

例如,通过AI生成的多语言商品描述,使得商家能够突破语言障碍,更加高效地与全球消费者沟通。AI图片处理技术,如一键生成虚拟试衣效果等,也让商品展示更加生动,进一步提高了购买转化率。

阿里国际的Ovis1.6大模型,不仅在技术上取得了重要突破,更在实际商业应用中展现了强大的降本增效能力。通过开源和AI技术的赋能,阿里国际为出海电商商家提供了更具竞争力的工具和服务,也为全球开发者和企业提供了更多技术创新的可能。

对于广大开发者而言,Ovis1.6的开源无疑是一个重大利好,为他们带来了强大的多模态技术,推动更多创新和应用的诞生。

Ovis1.6开源地址和Demo:
arXiv: https://arxiv.org/abs/2405.20797
Github: https://github.com/AIDC-AI/Ovis
Huggingface:https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B
Demo:https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2151759.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

springboot jar包瘦身

现在的项目结构是业务包引用comomn包,common包里又引用了很多其他的jar包,导致业务包打包出来动则就是一百甚至两百兆,现在要做到把公共的包放出来,放到一个单独的文件夹,业务包里只放业务代码。 现在只需要修改maven …

Python 操作 Arduino 入门

本文翻译整理自:Arduino With Python: How to Get Started https://realpython.com/arduino-python/ 文章目录 一、Arduino平台1、Arduino硬件2、Arduino软件 二、“Hello, World!”与Arduino1、上传眨眼示例草图2、连接外部组件3、使用面包板 三、“Hello, World!”…

【Day02-JS+Vue+Ajax】

1. JS介绍 在前面的课程中,我们已经学习了HTML、CSS的基础内容,我们知道HTML负责网页的结构,而CSS负责的是网页的表现。 而要想让网页具备一定的交互效果,具有一定的动作行为,还得通过JavaScript来实现。那今天,我们就…

Charles抓包工具测试实战

总结 工作原理 主要功能 优点 安装与配置 安装 组件介绍 Charles代理设置 Charles访问控制 客户端 Windows代理设置 MacOS代理设置 IOS手机代理设置 Android手机代理设置 Charles抓包实战 分析问题 抓包 后台出了问题 抓取https数据 全是乱码 Windows证书安装 Charles ht…

项目文件配置

1. 参数配置化 1.1 问题分析 1.2 问题解决 Value 注解通常用于外部配置的属性注入,具体用法为:Value("${配置文件中的key}") 2. yml配置文件 2.1 SpringBoot提供了多种属性配置方式 2.2 常见配置文件格式对比 2.3 yml 基本语法 大小写敏…

如何利用nw.js打包vue项目

引言 最近有一个开发windows桌面应用的需求, 需要将vue项目打包成.exe文件,最好是变成可安装版(非绿色版)。特此记录一下如何通过nw.js将vue项目打包成.exe。可能这种方式不是最优,仅供大家参考! nw.js简介(以下描述来自nw.js官…

SAP abap-platform-rap-opensap 使用 ABAP RESTful 应用程序编程模型 (RAP)构建应用程序

openSAP 课程“使用 ABAP RESTful 应用程序编程模型 (RAP) 构建应用程序”的示例。 Description This repository offers optional hands-on exercises for the free openSAP Course Building Apps with the ABAP RESTful Application Programming Mode…

【已解决】华为AR100-S路由器 恢复出厂后,找不到5G wifi的设置

前两帖讨论了华为AR100-S路由器: 一是用电脑浏览器访问web管理界面报错的解决,详情点这里! https://blog.csdn.net/weixin_62598385/article/details/142215136 再就是如何回复出厂,也即如何复位, 详情点这里&#xff…

计算机网络nat 映射案列

1 拓扑案列 2 配置 pc 访问外网 # interface LoopBack192 ip address 192.168.1.1 255.255.255.0 # interface Vlan-interface1 ip address 10.1.1.1 255.255.255.0 # # ip route-static 0.0.0.0 0 10.1.1.2 # local-user admin class manage password hash $h$6$0XD4lC…

前端组件库

vant2现在的地址 Vant 2 - Mobile UI Components built on Vue

sqli-lab靶场学习(四)——Less11-14(post方法)

前言 第1-10关都是get方法,本关开始进入post方法。其实post也好get也好,本质都差不多,使用的技巧也基本相同。 Less11 第11关打开是一个输入用户名密码的界面 显然登陆对话框会使用post方式提交,这里我们尝试在Username一栏通过…

【软件基础知识】什么是 API,详细解读

想象一下,你正在使用智能手机上的天气应用。你打开应用,瞬间就能看到实时天气、未来预报,甚至是空气质量指数。但你有没有想过,这些数据是如何神奇地出现在你的屏幕上的?答案就在三个字母中:API。 API,全称Application Programming Interface(应用程序编程接口),是现代软件世…

大数据最新面试题(持续更新)

2024大数据面试题 什么是Hbase?它与Hadoop的关系是什么? Hbase是一个开源的分布式数据库,基于Hadoop的HDFS,用于大数据存储和处理。它提供了高性能的读写能力和可扩展性。 Hbase的架构是什么? Hbase的架构由Region…

C++11——lambda

lambda lambda的介绍lambda的使用lambda的细节->捕捉列表 lambda的介绍 lambda是匿名函数,再适合的场景去使用可以提高代码的可读性。 场景: 假设有一个Goods类需要进行按照价格、数量排序 class Goods {string name;size_t _price;//价格int num;/…

大模型推理性能优化

LLM 推理的核心指标 首 Token 延迟(决定了用户体验) 延迟:从输入到输出最后一个 token 的延迟 吞吐量:每秒针对所有请求生成的 token 数(针对所有并发请求) 推理的性能卡点 1. KV-Cache 大小导致并发能力受限 LLM推理的过程是一个自回归的过程,前 i 次的token会作为…

秒懂Linux之共享内存

目录 共享内存概念 模拟实现共享内存 创建key阶段 ​编辑创建共享内存阶段 删除共享内存阶段 查看共享内存属性阶段 挂接共享内存到进程阶段 取消共享内存与进程挂接阶段 进程通信阶段 添加管道改进版 共享内存函数 shmget函数 shmat函数 shmdt函数 shmctl函数 共享内存概念 共…

第二十一节:学习Redis缓存数据库的Hash操作(自学Spring boot 3.x的第五天)

这节记录下Redis的Hash操作。主要是opsForHash方式和boundHashOps方式。 boundHashOps和opsForHash都是Spring Data Redis中用于操作Redis哈希数据结构的方法,但它们在使用方式和场景上存在一些区别。 boundHashOps 使用方式: boundHashOps方法通过Redi…

【第十三章:Sentosa_DSML社区版-机器学习聚类】

目录 【第十三章:Sentosa_DSML社区版-机器学习聚类】 13.1 KMeans聚类 13.2 二分KMeans聚类 13.3 高斯混合聚类 13.4 模糊C均值聚类 13.5 Canopy聚类 13.6 Canopy-KMeans聚类 13.7 文档主题生成模型聚类 13.8 谱聚类 【第十三章:Sentosa_DSML社…

C#基于SkiaSharp实现印章管理(8)

上一章虽然增加了按路径绘制文本,支持按矩形、圆形、椭圆等路径,但测试时发现通过调整尺寸、偏移量等方式不是很好控制文本的位置。相对而言,使用弧线路径,通过弧线起始角度及弧线角度控制文本位置更简单。同时基于路径绘制文本时…

Chainlit集成LlamaIndex实现知识库高级检索(简单融合寻回器)

检索原理 ** 简单融合寻回器 ** 简单融合寻回原理,是利用多个检索器,融合查询最终的结果返回给LLM。此检索器还将通过生成与原始问题相关的问题,用相关问题再次检索多个检索器的数据,把原始问题和相关问题经过多个检索器检索结果…