Jina AI 推出全球首款开源 8K 语义向量模型,比肩 OpenAI

news2024/12/22 23:35:14

alt 作为多模态人工智能技术领域的翘楚,Jina AI 的愿景是铺平通往多模态 AI 的未来之路。今天,Jina AI 在向着该愿景前进的路上,达成了一个重要里程碑。我们正式发布了自主研发的第二代文本向量模型:jina-embeddings-v2,是全球唯一能支持 8K(8192)输入长度的开源向量模型。

据 MTEB 排行榜显示,jina-embeddings-v2 与 OpenAI 的专有模型 text-embedding-ada-002 在性能方面不相上下。目前,仅 Open AI 与 Jina AI 两家人工智能技术公司推出了 8k 长度的 Embedding 模型。

自该模型发布,迅速登上 HackerNews 榜首,并长时间霸榜,在全球范围内引发了业内人士的广泛讨论。

alt
alt

其中,“8K 长度”和“开源”这两点特别受到业界的瞩目,正如 HackerNews 上读者的评论所言,支持 8k 输入长度在表达能力和计算效率之间取得了可喜的平衡,而其中的关键,就在于 jina-embeddings-v2 独特的优势 —— 用更小的维度来实现高效地表征

alt

虽然 text-embedding-ada-002 已经广泛应用于各种不同场景,但其维度为 1536 维度的输出对于数据量巨大和价格敏感的开发者来说并不友好。 jina-embeddings-v2 通过提供 768(base)和 512(small)两种输出维度的选择,赋予了开发者更大的灵活性。这更意味着可以开发者可以实现更低的计算和存储成本,适用于更多的实际落地的场景。

alt 在 Jina AI,我们坚信开源技术之于创新、合作与社区力量的催化作用,所以 我们第一时间将模型开源,期待和社区一起共同打造开源 AI 生态。 我们的模型一经发布就迅速登上了 Huggingface Trending 榜单,更多详细信息请访问:https://huggingface.co/jinaai/jina-embeddings-v2-base-en。

alt

向量模型与 8k 输入长度

在传统的自然语言处理任务中,通常会将文本转化为一组数字进行表示,也就是向量。向量模型用于生成向量表示,被广泛应用于检索、分类、聚类或语义匹配等任务。

在大模型时代,向量模型的重要性进一步增强。尤其是在检索增强生成(RAG)场景中,它成为了一个核心组件,用于解决大模型的上下文长度限制、幻觉问题和知识注入问题。因为大模型通常有上下文长度的限制,我们需要一个有效的方法来压缩、存储和查询大量的信息。这就是向量模型的用武之地。在 RAG 系统中,文档首先被转化为向量。随后,大模型可以快速地查询这些向量,找到与当前上下文相关的文档,再基于这些文档生成回复。

然而,目前的大部分开源向量模型都是仅支持最大 512 长度(大约 500 个汉字)的输入长度,这使得开发者无法表征长文本的语义。jina-embeddings-v2 支持最大 8k 长度的输入,突破了长文本向量表示的瓶颈,让开发者可以更自由的对文本信息进行不同语义颗粒度的完整表示,从而更精准的表示文本语义。 这不仅可以帮助开发者提高 RAG 场景下大模型回复的准确性,而且适用于各种处理长文本的场景,例如处理数十页的报告综述、长篇故事推荐等。

与 text-embedding-ada-002 模型对比测试

与 OpenAI 的 text-embedding-ada-002 相比,jina-embeddings-v2 展现出不俗的实力。下表为两模型的性能对比。

alt

值得注意的是,jina-embeddings-v2 在文本分类任务、检索任务、检索重排任务、和文本摘要任务上的得分都超过了 text-embedding-ada-002

拥抱开源

OpenAI 已经为我们展示了 8K 上下文长度模型的潜力,但 jina-embeddings-v2 不仅与其齐头并进,还做出了更大胆的决策:完全开源!这意味着任何人都可以使用、修改和进一步优化这款模型。

不仅如此,当我们与 OpenAI 的模型进行直接比较时,jina-embeddings-v2 在多个关键指标上展现出了优越的性能。考虑到 jina-embeddings-v2 是开源的,我们坚信通过社区的集体智慧和努力,我们将有机会超越目前的标杆。

正是因为我们坚信开放和共享的价值,我们希望与全球的研究者、工程师和 AI 爱好者共同努力,不断完善和推进这款模型。我们也在计划中继续拓展功能,例如提供更多语言的支持,以及开发更为强大的 API 平台。

特点和优势

全新的向量模型发布,再次证明了我们在技术创新上面的决心, jina-embeddings-v2 并非对前代模型的简单修订,而是经过了深入研发和优化后的全新设计,我们团队付出了很多努力,从数据收集、处理再到模型调优,使得 v2 模型在性能表现上有了质的飞跃。

此外,jina-embeddings-v2 支持 8K 输入长度,与其他领先的向量模型相比,在长文本任务中展现出了明显的优势,突显了其扩展上下文长度的实际价值。这一特点也为很多实际应用提供了更多可能性,比如法律文件解读、医学文献研究、深入的文学分析、金融数据洞察和聊天机器人的应答优化等等。

对于想要使用 jina-embeddings-v2 的开发者和研究者,我们在 Huggingface 平台上提供了两种规模的模型,以适应不同场景和需求:

jina-embeddings-v2-base-en
  • 大小:0.27G(fp16),0.54G(fp32)
  • 参数数量:1.37 亿
  • 适用场景:适合处理需要高精度的大型任务
  • 下载链接:https://huggingface.co/jinaai/jina-embeddings-v2-base-en
jina-embeddings-v2-small-en
  • 大小:0.07G
  • 参数数量:0.33 亿
  • 适用场景:特别为轻量级的应用场景设计,如移动端应用或那些计算能力有限的设备上的任务
  • 下载链接:https://huggingface.co/jinaai/jina-embeddings-v2-small-en

回顾本次发布历程,Jina AI 创始人兼 CEO 肖涵博士说:

“在 AI 技术快速发展的今天,始终保持前沿并向公众开放最新研究成果是我们的核心追求。有了 jina-embeddings-v2,我们达成了一个重要的里程碑。我们不仅开发了全球首款开源 8K 上下文长度的模型,而且其性能能够与 OpenAI 这样的行业巨头相匹敌。Jina AI 的目标很明确:我们希望推动 AI 民主化,让更多的人能够使用且受益,而不只是那些拥有大量资源的大公司。今天,我可以很自豪地说,我们朝着这一愿景迈出了坚实的一步。”

展望未来

Jina AI 深信开源的魔力,并致力于为 AI 社区构建前沿且易于接入的工具。接下来,我们还会推动以下几项重要工作:

  • 分享学术成果:为了让社区更好地了解 jina-embeddings-v2 的性能和特点,团队将很快发布一篇详细的学术文章,深入介绍模型的技术细节,以及和其他模型的比较分析。

  • API 平台:我们正在努力构建一个 Embedding API 平台,其功能和 OpenAI 类似,帮助用户能够根据自己的需求,更轻松地使用我们的向量模型。

  • 多语言支持:Jina AI 正着手引入多语种,下一步计划推出德文/英文以及中文/英文的双语模型,并进一步增强我们模型的能力。

alt

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1151125.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

记录一道0xGame 2023 CTF Web ez_unserialize的反序列化漏洞题目收获

ez_unserialize 考点&#xff1a; 1. PHP 的引用来绕过 __wakeup 2.命令行中执行php -r phpinfo();&#xff0c;即可获得完整的phpinfo输出 3.PHP 反序列化 POP 链的构造 源码和代码审计&#xff1a; <?phpshow_source(__FILE__);class Cache {public $key;public $value…

高等数学教材重难点题型总结(八)向量代数与空间解析几何

同期更新配套的课后题&#xff0c;这部分的题普遍容易&#xff0c;仅对计算能力有一定要求&#xff0c;理解层面没有什么难度。中学立体几何和解析几何掌握不错的同志&#xff0c;这部分只要稍加记忆是没有什么难度的。

Python语言: 切片的使用

切片的本质&#xff1a;通过切片来截取指定的元素&#xff0c;形成一个新的容器。 切片的具体阐释&#xff1a; 此切片非切片面包的切片&#xff0c;而是python语言中的切片。切片&#xff1a;顾名思义&#xff0c;就是把整块的东西分割开来。python语言中的切片是把一个容器截…

论文阅读 - DCGNN: Dual-Channel Graph Neural Network for Social Bot Detection

论文链接&#xff1a; https://dl.acm.org/doi/pdf/10.1145/3583780.3615237 摘要 由于社交机器人检测对信息传播的深远影响&#xff0c;其重要性已得到越来越多的认识。现有的方法可以分为特征工程和基于深度学习的方法&#xff0c;它们主要关注静态特征&#xff0c;例如帖子…

gitee上传项目

目录 首先在gitee新建一个仓库 接下来创建好项目&#xff0c;先找到生成公钥SSH的目录 接下来是生成公钥SSH 仓库创建好后&#xff0c;接着开始链接项目 首先在gitee新建一个仓库 接下来创建好项目&#xff0c;先找到生成公钥SSH的目录 接下来是找目录&#xff1a;C盘&a…

学习鸟哥Linux shell 时遇到的unexpected operator错误

最近在学习鸟哥Linux&#xff0c;其中一个章节讲解了Linux shell script使用语法&#xff0c;运行总是错误&#xff0c;源码如下&#xff1a; #!/bin/bashread -p "Please input &#xff08;Y/N&#xff09;: " yn[ "${yn}" "Y" -o "${y…

这么理解矩阵乘法,让你吊打面试官

大家好啊&#xff0c;我是董董灿。 很多与深度学习算法相关的面试&#xff0c;面试官可能都会问一个问题&#xff0c;那就是你是如何理解矩阵乘算法的。 更有甚者&#xff0c;会让你当场手写矩阵乘算法&#xff0c;然后问细节&#xff0c;问如何优化&#xff0c;面试现场&…

用大白话聊聊SpringBoot的自动配置原理(面试题详解)

首先&#xff0c;SpringBoot的自动配置不等于自动装配&#xff01; 自动配置是Auto-Configuration&#xff0c;针对的是SpringBoot中的配置类&#xff0c; 而自动装配是Autowire&#xff0c;针对的是Spring中的依赖注入。 进入主题&#xff1a; 自动配置简单来说就是自动去把…

告诉你一个真实的短视频自媒体收入

我是卢松松&#xff0c;点点上面的头像&#xff0c;欢迎关注我哦&#xff01; 10个月前我分享了《这一年半我在短视频的收入》都是真实的&#xff0c;最近我看到有人在分享卢松松做短视频的收入&#xff0c;玩视频又被赋予了很多内容&#xff0c;我这说明下也是一些小感悟分享…

故障诊断模型 | Maltab实现CNN卷积神经网络故障诊断

文章目录 效果一览文章概述模型描述源码设计参考资料效果一览 文章概述 故障诊断模型 | Maltab实现CNN卷积神经网络故障诊断 模型描述 卷积神经网络(convolutional neural network)是具有局部连接、权重共享等特性的深层前馈神经网络,最早主要是用来处理图像信息。 相比于全…

电路的电线的拼接

不积跬步无以至千里&#xff0c;今天小编也是复习今天学习的内容&#xff0c;废话不多说&#xff0c;看博客吧&#xff01;&#xff01;&#xff01; 目录 准备条件 操作 成品 准备条件 操作 将定制的套管插入导线当中&#xff0c;24V或者0V是尖端的端子&#xff0c;后面根…

【排序算法】 归并排序详解!深入理解!思想+实现!

&#x1f3a5; 屿小夏 &#xff1a; 个人主页 &#x1f525;个人专栏 &#xff1a; 算法—排序篇 &#x1f304; 莫道桑榆晚&#xff0c;为霞尚满天&#xff01; 文章目录 &#x1f4d1;前言&#x1f324;️归并排序的思想☁️基本思想☁️归并的思想实现☁️分治法 &#x1f3…

H5游戏源码分享-跳得更高

H5游戏源码分享-跳得更高 控制跳动踩到云朵上 <!DOCTYPE html> <html> <head><meta http-equiv"Content-Type" content"text/html; charsetUTF-8"><meta http-equiv"Content-Type" content"text/html;"&g…

利用ChatGPT进行股票走势分析

文章目录 1. 股票分析2. 技巧分析3. 分析技巧21. 股票分析 这张图片显示了一个股票交易软件的界面。以下是根据图片内容的一些解读: 股票代码: 图片右上角显示的代码是“600517”,这是股票的代码。 图形解读: 该图展示了股票的日K线图。其中,蜡烛图表示每日的开盘、收盘、最…

Rest风格基本语法与实战

1&#xff0c;前置知识点 1.1 GetMapping&#xff0c;PostMapping&#xff0c;PutMapping&#xff0c;DeleteMapping 平时我们都是使用RequestMapping&#xff0c;然后通过它的method属性来指定请求的方式&#xff0c;这样是有些麻烦的&#xff0c;然后这四个标签就是来简化这…

Day 16 python学习笔记

静态方法 静态方法&#xff0c;只需要在方法前添加 staticmethod&#xff0c; 方法就可以不写形参self&#xff0c;可以通过实例对象.方法名调用&#xff0c;也可以通过类名.方法名调用 例&#xff1a; class Test:staticmethoddef test1():print("你好")def nums(se…

异步 AIMD 收敛

给出的一直都是同步 AIMD 收敛&#xff0c;所以简单&#xff0c;但不至于 bbr 单流情形退化成简陋。 给出一个异步 AIMD 收敛过程是必要的&#xff0c;可见&#xff0c;它同样是简洁优美的&#xff1a; 虽然我没有标注太多&#xff0c;它始终没有成为一团乱麻。 和同步 AIM…

Linux tar打包命令

Linux 系统中&#xff0c;最常用的归档&#xff08;打包&#xff09;命令就是 tar&#xff0c;该命令可以将许多文件一起保存到一个单独的磁带或磁盘中进行归档。不仅如此&#xff0c;该命令还可以从归档文件中还原所需文件&#xff0c;也就是打包的反过程&#xff0c;称为解打…

随机链表的复制(Java详解)

一、题目描述 给你一个长度为 n 的链表&#xff0c;每个节点包含一个额外增加的随机指针 random &#xff0c;该指针可以指向链表中的任何节点或空节点。 构造这个链表的 深拷贝。 深拷贝应该正好由 n 个 全新 节点组成&#xff0c;其中每个新节点的值都设为其对应的原节点的…

英语——分享篇——常用人物身份

常用人物身份 家庭成员类 father 父亲 mother 母亲 grandmother&#xff08;外&#xff09;祖母 grandfather&#xff08;外&#xff09;祖父 son 儿子 daughter 女儿 uncle 叔叔&#xff0c;舅舅 aunt 婶母&#xff0c;舅母 brother 兄弟 sister 姐妹 nephew 侄子 niece…