中英双语8K向量大模型新鲜出炉,企业出海必备!

news2025/1/12 3:44:31

自从我们的 Embeddings V2 获得各界好评后,今日,我们推出了全新的中英双语文本向量大模型:jina-embeddings-v2-base-zh。此模型不仅继承了 V2 的全部优势,能够处理长达八千词元的文本,更能流畅应对中英文双语内容,为跨语种的应用插上了翅膀。

jina-embeddings-v2-base-zh 之所以表现卓越,全赖优质的双语数据集,经过我们严格且平衡的 预训练、一阶微调和二阶微调。这种三步走的训练范式不仅泛化了模型的双语能力,更有效的降低了模型偏见,解决了多语言模型时常遭遇到的“不患寡而患不均”的问题。

模型特色一览

特色 1:双语无缝对接

jina-embeddings-v2-base-zh 模型能够流畅处理中英文本,无论是作为搜索查询还是目标文档。中英文本中意义相近的内容都会被映射到相同的向量空间,为多语言应用奠定了坚实基础。

特色 2:8k Token 超长文本支持

我们的模型支持长达 8K Token 的文本处理,这在开源向量模型中独树一帜,为处理更长的文本段落提供了显著优势。

特色 3:高效紧凑的模型结构

jina-embeddings-v2-base-zh 模型以 322MB 的轻巧体积(包含 1.61 亿参数),输出维度为 768,能够在普通计算机硬件上高效运行,无需依赖 GPU,极大地提升了其实用性和便捷性。

模型性能卓越

在 CMTEB 排行榜的激烈竞争中,我们的 Jina Embeddings v2 模型在 0.5GB 以下模型类别中脱颖而出,它不仅支持中英文本,而且能够处理高达 8K Token 的文本,这一能力在同类模型中实属罕见。

4fb30353dabb03537cdf2725726760e3.png

在同等体积的支持中文的模型中,Multilingual E5 和我们的 jina-embeddings-v2-base-zh 是唯二能够处理英文的模型,这使得跨语言应用成为可能。

9669ab2d7c9994eb3b3191d932746050.png

目前,全球范围内,仅有 OpenAI 的闭源模型 text-embedding-ada-002 和 Jina Embeddings 能够支持 8k Token 的长文本输入。而在处理中文任务方面,Jina Embeddings 显示出了显著的性能优势。

cbfc67a0f6dceb39b0bf0920b20e9c81.png

助力中国企业拓展全球业务

我们的中英双语向量模型 jina-embeddings-v2-base-zh 是中国企业拓展国际业务的得力助手。它能够流畅处理中英双语文本,并提供高质量的向量表示,并轻松与先进的向量数据库、搜索系统以及 RAG 应用相集成。

这款模型特别适合开发适应中英双语环境的 AI 应用,对于渴望全球化的企业来说,它的重要性不言而喻。以下是一些具体的应用实例:

  • 文档分析与管理:分析和管理海量文档,助力国际法律和商务交易的顺利进行。

  • AI 驱动搜索应用:在多语言环境中提升搜索性能,帮助全球用户轻松找到中英文相关信息。

  • RAG 客服机器人:打造高效的双语客服机器人,优化与全球客户的沟通体验。

  • 自然语言处理应用:涵盖全球市场趋势分析、国际市场策略的主题建模,以及全球通讯管理的文本分类。

  • 推荐系统:利用中英数据洞察,为全球多元化受众提供个性化的产品和内容推荐。

利用这个模型,中国企业能够在 AI 应用中有效跨越语言障碍,增强其在全球市场的竞争力和影响力。

轻松上手 jina-embeddings-v2-base-zh

想要快速将我们的双语向量模型融入您的工作流程?

只需几个简单步骤:访问 https://jina.ai/embeddings,领取您的免费API密钥或更新现有密钥,然后在下拉菜单中选择 jina-embeddings-v2-base-zh,您的模型即刻准备就绪,等待您的探索和使用!

ee47e918b7b75602b900aebc2b47184e.png

未来展望:增加更多语言支持和 AWS Sagemaker 集成

jina-embeddings-v2-base-zh 即将在 AWS Sagemaker 和 Hugging Face 上线,为用户带来更便捷的体验。

Jina AI 始终致力于提供高效、优质的向量技术,我们正在积极扩展多语言产品线,特别是欧洲语言和其他国际语言,以满足更广泛的用户需求。敬请期待这些令人兴奋的更新,包括 AWS Sagemaker 集成,我们将持续提升服务的广度和深度。

致谢:感谢早期测试者的宝贵贡献

我们由衷感谢参与 jina-embeddings-v2-base-zh-preview 测试的中国用户社区成员。你们的反馈对于提升官方模型的表现起到了重要作用。如果您对模型有任何建议或意见,欢迎扫描文末二维码,加入我们的微信群,与我们分享您的见解。您的反馈对我们的不断进步至关重要。

在模型的早期版本中,模型曾过度夸大相似度得分,即使是完全不相关的词汇,如“安妮”与“蒸汽机”,也会得到过高的余弦相似度。在正式版本我们优化了模型,确保相似度得分更合理,从而更准确展现内容间关系。

此外,Jina Embeddings 现在支持高达 8192 Token 的文本处理,无论是长篇大论还是简短语句,甚至是单个词汇或名字(如“安妮”与“露娜”的比较),都能展现出其处理各种类型数据的强大能力。这一改进不仅提升了模型的准确性,也增强了其在处理多样化数据时的灵活性和实用性。

843e02da6e236028b47bd627fbaffab7.png

b5b4eb7d63bc5bad6d3bce61746851ec.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1373225.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring MVC 的RequestMapping注解

RequestMapping注解 使用说明 作用:用于建立请求URL和处理请求方法之间的对应关系。 出现位置: 类上: 请求 URL的第一级访问目录。此处不写的话,就相当于应用的根目录。写的话需要以/开头。它出现的目的是为了使我们的 URL 可以…

(详细版)Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

Haoran Wei1∗, Lingyu Kong2∗, Jinyue Chen2, Liang Zhao1, Zheng Ge1†, Jinrong Yang3, Jianjian Sun1, Chunrui Han1, Xiangyu Zhang1 1MEGVII Technology 2University of Chinese Academy of Sciences 3Huazhong University of Science and Technology arXiv 2023.12.11 …

C语言初始化效率问题以及关键字解释

一、初始化效率 1、在静态变量的初始化中,我们可以把可执行程序文件想要初始化的值放在当程序执行时变量将会使用的位置。当可执行文件载入到内存时,这个已经保存了正确初始值的位置将赋值给那个变量,完成这个任务并不需要额外的时间&#xf…

Android 10.0 TvSettings系统设置wifi连接密码框点击Enter键失去焦点

1.前言 在10.0的box产品开发中,在TvSettings中,在wifi连接的时候,在用遥控器输入wifi密码框的时候,会发现在按遥控器Enter键的时候, 发现EditText焦点失去了,导致输入法消失了,为了解决这个问题就需要拦截Enter键保证正常输入wifi密码,接下来就来实现这个功能 如图: 2.…

lvs+keepalived+nginx双主模式双主热备实现负载均衡

目录 一、原理 二、真实服务器nginx配置 三、lvs的keepalived配置 3.1 配置文件 3.2 开启keepalived服务 四、测试 4.1 测试访问VIP 4.2 模拟lvs01宕机 主机名IPnginx0111.0.1.31nginx0111.0.1.31lvs0111.0.1.33lvs0211.0.1.34VIP111.0.1.29VIP211.0.1.30 一、原理 lvskeepal…

解决JuPyter500:Internal Server Error问题

目录 一、问题描述 二、问题原因 三、解决方法 四、参考文章 一、问题描述 在启动Anaconda Prompt后,通过cd到项目文件夹启动Jupyter NoteBook点击.ipynb文件发生500报错。 二、问题原因 base环境下输入指令: jupyter --version 发现jupyter环境…

k8s部署mongodb-sharded7.X集群(多副本集)

#mongodb-sharded 7.X版本CHART NAME: mongodb-sharded CHART VERSION: 7.0.5 APP VERSION: 7.0.2helm repo add bitnami https://charts.bitnami.com/bitnami helm pull bitnami/bitnami/mongodb-sharded --untar默认副本数较多。我修改为33 搜索关键字replicaCount 修改 最后…

064:vue中一维数组的全选、全不选、反选(图文示例)

第061个 查看专栏目录: VUE ------ element UI 专栏目标 在vue和element UI联合技术栈的操控下,本专栏提供行之有效的源代码示例和信息点介绍,做到灵活运用。 (1)提供vue2的一些基本操作:安装、引用,模板使…

【教程】通过Excel宏/Pandas两种方法来自动添加渐变数据条

这种数据真的很难看懂: 一般会对其画折线图或者数据条,相比起来就非常直观: 但是每一列都要手动这样设置就非常累了,所以这里就用到了VBA宏(或者Pandas)。 VBA宏方法 从这里进入宏: 随便写一个宏名后点创建&#xff1…

Triumphcore FPGA调测试记录

FPGA采用Xilinx pynq Z2开发板。基于V2.5版本开发 OverView uart端口映射 BUG调试记录 2024.1.7 复位状态导致取指时序错误 错误波形: 正确波形 问题代码: 2024.1.9 clock_wizard设置输入时钟是输出时钟的2^n倍,输出时钟的占空比才…

实战(CVE-2023-42442)JumpServer未授权访问漏洞

声明: 该文章仅供网络安全领域的学习使用,请勿利用文章内的相关技术从事任何非法行为。 知攻善防,遇强则强。 开发和安全缺一不可! 目录 一、知识介绍 1、堡垒机(跳板机) 2、Jumpserver 二、漏洞介绍 三…

本地远程实时获取无人机采集视频图像(天空端 + jetson nano + 检测分割 + 回传地面端显示)

1、无线图传设备介绍 2、jetson nano天空端数据采集检测保存 3、本地回传显示 1、无线图传设备介绍 由于本设计考虑将无人机得到检测结果实时回传给地面站显示,因此需要考虑一个远程无线通信设备进行传输。本设计采用思翼HM30图传设备。通过无线图传的wifi将天空端…

Linux——firewalld防火墙(二)

一、firewalld高级配置 1、IP地址伪装 地址伪装(masquerade):通过地址伪装,NAT设备将经过设备的包转发到指定接收方,同时将通过的数据包的源地址更改为其自己的接口地址。当返回的数据包到达时,会将目的地址修改为原始主机的地址…

HDFS相关API操作

文章目录 API文档环境配置API操作准备工作创建文件夹文件上传文件下载文件删除文件的更名和移动获取文件详细信息 API文档 HDFS API官方文档:https://hadoop.apache.org/docs/r3.3.1/api/index.html 环境配置 将Hadoop的Jar包解压到非中文路径(例如D:…

阿里云实时计算企业级状态存储引擎 Gemini 技术解读

本文整理自阿里云 Flink 存储引擎团队李晋忠,兰兆千,梅源关于阿里云实时计算企业级状态存储引擎 Gemini 的研究,内容主要分为以下五部分: 流计算状态访问的痛点企业级状态存储引擎GeminiGemini 性能评测&线上表现结语参考 一、…

手机直连卫星及NTN简介

一、手机直连卫星的发展现状 近日,华为推出了支持北斗卫星短报文的Mate 50旗舰机、P60系列,苹果也跟Globalstar(全球星)合作推出了支持卫星求救的iPhone14,最亮眼的还是华为的。这几款产品揭开了卫星通信探索消费领域…

JAVA基础学习笔记-day16-网络编程

JAVA基础学习笔记-day16-网络编程 1. 网络编程概述1.1 软件架构1.2 网络基础 2. 网络通信要素2.1 如何实现网络中的主机互相通信2.2 通信要素一:IP地址和域名2.2.1 IP地址2.2.2 域名 2.3 通信要素二:端口号2.4 通信要素三:网络通信协议 3. 谈…

点割集、边割集

点割集:对图G来说删去点割集的真子集,依旧连通。也就是说,点割集是删去使得图从连通变成非连通的最小节点的集合。 边割集:对图G来说删去边割集的真子集,依旧连通。也就是说,点割集是删去使得图从连通变成…

【小白专用】C# 连接 MySQL 数据库

C# – Mysql 数据库连接 1. 配置环境 #前提:电脑已安装Mysql服务; Visual Studio 安装Mysql依赖库: 工具 -> NuGet 包管理器 -> 管理解决方案的 NuGet程序包 —> 搜索, 安装Mysql.Data (Oracle); (安装成功后&…

建立四叉树[中等]

一、题目 给你一个n * n矩阵grid,矩阵由若干0和1组成。请你用四叉树表示该矩阵grid。你需要返回能表示矩阵grid的四叉树的根结点。四叉树数据结构中,每个内部节点只有四个子节点。此外,每个节点都有两个属性: 【1】val&#xff1…