自从我们的 Embeddings V2 获得各界好评后,今日,我们推出了全新的中英双语文本向量大模型:jina-embeddings-v2-base-zh。此模型不仅继承了 V2 的全部优势,能够处理长达八千词元的文本,更能流畅应对中英文双语内容,为跨语种的应用插上了翅膀。
jina-embeddings-v2-base-zh 之所以表现卓越,全赖优质的双语数据集,经过我们严格且平衡的 预训练、一阶微调和二阶微调。这种三步走的训练范式不仅泛化了模型的双语能力,更有效的降低了模型偏见,解决了多语言模型时常遭遇到的“不患寡而患不均”的问题。
模型特色一览
特色 1:双语无缝对接
jina-embeddings-v2-base-zh 模型能够流畅处理中英文本,无论是作为搜索查询还是目标文档。中英文本中意义相近的内容都会被映射到相同的向量空间,为多语言应用奠定了坚实基础。
特色 2:8k Token 超长文本支持
我们的模型支持长达 8K Token 的文本处理,这在开源向量模型中独树一帜,为处理更长的文本段落提供了显著优势。
特色 3:高效紧凑的模型结构
jina-embeddings-v2-base-zh 模型以 322MB 的轻巧体积(包含 1.61 亿参数),输出维度为 768,能够在普通计算机硬件上高效运行,无需依赖 GPU,极大地提升了其实用性和便捷性。
模型性能卓越
在 CMTEB 排行榜的激烈竞争中,我们的 Jina Embeddings v2 模型在 0.5GB 以下模型类别中脱颖而出,它不仅支持中英文本,而且能够处理高达 8K Token 的文本,这一能力在同类模型中实属罕见。
在同等体积的支持中文的模型中,Multilingual E5 和我们的 jina-embeddings-v2-base-zh 是唯二能够处理英文的模型,这使得跨语言应用成为可能。
目前,全球范围内,仅有 OpenAI 的闭源模型 text-embedding-ada-002 和 Jina Embeddings 能够支持 8k Token 的长文本输入。而在处理中文任务方面,Jina Embeddings 显示出了显著的性能优势。
助力中国企业拓展全球业务
我们的中英双语向量模型 jina-embeddings-v2-base-zh 是中国企业拓展国际业务的得力助手。它能够流畅处理中英双语文本,并提供高质量的向量表示,并轻松与先进的向量数据库、搜索系统以及 RAG 应用相集成。
这款模型特别适合开发适应中英双语环境的 AI 应用,对于渴望全球化的企业来说,它的重要性不言而喻。以下是一些具体的应用实例:
文档分析与管理:分析和管理海量文档,助力国际法律和商务交易的顺利进行。
AI 驱动搜索应用:在多语言环境中提升搜索性能,帮助全球用户轻松找到中英文相关信息。
RAG 客服机器人:打造高效的双语客服机器人,优化与全球客户的沟通体验。
自然语言处理应用:涵盖全球市场趋势分析、国际市场策略的主题建模,以及全球通讯管理的文本分类。
推荐系统:利用中英数据洞察,为全球多元化受众提供个性化的产品和内容推荐。
利用这个模型,中国企业能够在 AI 应用中有效跨越语言障碍,增强其在全球市场的竞争力和影响力。
轻松上手 jina-embeddings-v2-base-zh
想要快速将我们的双语向量模型融入您的工作流程?
只需几个简单步骤:访问 https://jina.ai/embeddings,领取您的免费API密钥或更新现有密钥,然后在下拉菜单中选择 jina-embeddings-v2-base-zh,您的模型即刻准备就绪,等待您的探索和使用!
未来展望:增加更多语言支持和 AWS Sagemaker 集成
jina-embeddings-v2-base-zh 即将在 AWS Sagemaker 和 Hugging Face 上线,为用户带来更便捷的体验。
Jina AI 始终致力于提供高效、优质的向量技术,我们正在积极扩展多语言产品线,特别是欧洲语言和其他国际语言,以满足更广泛的用户需求。敬请期待这些令人兴奋的更新,包括 AWS Sagemaker 集成,我们将持续提升服务的广度和深度。
致谢:感谢早期测试者的宝贵贡献
我们由衷感谢参与 jina-embeddings-v2-base-zh-preview 测试的中国用户社区成员。你们的反馈对于提升官方模型的表现起到了重要作用。如果您对模型有任何建议或意见,欢迎扫描文末二维码,加入我们的微信群,与我们分享您的见解。您的反馈对我们的不断进步至关重要。
在模型的早期版本中,模型曾过度夸大相似度得分,即使是完全不相关的词汇,如“安妮”与“蒸汽机”,也会得到过高的余弦相似度。在正式版本我们优化了模型,确保相似度得分更合理,从而更准确展现内容间关系。
此外,Jina Embeddings 现在支持高达 8192 Token 的文本处理,无论是长篇大论还是简短语句,甚至是单个词汇或名字(如“安妮”与“露娜”的比较),都能展现出其处理各种类型数据的强大能力。这一改进不仅提升了模型的准确性,也增强了其在处理多样化数据时的灵活性和实用性。