Cohere继Command-R+之后发布大模型Aya-23,性能超越 Gemma、Mistral 等,支持中文

news2025/1/23 1:30:35
前言

近年来,多语言大模型(MLLM)发展迅速,但大多数模型的性能依然存在显著差距,尤其是在非英语语言方面表现不佳。为了推动多语言自然语言处理技术的发展,Cohere团队发布了新的多语言指令微调模型家族——Aya 23,其性能超越了 Gemma、Mistral 等同类模型,并首次支持了中文。

  • Huggingface模型下载:https://huggingface.co/CohereForAI/aya-23-8B

  • AI快站模型免费加速下载:https://aifasthub.com/models/CohereForAI

技术特点

Aya-23 基于 Cohere 自研的 Command 模型系列,并结合了 Aya 多语言指令风格数据集,旨在为 23 种语言提供强大的多语言理解和生成能力。

基于 Command 模型,拥有强大的性能基础

Aya 23 模型家族基于 Cohere Command 系列模型,该系列模型使用包含 23 种语言的混合数据进行预训练,并采用了一系列先进的技术,例如:

  • 并行注意力和 FFN 层: 类似于 PALM-2 模型,Aya 23 采用了并行块架构,在保持模型质量的同时,显著提高了训练效率,尤其是在张量并行设置下。

  • SwiGLU 激活函数: 与其他激活函数相比,SwiGLU 能够在保证参数量级基本一致的情况下,提升模型的下游任务性能。

  • 无偏置: 类似于 PALM2 模型,Aya 23 模型的密集层中去除了所有偏置项,提升了训练的稳定性。

  • 旋转位置编码: 使用旋转位置编码 (RoPE) 技术,能够更好地进行长文本外推,同时在短文本长度的情况下,也比其他相对位置编码方法,例如 ALiBi,取得更好的下游任务性能。

  • 分组查询注意力 (GQA): Aya-23-8B 模型使用了分组查询注意力,每个 KV 头共享多个 Q 头,从而降低了推理时间的内存占用。

多语言指令风格数据集,提升模型的指令理解能力

为了提升模型对指令的理解能力,Aya 23 使用了多语言指令风格数据集,该数据集包含了来自 xP3x、Aya 和 Data Provenance 等多个数据集的样本,涵盖 23 种语言和 161 个不同的数据集。该数据集还包含了由母语使用者撰写的 204K 人工标注的提示词-响应对,以及通过机器翻译获得的多种语言指令数据集的翻译版本。

支持 23 种语言,涵盖更广泛的应用场景

Aya-23 模型家族支持 23 种语言,包括阿拉伯语、简体中文、繁体中文、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印度尼西亚语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语,覆盖了全球约一半的人口。

性能表现

Aya-23 模型家族在各种语言、推理、编码和数学基准测试中均取得了优异的成绩,超越了同等大小甚至更大的模型,展现出了强大的多语言能力。

多语言任务评估

研究团队采用了 Üstün 等人提出的多语言评估框架,对 Aya 23 模型进行了全面评估,涵盖了 23 种语言,包括:

  • 未见过的识别任务: 在 XWinograd、XCOPA 和 XStoryCloze 等完全未见过的任务中,Aya-23-35B 模型取得了最佳表现,其平均准确率为 70.8%,超越了其他模型。

  • 通用语言理解: 在多语言 MMLU 测试中,Aya-23-8B 模型在 14 种语言中取得了最佳表现,其平均准确率为 48.2%,在大部分语言上超过了其他模型。

  • 多语言数学推理: 在 MGSM 测试中,Aya-23-8B 模型也取得了领先优势,其平均准确率为 36.6%,是同类模型中表现最优秀的,并且比 Aya-101-13B 提升了 4.5 倍。

  • 生成任务: 在机器翻译和多语言摘要任务中,Aya 23 模型也取得了显著的性能提升。

人类偏好评估

为了评估模型的开放式生成能力,研究团队进行了人类偏好评估,结果显示:

  • LLM 评估: 使用 GPT-4 作为评价模型,Aya 23 模型在 10 种语言中,针对不同规模的模型均表现出色,其平均获胜率均高于同类模型。

  • 人类评估: 人类评估人员在 5 种语言中,对 Aya 23 模型的生成结果给予了更高的评价,其平均获胜率高于 Aya-101-13B 模型。

开源发布

为了促进多语言模型技术的发展,Cohere 团队公开发布了 Aya-23 的 8B 和 35B 模型,为研究人员和开发者提供了更多选择,加速多语言模型技术的发展和应用。

应用场景

Aya-23 模型家族拥有广泛的应用场景,例如:

  • 机器翻译: 可以用于将一种语言的文本翻译成其他语言。

  • 文本摘要: 可以用于将长篇文本压缩成简短的摘要。

  • 问答系统: 可以用于回答用户的各种问题。

  • 内容创作: 可以用于生成各种类型的文本内容,例如新闻报道、故事、诗歌等。

总结

Aya-23 的发布,标志着多语言模型技术取得了新的突破,其卓越的性能和广泛的语言支持能力,为多语言模型的发展开辟了新的方向。随着技术的不断进步,相信 Aya-23 模型家族将会在更多领域发挥重要作用,为人们的生活带来更多的便利和乐趣。

模型下载

Huggingface模型下载

https://huggingface.co/CohereForAI/aya-23-8B

AI快站模型免费加速下载

https://aifasthub.com/models/CohereForAI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1699998.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

微信小程序文本框输入显示已经输入的字数

我们遇到这样的需求,就是微信小程序的输入框下面需要显示输入的字数: 我们通常会使用bindinput事件,让显示的字数等于value的长度,看下面的图: 但在实践中,真机测试中,我们会发现以下问题: 这个…

【C++】——入门基础知识超详解

目录 ​编辑 1.C关键字 2. 命名空间 2.1 命名空间定义 2.2 命名空间使用 命名空间的使用有三种方式: 注意事项 3. C输入&输出 示例 1:基本输入输出 示例 2:读取多个值 示例 3:处理字符串输入 示例 4:读…

2024年5月27日 十二生肖 今日运势

小运播报:2024年5月27日,星期一,农历四月二十 (甲辰年己巳月辛卯日),法定工作日。 红榜生肖:羊、蛇、狗 需要注意:鼠、鸡、龙 喜神方位:西南方 财神方位:…

vue3 vite项目配置了proxy代理情况下查看真实的接口调用地址

vite配置了proxy代理情况下如何查看真实的接口调用地址? 使用vite进行代理 在vite.config.ts配置了代理 在浏览器查看请求头和响应头发现只有代理前的url,没有显示代理后的路径 然后发现一个bypass函数,但是此函数只能修改res响应头的数据&#xff0…

指纹识别系统架构

目录 1. 系统架构 1.1 指纹采集模块 1.2 指纹处理模块 1.3 指纹登记模块 1.4 指纹识别模块 1.5 指纹识别决策模块 1.6 管理模块 1.6.1 存储管理 1.6.2 传输管理 1.6.3 安全管理 1.7 应用开放功能 1.7.1 指纹登记功能 1.7.2 指纹验证功能 1.7.3 指纹辨识功能 2. …

DM Hw6

Hw6 聚类 1ab 2abcd 3abcde 456789 1 a b 一个点不来自某个特定簇的概率是 1 − 1 K 1-\frac{1}{K} 1−K1​ 对所有 2 K 2K 2K 个点都不来自该簇的概率是 ( 1 − 1 K ) 2 K (1-\frac{1}{K})^{2K} (1−K1​)2K 则 至少一个点来自该簇的概率为 1 − ( 1 − 1 K ) 2 K 1-(1-…

vs2019 c++20 规范的 STL 库的智能指针 shared、unique 、weak 及 make_** 函数的源码注释汇总,和几个结论

智能指针的源码都在 《memory》 头文件中。因为头文件太长,再者本次整理是基于以前的零散的模板分析。故相当于抽取了该头文件中关于智能指针的源码进行分析,注释。 (1 探讨一)当独占指针指向数组时,其默认的删除器是…

二叉树——经典练习题

目录 前言: 一、单值二叉树 题目描述: 思路分析: 代码实现: 二、二叉树最大深度 题目描述: 思路分析: 代码实现: 三、检查两颗树是否相同 题目描述: 思路分析: 代…

EXCEL怎么计算一列数据里的最大连续重复次数?

有这样一列数据,怎么用EXCEL数据求出,重复出现的单/双的次数的最大值。 这里演示使用辅助列数据透视表。 一、单/双出现的次数的最大值 这个可不用辅助列,选中数据透视表将数据 单/双列放在行字段,和值字段,值字段会…

netplan

文章目录 前言官网配置文件默认配置NetworkManager 简介systemd-networkd 简介NetworkManager VS systemd-networkdNetplan 简介示例多个配置文件 前言 netplan 是 ubuntu 17.10 版本中引入的一种全新的命令行网络配置程序,用于在 ubuntu 系统中轻松管理和配置网络…

C语言 | Leetcode C语言题解之第114题二叉树展开为链表

题目: 题解: void flatten(struct TreeNode* root) {struct TreeNode* curr root;while (curr ! NULL) {if (curr->left ! NULL) {struct TreeNode* next curr->left;struct TreeNode* predecessor next;while (predecessor->right ! NULL)…

【DevOps】Jenkins + Dockerfile自动部署Maven(SpringBoot)项目

环境 docker_host192.168.0.1jenkins_host192.168.0.2 jenkins_host构建完成后把jar发布到docker_host,再通过dockerfile自动构建镜像,运行镜像 1 Jenkins安装 AWS EC2安装Jenkins:AWS EC2 JDK11 Jenkins-CSDN博客 AWS EC2上Docker安装…

此物一出天下反,Dora犹如优秀框架的粘合剂

引言:千里之行,始于足下。 如果你从事Android开发,请认真看完本篇文章,因为可能会颠覆你对Android开发的认识。 当夜空中繁星点点,一颗璀璨的流星划过,其辉光洒在古老的山谷之中,照亮了一个隐藏…

banner2.0自定义轮播布局

说明:最近碰到一个需求,让新闻列表实现轮播图的效果,也就是轮播新闻,然后样式必须按照ui设计的样式来弄,之前传统的banner,都是只轮播图片,没想到,这次居然要轮播新闻, 网…

夏老师小课堂(7) 免费撸Harmony0S应用开发者高级认证

点击上方 “机械电气电机杂谈 ” → 点击右上角“...” → 点选“设为星标 ★”,为加上机械电气电机杂谈星标,以后找夏老师就方便啦!你的星标就是我更新动力,星标越多,更新越快,干货越多! 关注…

C++ | Leetcode C++题解之第113题路径总和II

题目&#xff1a; 题解&#xff1a; class Solution { public:vector<vector<int>> ret;unordered_map<TreeNode*, TreeNode*> parent;void getPath(TreeNode* node) {vector<int> tmp;while (node ! nullptr) {tmp.emplace_back(node->val);node …

高效的大型语言模型适应方法:提升基础性的解决方案

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

C++系列-static成员

&#x1f308;个人主页&#xff1a;羽晨同学 &#x1f4ab;个人格言:“成为自己未来的主人~” 概念 声明为static的类成员称为类的静态成员&#xff0c;用static修饰的成员变量&#xff0c;称之为静态成员变量&#xff0c;用static修饰的成员函数&#xff0c;称之为静态成…

Django框架css文件能正常加载,但是css样式不生效

最近运行一个Django项目&#xff0c;能正常启动运行&#xff0c;css文件也能够正常加载&#xff0c;但是css样式却没有正常渲染。 解决办法&#xff1a; 1、打开注册表&#xff1a;winR 2、找到&#xff1a;计算机\HKEY_CLASSES_ROOT\.css 修改&#xff1a;Content Type 值&…

【机器学习结合AI绘画工具】——开启艺术创作的新纪元

目录 一、AI绘画工具的发展历程 二、AI绘画工具的技术原理 实例说明 三、AI绘画工具在艺术创作中的应用 实例网站 四、AI绘画工具的影响与未来展望 结论 机器学习和人工智能&#xff08;AI&#xff09;在过去的十年里取得了显著的进展。特别是在艺术创作领域&#xff0c…