多模态语言模型的新突破:Reka Core、Flash和Edge系列

news2024/11/25 2:39:22

人工智能领域的每一次技术革新都可能引领一场行业的变革,特别是在自然语言处理(NLP)领域,多模态语言模型(MLMs)正逐渐成为推动智能系统发展的核心力量。Reka团队最新推出的Reka Core、Flash和Edge系列模型,正是这样一场技术革新的代表。这些模型以其卓越的性能和独特的优势,在多模态理解和推理任务中展现出了前所未有的潜力。Reka系列模型的主要特点如下:

多模态处理能力:Reka系列模型能够同时处理和推理文本、图像、视频和音频输入,这种跨模态的理解能力为复杂场景下的信息处理提供了强大的支持。

高效的计算性能:Reka Edge和Flash模型以其相对较小的规模,在计算效率上展现出了超越更大规模模型的能力,这在资源有限的实际应用中尤为宝贵。

前沿的技术水平:Reka Core模型在技术前沿性上与业界顶尖模型相媲美,其在多模态聊天和图像问答等任务上的评估结果令人瞩目。

不同大模型(LLM)APIs的价格与性能(使用MMLU分数作为模型质量的近似指标)的对比。Reka模型在性能和价格方面都位于或超越了帕累托前沿

Reka系列模型的多模态特性和高效性能,使其在智能客服、内容分析、教育辅助等多个领域都有着广泛的应用前景。Reka团队将对模型的持续优化和改进,保证了Reka系列模型能够不断适应新的挑战和需求,保持技术领先。

Reka模型的不同资源和它们的位置,例如聊天应用、展示非筛选定性示例的网站、API平台、Discord社区和主页

模型

Reka模型的训练数据是一个综合体,包括了公开可用的和专有/授权的数据集,这些数据集的知识截止日期是2023年11月。模型训练所用的数据类型包括文本、图像、视频和音频片段。Reka Flash和Reka Edge分别在大约5万亿和4.5万亿经过彻底去重和筛选的语言标记上进行训练。这些数据的分类并不局限于单一类别,其中大约25%与代码相关,30%与STEM(科学、技术、工程和数学)相关,25%来自网络爬虫,还有大约10%与数学相关。数据的混合比例通常遵循优先考虑独特标记的原则,并通过有限数量的小规模消融研究进行手工调整。

Reka多模态语言模型套件的统计信息,包括模型大小、文本token数量、上下文长度和知识截止日期

Reka Core、Flash和Edge模型采用了模块化的编码器-解码器架构,这种架构支持多模态输入,包括图像、文本、视频和音频。目前,模型的输出仅限于文本。模型的Transformer骨干网络基于“Noam”架构,使用了SwiGLU、Grouped Query Attention、Rotary positional embeddings和RMSNorm等技术。Reka Flash和Edge使用的词汇表基于tiktoken的100K sentencepiece。模型还增加了哨兵标记用于掩码跨度,以及用于工具使用等特殊用例的其他特殊情况。

Reka Core, Flash和Edge模型的架构概览图

模块化的编码器-解码器架构

Reka模型采用了一种模块化的Transformer架构,这种架构是当前自然语言处理和机器学习领域的前沿技术。它由编码器和解码器两部分组成:

  • 编码器(Encoder):负责读取输入数据,如文本、图像、视频和音频,并将其转换成一系列高维向量表示。对于不同类型的输入数据,模型使用专门的处理方式:

    • 图像输入通过视觉模型(如CNN)提取特征。

    • 文本输入通过Tokenizer转换为一系列的标记,然后通过Transformer层进行处理。

    • 视频输入则由一系列图像帧组成,每个帧单独提取特征后进行处理。

    • 音频输入通过声学模型提取特征。

  • 解码器(Decoder):基于编码器的输出生成文本输出。它能够根据输入的上下文信息生成回答或描述。

多模态输入支持

Reka模型的一个显著特点是其对多模态输入的支持。这意味着模型能够同时处理和理解不同类型的数据,包括:

  • 图像(Image):模型能够理解图像内容,并结合图像信息回答问题。

  • 文本(Text):模型能够处理和生成文本信息。

  • 视频(Video):模型能够解析视频内容,理解视频中的事件和动作。

  • 音频(Audio):模型能够分析音频信号,提取相关信息。

功能调用与输出

Reka模型的文本输出不仅限于生成回答,还能够调用特定的功能,例如:

  • 网络搜索(Web Search):模型可以根据需要调用网络搜索功能,获取额外的信息来辅助回答。

  • 代码执行(Code Execution):模型还能够执行代码,解决编程相关问题或生成代码片段。

这些功能使得Reka模型在处理复杂问题时更加灵活和强大,能够提供更加丰富和准确的回答。

架构的创新之处

Reka模型的架构设计体现了以下几个创新点:

  • 多模态融合:模型能够将不同模态的信息融合在一起,提供更全面的理解。

  • 功能调用:模型的输出不仅限于文本,还能够调用外部功能,增强了模型的交互性和实用性。

  • 模块化设计:模块化的设计使得模型更加灵活,便于根据不同任务调整和优化各个组件。

Reka系列模型主要在Nvidia H100s GPU上使用Pytorch框架进行训练。训练集群由多个供应商提供,峰值计算能力达到约2.5K H100s和2.5K A100s。超过90%的计算能力在2023年12月中旬上线。Reka Flash和Edge在数百个H100s上进行了为期数周的训练。尽管学习率非常激进,但预训练过程相对平稳,几乎没有损失峰值。

Reka Core模型的训练损失图
四个匿名计算提供商在不同配置下的平均节点故障次数,包括早期阶段和稳定阶段的比较

模型预训练后的后训练过程包括模型的指令调整和对齐。模型在预训练后会进行多轮的指令调整,使用强正则化。对于指令调整数据,训练使用了包括专有和公开可用数据集的混合。之后,模型会通过使用同一家族的Reka模型作为奖励模型,进行几轮的RLHF(Reinforcement Learning from Human Feedback)调整。后训练过程还考虑了工具使用、函数调用和网络搜索等因素。

评估

基础模型评估主要关注模型在语言理解和多模态任务上的表现。Reka团队在以下几个方面进行了评估:

语言模型评估:在MMLU(多语言理解和问题回答)、GSM8K(推理和算术)、HumanEval(代码生成)和GPQA(高级问题回答)等基准测试中,Reka模型与其他模型进行了比较。评估采用了不同的提示方式,如5-shot直接提示和8-shot思维链提示。

多模态(图像/视频)评估:Reka模型在视觉问题回答数据集MMMU、VQAv2和Perception-Test上的表现也进行了比较。所有Reka模型的结果都是0-shot评估,即没有经过特定任务的微调。

Reka Flash和Reka Core与其他前沿模型在不同评估标准下的比较

聊天模型评估通过第三方数据提供商的人类评估员进行盲评估,包括多模态聊天和文本聊天两种设置:

多模态聊天评估:评估中,用户可以就图像提出问题,评估员根据提供的指导方针对不同模型生成的答案进行评分。Reka Core在这一评估中排名第二,仅次于GPT-4V,优于其他模型如Claude 3 Opus。

文本聊天评估:在文本聊天评估中,Reka Core在ELO排行榜上表现出色,超过了Claude 3 Sonnet和GPT-4,仅次于GPT-4 Turbo和Claude 3 Opus。

文本聊天模型评估数据集中的提示分类
多模态聊天模型评估数据集中的提示分布

跨语言评估在多语言常识、因果推理、问题回答等任务上进行了实验,使用了XStoryCloze、XCOPA、XQuAD、TydiQA和Belebele等多语言基准测试。Reka Core在大多数任务上都优于或至少与GPT-3.5和GPT-4相当。

Reka模型与GPT-3.5和GPT-4在多语言任务上的比较

长文本上下文问题回答评估使用了内部基准测试,包括电影情节和ToS(服务条款)合同,上下文长度约为100K标记。Reka Core和Flash在这些任务上的表现与Claude 3系列模型相当。

长文本问答评估的结果

Reka模型在医学推理任务上与专门的医学模型Meditron和Med-PaLM-2以及GPT-4进行了比较。在MedMCQA、PubMedQA和MMLU(医学)基准测试中,Reka Core在某些任务上超过了专门的医学模型,表现出与最前沿模型相当的竞争力。

Reka模型与领域特定模型和前沿模型在医学推理任务上的比较

Reka Edge和Flash与其他相似计算类别的模型进行了详细比较。Reka Edge在多个基准测试中超过了其他7B模型,而Reka Flash尽管规模较小,但在大多数基准测试中也展现出了与更大模型相当的竞争力。

Reka Edge与其他7B模型在不同基准测试中的比较结果
Reka Flash与更大模型的比较结果

通过这些综合评估,Reka团队展示了Reka Core、Flash和Edge模型在各种任务上的强大性能和广泛的应用潜力。这些评估结果不仅证明了Reka模型在技术上的先进性,也为未来的研究和应用提供了宝贵的参考。随着Reka系列模型的进一步发展和应用,我们期待它们将在人工智能领域带来更多令人兴奋的可能性和创新。

论文链接:https://arxiv.org/abs/2404.12387

项目地址:https://showcase.reka.ai/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1873749.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

经典排序算法详解

目录 创作不易,如对您有帮助,还望一键三连,谢谢! 前言 学习目标: 直接插入排序 基本思想: 代码 希尔排序: gap取值 代码 特性总结 选择排序 基本思想 代码 堆排序 思想 代码 冒…

Omni 动画核心运动包 - 为 Unity 游戏开发者带来卓越体验

Omni 动画核心运动包 前言资源包内容领取兑换码 前言 亲爱的 Unity 游戏开发者们,今天要向大家介绍一款令人瞩目的动画资源 - Omni 动画核心运动包。 这个运动包包含了多达 74 个 mocap 运动动画,每一个动画都是由专业演员通过我们先进的人工智能驱动动…

2024-6-28 石群电路-32

2024-6-28,星期五,20:05,天气:雨,心情:晴。今天没有什么事情发生,继续学习,加油!!!!! 1. 对称三相电路的计算&#xff08…

海外注册 | 一分钟看懂医疗器械CE认证:欧盟市场准入指南

摘要 ✨ 医疗器械制造商进入欧盟市场必须确保其产品符合欧盟法规要求。本指南提供快速了解CE认证流程的途径,帮助制造商迅速且合规地进入欧盟市场。 监管机构与法规 欧盟医疗器械的监管主要由医疗器械法规(MDR)和体外诊断医疗器械法规&…

瓦罗兰特新赛季更新资讯 瓦罗兰特新赛季免费加速器

瓦罗兰特新赛季来喽,这是一款由拳头开发的免费第一人称射击游戏,游戏凭借其独特的玩法和丰富的英雄选择吸引了大量玩家。 我们可以在游戏中选择自己喜欢的角色出场与敌人进行对战,而且每一个角色都有自己独特的道具以及技能,使用好…

mtu 1500 qdisc noop state DOWN group default qlen 1000问题的解决

问题描述 1、打开虚拟机终端,root身份启动ens网卡(一般情况下还是会直接报错 ifup ens33 2、停止网卡设置disable再启动 systemctl stop NetworkManager 不报错即可 systemctl disable NetworkManagerservice network restart出现了绿色的OK啦&#…

权限维持-域环境单机版---自启动

免责声明:本文仅做技术交流与学习... 目录 1.windows自启动路径加载 2.自启动服务加载 3.自启动注册表加载 所在regedit目录: -添加启动项 --重启生效 4.计划计时任务 windows软件或程序服务开机自启动的四种方式-CSDN博客 1.windows自启动路径加载 --当windows注销…

随身WiFi这潭死水是如何被格行这条“鲶鱼”搅动的?随身wifi靠谱品牌推荐

如果在过去提起随身WiFi,大家无外乎都会贴出这几个标签:限速虚量、割韭菜、跑路等负面词汇。但是如今再说起随身WiFi,更多的则是:方便、实惠、省钱。到底是什么原因,让随身WiFi的名声就发生了翻天覆地的变化呢&#xf…

【漏洞复现】用友 GRP-U8 FileUpload 任意文件上传漏洞

免责声明: 本文内容旨在提供有关特定漏洞或安全漏洞的信息,以帮助用户更好地了解可能存在的风险。公布此类信息的目的在于促进网络安全意识和技术进步,并非出于任何恶意目的。阅读者应该明白,在利用本文提到的漏洞信息或进行相关测…

什么是 Azure OpenAI?

目录 一、说明 二、什么是 Azure OpenAI 2.1 网络结构 2.2 、为什么使用 Azure OpenAI 2.3 如何使用 Azure OpenAI 三、从哪里开始 Azure OpenAI 之旅 3.1 关于 Azure OpenAI,我还需要了解什么 3.2 RBAC 权限和角色 3.3 演示 1:在公共数据上应用…

【机器学习】Whisper:开源语音转文本(speech-to-text)大模型实战

目录 一、引言 二、Whisper 模型原理 2.1 模型架构 2.2 语音处理 2.3 文本处理 三、Whisper 模型实战 3.1 环境安装 3.2 模型下载 3.3 模型推理 3.4 完整代码 3.5 模型部署 四、总结 一、引言 上一篇对​​​​​​​ChatTTS文本转语音模型原理和实战进行了讲解&a…

HDC Cloud 2024 | CodeArts加速软件智能化开发,携手HarmonyOS重塑企业应用创新体验

2024年6月21~23日,华为开发者大会HDC 2024在东莞溪流背坡村隆重举行。期间华为云主办了以“CodeArts加速软件智能化开发,携手HarmonyOS重塑企业应用创新体验”为主题的分论坛。论坛汇聚了各行各业的专家学者、技术领袖和开发者,共同探讨Harmo…

EE5805-Java-summary

Summary of Class What is the class?How to create a class?Constructorthis(super)static What is the class?How to create a class? 类(class)是一个模版,表示一类对象的行为(method&#xff09…

VMware Workstation环境下,DHCP服务的安装配置,用ubuntu来测试

需求说明: 某企业信息中心计划使用IP地址17216.11.0用于虚拟网络测试,注册域名为xyz.net.cn.并将172.16.11.2作为主域名的服务器(DNS服务器)的IP地址,将172.16.11.3分配给虚拟网络测试的DHCP服务器,将172.16.11.4分配给虚拟网络测试的web服务器,将172.16.11.5分配给FTP服务器…

Vue基础了解

目录 1、什么是Vue.js 2、Vue的优点 3、Vue的安装 4、Vue程序 5、Vue指令 代码演示: 6、Vue实例的生命周期 1、什么是Vue.js Vue (读音 /vjuː /,类似于 view) 是一套用于构建用户界面的渐进式框架。Vue 的核心库只关注视图层,不仅易…

canvas画二维码并生成图片(微信原生可用,其余的平台可以自行尝试)

效果展示: 1.首先创建weapp.qrcode.esm.js文件,将以下代码复制上去(适用于微信原生小程序),建议创在utils文件下 /*** weapp.qrcode.js v1.0.0 (https://github.com/yingye/weapp-qrcode#readme)*/(function (global,…

AMEYA360:三星HBM产品KHAA84901B-JC17介绍!

三星公司是韩国最大的跨国企业之一,成立于1938年,总部位于首尔。公司业务涵盖电子产品、半导体、通信设备、家电、金融、化学等多个领域。三星电子是三星集团旗下最大的子公司,主要生产智能手机、平板电脑、电视、笔记本电脑等电子产品。三星…

JAVA编程题期末题库【中】

8.计算邮资 程序代码: public static void main(String[] args) {// 计算邮资//if多分支语句//创建对象java.util.Scanner inputnew java.util.Scanner(System.in); //提示输入用户,输入邮件的重量System.out.println("邮件的重量:");int wei…

python办公自动化之pandas

用到的库:pandas 实现效果:创建一张空白的表同时往里面插入准备好的数据 代码: import pandas # 准备好要写入的数据,字典格式 data{日期:[7.2,7.3],产品型号:[ca,ce],成交量:[500,600]} dfpandas.DataFrame(data) # 把数据写入…

【java实习评审】 项目详情模块,如何设计关联表,提高查询性能

大家好,本篇文章分享一下【校招VIP】免费商业项目“推评分16”第一期电影详情模块 java同学的文档周最佳作品。 1、本项目是基于年轻人的喜好,更个性的电影推荐网站。筛选各分类的知名电影,并给出推荐理由和下载链接。另外,通过…