Gemma: Open Models Based on Gemini Research and Technology

news2024/9/27 23:24:11

Gemma: Open Models Based on Gemini Research and Technology

相关链接:arxiv
关键字:GemmaGoogle DeepMindopen modelslanguage understandingreasoning

摘要

这项工作介绍了Gemma,一系列轻量级、最先进的开放模型,基于创建Gemini模型所用的研究和技术。Gemma模型在语言理解、推理和安全性方面的学术基准测试中显示出强大的性能。我们发布了两种大小的模型(20亿和70亿参数),并提供了预训练和微调后的检查点。在18个文本为基础的任务中,Gemma在11项上超越了同等规模的开放模型。同时,我们对模型的安全性和责任方面进行了全面评估,并详细描述了模型开发过程。我们认为负责任地发布这些大型语言模型对提高模型安全性、使能下一代语言模型创新至关重要。
在这里插入图片描述

核心方法

  • 模型架构:Gemma模型基于Transformer Decoder架构,训练数据量高达6T tokens,使用了与Gemini模型家族类似的架构、数据和训练配方。Gemma模型具有在文本领域的广泛适用性,并在大规模下展现出最先进的理解和推理能力。
  • 技术改进:Gemma模型引入了诸多改进技术,包括:
    • Multi-Query Attention:对于7B模型使用多头注意力,而2B模型则使用多查询注意力。
    • RoPE Embeddings:不使用绝对位置编码,而是在每一层使用旋转位置编码,并在输入和输出之间共享嵌入以减少模型大小。
    • GeGLU激活函数:用标准的ReLU非线性激活函数替换为GeGLU激活函数。
    • RMSNorm:对每个Transformer子层的输入,即注意力层和前馈层,使用RMSNorm进行归一化。
  • 训练基础设施:使用TPUv5e进行训练;7B模型在16个POD上训练,总计4096个TPUv5e。
  • 碳足迹:预计Gemma模型预训练的碳排放为约131 tCO2eq。

实验说明

自动化基准评估:评估包括多个领域,如物理推理、社会推理、问答、编码、数学、常识推理等。

人类偏好评估:对终版候选模型进行人类评价研究,以测试其指令遵循能力和基本安全协议。

一些评估结果

  • 在约1000个提示方面的创意写作任务中,Gemma 7B IT的正面胜率为51.7%,Gemma 2B IT为41.6%。
  • 在约400个面向基本安全协议的提示中,Gemma 7B IT的胜率为58%,Gemma 2B IT为56.5%。

自动化基准测试:Gemma模型在包括MMLU、HellaSwag和PIQA等基准测试中获得了表现优异的结果。

结论

我们展示了Gemma,一个用于文本和代码的公开可用的生成式语言模型家族。Gemma在开放的语言模型性能、安全性和负责任的发展方面推动了最先进的水平。通过充分的安全评估和缓解措施,我们相信Gemma模型将为社区带来净收益。不过,我们承认这种发布是不可逆的,开放模型可能带来的危害尚未明确定义,因此我们将继续采取与这些模型可能带来的潜在风险相称的评估和安全缓解措施。此外,我们的模型在6项标准安全基准上的表现超越了竞争对手,并在人与人之间的比较中也占上风。

Gemma模型改善了包括对话、推理、数学和代码生成在内的广泛领域的表现。在MMLU(64.3%)和MBPP(44.4%)上的结果不仅显示了Gemma的高性能,也展示了公开LLM的巨大潜力。我们期待社区会基于Gemma展开广泛的研究,并希望开发者能够创造出有益的新应用、用户体验和其他功能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1517074.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

笔记本的显示器都是核显输出,还要独显干啥呢?

前言 今天小白还在睡梦中,就接到一个朋友发来的消息:笔记本的显示器都是直接在核显上的,没有改独显的选项。 如果是这样,那笔记本还有独立显卡什么事情?笔记本加了独显难道就只是为了圈钱? 其实并不是这样…

06双体系Java学习之算术运算符,赋值运算符,关系运算符

// 二元运算符//CtrlD : 复制当前行到下一行int a 10;int b 20;int c 25;int d 25;System.out.println(ab);System.out.println(a-b);System.out.println(a*b);System.out.println(a/(double)b);赋值运算符 关系运算符 package operator;public class Demo03 {public stati…

ModuleNotFoundError: No module named ‘sklearn.cross_validation‘

一、问题分析 ModuleNotFoundError: No module named sklearn.cross_validation 英文先翻译一遍,模块未找到问题,这里涉及到sklearn这个模块,Sklearn (全称 SciKit-Learn),是基于 Python 语言的机器学习工…

力扣每日一题 合并后数组中的最大元素 贪心

Problem: 2789. 合并后数组中的最大元素 思路 贪心:从右向左合并,尽可能的多合并,直到不能合并,更新答案,找前一阶段的最大合并值 复杂度 时间复杂度: O ( n ) O(n) O(n) 空间复杂度: O ( 1 ) O(1) O(1) Code …

1456.定长子串中元音的最大数目

题目:给你字符串 s 和整数 k 。 请返回字符串 s 中长度为 k 的单个子字符串中可能包含的最大元音字母数。 英文中的 元音字母 为(a, e, i, o, u)。 解题思路: 1.右侧新进入窗口的字母为元音字母,左侧移出窗口的字母…

C语言【典型算法编程题】总结

以下最全总结! 一,分支结构 1,if 编写程序,从键盘上输入三角形的三个边长(实数),判断这三个边能否构成三角形(构成三角形的条件为:任意两边之和大于第三边),如果能构成三角形,则计算三角形的面积并输出(保留2位小数);如果不能构成三角形,则输出“Flase”字符…

AJAX 03 XMLHttpRequest、Promise、封装简易版 axios

AJAX 学习 AJAX 3 原理01 XMLHttpRequest① XHR 定义② XHR & axios 关系③ 使用 XHR④ XHR查询参数案例:地区查询(URLSearchParams)⑤ XHR数据提交 POST 02 PromisePromise 使用Promise - 三种状态案例:使用Promise XHR 获取…

解析找不到msvcr120.dll无法继续执行此代码的多种修复方法

在计算机使用过程中,我们经常会遇到一些错误提示,其中之一就是“msvcr120.dll丢失”。这个错误通常会导致某些程序无法正常运行。为了解决这个问题,本文将介绍5种修复msvcr120.dll丢失的方法。 一,msvcr120.dll丢失会出现哪些问题…

sql注入重学

sql基本操作 基本查询语句 union (必须得是前面的列与后面的列相同才可以查询) 看第二局uses表中的列有3列,而emails中的列只有两列,所有无法成功查询 这就相当于我们再加了一列 group by (分组) 相当于将其分为10列…

Python 闭包和nonlocal声明

闭包是针对嵌套函数环境的概念,它的作用是延伸函数的作用域。简单来说,闭包就是一个函数,但它可以保存着上层函数作用域中的变量,使得这些变量可以在函数中使用。而nonlocal声明的作用就是允许函数重新绑定局部作用域以外且非全局…

3、鸿蒙学习-在AGC创建HarmonyOS 项目或应用

项目和应用介绍 关于项目 项目是资源、应用的组织实体。资源包括服务器、数据库、存储,以及您的应用、终端用户的数据等。在您使用部分服务时,您是数据的控制者,数据将按照您设置的数据处理位置来存储在指定区域。 通常,您不需…

paraview处理openfoam对称模型

paraview处理openfoam对称模型 步骤如下: 导入对称模型,以openfoam中xx\tutorials\incompressible\SRFSimpleFoam\mixer中的搅拌器为例;使用ctrl+space,查找transform,在Filters中也能找到;经过三次transform,可以移动旋转出对称的其他3部分;经过此三次移动旋转,并不能…

电路基础笔记——电路的等效变换

线性电阻的等效 线性电阻串联:RR1R2 分压公式:Uk(Rk/R)*U 线性电阻并联:1/R1/R11/R2 GG1G2 分流公式:Ik(Gk/G)*I 独立电源的等效 电压源与电压源串联 UsUs1Us2 电压源与电压源并联 U…

Maven简单入门

Maven 一:什么是Maven: Maven是一个项目管理工具,用于构建和管理Java项目。它可以帮助开发人员自动化构建过程,管理项目依赖关系,并协助项目的发布和部署。通过Maven,开发人员可以定义项目的结构、依赖关…

kakfa模拟仿真篇之spark-submit在linux运行 (更贴近真实场景)

源码在上篇 地址在这 :Kafka模拟器产生数据仿真-集成StructuredStreaming做到”毫秒“级实时响应StreamData落地到mysql-CSDN博客 这里分享一下一些新朋友不知道spark-submit 指令后 的参数怎么写 看这篇绝对包会 声明: 此项目是基于 maven 打包的说明…

VBA技术资料MF129:批量删除及重命名文件夹

我给VBA的定义:VBA是个人小型自动化处理的有效工具。利用好了,可以大大提高自己的工作效率,而且可以提高数据的准确度。“VBA语言専攻”提供的教程一共九套,分为初级、中级、高级三大部分,教程是对VBA的系统讲解&#…

柚见第十期(后端队伍接口详细设计)

创建队伍 用户可以 创建 一个队伍,设置队伍的人数、队伍名称(标题)、描述、超时时间 P0 队长、剩余的人数 聊天? 公开 或 private 或加密 信息流中不展示已过期的队伍 请求参数是否为空?是否登录,未登录不…

Apache Doris 2.1.0 版本发布:开箱盲测性能大幅优化,复杂查询性能提升 100%

亲爱的社区小伙伴们,我们很高兴地向大家宣布,在 3 月 8 日我们引来了 Apache Doris 2.1.0 版本的正式发布,欢迎大家下载使用。 在查询性能方面, 2.1 系列版本我们着重提升了开箱盲测性能,力争不做调优的情况下取得较好…

【黑马程序员】Python文件、异常、模块、包

文章目录 文件操作文件编码什么是编码为什么要使用编码 文件的读取openmodel常用的三种基础访问模式读操作相关方法 文件的写入注意代码示例 异常定义异常捕获捕获指定异常捕获多个异常捕获所有异常异常else异常finally 异常的传递 python 模块定义模块的导入import模块名from …

Linux - 安装 nacos(详细教程)

目录 一、简介二、安装前准备三、下载与安装四、基本配置五、单机模式 一、简介 官网:https://nacos.io/ GitHub:https://github.com/alibaba/nacos Nacos 是阿里巴巴推出的一个新开源项目,它主要是一个更易于构建云原生应用的动态服务发现…