小模型家族又新增成员Gemma2

news2024/11/25 2:56:13

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于如果构建生成级别的AI架构则可以关注AI架构设计专栏。技术宅麻烦死磕LLM背后的基础模型。

Gemma 2与Gemma 1有许多相似之处。它的上下文长度为 8192个令牌,并使用旋转位置嵌入 (RoPE)。与原始 Gemma 相比,Gemma 2有四个主要进步:

  • 滑动窗口注意力机制<链接温习>:交错滑动窗口和全二元注意机制。

  • Logit 软盖帽:通过将 logit缩放到固定范围来防止logit 过度增长,从而改进训练。

  • 知识蒸馏:利用较大的教师模型来训练较小的模型(9B模型)。

  • 模型合并:将两个或多个LLMs合并为一个新模型

滑动窗口注意力是一种减少transformer模型中注意力计算的内存和时间要求的方法,已用于 Mistral 等模型。Gemma 2的新颖之处在于,每隔一层(本地4096 个令牌)都会应用一个滑动窗口,而中间的层仍然使用传统的注意力机制(8192 个令牌)。

软盖帽是一种技术,可以防止logits变得过大而不会截断它们。它的工作原理是:logits ← soft_cap ∗ tanh(logits/soft_cap),其中tanh为激活函数。Gemma 2对最后一层和每个注意力层都采用这项技术。cap上限为50.0,最终logits上限为30.0。

模型合并是一种将两个或多个LLMs模型组合成一个新模型的技术,可以在没有加速器的情况下使用。Mergekit是一个流行的LLM开源合并工具包。它实现了线性、SLERP、TIES、DARE和其他合并技术。Gemma 2 使用了Warp,可在三个不同的阶段合并模型。

Gemma2的控制Token

最终在各项基准的评测性能如下,还是具备一定的优势:

Gemma 2使用JAX和ML Pathways在 Google Cloud TPU(v5p 上为 27B,TPU v4 上为 9B)上进行训练。Gemma 2 Instruct已针对对话应用程序进行了优化,并使用监督微调 (SFT)、从更大模型中蒸馏、使用人类反馈强化学习 (RLHF) 以及使用 WARP进行模型合并以提高整体性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1873757.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

3.Android逆向协议-APP反反编译及回编译

免责声明&#xff1a;内容仅供学习参考&#xff0c;请合法利用知识&#xff0c;禁止进行违法犯罪活动&#xff01; 内容参考于&#xff1a;微尘网校 上一个内容&#xff1a;2.Android逆向协议-了解常用的逆向工具 在实际应用场景中会阅读smail代码&#xff0c;比如调试app&a…

3.x86游戏实战-寄存器

免责声明&#xff1a;内容仅供学习参考&#xff0c;请合法利用知识&#xff0c;禁止进行违法犯罪活动&#xff01; 本次游戏没法给 内容参考于&#xff1a;微尘网络安全 上一个内容&#xff1a;2.x86游戏实战-跨进程读取血量 寄存器说明&#xff1a; 寄存器是处理器的一部&…

ElementUI组件

目录 1、安装ElementUI 2、在main.js文件中加入 3、使用组件 终端运行&#xff1a; Element&#xff0c;一套为开发者、设计师和产品经理准备的基于Vue2.0的桌面端组件库. 1、安装ElementUI 控制台输入 npm i element-ui -S 2、在main.js文件中加入 import ElementUI from…

多模态语言模型的新突破:Reka Core、Flash和Edge系列

人工智能领域的每一次技术革新都可能引领一场行业的变革&#xff0c;特别是在自然语言处理&#xff08;NLP&#xff09;领域&#xff0c;多模态语言模型&#xff08;MLMs&#xff09;正逐渐成为推动智能系统发展的核心力量。Reka团队最新推出的Reka Core、Flash和Edge系列模型&…

经典排序算法详解

目录 创作不易&#xff0c;如对您有帮助&#xff0c;还望一键三连&#xff0c;谢谢&#xff01; 前言 学习目标&#xff1a; 直接插入排序 基本思想&#xff1a; 代码 希尔排序&#xff1a; gap取值 代码 特性总结 选择排序 基本思想 代码 堆排序 思想 代码 冒…

Omni 动画核心运动包 - 为 Unity 游戏开发者带来卓越体验

Omni 动画核心运动包 前言资源包内容领取兑换码 前言 亲爱的 Unity 游戏开发者们&#xff0c;今天要向大家介绍一款令人瞩目的动画资源 - Omni 动画核心运动包。 这个运动包包含了多达 74 个 mocap 运动动画&#xff0c;每一个动画都是由专业演员通过我们先进的人工智能驱动动…

2024-6-28 石群电路-32

2024-6-28&#xff0c;星期五&#xff0c;20:05&#xff0c;天气&#xff1a;雨&#xff0c;心情&#xff1a;晴。今天没有什么事情发生&#xff0c;继续学习&#xff0c;加油&#xff01;&#xff01;&#xff01;&#xff01;&#xff01; 1. 对称三相电路的计算&#xff08…

海外注册 | 一分钟看懂医疗器械CE认证:欧盟市场准入指南

摘要 ✨ 医疗器械制造商进入欧盟市场必须确保其产品符合欧盟法规要求。本指南提供快速了解CE认证流程的途径&#xff0c;帮助制造商迅速且合规地进入欧盟市场。 监管机构与法规 欧盟医疗器械的监管主要由医疗器械法规&#xff08;MDR&#xff09;和体外诊断医疗器械法规&…

瓦罗兰特新赛季更新资讯 瓦罗兰特新赛季免费加速器

瓦罗兰特新赛季来喽&#xff0c;这是一款由拳头开发的免费第一人称射击游戏&#xff0c;游戏凭借其独特的玩法和丰富的英雄选择吸引了大量玩家。 我们可以在游戏中选择自己喜欢的角色出场与敌人进行对战&#xff0c;而且每一个角色都有自己独特的道具以及技能&#xff0c;使用好…

mtu 1500 qdisc noop state DOWN group default qlen 1000问题的解决

问题描述 1、打开虚拟机终端&#xff0c;root身份启动ens网卡&#xff08;一般情况下还是会直接报错 ifup ens33 2、停止网卡设置disable再启动 systemctl stop NetworkManager 不报错即可 systemctl disable NetworkManagerservice network restart出现了绿色的OK啦&#…

权限维持-域环境单机版---自启动

免责声明:本文仅做技术交流与学习... 目录 1.windows自启动路径加载 2.自启动服务加载 3.自启动注册表加载 所在regedit目录: -添加启动项 --重启生效 4.计划计时任务 windows软件或程序服务开机自启动的四种方式-CSDN博客 1.windows自启动路径加载 --当windows注销…

随身WiFi这潭死水是如何被格行这条“鲶鱼”搅动的?随身wifi靠谱品牌推荐

如果在过去提起随身WiFi&#xff0c;大家无外乎都会贴出这几个标签&#xff1a;限速虚量、割韭菜、跑路等负面词汇。但是如今再说起随身WiFi&#xff0c;更多的则是&#xff1a;方便、实惠、省钱。到底是什么原因&#xff0c;让随身WiFi的名声就发生了翻天覆地的变化呢&#xf…

【漏洞复现】用友 GRP-U8 FileUpload 任意文件上传漏洞

免责声明&#xff1a; 本文内容旨在提供有关特定漏洞或安全漏洞的信息&#xff0c;以帮助用户更好地了解可能存在的风险。公布此类信息的目的在于促进网络安全意识和技术进步&#xff0c;并非出于任何恶意目的。阅读者应该明白&#xff0c;在利用本文提到的漏洞信息或进行相关测…

什么是 Azure OpenAI?

目录 一、说明 二、什么是 Azure OpenAI 2.1 网络结构 2.2 、为什么使用 Azure OpenAI 2.3 如何使用 Azure OpenAI 三、从哪里开始 Azure OpenAI 之旅 3.1 关于 Azure OpenAI&#xff0c;我还需要了解什么 3.2 RBAC 权限和角色 3.3 演示 1&#xff1a;在公共数据上应用…

【机器学习】Whisper:开源语音转文本(speech-to-text)大模型实战

目录 一、引言 二、Whisper 模型原理 2.1 模型架构 2.2 语音处理 2.3 文本处理 三、Whisper 模型实战 3.1 环境安装 3.2 模型下载 3.3 模型推理 3.4 完整代码 3.5 模型部署 四、总结 一、引言 上一篇对​​​​​​​ChatTTS文本转语音模型原理和实战进行了讲解&a…

HDC Cloud 2024 | CodeArts加速软件智能化开发,携手HarmonyOS重塑企业应用创新体验

2024年6月21~23日&#xff0c;华为开发者大会HDC 2024在东莞溪流背坡村隆重举行。期间华为云主办了以“CodeArts加速软件智能化开发&#xff0c;携手HarmonyOS重塑企业应用创新体验”为主题的分论坛。论坛汇聚了各行各业的专家学者、技术领袖和开发者&#xff0c;共同探讨Harmo…

EE5805-Java-summary

Summary of Class What is the class?How to create a class?Constructorthis&#xff08;super&#xff09;static What is the class?How to create a class? 类&#xff08;class&#xff09;是一个模版&#xff0c;表示一类对象的行为&#xff08;method&#xff09…

VMware Workstation环境下,DHCP服务的安装配置,用ubuntu来测试

需求说明: 某企业信息中心计划使用IP地址17216.11.0用于虚拟网络测试,注册域名为xyz.net.cn.并将172.16.11.2作为主域名的服务器(DNS服务器)的IP地址,将172.16.11.3分配给虚拟网络测试的DHCP服务器,将172.16.11.4分配给虚拟网络测试的web服务器,将172.16.11.5分配给FTP服务器…

Vue基础了解

目录 1、什么是Vue.js 2、Vue的优点 3、Vue的安装 4、Vue程序 5、Vue指令 代码演示&#xff1a; 6、Vue实例的生命周期 1、什么是Vue.js Vue (读音 /vjuː /&#xff0c;类似于 view) 是一套用于构建用户界面的渐进式框架。Vue 的核心库只关注视图层&#xff0c;不仅易…

canvas画二维码并生成图片(微信原生可用,其余的平台可以自行尝试)

效果展示&#xff1a; 1.首先创建weapp.qrcode.esm.js文件&#xff0c;将以下代码复制上去&#xff08;适用于微信原生小程序&#xff09;&#xff0c;建议创在utils文件下 /*** weapp.qrcode.js v1.0.0 (https://github.com/yingye/weapp-qrcode#readme)*/(function (global,…