从零实现Llama3中文版

news2025/1/12 12:15:01

1.前言

一个月前,Meta 发布了开源大模型 llama3 系列,在多个关键基准测试中优于业界 SOTA 模型,并在代码生成任务上全面领先。

此后,开发者们便开始了本地部署和实现,比如 llama3 的中文实现、llama3 的纯 NumPy 实现等。

几天前,有位名为「Nishant Aklecha」的开发者发布了一个从零开始实现 llama3 的存储库,包括跨多个头的注意力矩阵乘法、位置编码和每个层在内都有非常详细的解释,帮助我们理解大语言模型是如果构建和工作的。

在这里插入图片描述

该项目得到了大神 Karpathy 的称赞,他表示项目看起来不错,完全展开后,通过模块嵌套和相互调用,可以更容易看到实际的情况。

项目地址:https://github.com/naklecha/llama3-from-scratch

2.从零实现Llama3中文版

详细实现见仓库地址:wdndev/llama3-from-scratch-zh: 从零实现一个 llama3 中文版

项目主要翻译「Nishant Aklecha」的 llama3-from-scratch 仓库,并对中文版做了特殊的适配,使该项目能在一台 16G RAM 的笔记本电脑上运行

  1. 将英文翻译为中文,文中的 Youtube 视频也替换为 Bilibili链接,方便查看;
  2. 将原版 Llama3-8B模型上传至Modescope社区,方便国内下载;
  3. 因原版 Llama3-8B 模型采用32层 Transformers,且大佬「Nishant Aklecha」使用CPU加载,如果加载全部的参数,16G内存机器加载失败,故选取原版 Llama3-8B 模型权重的前2层,重新保存,大小约占为2.7G,此教程也可以直接加载,实际测试内存占用约4~5G,唯一缺点是后续推理结果不对,但不影响学习矩阵变换等其他知识;
  4. Jupyter文件,可直接在 16G RAM 笔记本电脑运行;

2.1 实现细节

  1. 分词器(Tokenizer):
    • 使用tiktoken库进行文本分词。
    • 定义了一些特殊标记,如文本开始<|begin_of_text|>、文本结束<|end_of_text|>等。
    • 通过tokenizer.encode将文本转换为标记序列,通过tokenizer.decode将标记序列转换回文本。
  2. 模型权重和配置:
    • 加载Llama3-8B模型Pytorch格式权重。
    • 加载Llama3-8B模型配置,包括:
      • 维度dim: 4096
      • 层数n_layers: 32
      • 注意力头数n_heads: 32
      • 键值头数n_kv_heads: 8
      • 词汇表大小vocab_size: 128256
      • 其他参数如multiple_offfn_dim_multipliernorm_epsrope_theta等。
  3. 文本到标记(Tokenization):
    • 使用分词器将输入文本转换为标记序列。
    • 将标记转换为对应的标记ID。
  4. 标记嵌入(Embeddings):
    • 使用torch.nn.Embedding层将标记ID转换为词嵌入向量。
    • 将词嵌入向量进行归一化处理。
  5. Transformer层:
    • 实现了Transformer模型的一个层,包括:
      • 归一化: 使用RMS归一化对输入进行归一化。
      • 注意力机制:
        • 使用模型权重初始化查询(Query)、键(Key)、值(Value)矩阵。
        • 对查询矩阵进行拆分,得到每个注意力头的查询向量。
        • 通过点积计算查询向量与键向量的关系,得到注意力分数矩阵。
        • 对注意力分数应用掩码,防止未来信息的泄露。
        • 使用Softmax函数对注意力分数进行归一化。
        • 将归一化的注意力分数与值向量相乘,得到加权的值向量。
      • 多头注意力: 对每个注意力头重复上述过程,并将结果合并。
      • 输出权重: 使用模型权重将注意力输出映射到最终的输出向量。
  6. 前馈网络(Feed-Forward Network):
    • 使用SwiGLU网络架构,增加模型的非线性表达能力。
    • 通过矩阵乘法实现前馈网络的计算。
  7. 多层堆叠:
    • 将上述Transformer层和前馈网络堆叠32层。
    • 每一层都会对输入进行更复杂的变换和抽象。
  8. 输出解码:
    • 使用模型的输出层权重将最终的嵌入向量映射到词汇表上。
    • 通过取最大值获取预测的下一个标记ID。
    • 使用分词器将标记ID解码回文本。

2.2 总结

  • 详细展示了从头开始构建大型语言模型的一个层的完整过程。
  • 通过分步实现文本分词、标记嵌入、注意力机制、多头注意力、前馈网络等关键组件,让读者能够深入理解模型的工作原理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1698797.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【机器学习300问】100、怎么理解卷积神经网络CNN中的池化操作?

一、什么是池化&#xff1f; 卷积神经网络&#xff08;CNN&#xff09;中的池化&#xff08;Pooling&#xff09;操作是一种下采样技术&#xff0c;其目的是减少数据的空间维度&#xff08;宽度和高度&#xff09;&#xff0c;同时保持最重要的特征并降低计算复杂度。池化操作不…

高速数据采集与传输(一):ADC08D500调研

前言&#xff1a;高速ADC数据采集的应用和开发&#xff0c;涉及的技术面非常的广泛&#xff0c;后续阶段博主将尝试以纯项目开发的形式做一次专题技术分享&#xff0c;将基于高速数据采集的相关内容进行一系列的技术文档更新。博主全凭兴趣在更新和总结&#xff0c;很难做到一直…

AI预测体彩排3采取888=3策略+和值012路一缩定乾坤测试5月26日预测第2弹

今天继续基于8883的大底进行测试&#xff0c;昨天的预测已成功命中&#xff01;今天继续测试&#xff0c;按照排三前面的规律&#xff0c;感觉要出对子了&#xff0c;所以本次预测不再杀对子&#xff0c;将采用杀一个和尾来代替。好了&#xff0c;直接上结果吧~ 首先&#xff0…

软考结束。有什么要说的

1. 竟然是机试&#xff0c;出乎我意料。是 考试机构觉得笔试成本高了么。这次的考试是机试&#xff0c;相比以往有所不一样。感言是不是以后都会在固定地点考试也说不准。 2. 遇到年轻人。 这次旁边的一个女同学第一次参加&#xff0c;还像我询问了一些关于软考的事。我是有…

14 vue学习:透传Attributes

Attributes 继承 “透传 attribute”指的是传递给一个组件&#xff0c;却没有被该组件声明为 [props]或 [emits]的 attribute 或者 v-on 事件监听器。最常见的例子就是 class、style 和 id。 当一个组件以单个元素为根作渲染时&#xff0c;透传的 attribute 会自动被添加到根元…

vcpkg环境配置

vcpkg 使用linux相关库&#xff0c;设置环境变量VCPKG_ROOT&#xff0c;设置cmake工具链$VCPKG_ROOT/scripts\buildsystems\vcpkg.cmake set VCPKG_DEFAULT_TRIPLETx64-windows .\vcpkg.exe install fftw3 freetype gettext glibmm gtkmm libjpeg-turbo libpng libxmlpp libs…

pytest框架用例命名规则详解

pytest 测试用例的命名规则是为了确保 pytest 能够正确地识别和执行测试用例。 以下是关于 pytest 测试用例命名规则的详细解释&#xff1a; 1 单个测试文件以‘test_’开头或者以‘_test’结尾 比如我们创建test_case1.py case2_test.py文件。 2 单个测试文件中&#xff0c…

PLC_博图系列☞R_TRIG:检测信号上升沿

PLC_博图系列☞R_TRIG&#xff1a;检测信号上升沿 文章目录 PLC_博图系列☞R_TRIG&#xff1a;检测信号上升沿背景介绍R_TRIG&#xff1a; 检测信号上升沿说明参数示例 关键字&#xff1a; PLC、 西门子、 博图、 Siemens 、 R_TRIG 背景介绍 这是一篇关于PLC编程的文章&a…

服务器安全审计: chkrootkit 和 rkhunter 详解

chkrootkit 和 rkhunter 是两个广泛使用的安全工具,用于检测系统是否被Rootkit或其他恶意软件感染。本文将详细说明这两个工具的使用方法及如何解释检测结果。 1. chkrootkit 1.1. 安装 chkrootkit 在CentOS上安装 chkrootkit 可以使用以下命令: yum install chkrootkit -…

SpringMVC:创建一个简单的SpringMVC框架S

目录 一、框架介绍 两个重要的xml文件 SpringMVC执行流程 二、Vscode搭建SpringMVC框架 1、maven创建webapp原型项目 2、pom.xml下添加springmvc的相关依赖 3、在web.xml配置 4、springmvc.xml的配置 5、编写Controller控制器类 6、 编写JSP界面 7、项目结构图 一…

$subcribe的使用

$subcribe的使用 只要是store都有$subscribe函数&#xff0c;是订阅的意思&#xff0c;可以监测到store中数据的变化 使用$subscribe函数可以实现刷新不丢失&#xff0c;将数据保存到浏览器的本地存储中&#xff0c;每次进入页面都使用localStorage的数据填充页面

springboot带颜色的日志输出

话不多说直接贴全部代码在作解释 <?xml version"1.0" encoding"utf-8"?> <configuration><property name"pattern" value"%d{yyyy-MM-dd HH:mm:ss.SSS} [%thread] %-5level %logger{50} - %msg %n"/><propert…

MySQL数据库基础:使用、架构、SQL语句、存储引擎

文章目录 什么是数据库CS模式 基本使用安装链接服务器服务器、数据库、表关系简单使用数据库在Linux下的体现 MySQL架构连接器层客户端层服务层存储引擎层物理存储层 SQL分类存储引擎 什么是数据库 mysql&#xff1a;数据库服务的客户端mysqld&#xff1a;数据库服务的服务器端…

LVS精益价值管理系统 LVS.Web.ashx SQL注入漏洞复现

0x01 产品简介 LVS精益价值管理系统是杭州吉拉科技有限公司研发的一款专注于企业精益化管理和价值流优化的解决方案。该系统通过集成先进的数据分析工具、可视化的价值流映射技术和灵活的流程改善机制,帮助企业实现高效、低耗、高质量的生产和服务。 0x02 漏洞概述 LVS精益…

【云原生】Kubernetes-----POD资源限制与探针机制

目录 引言 一、资源限制 &#xff08;一&#xff09;基本定义 &#xff08;二&#xff09;资源单位 1.CPU资源 2.内存资源 &#xff08;三&#xff09;请求与限制 &#xff08;四&#xff09;定义方式 1.编写yaml文件 2.查看资源情况 &#xff08;五&#xff09;资源…

【顶刊新文】nature plants|植物高度作为高山碳固存和生态系统对变暖响应的指标

文章简介 论文名称&#xff1a;Plant height as an indicator for alpine carbon sequestration and ecosystem response to warming&#xff08;植物高度作为高山碳固存和生态系统对变暖响应的指标&#xff09; 第一作者及单位&#xff1a;Quan Quan&#xff08;中国科学院地…

ERP产品一体化、智能化发展加速,智邦国际何以赢得先机?

近年&#xff0c;随着全球经济环境的剧烈变动&#xff0c;市场竞争的硝烟愈发浓烈。受大环境影响&#xff0c;百行千企在发展过程中&#xff0c;力求降低成本、增长效率&#xff0c;以增加自身竞争力。需求与市场并存&#xff0c;为激发更多潜在力量&#xff0c;越来越多的企业…

构建高效的在线培训机构CRM应用架构实践

在当今数字化时代&#xff0c;在线培训已成为教育行业的重要趋势之一。为了提供更好的学习体验和管理服务&#xff0c;在线培训机构需要构建高效的CRM&#xff08;Customer Relationship Management&#xff09;应用架构。本文将探讨在线培训机构CRM应用架构的设计与实践。 一、…

如同“水生态”的存储引擎|OceanBase数据转储合并技术解读(一)

本系列文章主要围绕 OceanBase数据库存储引擎中的转储合并进行解读&#xff0c;涉及到数据存储、转储合并、数据校验等方面的内容&#xff0c;旨在让读者了解OceanBase数据库的存储引擎中与转储合并有关的各种概念&#xff0c;帮助读者更好地理解OceanBase数据库的存储技术原理…

将点位转换为圆环极坐标绘画

将一段染色体可视化为一个圆环,根据一段基因的起始点和终止点绘画,根据基因的方向绘画箭头,可以任意确定染色体哪个位置在哪个角度上,例如染色体的1700点位在180上,默认是顺时针方向从起始点向终止点绘画。 1.将一段染色体的基因数组加上极坐标绘画属性 function compute…