【大语言模型LLM】- Meta开源推出的新一代大语言模型 Llama 3

news2024/12/30 1:51:56

在这里插入图片描述

🔥博客主页西瓜WiFi

🎥系列专栏《大语言模型》

很多非常有趣的模型,值得收藏,满足大家的收集癖! 如果觉得有用,请三连👍⭐❤️,谢谢!

长期不定时更新,欢迎watch和fork!❤️❤️❤️

❤️感谢大家点赞👍 收藏⭐ 评论⭐


🎥大语言模型LLM基础-系列文章

【大语言模型LLM】- AI工具收录集合,一篇就够了!
【大语言模型LLM】-大语言模型如何编写Prompt?
【大语言模型LLM】-如何使用大语言模型提高工作效率?
【大语言模型LLM】-使用大语言模型搭建点餐机器人

持续更新中…

一、热门大模型推荐

  • 国外

    • 🔥ChatGPT,OpenAI开发的一种基于GPT架构的对话生成模型。
    • 🔥Claude,美国人工智能初创公司Anthropic发布的大型语言模型。
    • 🔥Grok-1, Grok-1是由马斯克旗下的人工智能初创公司xAI发布的大语言模型。
  • 国内

    • 🔥文心一言,百度全新一代知识增强大语言模型。
    • 🔥豆包,字节跳动公司基于云雀模型开发的AI工具。
    • 🔥Kimi,月之暗面开发的国产人工智能大模型。
  • AI绘图

    • 🔥Midjourney,人工智能研究实验室Midjourney, Inc.开发的Al图像生成工具。
    • 🔥Stable Diffusion,Stable Diffusion是2022年发布的深度学习文本到图像生成模型。
    • 🔥Microsoft Designer,强烈推荐👍,免费绘图+设计,Microsoft Designer是一款基于生成式AI技术的设计工具,它搭载了由OpenAI开发的AI绘画工具DALL-E 2。
  • AI写作

    • 🔥火山写作,字节跳动旗下的火山引擎团队推出的AI中英文写作助手。
    • 🔥新华秒笔,新华通讯社与博特智能共同研发推出,集成了案例参考、材料查找、AI写作、修改润色色、审核校对、文件学习等功能,全方位地辅助公职人员提高创作效率,节省人工编写的时间和精力。
    • 🔥星火内容运营大师,星火内容运营大师是一款由科大讯飞推出的AI智能写作软件,旨在帮助内容运营者提高工作效率和质量。
    • 🔥Paperpal,Paperpal正是以此为发想而研发的学术专项AI工具,旨在提升研究者的英语写作体验。

二、新一代大语言模型 Llama 3

2.1 Llama 3是什么?

2024年4月18日,Meta在官网上宣布公布了旗下最新大模型Llama 3。Llama 3 包含8B和70B两种参数规模的模型,标志着开源人工智能领域的又一重大进步。作为LIama系列的第三代产品,Llama 3不仅继承了前代模型的强大功能,还通过一系列创新和改进,提供了更高效、更可靠的AI解决力方案,旨在通过先进的自然语言处理技术,支持广泛的应用场景,包括但不限于编程、问题解决、翻译和对话生成。

2.2 Llama 3的系列型号

Llama 3目前提供了两种型号,分别为8B(80亿参数)和70B(700亿参数)的版本,这两种型号旨在满足不同层次的应用需求,为用户提供了灵活性和选择的自由度。

  • Llama-3-8B:8B参数模型,这是一个相对较小但高效的模型,拥有有80亿个参数。专为需要快速推理和较少计算资源的应用景设计,同时保持了较高的性能标准。
  • Llama-3-70B:70B参数模型,这是一个更大规模的模型,拥有700亿个参数。它能够处理更复杂的任务,提供更深入的语言理解和生成能力,适合对性能要求更高的应用。
    后续,Llama 3还会推出400B参数规模的模型,目前还在训练中。Meta还表示等完成Llama 3的训练,还将发布一份详细的研究论文。

2.3 Llama 3的官网入口

  • 官方项目主页:https://llama.meta.com/llama3/
  • GitHub模型权重和代码:https://github.com/meta-llama/llama3/
  • Hugging Face模型:https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6

2.4 Llama 3改进的地方

  • 参数规模:Llama3提供了8B和70B两种参数规模的模型,相比lama2,参数数量的增加使得模型能够捕捉和学习更复杂的语言模式。
  • 训练数据集:Llama3的训练数据集比LIama2大了7倍,包含了超过15)万亿个token,其中包括4倍的代码数据,这使得Llama3在理解和生成代码方面更加出色。
  • 模型架构:Llama3采用了更高效的分词器和分组查询注意力(Grouped Query Attention,GQA)技术,提高了模型的推理效率和处理长文本的能力。
  • 性能提升:通过改进的预训练和后训练过程,Llama3在减少错误拒绝率、提升响应对齐和增加模型响应多样性方面取得了进步。
  • 安全性:引入了Llama Guard2等新的信任和安全工具,以及Code Shield和CyberSec Eval2,增强了模型的安全性和可靠性。
  • 多语言支持:Llama3在预训练数据中加入了超过30种语言的高质量非英语数据,为未来的多语言能力打下了基础。
  • 推理和代码生成:Llama3在推理、代码生成和指令跟随等方面展现了大幅提升的能力,使其在复杂
    任务处理上更加精准和高效。

2.5 Llama 3的技术架构

  • 解码器架构:Llama3采用了解码器(decoder-only)架构,这是一种标准的Transformer模型架构,主要用于处理自然语言生成任务。
  • 分词器和词汇量:Llama3使用了具有128K个token的分词器,这使得摸型能够更高效地编码语言,从而显著提升性能。
  • 分组查询注意力(GroupedQueryAttention,GQA):为了提高推理效率,Llama3在8B和70B模型中都采用了GQA技术。这种技术通过将注意力机制中的查询分组,减少了计算量,同时保持了模型的性能。
  • 长序列处理:Llama3支持长达8,192个token的序列,使用掩码(maasking)技术确保自注意力(self-attention)不会跨越文档边界,这对于处理长文本尤其重要。
  • 预训练数据集:Llama3在超过15TB的token上进行了预训练,这这个数据集不仅规模巨大,而且质量高,为模型提供了丰富的语言信息。
  • 多语言数据:为了支持多语言能力,Llama3的预训练数据集包含了超过5%的非英语高质量数据,涵盖了超过30种语言。
  • 数据过滤和质量控制:Llama3的开发团队开发了一系列数据过虑管道,包括启发式过滤器、NSFW(不适合工作场所)过滤器、语义去重方法和文本分类器,以确保保训练数据的高质量。
  • 扩展性和并行化:Llama3的训练过程中采用了数据并行化、模型并行化和流水线并行化,这些技术的应用使得模型能够高效地在大量GPU上进行训练。
  • 指令微调(Instruction Fine-Tuning):Llama3在预训练模型的基础上,通过指令微调进一步提升了模型在特定任务上的表现,如对话和编程任务。

2.6 如何使用 Llama 3

开发人员
Meta已在GitHub、Hugging Face、Replicate上开源其Llama3模型,开发人员可使用torchtune等工具对Llama3进行定制和微调,以适应特定的用例和需求,感兴趣的开发者可以查看官方的入门指南并前往下载部署。

  • 官方模型下载:https://llama.meta.com/llama-downloads
  • GitHub地址:https://github.com/meta-llama/llama3/
  • Hugging Face地址:https://huggingface.co/meta-llama
  • Replicate地址:https://replicate.com/meta
    普通用户

不懂技术的普通用户想要体验Llama 3可以通过以下方式使用:

  • 访问Meta最新推出的Meta Al聊天助手进行体验(注:Meta.Al会员区,只有部分国家可使用)
  • 访问Replicate提供的Chat with Llama进行体验https://llama3.replicate.dev/
  • 使用Hugging Chat(https://huggingface.co/chat/),可手动将模型切换至Llama 3

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1617072.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【图说】VMware Ubuntu22.04 详细安装教程

前言 无论是从事 Linux 开发工作,还是希望电脑运行双系统,VMware 虚拟机都是我们日常工作不可或缺的工具。本章将会重点介绍 VMware 安装流程,以及在 VMware 上如何运行、使用 Ubuntu22.04 系统。 一、VMware 下载安装 1.1 VMware 官网下载…

使用虚拟信用卡订阅Starlink教程

Starlink 是由 SpaceX 公司开发的卫星互联网服务平台。它旨在通过将成千上万的卫星部署到地球轨道上,为全球范围内的用户提供高速互联网接入。通过 Starlink,用户可以通过卫星连接接入互联网,无需依赖传统的地面基础设施,这对于偏…

软考高项(已通过,E类人才)-学习笔记材料梳理汇总

软考高项,即软考高级信息系统项目管理师,全国计算机技术与软件专业技术资格(水平)考试中的高级水平测试。适用于从事计算机应用技术、软件、网络、信息系统和信息服务等领域的专业人员,以及各级企业管理人员和从事项目…

基于K-means和FCM算法的合成纹理图像及SAR图像的分割

🎀个人主页: https://zhangxiaoshu.blog.csdn.net 📢欢迎大家:关注🔍点赞👍评论📝收藏⭐️,如有错误敬请指正! 💕未来很长,值得我们全力奔赴更美好的生活&…

免 Administrator 权限安装软件

以欧路词典为例, 从官网下载的安装包 https://www.eudic.net/v4/en/app/download 直接运行会弹出 UAC 提示需要管理员权限. 一个词典而已, 为啥要管理员权限呢? 答案是安装程序默认使用的安装路径是 C:\Program Files\ 这就不难理解了. 对于这种不需要其他额外权限的软件, 可以…

zabbix自动发现和自动注册

一、zabbix自动发现 1.1 确保客户端上的zabbix-agent2服务器状态正常 1.2 在web页面删除原有的客户端主机 1.3 在服务端和客户端上配置hosts 1.4 web端配置自动发现 二、zabbix自动注册 2.1 环境配置 2.2 修改zabbix-agent2配置文件 过滤非#或非¥开头的内容 2.3 we…

Qt 跨平台开发的一丢丢总结

Qt 跨平台开发 文章目录 Qt 跨平台开发摘要第一 \ & /第二 神奇{不能换行显示第三 预处理宏 关键字: Qt、 win、 linux、 lib、 MSVC 摘要 最近一直在琢磨Qt跨平台开发的问题,缘由有以下几个, 首先第一个,我们目前开发…

【剪映专业版】03立体自动翻页

【剪映专业版】立体自动翻页制作 1.导入素材,图片或视频均可 2.将素材2拖动至素材1的上方,点击蒙版,选择线性蒙版,并旋转为90度。 3.复制素材1,并拖动到素材2上方,分割并删除后半部分,点击蒙版…

Java进阶-Stream流

概述 在Java8中,得益于lambda所带来的函数式编程,引入了一个全新的Stream流的概念目的:用于简化集合和数组操作的api 案例 需求:创建一个集合存储多个字符串元素,将集合中所有以“z”开头的元素存储到新的集合中&am…

邀请全球创作者参与 The Sandbox 创作者训练营

作为首屈一指的元宇宙平台之一,The Sandbox 的使命是成为全球创作者的中心。随着我们对 Game Maker 的不断改进、旨在激发创作者灵感的定期 Game Jams、革命性的 "创作者挑战 "以及众多其他活动的开展,我们见证了大量个人加入我们充满活力的创…

C++ 虚表起源

本文会让看不见 摸不着的虚表(Vtable),虚指针(Vptr)彻底现行 本文涉及思想: C 面向对象 封装 继承 多态 中的 多态 概念解释: 虚表指针: 这是指向虚表(vtable)的指针,虚表中包含了该类的所有虚函数对应的地址。 虚表&#x…

每日一题 — 二分查找

704. 二分查找 - 力扣(LeetCode) 朴素二分查找模板: while(.......){//防止溢出int mid left(right - left)/2;if(........){right mid-1;}else if(......){left mid1;}else{return mid;}} 代码: public int search(int[] num…

十六、Qgis工具如何将shp转换geoJson类型文件

在使用GIS地图的时候线路图是非常重要的一个部分,根据以前的下载方法下载好了Qgis工具,那么如何将在openstreetmap下载下来的.shp文件转换为geoJson呢,下面就来说说。 准备工作 一、首先肯定是下载好了中国地图的全部的.shp包。里面包含全国的地图,包含shp,cpg,dbf类型的道…

软考 系统架构设计师系列知识点之大数据设计理论与实践(18)

接前一篇文章:软考 系统架构设计师系列知识点之大数据设计理论与实践(17) 所属章节: 第19章. 大数据架构设计理论与实践 第5节 Lambda架构与Kappa架构的对比和设计选择 19.5.2 Lambda架构与Kappa架构的设计选择 根据Lambda与Kapp…

ArrayList与顺序表(2)

前言~🥳🎉🎉🎉 hellohello~,大家好💕💕,这里是E绵绵呀✋✋ ,如果觉得这篇文章还不错的话还请点赞❤️❤️收藏💞 💞 关注💥&#x1…

FFmpeg源码编译

msys2 依赖环境安装 依赖环境安装编译X264编译 fdk-aac文件处理编译x265编译FFmpeg 依赖环境安装 编译X264 用于h264 AVC视频格式编码 CCcl ./configure --enable-shared #指定使用cl,编译成动态链接库 make -j32 #使用32线程进行编码 make install命令一 关于第一条命令执…

专注 APT 攻击与防御—工具介绍—Sqlmap

sqlmap参数详解: 由于Sqlmap 是常用工具之一,所以本篇的篇幅较长,详解一次所有参数。 1、Options(选项) Usage: python sqlmap.py [options]Options(选项):-h, --help Show basic help messa…

Ultralytics YOLOv8 英伟达™ Jetson®处理器部署

系列文章目录 前言 本综合指南提供了在英伟达 Jetson设备上部署Ultralytics YOLOv8 的详细攻略。此外,它还展示了性能基准,以证明YOLOv8 在这些小巧而功能强大的设备上的性能。 备注 本指南使用Seeed Studio reComputer J4012进行测试,它基于…

金融风控信用评分卡建模(Kaggle give me credit数据集)

1 数据预处理数据 数据来源于Kaggle的Give Me Some Credit,包括25万条个人财务情况的样本数据 1.1 导包读数据 import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.ensemble import RandomForestRegressor import seaborn as …

备考2024年上海初中生古诗文大会:单选题真题示例和独家解析

上海市中小学生的初中生古诗文大会——即上海中学生古诗文大会(初中组)和小学生古诗文大会(比赛)相比,除了题型更丰富之外,最主要的是考察的内容深度和广度不同。初中的题目中对于文言文的考察大幅增加&…