快速体验 Llama3 的 4 种方式,本地部署,800 tokens/s 的推理速度真的太快了!

news2024/11/26 22:41:51

北京时间4月19日凌晨,Meta在官网上官宣了Llama-3,作为继Llama1、Llama2和CodeLlama之后的第三代模型,Llama3在多个基准测试中实现了全面领先,性能优于业界同类最先进的模型,你有没有第一时间体验上呢,这篇文章就分享下如何在Groq上以超过 800 tokens/s 的魔鬼推理速度体验Llama3,会同时分享Web端、移动端、API方式以及集成到LangChain中4种体验方案。

我的新书《LangChain编程从入门到实践》 已经开售!推荐正在学习AI应用开发的朋友购买阅读,此书围绕LangChain梳理了AI应用开发的范式转变,除了LangChain,还涉及其他诸如 LIamaIndex、AutoGen、AutoGPT、Semantic Kernel等热门开发框架介绍使用。
LangChain编程从入门到实践

本文首发自个人博客 利用 Groq 体验 Llama3 的4种方式,800 tokens/s 的推理速度真的太快了!

Groq 有多快

先看两组数据

Llama3 8B不同平台的推理速度

Llama3 70B不同平台的推理速度

Llama3 8B 每秒钟 876 tokens 的输出速度,人眼基本跟不上模型的输出速度了,要知道 Llama3 8B 的质量与 GPT-3.5 和 Llama2 70B 相似,可以显著提升一些常见的 AI 应用场景的用户体验;RAG 的性能瓶颈不再是 LLM,而是 Retrieval,什么 HyDE(假设⽂档嵌⼊,利⽤ LLMs ⽣成假设性答案,以增强⽂档检索的准确性)、LLM 重排序器(对检索到的⽂档进⾏重排序,以优先选择最相关和上下⽂适当的信息)不再是 RAG 链路速度瓶颈…

初看数据,我以为是个噱头,本着务实的态度,我自己实际体验了一把,大家自己看 👇

Llama3 8B实测

Llama3 70B实测

结果 Llama3 70B 的实际体验结果比测评数据还高。

Groq 为什么这么快

源于 Groq 开发出了一种新的 AI 处理器 ——LPU(Language Processing Unit),其推理速度相较于英伟达 GPU 提高了 10 倍。

  1. 专业优化:LPU 专门针对语言模型推理任务进行了优化,特别是在序列处理方面。
  2. 创新架构:LPU 采用了一种新的计算模式,能够高效地按顺序处理任务,而不是并行处理。
  3. 软件先行:Groq 在硬件开发前就创新了软件和编译器,以确保芯片间的高效通信。
  4. 内存与处理单元的整合:LPU 的设计使得数据流局部性得到更好的利用。
  5. 针对性能和成本的优化:LPU 在设计时就注重了性能提升和成本降低。

详细科普请前往这里查看

4 种 Groq 体验方案

1. Web 端

无需登录,即可直接在网页版进行尝试,地址指路 👉groq.com,当前支持的模型有 Llama3 8B-4k 、 Llama3 70B-8k 、 Llama2 70B-8k 、 Mixtral 8X7B-32k 、 Gemma 7B-it

2. 移动端

Gorq 的 iOS 应用已经推出,目前不需要登录即可使用,通过下面的 TestFlight 安装地址:testflight.apple.com,支持的模型有 Llama3 8B 、 Llama3 70B 、 Llama2 70B 、 Mixtral 8X7B 、 Gemma 7B

Gorq iOS 应用

3. API 调用

先前往这个地址 https://console.groq.com/keys 申请好 API-KEY。

Groq API-Key申请

安装依赖库

pip install groq

调用

import os
from groq import Groq

client = Groq(
    api_key=os.environ.get("GROQ_API_KEY"),
)
llm = client.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": "编写一篇中国神话故事,篇幅500~800字,必须使用中文输出",
        }
    ],
    model="llama3-70b-8192",
)

print(llm.choices[0].message.content)
4. LangChain 中使用

安装依赖库

pip install langchain-groq

使用

from langchain_core.prompts import ChatPromptTemplate
from langchain_groq import ChatGroq

llm = ChatGroq(temperature=0, model_name="llama3-70b-8192")
human = "{text}"
prompt = ChatPromptTemplate.from_messages([("human", human)])

chain = prompt | llm

response = chain.invoke({"text": "编写一篇中国神话故事,篇幅500~800字,必须使用中文输出"})
print(response.content)

更多体验方式

如果由于网络原因你还是无法访问,请使用我在这篇文章推荐的5 个免费稳定的 Llama 3 在线体验地址

不可错过 👉:我欢迎加入我的会员计划,获取 AI 落地方面的优质信息和见解,节省你的时间。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1625754.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

DS:单链表的实现

欢迎各位来到 Harper.Lee 的编程学习小世界! 博主主页传送门:Harper.Lee的博客 我将在这里分享我的学习过程等心得 创作不易,码字不易,兄弟们养成先赞后看的好习惯哦! 想一同进步的uu,可以来后来找我哦&…

20232937文兆宇 2023-2024-2 《网络攻防实践》实践七报告

20232937文兆宇 2023-2024-2 《网络攻防实践》实践七报告 1.实践内容 (1)使用Metasploit进行Linux远程渗透攻击 任务:使用Metasploit渗透测试软件,攻击Linux靶机上的Samba服务Usermap_script安全漏洞,获取目标Linux…

深入Linux下的GCC编译器:从入门到精通

目录标题 1、GCC编译器概述2、安装GCC3、GCC的基本使用4、高级功能4.1 多文件编译4.2 静态和动态链接4.3 什么是链接?4.4 静态链接优点缺点 4.5 动态链接优点缺点 4.6 实际应用4.7 编译优化 GCC(GNU Compiler Collection)是一款免费、开源的编…

累积流量计算(MODBUS RTU通信数据处理)

1、常用通信数据处理 MODBUS通信系列之数据处理_modbus模拟的数据变化后会在原来的基础上累加是为什么-CSDN博客文章浏览阅读1k次,点赞2次,收藏2次。MODBUS通信专栏有详细文章讲解,这里不再赘述,大家可以自行查看。链接如下:SMART S7-200PLC MODBUS通信_RXXW_Dor的博客-C…

操作系统(Operating System)知识点复习——第十一章 I/O管理与磁盘调度

目录 0.前言 1.I/O设备 2.I/O功能的组织 3.Operating System Design Issues 4.I/O缓冲 4.1 单缓冲Single Buffer 4.2 双缓冲Double Buffer 4.3 循环缓冲 5.磁盘调度Disk Scheduling 5.1 磁盘性能参数 5.2 磁盘调度策略 ①First-in,first-out(FIFO) ②Pr…

芯片胶点胶加工的效果和质量的检测方法有哪些?

芯片胶点胶加工的效果和质量的检测方法有哪些? 芯片胶在电子封装领域用的是比较多的,特别是高度精密集成芯片器件。那么如何判断点胶后的效果和质量的好与坏? 芯片胶点胶加工的效果和质量的检测是一个重要的环节,以确保产品满足设…

医院能耗监测管理系统,助力医院节能减排

医院属于大型建筑,由于医院能耗计量点位繁多,数据采集大多采用传统的人工模式,很难保证计量管理的准确性和科学性。为了对医院能耗进行精细化管理,需要建立能耗管理系统,在辅助成本核算工作的同时,可以实时…

Java学习笔记29(泛型)

1.泛型 ArrayList<Dog> arrayList new ArrayList<Dog>(); //1.当我们ArrayList<Dog>表示存放到ArrayList集合中的元素是Dog类 //2.如果编译器发现添加的类型&#xff0c;不满足要求&#xff0c;就会报错 //3.在便利的时候&#xff0c;可以直接取出Dog类型而…

8个拿来即用的Python自动化脚本!

每天你都可能会执行许多重复的任务&#xff0c;例如阅读新闻、发邮件、查看天气、清理文件夹等等&#xff0c;使用自动化脚本&#xff0c;就无需手动一次又一次地完成这些任务&#xff0c;非常方便。而在某种程度上&#xff0c;Python 就是自动化的代名词。 今天分享 8 个非常…

BGP的基本配置

l 按照以下步骤配置BGP协议&#xff1a; 第1步&#xff1a;设备基本参数配置&#xff0c;AS内配置IGP确保内部网络连通性&#xff1b; l 配置IGP&#xff08;OSPF协议等&#xff09;路由解决peer对等体的源和目标IP之间连通性&#xff0c;确保peer之间TCP&#xff08;179&a…

如何查看自己的公网IP?

我们在网络中&#xff0c;每一个设备都被分配了一个唯一的IP地址&#xff0c;用以区分和识别其他设备。公网IP地址是指可被公众访问的IP&#xff0c;是因特网上的全球唯一标识。当我们需要查看自己的公网IP时&#xff0c;可以采取以下几种方式。 使用命令行查看公网IP 在Windo…

SpringCloud 之 服务提供者

前提 便于理解,我修改了本地域名》这里!!! 127.0.0.1 eureka7001.com 127.0.0.1 eureka7002.com 127.0.0.1 eureka7003.com学习Rest实例之提供者 提供者模块展示 1、导入依赖 <!-- 实体类 Web--><dependency><groupId>com.jyl</groupId><…

光电离子传感器PID-AH5在空气质量监测和HVAC系统中的应用

随着工业化和城市化的步伐不断加快&#xff0c;空气质量问题日益严重&#xff0c;对人们的健康和生活品质构成了严重威胁。为了有效监测和改善空气质量&#xff0c;光电离子传感器作为一种先进的检测技术&#xff0c;正在空气质量监测以及HVAC&#xff08;供暖、通风和空调&…

OpenHarmony实战开发-状态变量组件定位工具实践

概述 自定义组件中的变量被状态装饰器&#xff08;State&#xff0c;Prop等&#xff09;装饰后成为状态变量&#xff0c;而状态变量的改变会引起使用该变量的UI组件渲染刷新。状态变量的不合理使用可能会带来冗余刷新等性能问题。开发者可以使用状态变量组件定位工具获取状态管…

JdbcTemplate详解

1 概述 为了使JDBC更加易于使用&#xff0c;Spring在JDBC API上定义了一个抽象层&#xff0c;以此建立一个JDBC存取框架。 作为Spring JDBC框架的核心&#xff0c;JDBC模板的设计目的是为不同类型的JDBC操作提供模板方法&#xff0c;通过这种方式&#xff0c;可以在尽可能保留…

【数据结构(邓俊辉)学习笔记】向量02——动态空间管理

文章目录 1. 概述2. 静态空间管理缺点3. 动态空间管理3.1 扩容3.1.1 如何实现扩容3.1.2 扩容算法3.1.3 容量递增策略 VS 容量倍增策略3.1.3.1 容量倍增策略分摊分析3.1.3.2 容量递增策略分摊分析3.1.3.3 结果对比 3.2缩容3.2.1 动态缩容算法实现3.2.2 动态缩容算法时间复杂度 4…

Sui主网升级至V1.23.1版本

其他升级要点如下所示&#xff1a; #17126 协议&#xff1a;Deepbook的更改将被还原。 #16673 开发者可能会看到更多编译器诊断&#xff0c;因为选择的解析错误不再阻止编译&#xff0c;并且编译器的诊断会到达后续编译阶段&#xff0c;其中可能会生成额外的诊断。 #16966…

SQLite FTS5 扩展(三十)

返回&#xff1a;SQLite—系列文章目录 上一篇:SQLite的知名用户(二十九) 下一篇:SQLite 的命令行 Shell(三十一&#xff09; 1. FTS5概述 FTS5 是一个 SQLite 虚拟表模块&#xff0c;它为数据库应用程序提供全文搜索功能。在最基本的形式中&#xff0c; 全文搜索引擎允许…

【LAMMPS学习】八、基础知识(4.5)TIP5P水模型

8. 基础知识 此部分描述了如何使用 LAMMPS 为用户和开发人员执行各种任务。术语表页面还列出了 MD 术语&#xff0c;以及相应 LAMMPS 手册页的链接。 LAMMPS 源代码分发的 examples 目录中包含的示例输入脚本以及示例脚本页面上突出显示的示例输入脚本还展示了如何设置和运行各…

JVS物联网平台驱动网关管理:智能化与自动化的探索

驱动网关的管理 驱动网关是对驱动进程进行生命周期的管理&#xff0c;包括驱动进程的创建、启停、更新、结束等管理功能。 如下图所示&#xff1a; 驱动代理程序是驱动网关的管理程序&#xff0c;每个驱动网关对应于一个驱动代理程序&#xff0c;驱动代理程序初始版本是安装在…