大型语言模型基础知识的可视化指南

news2025/2/22 8:00:04

直观分解复杂人工智能概念的工具和文章汇总

在这里插入图片描述

如今,LLM(大型语言模型的缩写)在全世界都很流行。没有一天不在宣布新的语言模型,这加剧了人们对错过人工智能领域的恐惧。然而,许多人仍在为 LLM 的基本概念而苦苦挣扎,这使他们难以跟上时代的进步。本文的目标读者是那些希望深入了解此类人工智能模型的内部运作,从而扎实掌握相关知识的人。有鉴于此,我将介绍一些工具和文章,它们可以帮助巩固概念并分解 LLM 的概念,使其易于理解。

目录

1.图解Transformer《The Illustrated Transformer by Jay Alammar》

杰伊是最早用强大的可视化功能撰写技术文章的先驱之一。只要浏览一下这个博客网站,你就会明白我想表达的意思。多年来,他激励了许多作者效仿,教程的理念也从简单的文字和代码转变为身临其境的可视化。言归正传,回到图文并茂的 Transformer。变换器架构是所有带变换器的语言模型(LLM)的基本构件。因此,了解其基本原理至关重要,而这正是杰伊所做的出色工作。该博客涵盖了以下重要概念:

  • Transformer的高级视角
  • 探索Transformer的编码和解码组件
  • Self-Attention自注意力机制
  • 自注意力机制的矩阵计算
  • Multi-Headed Attention多注意力头的概念
  • 位置编码
  • Transformer结构中的余量
  • 解码器的最终线性和Softmax层
  • 模型训练中的损失函数

Link: https://jalammar.github.io/illustrated-transformer/

他还制作了一个 "讲述Transformer "的视频,以更温和的方式来探讨这个话题。阅读完这篇博文后,Attention Is All You Need 一文和Transformer blog post 官方博文将是很好的补充。

2.图解GPT-2 《The Illustrated GPT-2 by Jay Alammar》

杰伊-阿拉玛(Jay Alammar)的另一篇精彩文章–《图解GPT-2》。这是对图解Transformer 博客的补充,包含更多可视化元素来解释Transformer 的内部工作原理,以及自原始论文发表以来Transformer 是如何演变的。此外,它还有一个专门的部分介绍Transformer 在语言建模之外的应用。
相关链接:🔗: https://jalammar.github.io/illustrated-gpt2/

3. 大语言模型可视化《LLM Visualization by Brendan Bycroft》

LLM 可视化项目提供了支持 OpenAI 的 ChatGPT 的 LLM 算法演练。这是一个探索算法的绝佳资源,可以深入到运行单个标记推理所需的每一个步骤,看到整个过程的运行情况。

该项目的特色是一个网页,其中包含一个小型 LLM 的可视化效果,类似于 ChatGPT,但具有令人惊叹的 3D 效果。该工具提供了单标记推理的逐步指导,并具有互动元素,可让用户亲身体验。截至目前,以下架构的可视化工具已经可用:

  • GPT-2(small)
  • Nano GPT
  • GPT-2(XL)
  • GPT-3

相关链接:: https://bbycroft.net/llm

在这里插入图片描述

4. 生成式AI因transformer而存在《Generative AI exists because of the transformer — Financial Times》

《金融时报》的视觉研发团队和 Madhumita Murgia 做得很好,他们运用视觉效果阐释了 LLM 的功能,特别强调了自我注意机制和 Transformer 架构。
相关链接:https://ig.ft.com/generative-ai/

5. OpenAI 的Token工具《Tokenizer tool by OpenAI》

大型语言模型使用标记(数字序列)处理文本。标记符转换器可将文本转换为标记符。OpenAI 的标记化工具提供了一种有用的方法来测试特定字符串,并查看它们是如何转化为标记的。您可以使用该工具了解语言模型如何对一段文本进行标记化,以及这段文本中的标记总数。

Link: https://platform.openai.com/tokenizer

6. 理解GPT的分词器《Understanding GPT tokenizers by Simon Wilson》

虽然我们已经提到过 OpenAI 提供了一个令牌生成器(Tokenizer)工具来探索令牌是如何工作的,但西蒙-威尔逊(Simon Wilson)自己创建了一个令牌生成器工具,这就更有趣了。该工具可作为 Observable 笔记本使用。该笔记本将文本转换为令牌,将令牌转换为文本,并根据完整的令牌表进行搜索。
西蒙分析得出的一些重要见解包括:

  • 大多数常用英语单词都有一个标记
  • 有些单词的标记带有前导空格,从而能更有效地对完整句子进行编码
  • 非英语语言的标记化效率可能较低
  • 差错标记可能导致意想不到的行为。

相关链接:https://lnkd.in/eXTcia8Z

7. 块可视化《Chunkviz app》

分块是一种策略,包括在构建 LLM 应用程序时将大段文本分解成较小的片段。这一点很重要,这样您就可以将文档放入模型的上下文窗口中。上下文窗口指的是语言模型可以一次性处理的最大文本长度。但是,分块的策略有很多种,而这正是该工具的优势所在。您可以从各种分块策略中进行选择,并查看其对文本的影响。目前,您可以从四种不同的 LangChainAI 拆分器中可视化文本拆分和分块策略。

相关链接:https://chunkviz.up.railway.app/

8. 机器学习模型是记忆还是泛化?《Do Machine Learning Models Memorize or Generalize?》

Explorables是谷歌PAIR团队撰写的互动文章,试图通过互动媒介简化复杂的人工智能相关主题。这篇特别的探索文章深入探讨了 "泛化 "和 "记忆 "的概念,探讨了一个至关重要的问题–大型语言模型(LLMs)是否真正了解世界,还是它们只是在从大量训练数据中回忆信息?

在这篇互动文章中,作者对一个微小模型的训练动态进行了一次调查之旅。他们对找到的解决方案进行了逆向工程,精彩地展示了令人兴奋的新兴机制可解释性领域。

相关链接:🔗 https://pair.withgoogle.com/explorables/grokking/

Conclusion

这些宝贵的工具和文章,它们试图将复杂的技术术语分解成易于理解的形式。以交互式、可视化的形式撰写和呈现技术概念。
本文重点介绍的文章和工具旨在降低初学者和爱好者的入门门槛,使学习更有吸引力,更容易获得。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1415709.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

c++学习第十三讲---STL常用容器---string容器

string容器: 一、string的本质: string和char*的区别: char*是一个指针 string是一个类,封装了char*,管理这个字符串,是char*的容器。 二、string构造函数: string() ; …

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之Swiper容器组件

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之Swiper容器组件 一、操作环境 操作系统: Windows 10 专业版、IDE:DevEco Studio 3.1、SDK:HarmonyOS 3.1 二、Swiper容器组件 滑块视图容器,提供子组件滑动轮播显示的能力。…

独享http代理安全性是更高的吗?

不同于共享代理,独享代理IP为单一用户提供专用的IP,带来了一系列需要考虑的问题。今天我们就一起来看看独享代理IP的优势,到底在哪里。 我们得先来看看什么是代理IP。简单来说,代理服务器充当客户机和互联网之间的中间人。当你使用…

CIFAR-10数据集详析:使用卷积神经网络训练图像分类模型

1.数据集介绍 CIFAR-10 数据集由 10 个类的 60000 张 32x32 彩色图像组成,每类 6000 张图像。有 50000 张训练图像和 10000 张测试图像。 数据集分为5个训练批次和1个测试批次,每个批次有10000张图像。测试批次正好包含从每个类中随机选择的 1000 张图像…

GitHub 一周热点汇总第7期(2024/01/21-01/27)

GitHub一周热点汇总第7期 (2024/01/21-01/27) ,梳理每周热门的GitHub项目,离春节越来越近了,不知道大家都买好回家的票没有,希望大家都能顺利买到票,一起来看看这周的项目吧。 #1 rustdesk 项目名称:rust…

Redis 面试题 | 15.精选Redis高频面试题

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

make: *** No rule to make target ‘clean‘. Stop.

项目场景: 在Ubuntu下编写makefile文件编译的时候,出现make: *** No rule to make target ‘clean’. Stop. 问题描述 make: *** No rule to make target ‘clean’. Stop. 解决方案: 原本我makefile文件的名字是MakeFile , 把它改为makefile以后完美运…

再学http

HTTP状态码 1xx 信息性状态码 websocket upgrade 2xx 成功状态码 200 服务器已成功处理了请求204(没有响应体)206(范围请求 暂停继续下载) 3xx 重定向状态码 301(永久) :请求的页面已永久跳转到新的url302(临时) :允许各种各样的重定向,一般…

FlashInternImage实战:使用 FlashInternImage实现图像分类任务(二)

文章目录 训练部分导入项目使用的库设置随机因子设置全局参数图像预处理与增强读取数据设置Loss设置模型设置优化器和学习率调整策略设置混合精度,DP多卡,EMA定义训练和验证函数训练函数验证函数调用训练和验证方法 运行以及结果查看测试完整的代码 在上…

利用STM32CubeMX和Keil模拟器,3天入门FreeRTOS(5.3) ——递归锁

前言 (1)FreeRTOS是我一天过完的,由此回忆并且记录一下。个人认为,如果只是入门,利用STM32CubeMX是一个非常好的选择。学习完本系列课程之后,再去学习网上的一些其他课程也许会简单很多。 (2&am…

物联网协议Coap之C#基于Mozi的CoapClient调用解析

目录 前言 一、CoapClient相关类介绍 1、CoapClient类图 2、CoapClient的设计与实现 3、SendMessage解析 二、Client调用分析 1、创建CoapClient对象 2、实际发送请求 3、Server端请求响应 4、控制器寻址 总结 前言 在之前的博客内容中,关于在ASP.Net Co…

循序渐进,学会用pyecharts绘制桑基图

循序渐进,学会用pyecharts绘制桑基图 桑基图介绍 桑基图是比较冷门的可视化图形,知道的人不多,但它的可视化效果很惊艳,以后肯定会有越来越多的人使用,我平时使用桑基图,主要是用其绘制可视化图形做PPT。…

签到业务流程

1.技术选型 Redis主写入查询,Mysql辅助查询,传统签到多数都是直接采用mysql为存储DB,在大数据的情况下数据库的压力较大.查询速率也会随着数据量增大而增加.所以在需求定稿以后查阅了很多签到实现方式,发现用redis做签到会有很大的优势.本功能主要用到r…

JVM系列——基础知识

Java运行区域 程序计数器(Program Counter Register) 程序计数器是一块较小的内存空间,它可以看作是当前线程所执行的字节码的行号指示器。在Java虚拟机的概念模型里[1],字节码解释器工作时就是通过改变这个计数器的值来选取下一…

STM正点mini-跑马灯

一.库函数版 1.硬件连接 GPIO的输出方式:推挽输出 IO口输出为高电平时,P-MOS置高,输出为1,LED对应引脚处为高电平,而二极管正&#…

[Tomcat] [从安装到关闭] MAC部署方式

安装Tomcat 官网下载:Apache Tomcat - Apache Tomcat 9 Software Downloads 配置Tomcat 1、输入cd空格,打开Tomca目录,把bin文件夹直接拖拉到终端 2、授权bin目录下的所有操作:终端输入[sudo chmod 755 *.sh],回车 …

HCS-华为云Stack-FusionSphere

HCS-华为云Stack-FusionSphere FusionSphere是华为面向多行业客户推出的云操作系统解决方案。 FusionSphere基于开放的OpenStack架构,并针对企业云计算数据中心场景进行设计和优化,提供了强大的虚拟化功能和资源池管理能力、丰富的云基础服务组件和工具…

C++类和对象——深拷贝与浅拷贝详解

目录 1.深拷贝和浅拷贝是什么 2.案例分析 完整代码 1.深拷贝和浅拷贝是什么 看不懂没关系,下面有案例分析 2.案例分析 浅拷贝可能会导致堆区的内存重复释放 一个名为person的类里面有年龄和指向身高的指针这两个成员。 当我们执行到person p2(p1&am…

翻译: GPT-4 with Vision 升级 Streamlit 应用程序的 7 种方式一

随着 OpenAI 在多模态方面的最新进展,想象一下将这种能力与视觉理解相结合。 现在,您可以在 Streamlit 应用程序中使用 GPT-4 和 Vision,以: 从草图和静态图像构建 Streamlit 应用程序。帮助你优化应用的用户体验,包…

深度学习-使用Labelimg数据标注

数据标注是计算机视觉和机器学习项目中至关重要的一步,而使用工具进行标注是提高效率的关键。本文介绍了LabelImg,一款常用的开源图像标注工具。用户可以在图像中方便而准确地标注目标区域,为训练机器学习模型提供高质量的标注数据。LabelImg…