【大模型】大模型基础知识

news2024/11/23 19:54:06

几个常用术语

  • 模型=公式+参数

  • K矩阵:字典
    V矩阵:关键字的权重数值

  • AGI:通用人工智能

  • 分词、词性关联、词性标注、知识图谱。分词操作是AI的开发,但是离AGI越来越远。自注意力机制的核心思想是摒弃分词等操作,面向更通用的场景去实现

  • 大模型全称大语言模型:LLM

  • 大模型技术:
    一阶技术:
    二阶技术:向量数据库,向量检索,LangChain,sk,智能体
    三阶技术:Fine-tune(模型定制,专业领域,垂直行业等场景)

  • GPT1,2,3,3.5 都有一篇论文,4只有一篇技术报告

  • RL :reinforcement learing 强化学习。RLHF:Reinforcement Learning fromHuman Feedback 基于人类反馈的强化学习

  • 开源模型:LLama,GLM,百川,羊驼模型

  • midjourney 画图软件;stable diffusion SD

1.GPT定义

GPT是[Generative Pre-trained Transformer]的缩写,意为生成式预训练变换器.

  • G 代表 Generative (生成式): 这是一种机器学习模型,其目标是学习数据的分布,并能生成与训练数据相似的新数据。在自然语言处理 (NLP)领域,生成式模型可以生成类似于人类所写的文本。GPT模型作为一个生成式模型,能够根据给定的上下文生成连贯的文本。

  • P 代表 Pre-trained(预训练): 预训练是深度学习领域的一种常见方法,通过在大规模数据集上进行训练,模型学习到一般的知识和特征。这些预训练的模型可以作为基础模型,针对具体任务进行微调。GPT模型通过预训练,在无标签的大规模文本数据集上学习语言模式和结构,为后续的任务提供基础。

  • T代表Transformer (变换器): Transformer 是一种在自然语言处理中广泛使用的神经网络结构它通过自注意力 (Self-Attention)机制有效地捕捉上下文信息,处理长距离依赖关系,并实现并行计算。GPT模型采用Transformer结构作为基础,从而在处理文本任务时表现出优越性能。

2.注意力机制-Attention Is All You Need

谷歌2017年发表论文《Attention Is All You Need》,在注意力机制的使用方面取得了很大的进步,对
Transformer模型做出了重大改进。
在这里插入图片描述

3.Transformer框架

Most competitive neural sequence transduction models have an encoder-decoder structure [5,2,35] .Here, the encoder maps an input sequence of symbol representations (x1,…,xn) to a sequenceof continuous representations z = (z1,…, zn ). Given z, the decoder then generates an outputsequence (y1, …, ym ) of symbols one element at a time. At each step the model is auto-regressive[10], consuming the previously generated symbols as additional input when generating the next.
The Transformer follows this overall architecture using stacked self-attention and point-wise, fullyconnected layers for both the encoder and decoder, shown in the left and right halves of Figure 1 respectively.

模型体系结构最有竞争力的神经序列转导模型的编码器-解码器结构[5,2,35],在这里,编码器映射符号表示的输入序列(X1,…,x)转换成一系列连续表示Z=(z1,…zn)。给定Z,解码器然后生成输出序列(y1,…ym)的符号,一次一个元素。模型在每一步都是自回归的[10],在生成下一个符号时,使用先前生成的符号作为附加输入。Transformer遵循这一总体架构,编码器和解码器都使用堆叠的自我关注和逐点全连接层,分别如图1的左半部分和右半部分所示

Transformer框架,左边是一个编码器模型,右边是一个解码器模型。
在这里插入图片描述

4.数据训练

To train the very first InstructGPT models, we asked labelers to write prompts themselves. This is because we needed an initial source of instruction-like prompts to bootstrap the process, and these kinds of prompts weren’t often submitted to the regular GPT-3 models on the API We asked labelersto write three kinds of prompts:

  • Plain: We simply ask the labelers to come up with an arbitrary task, while ensuring the tasks had sufficient diversity.
  • Few-shot: We ask the labelers to come up with an instruction, and multiple query/response pairs for that instruction.
  • User-based: We had a number of use-cases stated in waitlist applications to the OpenAl API. We asked labelers to come up with prompts corresponding to these use cases.

在这里插入图片描述

5.LangChain

(1).LangChain是个啥
  • 面向大模型的开发框架
  • 简单实现复杂功能的AI应用
  • 多组件封装
    LangChain是一个开源的框架,它可以让AI开发人员把像GPT-4这样的大型语言模型 (LLM)和外部数据结合起来。

用户可以利用LangChain的模块来改善大语言模型的使用,通过输入自己的知识库来“定制化”自己的大语言模型。

(2). LangChain官方教程
  • 很好的中文教程:
    https://github.com/liaokongVFX/LangChain-Chinese-Getting-Started-Guide
  • 中文官方:
    https://www.langchain.asia
  • 官方文档:
    https://python.langchain.com/docs/get_started/introduction.html
  • 官方代码:
    https://github.com/langchain-ai/langchain
(3). LangChain核心:组件/封装/模块

在这里插入图片描述

(4).IO 模块

在这里插入图片描述
在这里插入图片描述

(5).

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1457733.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

机器人初识 —— 电机传动系统

一、背景 波士顿动力公司开发的机器人,其电机传动系统是其高性能和动态运动能力的核心部分。电机传动系统通常包括以下几个关键组件: 1. **电动马达**:波士顿动力的机器人采用了先进的电动马达作为主要的动力源,如伺服电机或步进…

Netty Review - NIO空轮询及Netty的解决方案源码分析

文章目录 Pre问题说明NIO CodeNetty是如何解决的?源码分析入口源码分析selectCntselectRebuildSelector Pre Netty Review - ServerBootstrap源码解析 Netty Review - NioServerSocketChannel源码分析 Netty Review - 服务端channel注册流程源码解析 问题说明 N…

探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来

探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来 sora文生视频,探索AI视频生成新纪元 由于在AI生成视频的时长上成功突破到一分钟,再加上演示视频的高度逼真和高质量,Sora立刻引起了轰动。在S…

vscode 开发代码片段插件

环境准备 node - 20v版本 ,推荐使用nvm进行版本控制全局安装 "yo" 是 Yeoman 工具的命令行工具, npm i yo -g全局安装 generator-code 是一个 Yeoman 脚手架 gernerator-code npm i gernerator-code -g全局安装 npm install -g vsce官方文档 …

代码随想录算法训练营第55天 | 309.最佳买卖股票时机含冷冻期 714.买卖股票的最佳时机含手续费

最佳买卖股票时机含冷冻期 股票题做到这地步,可以发现分析每一天的可能状态与状态之间的转换是解决问题的关键。这道题中每一天可以有4种有效状态: 持有股票不持有股票,当天之前就已经卖出了股票不持有股票,当天卖出股票冷冻期状…

数字化转型导师坚鹏:政府数字化转型之数字化新技术解析与应用

政府数字化转型之数字化新技术解析与应用 课程背景: 数字化背景下,很多政府存在以下问题: 不清楚新技术的发展现状? 不清楚新技术的重要应用? 不清楚新技术的成功案例? 课程特色: 有…

计算机视觉的应用23-OpenAI发布的文本生成视频大模型Sora的原理解密

大家好,我是微学AI,今天给大家介绍一下计算机视觉的应用23-OpenAI发布的文本生成视频大模型Sora的原理解密。本文概况性地将Sora模型生成视频主要分为三个步骤:视频压缩网络、空间时间潜在补丁提取以及视频生成的Transformer模型。 文章目录…

专修戴尔R730xd服务器闪电灯 心跳亮黄灯故障

2024年开年第二天接到一个用户反馈说他公司有一台DELL PowerEdge R730xd服务器春节前由于市电问题意外断电关机了,刚好碰上春节就没去开机了,今天工厂开工服务器通电发现开不了机,且机器过了一会后报了2个黄灯错误,如下图&#xf…

【数据结构】每天五分钟,快速入门数据结构(一)——数组

目录 一.初始化语法 二.特点 三.数组中的元素默认值 四.时间复杂度 五.Java中的ArrayList类 可变长度数组 1 使用 2 注意事项 3 实现原理 4 ArrayList源码 5 ArrayList方法 一.初始化语法 // 数组动态初始化(先定义数组,指定数组长度&#xf…

书生浦语大模型实战营-课程笔记(5)

LLM部署特点,内存开销大,TOKEN数量不确定 移动端竟然也可以部署LLM。之前以为只能在服务端部署,移动端作为客户端发起请求来调用大模型。 LMDeploy用于模型量化 模型量化:降低内存消耗 推理性能对比 量化主要作用:…

内存计算研究进展-技术架构

内存计算技术是一个宏观的概念,是将计算能力集成到内存中的技术统称。集成了内存计算技术的计算机系统不仅能直接在内存中执行部分计算,还能支持传统以CPU为核心的应用程序的执行。区别于内存计算,存算一体芯片将存储与计算相结合&#xff0c…

MySQL--SQL解析顺序

前言: 一直是想知道一条SQL语句是怎么被执行的,它执行的顺序是怎样的,然后查看总结各方资料,就有了下面这一篇博文了。 本文将从MySQL总体架构—>查询执行流程—>语句执行顺序来探讨一下其中的知识。 一、MySQL架构总览&a…

算法模板 6.并查集

并查集 用于解决连通块问题。 判断集合个数也就是判断p[x] x 的个数 836. 合并集合 - AcWing题库 #include <bits/stdc.h> using namespace std; const int N 1e5 10; int p[N]; // 记录每个元素的father int n, m;int find(int x){ // 查询元素x的fatherif(p[x] …

GPIO控制和命名规则

Linux提供了GPIO子系统驱动框架&#xff0c;使用该驱动框架即可灵活地控制板子上的GPIO。 GPIO命名 泰山派开发板板载了一个40PIN 2.54间距的贴片排针&#xff0c;排针的引脚定义兼容经典40PIN接口。 在后续对GPIO进行操作前&#xff0c;我们需要先了解k3566的GPIO命名规则&a…

Windows 重启 explorer 的正确做法

目录 一、关于 Restart Manager 二、重启管理器实例 三、完整实现代码和测试 本文属于原创文章&#xff0c;转载请注明出处&#xff1a; https://blog.csdn.net/qq_59075481/article/details/136179191。 我们往往使用 TerminateProcess 并传入 PID 和特殊结束代码 1 或者…

rocketMQ-Dashboard安装与部署

1、下载最新版本rocketMQ-Dashboard 下载地址&#xff1a;https://github.com/apache/rocketmq-dashboard 2、下载后解压&#xff0c;并用idea打开 3、修改配置 ①、修改端口及rocketmq服务的ip&#xff1a;port ②、修改访问账号、密码 3、然后启动访问&#xff1a; 4、mav…

单片机01天_stm32f407zg_创建新工程

创建“寄存器版工程” 1、创建工程文件夹 创建工程文件夹“Project”&#xff0c;内部包含文件夹“CMSIS”&&“USER”。 CMSIS&#xff1a;Cortex系列内核接口驱动文件。 USER&#xff1a;存放用户编写的程序文件。 “USER”文件夹内包含“Inc”&&“Src”…

yolov5的Mosaic原理解析

众所周知&#xff0c;yolov5中使用了mosaic增强进行数据增强&#xff0c;效果就是将4张图片拼凑为1张图片。为了更好优化自定义任务&#xff0c;特对mosaic原理进行解析。 1、mosaic原理解析 mosaic增强的原理一张图就可以解释&#xff1a; 1.1 图的注释 首先高亮区域&am…

YOLOv8-Openvino和ONNXRuntime推理【CPU】

1 环境&#xff1a; CPU&#xff1a;i5-12500 2 安装Openvino和ONNXRuntime 2.1 Openvino简介 Openvino是由Intel开发的专门用于优化和部署人工智能推理的半开源的工具包&#xff0c;主要用于对深度推理做优化。 Openvino内部集成了Opencv、TensorFlow模块&#xff0c;除此…

ClickHouse 基础(一)

官网 以毫秒为单位查询数十亿行 ClickHouse是用于实时应用和分析的最快、资源效率最高的开源数据库。 安装ClickHouse 使用ClickHouse&#xff0c;你有三个选择: ClickHouse云:官方ClickHouse作为一项服务&#xff0c;-由ClickHouse的创建者构建&#xff0c;维护和支持快速安…