人工智能学习①

news2024/11/19 6:24:13

LLM背景知识介绍

大语言模型 (LLM) 背景  用于理解和生成人类语言,能够处理诸如文本分类、问答、翻译和对话等多种自然语言任务。

  • 语言模型 (Language Model, LM)  :给定一个短语(一个词组或者一句话)语言模型可以生成(预测) 接下来的一个词
  •      基于规则和统计的语言模型
  •      神经语言模型
  •      预训练语言模型
  •      大语言模型
  • 1.什么是大语言模型?思考总结Thinking summary答案:指包含数千亿 (或更多) 参数的语言模型
  • 2.语言模型的主要类别是什么?答案:N-Gram、神经网络、预训练模型、大语言模型
  • 3.常用的N-Gram语言模型是什么?答案:bigram、trigram
  • 语言模型的评估指标 1.语言模型的评估指标是什么?答案:Accuracy、Precision、Recall、BLEU、ROUGE、PPL思考总结Thinking summary
  • 2.怎么理解BLEU指标?答案:评估一种语言翻译成另一种语言的文本质量的指标.. 取值范围是[0, 1], 越接近1, 表明翻译质量越好.
  • 3.怎么理解ROUGE指标?答案:ROUGE指标用来衡量生成结果和标准结果的匹配程度,不同的是ROUGE基于召回率,BLEU更看重准确率。
  • 4.怎么理解PPL指标? 答案:PPL用来度量一个概率分布或概率模型预测样本的好坏程度

指标 BLEU分数衡量机器翻译的质量,接近1表示高质量。ROUGE指标评估自动文本摘要的准确性。PPL越小,表示模型预测能力越好。 

python实现BLEU指标的计算

python实现ROUGE指标的计算

  • 1. LLM主要类别
    • LLM分类一般分为三种:自编码模型(encoder)、自回归模型(decoder)和序列到序列模型(encoder-decoder)
  • 2. 自编码模型
    • 1. 什么是自编码模型?答案:是在输入中随机MASK掉一部分单词,根据上下文预测这个词。思考总结Thinking summary
    • 2. BERT模型的核心架构?答案:transformer的Encoder模块.
    • 3.BERT的预训练任务?答案:MLM 和 NSP
    • 模型 BERT AE模型如BERT采用Encoder-Only结构,通过随机mask输入单词并预测这些单词来训练。这类模型适用于内容理解任务,如情感分析和提取式问答。 更适合NLU任务, 不适合用NLG任务.
      • 下Embedding模块
      • 中Transformer模块.
      • 上预微调模块.

  • 3. 自回归模型
    • 1. 什么是自回归模型?答案:从左往右学习的模型,只能利用上文或者下文的信息.
    • 2.GPT模型的核心架构?答案:transformer的Decoder模块(去除中间的第二个子层).
    • 3.GPT的预训练任务?答案:无监督的预训练 和 有监督任务的微调
  • 4. 序列到序列模型
    • T5

  • 1. 什么是序列到序列模型?答案:同时使用编码器和解码器,它将每个task视作序列到序列的转换/生成思考总结Thinking summary
  • 2.T5模型的核心架构?答案:transformer架构
  • 3.T5的预训练任务?答案:采用类似于BERT模型的MLM预训练任务和多任务预训练

  • 5. 大模型主流架构-Decoder-only
    • 1.LLM主要类别架构?答案:Encoder-Only、Decoder-Only、Encoder-Decoder
    • 2.自编码模型的基本原理?答案:是在输入中随机MASK掉一部分单词,根据上下文预测这个词.
    • 3.自回归模型的基本原理?答案:从左往右学习的模型,只能利用上文或者下文的信息.
    • 4.序列到序列模型的基本原理?答案:同时使用编码器和解码器. 它将每个task视作序列到序列的转换/生成.

  • 1.什么是ChatGPT
    • ChatGPT是2022年11月由OpenAI发布的一款聊天机器人,能学习人类语言进行对话,完成撰写邮件、脚本、翻译和代码等任务。
  • 2. GPT-1介绍
    • GPT采用的是单向Transformer模型
    • 1. GPT-1模型架构?答案:Transformer的Decoder模块(去除中间第二个子层)
    • 2. GPT-1预训练任务?答案:1、无监督预训练;2有监督任务微调.
    • 3. GPT-1模型基本参数?答案:12层、12个head、768维、参数量1.17亿
  • 3. GPT-2介绍
    • 文本生成效果好, 缺点:有些任务上的表现不如随机
    • GPT-2表明随着模型容量和数据量的增大, 其潜能还有进一步开发的空间, 基于这个思想, 诞生了我们下面要介绍的GPT-3
    • 1. GPT-2模型架构?答案:相较GPT-1做了微小的改动:1.Pre_LayerNorm; 2.最后一层后加入LN层;3.序列长度扩大到1024
    • 2. GPT-2预训练任务?答案:无监督预训练
    • 3. GPT-2提出的新思想?答案:zero-shot:零样本学习,达到开箱即用的效果.
    • 4. GPT-3介绍
  • GPT系列采用Transformer架构,GPT-3通过大量参数学习大数据,依赖Transformer的拟合能力收敛模型,完成多种任务。
  • 1. GPT-3模型架构?答案:和GPT-2基本一致,提出sparse attention
  • 2. GPT-3预训练任务?答案:无监督预训练
  • 3. GPT-3提出的新思想?答案:ICL:Few-Shot、One-Shot、Zero-Shot

Chatgpt

 监督学习 和训练奖励模型

  • 1. ChatGPT模型原理?答案:有监督的微调+奖励模型+强化学习
  • 2. 强化学习的关键信息?答案:1.一种机器学习方法;2.关注智能体和环境的交互;3.目标追求最大回报

  • 1. LLM主流大模型类别
    • ChatGLM LLaMA Bloom Baichuan
  • 2. ChatGLM-6B模型
    • 训练目标
    • 模型结构
  • 1. ChatGLM-6B的模型架构?答案:Prefix-Decoder-Only:一种基于GLM的自回归空白填充目标的通用预训练模型
  • 2. ChatGLM-6B的训练目标?答案:在输入文本中随机挖去一些连续的文本片段,然后训练模型按照任意顺序重建这些片段.
  • 3. ChatGLM-6B模型的改动点?答案:Embedding层梯度缩减;Deep Norm; GeGLU激活函数;RoPE位置编码

  • 3. LLaMA模型  开源
    • LLaMA 的训练目标是语言模型,即根据已有的上文去预测下一个词.
    • 1.LLaMA的模型架构?答案:和 GPT 系列一样,LLaMA 模型也是 Decoder-only架构
    • 2. LLaMA的训练目标?答案:根据已有的上文去预测下一个词.
    • 3. LLaMA模型的改动点?答案:RMS-Norm(Pre_Layer Norm); SwiGLU激活函数;RoPE位置编码
  • 4. BLOOM模型
    • BLOOM 的训练目标是语言模型,即根据已有的上文去预测下一个词.
    • 1.BLOOM的模型架构?答案:和 GPT 系列一样,BLOOM 模型也是 Decoder-only架构
    • 2. BLOOM的训练目标?答案:根据已有的上文去预测下一个词.
    • 3. BLOOM模型的改动点?答案:Embedding Layer Norm; Pre Layer Norm; GeLU激活函数;ALiBi位置编码
  • 5. Baichuan-7B模型
    • Baichuan-7B 的训练目标也是语言模型,即根据已有的上文去预测下一个词。
    • 1.Baichuan-7B的模型架构?答案:和 LLaMA架构一致,也是 Decoder-only架构
    • 2. Baichuan-7B的训练目标?答案:根据已有的上文去预测下一个词.
    • 3. Baichuan-7B模型的改动点?答案:Pre Layer Norm; SwiGLU激活函数;RoPE位置编码

  • 1.目录什么是NLP四范式
  • 2. Fine-Tuning
  • 3. Prompt-Tuning技术介绍
  • 4. Prompt-Tuning入门方法

  • 1.目录什么是NLP四范式
  • 2. Fine-Tuning
    • Fine-Tuning是迁移学习的一种方式,用于将预训练模型适应特定任务或领域,通过在任务特定数据上继续训练预训练模型来实现。
      • 替代方法: Prompt-Tuning通过添加模板避免增加额外参数,使模型能在小样本或零样本场景下取得良好效果。
  • 3. Prompt-Tuning技术介绍
    • 1.NLP任务四范式?答案:1.传统机器学习;2.深度学习模型;3.预训练+fine-tuning;4.预训练+prompt+
    • 2. 什么是Fine-Tuning?答案:采用已经在大量文本上进行训练的预训练语言模型,然后在小规模的任务特定文本上继续训练它.
    • 3. Prompt-Tuning的实现?答案:1.构建模版Template;2.标签词映射Verbalizer;3.训练
  • 4. Prompt-Tuning入门方法
    • Prompt-Tuning的鼻祖----GPT3
    • PET模型
    • 模板类别
      • Soft Prompt 连续提示使用参数化模板引导模型生成特定要求的文本,其参数可根据任务调整,优点是在语义空间中仅需表示一个向量无需明确指定模板中各token的具体内容
      • 1.什么是Prompt-Tuning?答案:通过添加模板的方法来避免引入额外的参数,从而让模型可以在小样本(few-shot)或者零样本(zero-shot)场景下达到理想的效果
      • 2.PET模型的主要组件?答案:Pattern(模板)与Verbalizer(标签词映射).
      • 3.P-tuning V1 的核心思想?答案:P-tuning 固定 LLM 参数, 利用多层感知机 (MLP)和 LSTM 对 Prompt 进行编码,编码之后与其他向量进行拼接之后正常输入 LLM. 注意,训练之后只保留 Prompt 编码之后的向量即可,无需保留编码器

  •  模板类别
    • Soft Prompt 连续提示使用参数化模板引导模型生成特定要求的文本,其参数可根据任务调整,优点是在语义空间中仅需表示一个向量无需明确指定模板中各token的具体内容
    • 1.什么是Prompt-Tuning?答案:通过添加模板的方法来避免引入额外的参数,从而让模型可以在小样本(few-shot)或者零样本(zero-shot)场景下达到理想的效果
    • 2.PET模型的主要组件?答案:Pattern(模板)与Verbalizer(标签词映射).
    • 3.P-tuning V1 的核心思想?答案:P-tuning 固定 LLM 参数, 利用多层感知机 (MLP)和 LSTM 对 Prompt 进行编码,编码之后与其他向量进行拼接之后正常输入 LLM. 注意,训练之后只保留 Prompt 编码之后的向量即可,无需保留编码器

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1955303.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

机器学习数学基础(1)--线性回归与逻辑回归

声明:本文章是根据网上资料,加上自己整理和理解而成,仅为记录自己学习的点点滴滴。可能有错误,欢迎大家指正。 1 线性回归和逻辑回归与机器学习的关系 线性回归属于机器学习 – 监督学习 – 回归 – 线性回归, 逻辑…

Apache DolphinScheduler Worker Task执行原理解析

大家好,我是蔡顺峰,是白鲸开源的高级数据工程师,同时也是Apache DolphinScheduler社区的committer和PMC member。今天我要分享的主题是《Worker Task执行原理》。 整个分享会分为三个章节: Apache DolphinScheduler的介绍Apache …

数据结构——二叉树定义

一、二叉树概念 二叉树是一种树形数据结构,其中每个节点最多有两个子节点,通常称为左子节点和右子节点。每个子节点本身又可以是一个二叉树。二叉树在计算机科学中有着广泛的应用,例如在搜索算法、排序算法等领域 二叉树(Binary Tree)是n(n…

告别繁琐,2024年PDF合并神器搜罗

有时候我们下载得到的PDF文件可能是被拆分成多份文档,这样对于我们查看文件就会造成一定的困扰。这时候如果把他们合并为一份文件就能方便很多。这次我就介绍几款pdf合并工具来解决这个问题吧。 第一款EIDTOR 福昕PDF 链接:https://editor.foxitsoftwar…

C++ STL 容器之deque

deque与vector同属C STL容器,二者有些相似。deque 采用动态数组来管理元素,提供随机存取,它与vector 几乎一摸一样的接口。不同的是:deque的动态数组头尾都开放,能在头尾两端进行快速安插和散出。下面是deque与vector的…

android前台服务

关于作者:CSDN内容合伙人、技术专家, 从零开始做日活千万级APP。 专注于分享各领域原创系列文章 ,擅长java后端、移动开发、商业变现、人工智能等,希望大家多多支持。 未经允许不得转载 目录 一、导读二、使用2.1 添加权限2.2 新建…

nginx 版本升级

Nginx 的版本最开始使用的是 Nginx-1.18.0 , 由于服务升级,需要将 Nginx 的版本升级到 Nginx-1.19.7 ,要求 Nginx 不能中断提供服务。 为了应对上述的需求,提供两种解决方案: 方案1: make upgrade 完成升…

(二十四)进阶算法

文章目录 (一)埃氏筛法1. 原理2. 代码3. 特点 (二)欧拉筛法1. 原理2. 代码3. 特点 (三)分解质因数1. 原理2. 代码 (四)斐波那契数列1. 递推式2. 代码(1) 方法1(2) 方法2 经过12天的“…

[240728] Wikidata 介绍 | 微软与 Lumen 合作提升人工智能算力

目录 Wikidata 介绍微软与 Lumen 合作提升人工智能算力 Wikidata 介绍 中文: 文言: 粤语: 来源: https://www.wikidata.org/wiki/Wikidata:Introduction/zh 微软与 Lumen 合作提升人工智能算力 为了满足人工智能工作负载不断增长的需求&am…

(2024,通用逼近定理(UAT),函数逼近,Kolmogorov–Arnold定理(KAT),任意深度/宽度的网络逼近)综述

A Survey on Universal Approximation Theorems 公和众与号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群) 目录 0. 摘要 1. 简介 2. 神经网络(NN) 3. 通用逼近定理&#xff0…

openssh服务升级到最新版本OpenSSH-9.8p1完全手册---- (只适用于centos6)

[年] 在centos6下编译openssh-9.8p1的rpm包 1、创建用于rpm编译的目录 mkdir -p /root/rpmbuild/SPEC mkdir -p /root/rpmbuild/SOURCES 2、安装rpmbuild和一些其它的基本依赖 yum install gcc gcc-c rpm-build -y 3、上传openssh-9.8p1.tar.gz 这个源码包到centos6服务器上&am…

一篇文章教你如何读懂 JMeter聚合报告参数!

在进行性能测试时,JMeter是一款备受推崇的开源工具。而其中的聚合报告(Aggregate Report)是我们分析测试结果、了解系统性能的重要依据。今天,我们就来深入探讨如何读懂JMeter聚合报告中的各项参数。 面对复杂的聚合报告&#xf…

MySQL创建表完全指南-从零开始学习数据库设计

MySQL创建表快速指南 在大数据时代,掌握数据库技能至关重要。无论你是刚入门的开发者,还是经验丰富的数据分析师,了解如何创建MySQL表格都是必备技能。本文将为你详细讲解MySQL创建表格的全过程,帮助你快速上手数据库设计。 1. 连接到MySQL服务器 首先,确保你已经安装了MyS…

Linux 的超级记事本(代码编辑器) —— vim

Linux 的超级记事本(代码编辑器) —— vim 关于 vimvim 的使用入门级使用——多模式基础使用——多模式插入模式(Insert mode)理解 命令模式(command mode)理解命令集 底行模式(last line mode&…

Logback 快速入门

一、简介 Java 开源日志框架,以继承改善 log4j 为目的而生,是 log4j 创始人 Ceki Glc 的开源产品。 它声称有极佳的性能,占用空间更小,且提供其他日志系统缺失但很有用的特性。 其一大特色是,在 logback-classic 中本…

5G 基站特有的 5 个关键同步挑战

随着 5G 的推出和 O-RAN 联盟等举措,移动设备领域正在遭遇相当大的颠覆,这当然适用于基站和移动回程。 从手机到物联网设备,设备数量呈爆炸式增长,再加上移动视频流、工业物联网和汽车应用等新应用,给移动网络带来了容…

自学JavaScript(放假在家自学第一天)

目录 JavaScript介绍分为以下几点 1.1 JavaScript 是什么 1.2JavaScript书写位置 1.3 Javascript注释 1.4 Javascript结束符 1.5 Javascript输入输出语法 JavaScript(是什么?) 是一种运行在客户端(浏览器)的编程语言,实现人机交互效果。 2.作用(做什么?)网…

算法-插入排序

插入排序步骤 前面文章分享了两种排序算法:冒泡排序和选择排序。虽然它们的效率都是O(N2),但其实选择排序比冒泡排序快一倍。现在来学第三种排序算法——插入排序。你会发现,顾及最坏情况以外的场景将是多么有用。 插入排序包括以下步骤。 …

从0开始搭建vue + flask 旅游景点数据分析系统(一):创建前端项目

根据前面的爬虫课程,我们重新开一个坑,就是基于爬取到的数据,搭建一个vueflask的前后端分离的数据分析系统 1 通过这个系列教程可以学习到什么? 从0开始搭建一个 vue flask 的数据分析系统;了解系统的整体架构&…

BSPTool工具

BSPTool工具 链接:https://pan.baidu.com/s/1UxMPjJtCHHkadFwnOfLqww?pwd1234 提取码:1234 1.使用方式 下载下来后,双击exe即可 2.MTK常用工具 2.1 MTK导出日志功能 2.2 导fulldump日志 2.3 .合并日志: 2.4 ADB指令集合 2.5 Fastboot指…