探索人工智能新纪元:Pre-Training 快速指南,轻松上手

news2024/10/6 23:16:49

theme: orange

预训练 Pre-Training 已被证明是当前人工智能范式中最重要的方面之一,大型语言模型,要转变为通用引擎,需要预训练。

什么是预训练模型

人工智能中的预训练至少部分受到人类学习方式的启发。我们不需要从零开始学习一个主题,而是将现有知识转移和重新用途,以理解新想法和应对不同任务。

在AI模型中,类似的过程也在发生。首先在某个任务或数据集上训练模型,然后使用得到的参数在另一个不同的任务或数据集上训练另一个模型。实际上,模型可以基于先前的经验来执行新任务。

预训练模型是一种已经在大量数据上进行过训练的神经网络模型,通常具有较强的特征提取能力。预训练模型可以视为一个通用的知识库,其内部权重已经学习到了许多通用的特征表示,这些特征在不同任务中具有广泛的适用性。

预训练的最关键方面之一是任务相关性,即模型最初学习的任务必须与将来要执行的任务相似。例如,一个用于物体检测的训练模型不能用于预测天气。

下图展示了Pre-training 和 Fine-tuning 在模型训练流程中分别所处的位置,足以表达预训练的重要性。

image.png

预训练模型的方法

image.png

以下是在自然语言处理领域进行预训练的一些方法。

Word2vec

Word2vec是由谷歌开发的一种工具,可以生成静态词嵌入,并通过衡量词与词之间的相似性在数百万词上进行训练。Word2Vec是一类训练以构建语言词语上下文的相关模型的一部分。

image.png

该模型于2013年发布,一旦经过训练,便可以检测同义词,并为部分句子提供额外的词汇建议。

GPT

GPT是基于自注意力核心前提的基于Transformer解码器的语言模型。为了计算给定输入序列的表示,模型可以关注序列的不同位置。

GPT分两个阶段进行训练。在第一阶段,创造者OpenAI使用无标签数据上的语言建模目标来学习初始参数。然后,使用相应的监督目标将这些参数调整为目标任务(又称为训练示例)。

image.png

BERT

BERT是另一个基于Transformer解码器的语言模型,首先在大量文本(如维基百科)上进行训练。

image.png

BERT是一个微调和基于编码器的模型,具有双向语言模型特征。与GPT等基于解码器的模型使用的从左到右的单词保护不同,BERT基于两个新任务进行操作。

该模型的第一个预训练任务被称为Masked Language Model(MLM),其中15%的单词被随机遮盖,BERT被要求预测它们。正如我们所提到的,BERT可以在任一方向预测词汇。

第二个任务与模型输入有关。BERT不使用词作为标记,而是使用词片段。例如,单词“working”是“work”和“ing”,而不是“working”。然后,模型添加位置嵌入以避免自注意力的弱点,即忽略词位置信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/512771.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

肝一肝设计模式【七】-- 代理模式

系列文章目录 肝一肝设计模式【一】-- 单例模式 传送门 肝一肝设计模式【二】-- 工厂模式 传送门 肝一肝设计模式【三】-- 原型模式 传送门 肝一肝设计模式【四】-- 建造者模式 传送门 肝一肝设计模式【五】-- 适配器模式 传送门 肝一肝设计模式【六】-- 装饰器模式 传送门 文…

JavaWeb:Cookie、Session、JSP、JavaBean、MVC 三层架构

文章目录 JavaWeb - 03一、Cookie1. Cookie 应用2. 注意点 二、Session三、JSP1. 概述2. JSP 基础语法和指令(了解)3. 内置对象及作用域4. JSP 标签、JSTL 标签 四、JavaBean五、MVC 三层架构1. 之前的架构2. 现在的 MVC 三层架构 注意: Java…

Feign和OpenFeign

1.Feign和OpenFeign的关系 Feign Feign是一个声明式的Web服务客户端(Web服务客户端就是Http客户端),让编写Web服务客户端变得非常容易,只需创建一个接口并在接口上添加注解即可。 Feign是Spring Cloud组件中一个轻量级RESTful的H…

MySQL基础学习---7、子查询

子查询 子查询指的是一个查询语句嵌套在另一个查询语句内部的查询(从MySQL4.1开始引入)。1、子查询的基本使用 语法格式:select select_listfrom tablewhere expr operator(select select_listfrom table); 说明:1、子查询&…

【终极解决方案】IDEA maven 项目修改代码不生效。

【终极解决方案】IDEA maven 项目修改代码不生效。 文章目录 【终极解决方案】IDEA maven 项目修改代码不生效。1、项目问题描述2、可能的解决方案3、分析原因4、解决方案5、参考文献 1、项目问题描述 遇到一个非常奇怪的问题,修改了一个基于maven搭建的SSM项目&am…

learn_C_deep_9 (汇编角度理解return的含义、const 的各种应用场景、volatile 的基本理解与实验证明)

目录 return 关键字 const 关键字 const 修饰的只读变量 - - - 不可直接被修改! const修饰的变量,可以作为数组定义的一部分吗? const只能在定义的时候直接初始化,不能二次赋值。为什么? const修饰指针 volatil…

opencv remap 像素重映射

remap()函数的输入是一个源图像和一个映射矩阵。映射矩阵包含了每个像素的新坐标,用于指定每个像素在输出图像中的位置。 假设原始图像中的一个像素的坐标为 ( x , y ) (x,y) (x,y),它在输出图像中的新坐标为 ( x ′ , y ′ ) (x,y) (x′,y′)。为了计算…

Linux Python Openpyxl xlsx转html

目录 Excel转Html 示例 函数 Openpyxl知识点 其他Excel解析库问题 Excel转Html 示例 函数 import openpyxlfrom openpyxl.styles import Border from openpyxl.styles import Font from openpyxl.styles import Side from openpyxl.styles import Alignment from openpy…

ChipScope 使用问题和解决方案

背景介绍 我最近在学习FPGA开发技术,用杜勇老师的《Xinlinx FPGA数字信号处理设计》一书,按照书中的例子,对 CXD301 开发板进行ADC、DAC示例的调试,使用 ChipScope 软件进行在线逻辑分析。遇到了下面的问题,并给出了解…

【软考数据库】第十章 系统开发与运行

目录 10.1 系统实施 10.1.1 信息系统生命周期 10.1.2 能力成熟度模型 10.1.3 软件过程开发模型 10.1.4 信息系统开发方法 10.1.5 系统分析与设计 10.1.6 结构化开发 10.2 系统测试 10.2.1 测试原则和方法 10.2.2 测试阶段 10.2.3 测试用例设计 10.2.4 调试 10.2.…

现代化个人博客系统 ModStartBlog v7.3.0 首页热门博客,UI优化调整

ModStart 是一个基于 Laravel 模块化极速开发框架。模块市场拥有丰富的功能应用,支持后台一键快速安装,让开发者能快的实现业务功能开发。 系统完全开源,基于 Apache 2.0 开源协议。 功能特性 丰富的模块市场,后台一键快速安装 …

GETOPT函数详解

一、目的 相信第一次接触linux的小伙伴在使用命令行时肯定有这样的疑惑,命令行各种各样的选项和选项参数是怎样实现的(各个命令的选项的含义可以通过man手册查看)。 二、介绍 在正式介绍之前,我们先来看一下命令行选项的使用&…

数据库原理+openGauss

文章目录 0. 准备工作0.1 实验环境0.2 主要内容0.3 学习资源 1. 安装部署实验(实验一)1.1 下载VirtualBox1.2 安装VirtualBox1.3 镜像文件导入1.4 启动虚拟机1.5 数据库使用1.6 数据库基本操作 2 表&模式(实验二)2.1 创建模式…

jmeter如何测试一个post请求(发送json请求报文)

目录 1.配置测试计划1.1.创建POST的HTTP请求取样器(模拟POST请求)1.2.创建HTTP信息头管理器 2.执行压测并查看结果 jmeter如何测试一个发送json报文的post请求. 更详细的配置请参考另外一篇博文: jmeter如何测试一个get请求 1.配置测试计划 …

独立站运营必做的6项工作内容

独立站的运营工作内容比较繁琐和全面,主要包括以下几个方面: 一、网站策划和设计 定义网站目标和定位制定网站规划和设计方案确定网站主题、颜色和页面布局确定网站的核心功能和用户体验设计网站的Logo和其他品牌元素 二、网站建设和维护 选择网站主…

React基础入门【一】

官方文档:https://react.docschina.org/ 说明 本文总结自尚硅谷课程。学习本教程之前,最好具备vue的基础知识,明白虚拟DOM、jsx这些前置知识。接下来,我们通过一个简单的示例来展示react的使用。 注意:入门的学习不…

【Atlas 200】华为昇腾Atlas 200加速模块RC场景无法启动卡在Start to jump Linux kernel

问题现象 RC场景下,装有华为昇腾Atlas 200加速模块的开发板无法启动系统。 将制作好系统的SD卡插入开发板,0号串口输出的日志卡在Start to jump Linux kernel,之后没有更多输出。 可能原因 一种比较大的可能是——在制作系统时&#xff0c…

Mac终端代理

1.打开代理查看代理端口号 打开设置,点击网络,点击详细信息,点击代理查看代理端口号。 2.修改环境变量 1)终端输入下面命令 vim .zshrc 2)在.zshrc文件里添加下面两段内容(注意:7980为端口号…

力扣206反转链表:代码实现+图文全解+方法总结(四种方法)

文章目录 第一部分:题目描述第二部分:题解2.1 方法一:生成新节点到新链表2.2 方法二:复用旧节点到新链表🍀 面向过程式思想方法🍀 面向对象式思想方法 2.3 方法三:递归2.4 旧链表中移动旧节点 第…

02:MYSQL---DML

目录 1:介绍 2:DML数据操作 1:介绍 DML英文全称是Data Manipulation Lanquage(数据操作语言),用来对数据库中表的数据记录进行增删改操作。 添加数据 :insert 修改数据:update 删除数据:delete 2:DML数据操作 给指定字段添加数据 insert into 表名(字段名1,…