OpenAI大模型生态与ChatGLM ||学习大模型我们需要掌握些什么?

news2025/1/14 3:46:39

首先我们来看OpenAI系列模型:
OpenAI 并不只有一个模型,而是提供了涵盖文本、码、对话、语音、图像领域的一系列模型。

语言类大模型

其中语言类大模型包括: GPT-3、GPT-3.5、GPT-4系列模型。
并且,OpenAI在训练GPT-3的同时训练了参数不同、复杂度各不相同的A、B、C、D四项大模型 (基座模型),用于不同场景的应用;其中,A、B、C、D模型的全称分别是ada(埃达·洛夫莱斯)、babbage(查尔斯·巴贝奇)、curie(居里夫人)和davinci(达芬奇),四个模型并不是GPT-3的微调模型,而是独立训练的四个模型;四个模型的参数规模和复杂程度按照A-B-C-D顺序依次递增:虽不如GPT-3.5和GPT-4那么有名,但A、B、C、D四大模型却是目前OpenAI大模型生态中功能最丰富、API种类最多的四个模型。
为了更好的满足更多的适用场景训练不同规模的模型是目前业内的基本共识。
谷歌PaLM2 Models同时发布了四项大模型:
Gecko (壁虎) 、Otter(水獭) 、Bison (野牛) 、Unicorn(独角兽) ,其中最小的Gecko模型可以在移动端运行,并计划在下一代安卓系统中集成。

图像多模态大模型:

  • 最新版为OpanAI的 DALL-E(达利) v2,是DALL-E模型的第二版训练版,能够根据描述生成图像;
  • DALL-E模型为基于GPT-3开发的模型,总共包含120亿个参数,不难看出DALL-E对图像的理解能力源于大语言模型;
  • 那为啥图像大模型要基于GPT-3来训练呢?OpenAl将大语言模型的理解能力“复制”到视觉领域的核心方法:将图像视作一种一种语言,将其转化为Token,并和文本Token一起进行训练

语音识别模型:

  • 最新版为Whisper v2-large model,是Whisper模型的升级版,能够执行多语言语音识别以及语音翻译和语言识别;
  • Whisper模型是为数不多的OpenAl的开源模型,该模型通过68万小时的多语言和多任务监督数据进行的训练,目前提供了原始论文进行方法介绍;
  • whisper模型可以本地部署,也可以像其他OpenAl大模型一样通过调用API进行在线使用,并且根据官网介绍,Whisper在线模型会有额外运行速度上的优化,通过调用API进行使用,效率更高(当然也需要支付一定的费用)

文本向量化模型:

  • Embedding文本嵌入模型,用于将文本转化为词向量,即用一个数组(向量) 来表示一个文本,该文本可以是短语、句子或者文章;
  • 最新一代Embedding模型是基于ada模型微调的text-embedding-ada-002模型;
  • 通过将文本转化为词向量,就可以让计算机进一步的“读懂文本”,通过词向量的计算和分析和相似度计算,可以对其背后的文本进行搜索、聚类、推荐、异常检测和分类等;

审查模型:

Moderation模型,旨在检查内容是否符合 OpenAl的使用政策。这
些模型提供了 查找以下类别内容的分类功能:仇恨、仇恨/威胁、自残、性、性/未成年人、暴力和暴力/图片等。

编程大模型:

  • Codex大模型,用GitHub数十亿行代码训练而成,能够“读懂”代码,并且能够根据自然语言描述进行代码创建;
  • Codex最擅长Python,同时精通JavaScript、Go、Perl、 PHP、Ruby、Swift、TypeScript、SaL,甚至 Shell 等十几种编程语言;
  • 该模型发布于2021年8月10日,目前代码编写功能已经合并入GPT-3.5,官网显示该模型为已弃用(deprecated) 状态,意为后续不再单独维护,但并不表示OpenAl巳放弃编程大模型,相反越来越
    多的编程功能被集成到语言大模型中;
  • 目前该模型集成于Visual Studio Code、GitHub Copilot、Azure OpenAl Service等产品中,用于提供自动编程功能支持;

点击地址:https://platform.openai.com/docs/models/overview在models->overiew到OpenAI官网中查看目前的OpenAI模型大类:
在这里插入图片描述
点击以下网址:https://platform.openai.com/account/rate-limits可在个人中心一>API速率限制中查看中可以一次性看到目前账户可用的全部API

OpenAl APl命名规则

  • 通用模型APl:如GPT-3.5-turbo, GPT-4, ada…
  • 停止维护但仍可使用的AP1:如GPT-3.5-turbo-0301 (3月1号停止维护),GPT-4-0314 (3月14号停止维护)
  • 面向特定功能的微调模型API:如ada-code-search-code(基于ada微调的编程大模型),babbage-similarity(基于babbage微调的的文本相似度检索模型) …
  • 多版本编号模型API:如text-davinci-001(达芬奇文本模型1号)、text-embedding-ada-002(基于ada的Embedding模型2号)

——————————————————————————————————

学习大模型需要掌握什么?

第一部分,需要掌握效果最好、生态最丰富、功能最齐全的OpenAl发布的大模型组
第二部分,需要掌握目前中文效果最好、最具潜力、同时具备多模态功能的开源大模型一ChatGLM 6B & visualGLM 6B

为什么要学习开源大模型?

  • 更大的微调空问:相比在线大模型,开源大模型可以使用更多微调框架进行模型微调,微调空间更大,更有可能快速完成定制化大模型训练;
  • 更加灵活的A应用开发:相比封闭的在线模型,开源模型可以更加灵活便捷的嵌入到AI应用中,同时也可以更加方便的搭配其他开源框架进行使用,从而实现更高效率的Al/应用开发;
  • 更低的资费、更安全的数据保障:此外,不同于在线大模型需要根据API调用情况付费,开源大模型开源本地部署,仅需支付相应算力费用即可;此外,数据可以直接本地训练模型,无需在线提交数据进行在线模型微调,数据安全也将更有保障;

全球开源大模型性能评估榜单

榜单一:Hugging Face@: Open LLM Leaderboard
地址:https://huggingface.co/spaces/HuggingFaceH4/open_Ilm_leaderboard

Falcon(鹰眼)大模型:

Falcon模型为阿联酋阿布扎比创新研究所(TII) 开源的大模型,号称“史上最强开源大模型”,总共400亿参数,模型在1万亿个高质量Token上完成训练,叫能超进拥有650亿参数的LLaMA。遗憾的是Falcon并不支持中文。

榜单二:LMSYS组织 (UC伯克利背景): LLM Leaderboard
地址:https://chat.Imsys.org/?arena

通过匿名PK进行模型性能比较,同时纳入开源大模型和在线大模型进行PK,其中GPT-4排名第一,国内清华大学团队ChatGLM-6B 模型位列14。该榜单实时更新较慢,目前Falcon尚末参赛。

目前没有评价大模型能力的太权威的榜单。

——————————————————————————————————

中文最强大语言模型一 ChatGLM 130B

  • ChatGLM模型是由清华大学团队开发的大语言模型,该模型借鉴了ChatGPT 的设计思路,在千亿基座模型 GLM-130B 中注入了代码预训练,通过有监督微调 (Supervised Fine-Tuning) 等技术实现人类意图对齐。2022年11月,斯坦福大学大模型中心对全球30个主流大模型进行了全方位的评测,GLM-130B 是亚洲唯一入选的大模型。在与 OpenAl、谷歌大脑、微软、英伟达、脸书的各大模型对比中,评测报告显示 GLM-130B 在准确性和恶意性指标上与 GPT-3 175B(davinci) 接近或持平。
  • 论文地址:https://openreview.net/pdf?id=-Aw0rrrPUF

更加精简的低门槛大模型:ChatGLM 6B

清华大学团队同时开源 ChatGLM-6B 模型。ChatGLM-6B 是一个具有62亿参数的中英双语语言模型。通过使用与 ChatGLM (chatglm.cn)相同的技术,ChatGLM-6B 初具中文问答和对话功能,并支持在单张 2060s 上进行推理使用。具体来说,ChatGLM-6B 有如下特点:

  • 充分的中英双语预训练:ChatGLM-6B 在 1:1比例的中英语料上训练了1T的token 量,兼具双语能力;
  • 较低的部署门槛:FP16 精度下,ChatGLM-6B 需要至少 13GB 的显存进行推理,结合模型量化技术,这一需求可以进一步降低到 10GB (INT8) 和 6GB(INT4),使得 ChatGLM-6B 可以部署在消费级显卡上;

ChatGLM 6B的硬件要求:
在这里插入图片描述

  • 其中,FP16指的是高精度模式,该模式下推理(即模型运行) 需要至少13G显存,微调需要至少14G显存;
  • INT4、INT8则是量化模式,所谓量化模式,指的是模型会限制参数的精度,INT4表示保留4位参数精度,INT8则表示保留8位参数精度,此时相应的推理显存占用和微调显存占用都会明显滅少。最低精度INT4模式下,可以在单卡2060上运行,也是目前硬件要求最低的开源大模型;
  • 根据实际测试,在高精度模式下,多轮对话最低显存占用为20G,微调显存占用为22G左右;

ChatGLM 6B丰富的开源生态
微调框架:ChatGLM 6B + P- Tuning微调,项目地址: https://github.com/ THUDM/ChatGLM-6B/blob/main/ptuning/README.md

微调框架:ChatGLM 6B + LoRA微调,项目地址: https://github.com/ mymusise/ChatGLM-Tuning

本地知识库:ChatGLM 6B + LangChain,项目地址: https://github.com/ imClumsyPanda/langchain-ChatGLM

多轮对话前端:ChatGLM 6B多轮对话的Web UI展示,项目地址: https:// github.com/Akegarasu/ChatGLM-webui
——————————————————————————————————

基于ChatGLM的多模态大模型 VisualGLM 6B

VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型, 语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 BLIP2- Qformer 构建起视觉模型与语言模型的桥梁,整体模型共78亿参数。 VisualGLM-6B 依靠来自于 CogView 数据集的30M高质量中文图文对,与300M 经过筛选的英文图文对进行预训练,中英文权重相同。该训练方式较好地将视觉 信息对⻬到ChatGLM的语义空间;之后的微调阶段,模型在⻓视觉问答数据上训 练,以生成符合人类偏好的答案。

VisualGLM 6B部分样例 项目地址:
https://github.com/THUDM/VisualGLM-6B

VisualGLM 6B VS Dall·E模型实现思路区别

Dall·E:将图像视作一种语言,将其转化为离散化的Token并进行训练,优势在 于能够非常详细的描述一张图片,但缺点在于图像的Token利用率较低,需要 1000以上的Token才能描述一张256分辨率的图; VisualGLM:考虑到人类在认识图片的时候,往往只对少量视觉语意信息感兴 趣,因此可以不用将整个图片全部离散化为图片,只将图片特征对其到预训练 语言模型即可,这也是BLIP-2的视觉语言与训练方法实现策略。优势在于能够 充分语言模型,缺点在于会缺失图像部分底层信息(细节信息);

医学影像诊断大模型:XrayGLM 6B

项目地址:https://github.com/WangRongsheng/XrayGLM

基于VisualGLM模型,在UI-XRay医学诊断报告数据集上进行微调而来; 报告翻译借助OpenAI GPT模型完成翻译,微调框架为LoRA;
——————————————————————————————————

中文大模型学习首选——ChatGLM 6B

  • 低⻔槛上手使用,最低2080Ti即可运行;
  • 中英双语大模型,其中中文提示效果更佳;
  • 较为丰富的对话UI、微调、AI开发项目生态;
  • 大神云集的项目开发和维护团队;
  • 率先提出多模态大模型VisualGLM;
  • 非常活跃的开源社区,已经越来越多的微调和实践应用场景,未来发展极具潜力;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/794514.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Disulfo ICG Amine,二磺酸吲哚菁绿氨基,应用于多种生物大分子以及药物的检测

资料编辑|陕西新研博美生物科技有限公司小编MISSwu​ Disulfo-ICG-Amine试剂 | 基础知识概述(部分): 中文名称:二磺酸吲哚菁绿氨基 英文名称:Disulfo-ICG-Amine,Disulfo ICG NH2 CAS号:N/A 分子式&#xf…

【Gray Hat Python】构建自己的windows调试器

环境准备 windows10 64bit python3.7 64bit 打开可执行文件,创建进程 定义变量 以下代码用 ctypes 定义了调用 windows API 需要的结构 my_debugger_define.py import ctypesWORD ctypes.c_ushort DWORD ctypes.c_ulong LPBYTE ctypes.POINTER(ctypes.c_uby…

微软5年敏捷转型策略:成功的16个关键

许多管理者怀疑规模化敏捷组织是否可行。微软成功地实现了为期五年的大规模敏捷转型表明,答案是肯定的。微软已不是一艘巨型军舰,而更像是同步行进的快艇组成的舰队:数百个团队中以协调的方式进行敏捷和Scrum。依赖关系如何处理?团…

常用自动化测试工具有哪些?

1、Appium AppUI自动化测试 Appium 是一个移动端自动化测试开源工具,支持iOS 和Android 平台,支持Python、Java 等语言,即同一套Java 或Python 脚本可以同时运行在iOS 和Android平台,Appium 是一个C/S 架构,核心是一…

Java Swing(C/S模式)特效雨滴系统界面

调节不同参数,生成不同特效: ------------------界面截图--------------------- package org.jd.data.netty.big.window.chat.frame.ui.controller.center; import lombok.extern.slf4j.Slf4j; import java.util.concurrent.*;/*** 设计模式: 单例模式* * 自定义线…

Docker 数据管理及网络通信 Dockerfile

一、Docker 的数据管理 管理 Docker 容器中数据主要有两种方式:数据卷(Data Volumes)和数据卷容器(DataVolumes Containers)。 1、数据卷 数据卷是一个供容器使用的特殊目录,位于容器中。可将宿主机的目…

华为OD机试真题 Java 实现【阿里巴巴找黄金宝箱(II)】【2023 B卷 100分】,附详细解题思路

目录 专栏导读一、题目描述二、输入描述三、输出描述四、解题思路1、题目关键点:2、大白话的意思就是3、比如4、思路这不就来了 五、Java算法源码六、效果展示1、输入2、输出3、说明 华为OD机试 2023B卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于…

STM32单片机蓝牙APP语音识别智能记忆汽车按摩座椅加热通风儿童座椅

实践制作DIY- GC00160---智能记忆汽车按摩座椅 一、功能说明: 基于STM32单片机设计---智能记忆汽车按摩座椅 二、功能说明: 电路组成:STM32F103CXT6最小系统LD3322语音识别模块OLED显示3个ULN2003步进电机(分别对应 前后距离、座…

小学期笔记——天天酷跑1

文件快照(File snapshot)通常是指对文件系统中某个特定时间点的文件或文件夹的快照或副本。它记录了文件或文件夹在某一时刻的状态,包括文件的内容、属性、权限、位置等信息。 文件快照通常用于数据备份、恢复和版本控制等目的。通过捕捉文件…

Stable-Diffusion-Webui部署SDXL0.9报错参数shape不匹配解决

问题 已经在model/stable-diffusion文件夹下放进去了sdxl0.9的safetensor文件,但是在切换model的时候,会报错model的shape不一致。 解决方法 git pullupdate一些web-ui项目就可以,因为当前项目太老了,没有使用最新的版本。

Windows10 任务栏图标的控制

文章目录 前言一、任务栏系统图标设置二、任务栏应用软件图标设置总结前言 在windows系统中,有一个常用功能,那就是在任务栏上图标化加载一些应用。为特殊目的,我们可以把一些常用软件启动后以图标形式摆放任务栏的右下角(例如QQ,微信)。不同的Window版本有不同的任务栏…

最受欢迎的12个Python开源框架,还没用过你就OUT了!!!

今天给大家带来了12个在GitHub等开源网站中最受欢迎的Python开源框架。如果你正在学习python,那么这12个开源框架,千万别错过,这些框架包括事件I/O,OLAP,Web开发,高性能网络通信,测试&#xff0…

【Redis】如何实现一个合格的分布式锁

文章目录 参考1、概述2、Redis粗糙实现3、遗留问题3.1、误删情况3.2、原子性保证3.3、超时自动解决3.4、总结 4、Redis实现优缺5、集群问题5.1、主从集群5.2、集群脑裂 6、RedLock7、Redisson7.1、简单实现7.2、看门狗机制 参考 Redisson实现Redis分布式锁的N种姿势 (qq.com)小…

第六章 复合查询

第六章 复合查询 一、前言二、笛卡尔积三、多表查询1、多表查询的理解2、笛卡尔积与多表拼接3、多表查询示例(1)显示雇员名、雇员工资以及所在部门的名字(2)显示部门号为10的部门名,员工名和工资(3&#xf…

力扣热门100题之缺失的第一个正数【困难】

题目描述 给你一个未排序的整数数组 nums ,请你找出其中没有出现的最小的正整数。 请你实现时间复杂度为 O(n) 并且只使用常数级别额外空间的解决方案。 示例 1: 输入:nums [1,2,0] 输出:3 示例 2: 输入&#xff1…

Linux学习之while循环和until循环

while while的格式如下: while 条件表达式 do指令集 done若是条件表达式为真,那么才能执行do和done之间的指令集。若是第一次都不符合条件,就不会执行指令集。每次循环都会判断条件表达式,只要不符合,就会退出循环。…

【前端学JAVA】java的基础语法

theme: cyanosis 作为一个前端程序员,其发展前途是远不及后端程序员的。因此,只有了解后端,才能让自己更加具备核心竞争力。本系列教程将以一个前端程序员的角度快速学习JAVA。 新建项目 开发JAVA程序,我们第一步是使用IDEA新建…

VAE-根据李宏毅视频总结的最通俗理解

1.VAE的直观理解 先简单了解一下自编码器,也就是常说的Auto-Encoder。Auto-Encoder包括一个编码器(Encoder)和一个解码器(Decoder)。其结构如下: 自编码器是一种先把输入数据压缩为某种编码, 后仅通过该编…

CMU 15-445 -- Timestamp Ordering Concurrency Control - 15

CMU 15-445 -- Timestamp Ordering Concurrency Control - 15 引言Basic T/OBasic T/O ReadsBasic T/O WritesBasic T/O - Example #1Basic T/O - Example #2 Basic T/O SummaryRecoverable Schedules Optimistic Concurrency Control (OCC)OCC - ExampleSERIAL VALIDATIONOCC …

Linux:ELK:日志分析系统(使用elasticsearch集群)

原理 1. 将日志进行集中化管理(beats) 2. 将日志格式化(logstash) 将其安装在那个上面就对那个进行监控 3. 对格式化后的数据进行索引和存储(elasticsearch) 4. 前端数据的展示(kibana&…