什么是让ChatGPT爆火的大语言模型(LLM)

news2024/9/27 23:27:43

什么是让ChatGPT爆火的大语言模型(LLM)

在这里插入图片描述

更多精彩内容:
https://www.nvidia.cn/gtc-global/?ncid=ref-dev-876561

文章目录

  • 什么是让ChatGPT爆火的大语言模型(LLM)
    • 大型语言模型有什么用?
    • 大型语言模型如何工作?
    • 大型语言模型的热门应用
    • 在哪里可以找到大型语言模型
    • 大型语言模型的挑战

AI 应用程序正在总结文章、撰写故事和进行长时间对话——而大型语言模型正在承担繁重的工作。

大型语言模型或 LLM 是一种深度学习算法,可以根据从海量数据集中获得的知识来识别、总结、翻译、预测和生成文本和其他内容。

大型语言模型是 Transformer 模型最成功的应用之一。 它们不仅用于教授 AI 人类语言,还用于理解蛋白质、编写软件代码等等。

除了加速自然语言处理应用程序——如翻译、聊天机器人和人工智能助手——大型语言模型还用于医疗保健、软件开发和许多其他领域的用例。

大型语言模型有什么用?

在这里插入图片描述

语言不仅仅用于人类交流。

代码是计算机的语言。 蛋白质和分子序列是生物学的语言。 大型语言模型可以应用于需要不同类型通信的语言或场景。

这些模型拓宽了 AI 在各行各业和企业中的应用范围,并有望引发新一轮的研究、创造力和生产力浪潮,因为它们可以帮助为世界上最棘手的问题生成复杂的解决方案。

例如,使用大型语言模型的人工智能系统可以从分子和蛋白质结构数据库中学习,然后利用这些知识提供可行的化合物,帮助科学家开发突破性的疫苗或治疗方法。

大型语言模型还有助于创建重新构想的搜索引擎、辅导聊天机器人、歌曲、诗歌、故事和营销材料等的创作工具。

大型语言模型如何工作?

大型语言模型从大量数据中学习。 顾名思义,LLM 的核心是它所训练的数据集的大小。 但随着人工智能的发展,“大”的定义也在不断扩大。

现在,大型语言模型通常是在足够大的数据集上训练的,这些数据集几乎可以包含很长一段时间内在互联网上编写的所有内容。

如此大量的文本被输入到使用无监督学习的 AI 算法中——当一个模型被赋予一个数据集而没有关于如何处理它的明确指示时。 通过这种方法,大型语言模型可以学习单词,以及它们之间的关系和背后的概念。 例如,它可以根据上下文学习区分“bark”一词的两种含义。

正如掌握一门语言的人可以猜测句子或段落中接下来会出现什么——甚至自己想出新词或概念——大型语言模型可以应用其知识来预测和生成内容。

大型语言模型也可以针对特定用例进行定制,包括通过微调或提示调整等技术,这是为模型提供少量数据以供关注的过程,以针对特定应用对其进行训练。

由于其在并行处理序列方面的计算效率,transformer 模型架构是最大和最强大的 LLM 背后的构建块。

大型语言模型的热门应用

大型语言模型正在开启搜索引擎、自然语言处理、医疗保健、机器人技术和代码生成等领域的新可能性。

流行的 ChatGPT AI 聊天机器人是大型语言模型的一种应用。 它可以用于无数的自然语言处理任务。

LLM 几乎无限的应用还包括:

  • 零售商和其他服务提供商可以使用大型语言模型,通过动态聊天机器人、人工智能助手等提供更好的客户体验。
  • 搜索引擎可以使用大型语言模型来提供更直接、更像人类的答案。
  • 生命科学研究人员可以训练大型语言模型来理解蛋白质、分子、DNA 和 RNA。
  • 开发人员可以使用大型语言模型编写软件并教机器人完成物理任务。
  • 营销人员可以训练一个大型语言模型来将客户反馈和请求组织成集群,或者根据产品描述将产品分类。
  • 财务顾问可以使用大型语言模型总结收益电话会议并创建重要会议的文字记录。 信用卡公司可以使用 LLM 进行异常检测和欺诈分析以保护消费者。
  • 法律团队可以使用大型语言模型来帮助进行法律释义和抄写。

在生产环境中高效运行这些大型模型需要大量资源并需要专业知识等挑战,因此企业转向 NVIDIA Triton 推理服务器,该软件可帮助标准化模型部署并在生产环境中交付快速且可扩展的 AI。

在哪里可以找到大型语言模型

2020 年 6 月,OpenAI 发布了 GPT-3 作为一项服务,该服务由一个 1750 亿参数的模型提供支持,该模型可以生成带有简短书面提示的文本和代码。

2021 年,NVIDIA 和微软开发了 Megatron-Turing 自然语言生成 530B,这是世界上最大的阅读理解和自然语言推理模型之一,可简化摘要和内容生成等任务。

HuggingFace 去年推出了 BLOOM,这是一种开放的大型语言模型,能够以 46 种自然语言和十几种编程语言生成文本。

另一个 LLM,Codex,将文本转换为软件工程师和其他开发人员的代码。

NVIDIA 提供了一些工具来简化大型语言模型的构建和部署:

  • NVIDIA NeMo LLM 服务提供了一种快速途径,可以使用 NVIDIA 的托管云 API 或通过私有云和公共云自定义大型语言模型并大规模部署它们。
  • NVIDIA NeMo Megatron 是 NVIDIA AI 平台的一部分,是一个框架,用于简单、高效、经济高效地训练和部署大型语言模型。 NeMo Megatron 专为企业应用程序开发而设计,为自动化分布式数据处理提供端到端的工作流程; 训练大规模、定制的模型类型,包括 GPT-3 和 T5; 并部署这些模型以进行大规模推理。
  • NVIDIA BioNeMo 是一种特定领域的托管服务和框架,适用于蛋白质组学、小分子、DNA 和 RNA 中的大型语言模型。 它基于 NVIDIA NeMo Megatron 构建,用于在超级计算规模上训练和部署大型生物分子变压器 AI 模型。

大型语言模型的挑战

扩展和维护大型语言模型可能既困难又昂贵。

构建基础大型语言模型通常需要数月的训练时间和数百万美元。

而且由于 LLM 需要大量的训练数据,开发人员和企业会发现访问足够大的数据集是一项挑战。

由于大型语言模型的规模,部署它们需要技术专长,包括对深度学习、转换器模型和分布式软件和硬件的深刻理解。

许多技术领域的领导者正在努力推进开发和构建资源,以扩大对大型语言模型的访问,让各种规模的消费者和企业都能从中获益。

更多精彩内容:
https://www.nvidia.cn/gtc-global/?ncid=ref-dev-876561

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/381928.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

王道操作系统课代表 - 考研计算机 第一章 计算机概述 究极精华总结笔记

本篇博客是考研期间学习王道课程 传送门 的笔记,以及一整年里对 操作系统 知识点的理解的总结。希望对新一届的计算机考研人提供帮助!!! 关于对 “计算机概述” 章节知识点总结的十分全面,涵括了《操作系统》课程里的全…

(五十七)插入数据时到底是如何维护好不同索引的B+树的?

之前我们已经给大家彻底分析清楚了MySQL数据库的索引结构了,大家都知道不同索引的结构是如何的,大致是如何建立的,然后搜索的时候是如何根据不同的索引去查找数据的。 那么今天我们来给大家彻底讲清楚,你在插入数据的时候&#x…

JavaSE学习笔记day17

零、 复习昨日 File: 通过路径代表一个文件或目录 方法: 创建型,查找类,判断类,其他 IO 输入& 输出字节&字符 try-catch代码 一、作业 给定路径删除该文件夹 public static void main(String[] args) {deleteDir(new File("E:\\A"));}// 删除文件夹public s…

openjdk:8镜像中安装工具命令的方法

文章目录前言一、获取openjdk:8环境1.下载并运行openjdk:82.获取当前镜像的基础环境信息3.更换源并安装软件二、更新Dockerfile1.增加命令2.尝试构建3.测试镜像是否可用总结前言 记录一下openjdk:8镜像安装命令的方法 同事使用openjdk:8作为基础镜像构建业务镜像,但…

蚂蚁CTO线五年测试开发,年后被优化,跟大家唠几句

夙兴夜寐,回顾从毕业出来到现在的这五年,也是在这里给大家抛砖引玉了。先简单交代一下背景吧,某不知名 985 的本硕,17 年毕业加入蚂蚁金服,以“人员优化”的名义无情被裁员,之后跳槽到了有赞,一…

软件测试的主要工作内容是什么

平时说起程序员印象中大都是做Java、做前端、做后端,用着非常晦涩难懂的语言。在电脑前哐哐哐,没一会满屏代码显现出来。然而程序员并不全是印象中这样,还有一部分:他们不常写代码,主要去检查代码,是不是出…

人工智能前置研究-神经元/离子通道

专栏目录: 高质量文章导航_GZVIMMY的博客-CSDN博客 前言: 《生命是什么》:来自有序中的有序,非周期性晶体!有机体内在生命及其外部世界的相互作用,都能被精确的定律所概述,但前提是它自身必须有一个巨大结构,分子数目太少的话,定律也就不准确了。 《神秘的量子生命…

基于RT-Thread完整版搭建的极简Bootloader

项目背景Agile Upgrade: 用于快速构建 bootloader 的中间件。example 文件夹提供 PC 上的示例特性适配 RT-Thread 官方固件打包工具 (图形化工具及命令行工具)使用纯 C 开发,不涉及任何硬件接口,可在任何形式的硬件上直接使用加密、压缩支持如下&#xf…

Python抓取数据具体流程

之前看了一段有关爬虫的网课深有启发,于是自己也尝试着如如何过去爬虫百科“python”词条等相关页面的整个过程记录下来,方便后期其他人一起来学习。 抓取策略 确定目标:重要的是先确定需要抓取的网站具体的那些部分,下面实例是…

MySQL Buffer Pool 详解

1. Buffer Pool 概述 Buffer Pool 到底是什么?从字面上看是缓存池的意思,没错,它其实也就是缓存池的意思。它是MySQL当中至关重要的一个组件,可以这么说,MySQL的所有的增删改的操作都是在 Buffer Pool 中执行的。 但…

90%的人都不算会爬虫,这才是真正的技术,从0到高手的进阶

很多人以为学会了urlib模块和xpath等几个解析库,学了Selenium就会算精通爬虫了,但到外面想靠爬虫技术接点私活,才发现寸步难行。 龙叔我做了近20年的程序员,今天就告诉你,真正的爬虫高手应该学哪些东西,就…

相向双指针 leetcode 15 16 18 611

简单介绍 与同向双指针区别就是&#xff0c;同向查找的是子串最明显得区别就是两侧进行搜索比较快 基本得模板如下 while(left < right) {if( ){}else if(){}else{ // left与right得遍历while(){}} }具体以题目为例 两数之和比较简单 不展示了 leetcode 15 三数之和 这个…

NOC·核桃编程马拉松复赛低年级组 A 卷真题

1. 舞台区如下所示,角色足球的初始坐标为(0,0)。等待下图程序运行完毕后,足 球的坐标是多少?( ) A(100,100) B(-100,100) C(100,-100) D(0,0) 2. 亮亮设计了一个“击落陨石”的游戏。点击开始按钮后,陨石会出现在舞台区的随机位置,碰到炸弹后就会消失…

webrtc处理视频丢包的机制

1.摘要WebRTC是一个开源的实时交互式音频和视频通信框架。本文讨论了WebRTC中用于处理视频通信路径中数据包丢失的一些机制。讨论了各种系统细节&#xff0c;提出了一种基于时间层的自适应混合NACK/FEC方法。结果显示了该方法如何控制实时视频通信的质量权衡2.介绍WebRTC[1]是一…

特征工程——Tabular Data Features multimodal features

一、前言 机器学习时期&#xff0c;要花费大量的时间在特征设计上&#xff0c;好的输入数据可以让训练事半功倍。而有了深度学习后&#xff0c;神经网络可以自动实现特征提取&#xff0c;解放了手工(理论上是这样&#xff0c;实际也是要进行特征筛选的&#xff0c;因为在应用中…

小程序容器技术在微服务架构中的应用

随着移动互联网的发展&#xff0c;小程序已经成为了一种非常流行的应用方式&#xff0c;它可以在不安装任何应用的情况下&#xff0c;直接在移动终端设备&#xff08;如&#xff1a;App&#xff0c;iPad等&#xff09;中运行。微服务架构则是一种的分布式系统架构&#xff0c;可…

Ubuntu16.04 源码安装nginx

nginx源码包&#xff1a;http://nginx.org/download/ 目录1.可联网设备直接通过apt-get安装2.不可联网设备通过安装包编译和移植2.1 首先选择一台可联网的设备2.2 将编译好的文件夹拷贝到目标设备上问题&#xff1a;nginx启动 nginx: [emerg] bind() to 0.0.0.0:80 failed (98:…

机器学习100天(三十四):034 先验概率、条件概率

《机器学习100天》完整目录:目录 机器学习100天,今天讲的是:先验概率、条件概率。 一、先验概率、条件概率 机器学习中,我们经常听到两个数学概念:先验概率、后验概率。抛开复杂数学公式不谈,我们通过一个实际的例子来帮助大家理解这两种概率。 最近天气炎热,红色石头…

问题三十四:傅立叶变换——高通滤波

高通滤波器是一种可以通过去除图像低频信息来增强高频信息的滤波器。在图像处理中&#xff0c;高通滤波器常常用于去除模糊或平滑效果&#xff0c;以及增强边缘或细节。在本篇回答中&#xff0c;我们将使用Python和OpenCV实现高通滤波器。 Step 1&#xff1a;加载图像并进行傅…

JVM系统优化实践(6):年轻代、老年代与数据计算

您好&#xff0c;我是湘王&#xff0c;这是我的CSDN博客&#xff0c;欢迎您来&#xff0c;欢迎您再来&#xff5e;上回说道如果当前Survivor区中年龄相同的一批对象总大小 ≥ Survivor总数 50%&#xff0c;那么这批对象及比它们年龄更大的对象&#xff0c;就都直接进入老年代。…