大模型应用:LLM基本原理及应用场景

news2024/12/23 12:16:48

在这里插入图片描述

1.背景

23年以来,随着OpenAI公司的ChatGPT横空出世,大模型一词开始火爆全球。国内外以OpenAI、Google、百度、阿里、字节等大厂为代表,相继推出一系列大模型及其应用,涉及社交、问答、代码助手等多个方面。
目前主流的大模型及产品:

  • OpenAI:GPT3.5、GTP4系列,以及Lora等文生图模型,代表产品:ChatGPT
  • Google:Gemini
  • 百度:文心一言3.0、4.0系列,代表产品:文心一言、文心一格
  • 阿里:通义大模型,代表产品:通义千问
  • 百川:百川大模型
  • 腾讯:混元大模型
  • 字节:豆包大模型

大模型究竟是什么,和基础的垂类模型/多模态模型有何差异?为什么可以基于大模型来构建一系列垂类应用,以及可以使用大模型构建什么应用?

2.LLM基本原理

大模型又被称为大语言模型(Large Language Model)或大规模预训练语言模型(Large Pretrained Language Model)。
对于小模型(垂类模型):每个小模型对打标数据集识别进行训练,比如专注识别猫狗图片的图片模型、并在对应的数据集上评估,给出模型产物。小模型的特点是“专注”,每一个小模型训练出来就是为了识别某类特定目标。
对于大模型来说,其需要具备大量的语料参数以及很好的理解能力,其训练分为两个阶段:

  1. 一阶段预训练:在大量的文本语料数据集(待标数据)中进行训练,提取特征。经过预训练后的大模型具有大量参数和强大的语料理解能力,它能识别输入的文本,并且预测出下一个最大概率的文本,一阶段训练后产出的大模型为基础LLM。
  2. 二阶段指令微调:由于一阶段产出的基础LLM只能做到从输入的文本预测下一个最有可能的文本,比如输入“中国的首都”,那么预测输出为“中国”,但如果我们想让大模型“思考”,如输入“你知道中国的首都是北京吗?”,那么大模型的预测输出可能不符合预期。所以对于使用场景,需要对一阶段基础LLM进行微调,通过指令微调给定输入,并且明确告诉LLM需要基于该输入,得到什么样的结果,让LLM学习这个过程,已得到二阶段的指令微调LLM。比如ChatGPT使用大模型的就是由GPT基础LLM经过微调后得到的。
    在这里插入图片描述

对于算法架构,LLM主要是采用了Transformer架构来增强大模型对语料的上下文理解能力,可以做到长序列理解及推理。

3.LLM应用场景

基础LLM具有千亿级别参数及语料,具有很好的文本理解能力,通过二阶段指令微调可以让基础LLM在特定场景下做到更准确的输出判断,目前LLM应用场景十分广泛,包括:

  1. 社交领域
    1. 智能对话
    2. 虚拟人
  2. 编程领域
    1. 代码理解
    2. 潜在BUG扫描
    3. 代码生成
  3. 风控领域
    1. 智能审核
    2. 风险判别
  4. 工业/医学领域
    1. 系统检修判断
    2. 医学辅助诊断
  5. 生成式创造
    1. 文生图
    2. 文生视频
    3. 图片/视频扩展

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1700683.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从零构建vue3+ts+vite项目打包及项目依赖配置

❗️❗️❗️❗️ 写在最前: 本文是根据B站作者 月光分层 视频vuets 工程化配置以及作者笔记稍作整理 💖💖作者B站地址https://space.bilibili.com/14110850 💖💖视频教程地址vuets 工程化配置 💖💖作者微信…

自反馈 Transformer:一种针对真实世界胰腺神经内分泌肿瘤数据的多标签诊断模型

文章目录 Self-feedback Transformer: A Multi-label Diagnostic Model for Real-World Pancreatic Neuroendocrine Neoplasms Data摘要方法实验结果 Self-feedback Transformer: A Multi-label Diagnostic Model for Real-World Pancreatic Neuroendocrine Neoplasms Data 摘…

最早做“转化医学”的国货护肤品牌,发力了!

文章来自化妆品行业媒体青眼 作者小朱 放眼全球护肤市场,皮肤科学的力量正在前所未有地凸显,多个国际美妆巨头专门设立了皮肤科学部门,国内皮肤科医生参与护肤品牌创建也成为一股风潮。 据青眼不完全统计,近年来,至少…

使用阿里云服务器部署(完整步骤)

部署项目前需要环境:阿里云云服务器ECS,宝塔面板 阿里云云服务器ECS实例创建过程 先登录阿里云网站注册账号,进入控制台左侧导航栏中云服务器ECS页面根据自己的需求去创建一个新的实例(需要付费)如果是学生的话,完成…

粤嵌—2024/5/13—删除排序链表中的重复元素(✔)

代码实现: /*** Definition for singly-linked list.* struct ListNode {* int val;* struct ListNode *next;* };*/ struct ListNode* deleteDuplicates(struct ListNode *head) {if (head NULL || head->next NULL) {return head;}struct ListNode *…

FFmpeg开发笔记(三十一)使用RTMP Streamer开启APP直播推流

RTMP Streamer是一个安卓手机端的开源RTMP直播推流框架,可用于RTMP直播和RTSP直播,其升级版还支持SRT直播(腾讯视频云就采用SRT协议)。RTMP Streamer支持的视频编码包括H264、H265、AV1等等,支持的音频编码包括AAC、G7…

fastadmin二次开发 修改默认的前端弹出样式

需要修改fastadmin后台默认的弹出提示样式效果: 在项目里搜索这个关键词:Toastr 首先这个文件,里面的success和error就是弹出提示的方法。 public/assets/js/fast.js 然后是下面这个文件: public/assets/js/require-form.js 你…

ROS2入门21讲__第20讲__RQT:模块化可视化工具

目录 前言 rqt介绍 日志显示 图像显示 发布话题数据/调用服务请求 绘制数据曲线 数据包管理 节点可视化 前言 ROS中的Rviz功能已经很强大了,不过有些场景下,我们可能更需要一些简单的模块化的可视化工具,比如只显示一个摄像头的图像…

【北京市政府网_注册安全分析报告】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 暴力破解密码,造成用户信息泄露短信盗刷的安全问题,影响业务及导致用户投诉带来经济损失,尤其是后付费客户,风险巨大,造成亏损无底洞…

CDC 数据实时同步入湖的技术、架构和方案(截至2024年5月的现状调研)

近期,对 “实时摄取 CDC 数据同步到数据湖” 这一技术主题作了一系列深入的研究和验证,目前这部分工作已经告一段落,本文把截止目前(2024年5月)的研究结果和重要结论做一下梳理和汇总。为了能给出针对性的技术方案&…

深入分析 Android Activity (六)

文章目录 深入分析 Android Activity (六)1. Activity 的权限管理1.1 在 Manifest 文件中声明权限1.2 运行时请求权限1.3 处理权限请求结果1.4 处理权限的最佳实践 2. Activity 的数据传递2.1 使用 Intent 传递数据2.2 使用 Bundle 传递复杂数据 3. Activity 的动画和过渡效果3…

照片处理软件哪个好?爆款图片编辑工具分享

照片处理软件哪个好?在数字时代,照片处理软件已经成为我们日常生活和工作中不可或缺的工具。无论是为了美化照片、修复旧照,还是进行专业的图像处理,都有各种软件可以满足我们的需求。以下是一些值得一试的照片处理软件&#xff0…

海山数据库(He3DB)代理ProxySQL使用详解:(二)功能实测

读写分离实测 ProxySQL官方demo演示了三种读写分离的方式:使用不同的端口进行读写分离、使用正则表达式进行通用的读写分离、使用正则和digest进行更智能的读写分离。最后一种是针对特定业务进行的优化调整,也可将其归结为第二种方式,下边分…

IO流:字节流 字符流 缓冲流详解

IO流:字节流 字符流 缓冲流详解 📚 【Java】IO流:字节流 字符流 缓冲流详解 📚摘要引言一、“流”的概念1. “流”的分类1.1 输入流和输出流1.2 字节流和字符流字节和字符的区别?为什么要有字符流? 1.3 节点…

爬虫实战教程:深入解析配乐网站爬取1000首MP3

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一、引言 二、实战前准备 1. 选择目标网站 2. 分析网页结构 三、爬虫工作流程详解 1. 发…

Web上机:JSP+Servlet+JDBC的交互流程

目录 需求与设计 基础需求: 项目结构: 项目逻辑: 运行图示: 代码实现 Login.jsp InsertServlet SelectServlet Table.jsp user mysql表结构 Web开发技术迭代速度日新月异,对于技术的更新往往是基于底层一…

Node.js笔记(万字总结)

目录 前言 1.node介绍与使用 1.1 Node介绍 1.2 node.js的优势 1.3 node的安装 1.4 检验是否成功安装 1.5 第一个应用 1.5.1 服务器代码 server.js 1.5.2 完整代码 1.5.3 运行 1.5.4 测试 2.获取参数 3.模块系统 1.模块介绍 2.xiaoyu.js 3.xiaoyu.js完整代码 4…

Midjourney 推出Style Tuner工具 ,统一风格,提升创作效率!

Midjourney 由前 Magic Leap 程序员大卫 - 霍尔茨(David Holz)构思,于 2022 年夏天推出,在独立消息应用 Discord 的服务器上吸引了超过 1600 万用户,并由一个小规模的程序员团队不断更新,推出了包括平移、扩…

重温!瑞幸崩盘时的狂欢,我的股票盈利170%,陆正耀资本局大起底

瑞幸咖啡 瑞幸2019年5月,仅用了18个月就完成了上市。 不到1年,2020年3月戏剧化反转,被爆造假 2019年净收入虚增21亿,2季度2.5亿,3季度7亿、4季度11.7亿。 2019年成本支出虚增13亿,2季度1.5亿元&#xf…