大模型的那些道道

news2024/9/22 7:31:14

1 AI大模型介绍

        chat-gpt、sora、sd、文心一言(GAI,生成式AI)等等,这些是大模型嘛,准确来说这些只是大模型落地的产品;“大模型”通常指的是拥有大量参数的深度学习模型;因此对计算资源要求很高,入门门槛也比较高。作为一个普通人我们能做的就是在预训练的模型基础上然后做下游任务。如何落地是我们关心的。遇到什么问题,如何解决是我们学习的方法论。

目前大模型的岗位:

  1. AI 产品策划;
  2. Ai大模型应用开发;
  3. AI大模型训练/评测;
  4. AI大模型算法;
  5. Ai大模型专家;

1.1 大模型的特点

  1. 参数量大

    • 大模型通常具有数百万至数十亿的参数。例如,GPT-3 拥有超过 1750 亿个参数,而 PaLM(Pathways Language Model)更是达到了 5400 亿个参数。
  2. 训练数据规模大

    • 大模型通常是在海量数据上训练的,数据集可能包含数万亿个标记(token)。
  3. 计算资源要求高

    • 训练大模型通常需要大量的计算资源,包括高性能的 GPU 或 TPU 集群。例如,训练 GPT-3 需要数千张 GPU 并行运算。
  4. 多模态能力

    • 一些最新的大模型不仅限于文本数据,还能处理图像、音频等多种模态的数据,实现跨模态的表示学习。
  5. 强大的泛化能力

    • 大模型往往能够在未见过的数据上表现出良好的泛化能力,即使是在没有经过特定任务训练的情况下也能取得不错的结果。
  6. 零样本和少样本学习

    • 一些大模型能够实现零样本(zero-shot)和少样本(few-shot)学习,即在没有或仅有少量标注数据的情况下就能执行新任务。

 1.2 大模型幻觉(胡说八道)

        针对不同的业务场景做对策;微调(成本很高)、RAG;

微调

1.2.1 PE工程

        Prompt引导LLM回答;

1.2.2 RAG检索增强生成

  1. 构建知识库

    • load创建或选择一个包含大量相关文本的数据集。
    • 对数据集中的每个文档进行预处理,如分词、清洗、去除停用词等。
    • split将文档拆分成较小的段落或句子,形成片段(chunk)。
    • Embedding对每个片段进行向量化,通常是通过一个预先训练好的嵌入模型(如 BERT)将其转换为向量表示。
    • Store 将这些向量存储在一个专门的向量数据库中,便于后续的快速检索。
  2. 用户查询

    • 用户提出一个查询或者问题。
  3. 查询向量化

    • 使用相同的嵌入模型将用户查询转换为向量表示。
  4. 相似性检索

    • 利用向量数据库的相似性搜索功能,寻找与查询向量最相似的前K个片段。
    • 这些片段通常被称为上下文(context),因为它们为生成的响应提供了背景信息。
  5. 生成响应

    • 将查询及其检索到的上下文一起作为输入(高效Prompt)传递给生成模型。

        成功率最高成本最低;不需要改变大模型,只是在原有的基础上扩展知识,搭建一套检索库;

检索库:

  1. 向量检索库:只是向量的高校检索;
  2. ES;
1.2.2.1 如何对文本切割

        随便切割?太大太小都不好。

        基于知识图谱:保证完整性;

1.2.3  fine-tune

        咨询业务:需要模型具备专业的能力,用户的体验要高(响应时间),基于一个预训练的模型做训练;垂直模型;

       技术:Lora / QLora;

        LangChain

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2081947.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

可编程逻辑控制器故障排除

通常,逻辑控制器中大多数问题的根源可以缩小到以下区域之一的故障: 1. 处理器模块 2. 输入 3. 输出 4. 梯形图逻辑程序 除了使用万用表检查电源电压(假设您知道所需的 IO)之外,您还必须检查每个区域是否存在特定故…

Qt_qrc文件管理资源

qrc使用方式 1.在项目中创建一个qrc文件 文件名不要带中文和特殊符号 2.把图片导入到qrc文件中 所谓"前缀"可以理解成虚拟的目录,这个目录没有在你的电脑真实存在,是Qt自己抽象出来的,qrc机制本质上就是把图片的二进制数据,转成C代…

SeaweedFS 分布式存储

一、简介 SeaweedFS 是一种多功能且高效的存储系统,旨在满足现代系统管理员管理 blob、对象、文件和数据仓库存储需求的需求。无论数据集的大小如何,其架构都能保证快速访问时间,磁盘寻道时间为常数时间 (O(1))。这使其成为速度和效率至关重…

实验设计不好搞?ChatGPT少不了!【附示例】

学境思源,一键生成论文初稿: AcademicIdeas - 学境思源AI论文写作 实验设计是确保研究科学性和可靠性的关键环节。然而,许多同学在进行毕业论文实验设计时,常常面临选题、变量确定、实验流程规划等诸多挑战。ChatGPT能够提供全方…

联想小新 Pro 16:AI启航版,定义笔记本性能新高度

联想小新 Pro 16 AI元启版笔记本以其搭载的英特尔酷睿Ultra 9-185H处理器,16核心22线程的豪华配置,成为市场上的性能巨擘。搭配32GB LPDDR5x RAM和1TB PCIe 4.0 SSD,这款笔记本在处理高负载任务时展现出无与伦比的流畅性,无论是图…

基于大数据分析景区消费行为影响因素研究【消费等级预测、携程,去哪网数据抓取】

有需要本项目的可以私信博主,讲解、部署 目录 摘要.... 1 Abstract 2 1引言... 3 1.1 研究背景... 3 1.2 国内外研究现状... 4 1.3 研究目的... 5 1.4 研究意义... 6 2 关键技术理论介绍... 7 2.1 网络爬虫... 7 2.2 Python介绍... 8 2.3 随机森林... 9…

three.js渲染中文的3D字体

下载中文字体 引入下面的代码 点击下载 提取码: lywa <!DOCTYPE html> <html lang"en"><head><title>three.js webgl - modifier - tessellation</title><meta charset"utf-8"><meta name"viewport" c…

哪个牌子的电容笔好用?2024开学季深度测评五款高人气平替电容笔

​随着数字化时代的到来&#xff0c;众多工作和学习活动都转向了线上平台。这一趋势推动了电容笔市场的迅速扩张&#xff0c;吸引了众多新品牌加入竞争。面对市场上琳琅满目的选择&#xff0c;消费者在挑选可能会感到更加困难&#xff0c;不知道到底哪个牌子的电容笔好用。作为…

FL Studio24.1.1.4239无限试用版安装包下载!快来尝鲜吧!

在音乐制作领域&#xff0c;FL Studio一直以其强大的功能和用户友好的界面受到广大音乐制作人的喜爱。最近&#xff0c;它的版本更新到了24.1.1.4239&#xff0c;这次更新带来了许多令人兴奋的新功能和改进&#xff0c;让音乐创作变得更加轻松和有趣。 FL Studio21汉化版下载网…

专利申请下来后每年需要缴纳年费吗

专利申请下来后每年需要缴纳年费吗&#xff1f; 我们首先需要明确的是&#xff0c;根据我国《中华人民共和国专利法》及相关法规&#xff0c;专利权人在获得专利权后&#xff0c;确实需要按照规定缴纳年费以维持其专利权的有效性。 专利年费的法律依据 《中华人民共和国专利法》…

stm32_WS2812B

1结构 实物 内部结构 2引脚与接线 电压特性 引脚意思 脚号符号管脚名功能2DO&#xff08;DOUT&#xff09;数据输出控制信号输出3GND地接地4DI&#xff08;DIN&#xff09;数据输入控制信号输入1VDD电源供电管脚 多个如何接线 3数据传输方法 是如何控制多个的 在硬件连接…

【Qt笔记】Qt中各个布局详解

目录 引言 一、QHBoxLayout&#xff08;水平布局&#xff09; 1.1 基础特性 1.2 代码示例 1.3 效果展示 二、QVBoxLayout&#xff08;垂直布局&#xff09; 2.1 基础特性 2.2 代码示例 2.3 效果展示 三、QGridLayout&#xff08;网格布局&#xff09; 3.1 基础特性…

NC 判断t1树中是否有与t2树完全相同的子树

系列文章目录 文章目录 系列文章目录前言 前言 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到网站&#xff0c;这篇文章男女通用&#xff0c;看懂了就去分享给你的码吧。 描述 给定彼此独立…

深度学习中的一些函数

目录 nn.Embeddingtriu 函数copy.deepcopy nn.Embedding #参数1&#xff1a;词表大小&#xff08;即词表单词个数&#xff09;即只要输入的值在0——n-1之间就可&#xff0c;对于序列长度无影响。 #参数2&#xff1a;词映射的维度n&#xff08;即将每个词映射成一个二维1*n&am…

文字短信怎么利用Python接口发送短信

在信息爆炸的今天&#xff0c;沟通成为了我们日常生活和工作中不可或缺的一部分。无论是企业运营、市场营销&#xff0c;还是个人交流、节日祝福&#xff0c;如何快速、准确地传递信息成为了许多人关注的焦点。群发短信&#xff0c;作为一种高效、经济的沟通方式&#xff0c;正…

一个prolog最简单推理示例

假设现在知道一些年轻人&#xff0c;谁喜欢谁&#xff0c;定义为love(x, y)&#xff1b; 定义了一些这样的关系&#xff1b; 如果x喜欢y&#xff0c;y也喜欢x&#xff0c;则定义他们是一对情侣&#xff1b; 规则表示为&#xff1a; lovers(X,Y) :- love(X,Y), love(Y,X). 输入…

Python | Leetcode Python题解之第376题摆动序列

题目&#xff1a; 题解&#xff1a; class Solution:def wiggleMaxLength(self, nums: List[int]) -> int:n len(nums)if n < 2:return nprevdiff nums[1] - nums[0]ret (2 if prevdiff ! 0 else 1)for i in range(2, n):diff nums[i] - nums[i - 1]if (diff > 0…

Java 5.1 - Spring

Spring 基础 什么是 Spring 框架&#xff1f; 开源的 轻量级的 Java 开发框架&#xff0c;旨在提高开发效率和系统可维护性。 一般我们说 Spring 都是指 Spring FrameWork&#xff0c;它是很多模块的集合&#xff0c;使用这些模块可以很方便地帮助我们进行 Java 开发。例如 …

监控电脑屏幕的软件叫什么?8款好用的监控电脑屏幕的软件推荐!

远程办公和数字化管理的风潮席卷而来&#xff0c;电脑屏幕监控软件已经悄然成为了企业和家庭不可或缺的得力助手。 这些神奇的小工具&#xff0c;不仅能让老板们远程监督员工的工作状态&#xff0c;确保团队高效运转&#xff0c;还能守护企业的信息安全。 接下来&#xff0c;…

JavaEE-传输层协议

目录 一、UDP协议 二、TCP协议 TCP报文结构 TCP十大核心机制 确认应答 超时重传 接收缓冲区 连接管理 建立连接 断开连接 一、UDP协议 学习一个网络协议首先要学习报文结构。 对于UDP协议来说&#xff0c;应用层数据到达UDP后就会给应用层数据加上UDP报头。 &#…