大模型基础知识 - 语言模型及其演进

news2024/11/26 5:40:42

开场白

人工智能发展到现在,在2个重要领域取得了重大突破,有望达到人类水平:

  • 计算机视觉 (Computer Vision, CV)-> 希望机器帮助人类处理图像数据
  • 自然语言处理(Natural Language Processing, NLP)-> 希望机器帮助人类处理文本数据

AIGC

  • 计算机视觉 (Computer Vision, CV)-> AI作画
  • 自然语言处理(Natural Language Processing, NLP)-> 文本生成

自然语言处理在大语言模型(Large Language Model, LLM)被提出之后,再次取得重大突破:

  1. 以ChatGPT为代表的对话大模型有望重新定义人类使用计算机的方式

    • 直接以自然语言让计算机执行任务替代编程语言已具备可能性
  2. 使用大模型的能力设计开发互联网产品,有望颠覆部分领域产品设计开发模式

    • 举个🌰:百度翻译、谷歌翻译

注:

  1. 关于使用计算机的方式 -> 我们这里讲的是底层的使用方式,应用层来看的话都是通过软件来使用,但软件也是经由编写程序编译之后的产物,归根结底还是通过代码。
  2. 关于颠覆部分领域 -> 负责任地讲,目前还是有一些领域传统方法效率和结果更好,未来不确定。

接下来我们来从0到1了解一下大语言模型背后的基础知识。

导语

通过本节课程,希望大家能够了解:

  1. 语言模型的数学基础:概率语言模型 (25分钟)
  2. 神经网络语言模型的发展历史:即大语言模型是如何发展而来的 (10分钟)
  3. GPT训练流程:大语言模型是如何训练的 (10分钟)

语言模型 Language Model

根据语言客观事实而进行的语言抽象数学建模,是一种对应关系。
语言模型与语言客观事实之间的关系,如同数学上的抽象直线与具体直线之间的关系。

语言模型发展简史

概率语言模型 Probabilistic Language Model

一说统计语言模型 Statistic Language Model
概率语言模型是一个基于概率的判别式模型,它的输入是一句话即多个单词组成的顺序序列,输出是这句话的概率,即这些单词的联合概率(joint probability)。

compute the probability of a sentence or sequence of words

概率语言模型是一个针对语言进行数学建模的概率模型它衡量了一句话,也即是多个单词的组成的顺序序列,在语料库(corpus)中实际存在的概率如果语料库无限大,那么这个概率扩展到这句话实际在自然语言中存在的概率

注:也可以理解为是也可以理解为它是真实正确的一句话的概率。

css
复制代码
I like eating apples. ✅
I prefer coke to soda. ✅
Enjoy basketball playing I. ❌

以上面3个句子为例,前2句是真实句子,在日常生活中可能会被用到,第3句则不是。

N-Gram语言模型

假定一个自然语言句子WWW由lll个单词组成,记为w_1,w_2,…,wlw_1,w_2,…,w_lw_1,w_2,…,wl​,那么:
P(W)=P(w1,w2,…wl)=p(w1)p(w2∣w1)p(w3∣(w1,w2))…p(wl∣w1,w2,…,wl−1)P(W) = P(w_1,w_2,…w_l)=p(w_1)p(w_2|w_1)p(w_3|(w_1,w_2))…p(w_l|w_1,w_2,…,w_{l-1})P(W)=P(w1​,w2​,…wl​)=p(w1​)p(w2​∣w1​)p(w3​∣(w1​,w2​))…p(wl​∣w1​,w2​,…,wl−1​)

条件概率公式:
P(B∣A)=P(AB)/P(A)P(B|A) = P(AB)/P(A)P(B∣A)=P(AB)/P(A) P(AB)=P(A)∗P(B∣A)P(AB) = P(A)*P(B|A)P(AB)=P(A)∗P(B∣A) P(ABC)=P(A)∗P(B∣A)∗∣P(C∣AB)P(ABC) = P(A)P(B|A)|P(C|AB)P(ABC)=P(A)∗P(B∣A)∗∣P(C∣AB)

这么计算概率有个问题:0<p(wi)<10<p(w_i)<10<p(wi​)<1 ,句子越长,参数空间越大,概率越接近0,数据稀疏严重。

引入马尔科夫假设(Markov Assumption),即下一个词的出现仅依赖于它前面的n−1n-1n−1个词,我们得到: p(wi∣w1,w2,…wi−1)=p(wi∣wi−n,…wi−1)p(w_i|w_1,w_2,…w_{i-1})=p(w_i|w_{i-n},…w_{i-1})p(wi​∣w1​,w2​,…wi−1​)=p(wi​∣wi−n​,…wi−1​)

马尔科夫性质:当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态;换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么此随机过程即具有马尔可夫性质。 这里引入马尔科夫假设,认为按从左到右读到的一句话有时间先后的概念,后面的单词仅依赖于它前面的n-1个单词。

n=n=n=表示下一个词的出现不依赖它前面的0个单词,即每个单词条件独立,称为unigram model P(w1,w2,…,wl)=∏i=1lP(wi)P(w_1,w_2,…,w_l)=\prod_{i=1}^{l}P(w_i)P(w1​,w2​,…,wl​)=∏i=1l​P(wi​)

erlang
复制代码
# English
Questions make difference.
Questions make reality.
Questions begin a quest.

# 中文
我吃苹果。
我吃香蕉。
我喝可乐。

提问:
给定单词“我”,下一个单词是吃的概率是多少?下一个单字是喝的概率是多少?“我吃苹果”整句话的概率是多少?

n=2n=2n=2表示下一个词的出现只依赖它前面的1个词,称为bigram model P(w1,w2,…,wl)=∏i=1lP(wi∣wi−1)P(w_1,w_2,…,w_l)=\prod_{i=1}^{l}P(w_i|w_{i-1})P(w1​,w2​,…,wl​)=∏i=1l​P(wi​∣wi−1​)

n=3n=3n=3表示下一个词的出现只依赖它前面的2个词,称为trigram model(常用) P(w1,w2,…,wl)=∏i=1lP(wi∣wi−2wi−1)P(w_1,w_2,…,w_l)=\prod_{i=1}^{l}P(w_i|w_{i-2}w_{i-1})P(w1​,w2​,…,wl​)=∏i=1l​P(wi​∣wi−2​wi−1​)

以此类推,我们的得到了给定nnn词,输出下一个词概率的语言模型: P(W)=∏i=1lp(wi∣wi−n+1i−1)P(W)=\prod_{i=1}{l}p(w_i|w_{i-n+1}{i-1})P(W)=∏i=1l​p(wi​∣wi−n+1i−1​),其中wijw_i^jwij​表示单词序列wi,w2,…,wjw_i,w_2,…,w_jwi​,w2​,…,wj​

构建语言模型可以使用最大似然估计(Maximum Likelihood Estimate)生成每一个条件概率,以unigram为例即: p(wi∣wi−1)=count(wi−1,wi)/count(wi−1)p(w_i|w_{i-1})=count(w_{i-1},w_i)/count(w_{i-1})p(wi​∣wi−1​)=count(wi−1​,wi​)/count(wi−1​)

计算概率语言模型公式的每一个组成元素,再将所有组成元素连乘,即得整个句子的概率。

提问(非常重要)
给定n个词,为语料库里面的所有单词依次计算概率,选概率最大的那个单词,作为n+1个单词输出,想想我们在做什么?

给定n+1个单词,求第n+2个单词,…,我们在做文本生成这就是语言模型最朴素的原理

这种用法下,我们将n-gram模型作为生成式模型使用。

N-gram语言模型实际效果并不好,能解决的实际问题非常有限,因而自然语言处理在概率语言模型阶段没有产生太大影响力。

神经网络语言模型 (NNLM)

随着深度学习的出现和崛起,我们有了一个强有力的工具:人工神经网络
神经网络语言模型即使用神经网络来进行语言建模我们将给定的n个单词作为输入,预测第n+1个单词作为输出,那么可以使用监督学习的方式通过标记数据集让神经网络学习到输入输出之间的映射关系。

NNLM

NNLM, Neural Network Language Model
A Neural Probabilistic Language Model (2000, 2003)

在这里插入图片描述

使用一个简单的神经网络来替代概率模型,模型的训练目标定义为给定 n n n个单词作为上下文,预测下一个单词是上下文中的第 i i i个单词,输入层 C C C表示一个共享的矩阵参数,随机初始化, C i C_i Ci​表示语料库中第 i i i个单词的特征向量。

提问(非常重要)
输入层的矩阵 C C C是什么?

答案:词向量

Word2Vec

Efficient Estimation of Word Representations in Vector Space(2013)
训练神经网络语言模型过程中,将神经网络的权重值作为词向量来使用

现在我们讲的词向量,其实是训练语言模型过程中的副产品
在这里插入图片描述

项目Value
CBOW (Continuous Bag-of-Words Model)Skip-gram
CBOW 的基本思想为以上下文作为输入,预测中间词。具体而言,设定一个上下文范围 N,输入为中间词的前 N 个单词和后 N 个单词,输出为中间词的概率分布,训练目标是真实中间词的概率最大(即argmax),也即1次分类过程。Skip-gram基本思想为以中间单词作为输入,预测上下文。具体而言,设定一个上下文范围 N,输入为中间词,输出为前 N 个单词和后 N 个单词的概率分布,训练目标是2N次概率输出,每次使得真实上下文词的概率最大(即2N次argmax),也即2N次分类过程。训练过程的参数规模非常巨大,有Hierarchical Softmax、Negative Sampling等方式降低计算复杂度,这里不再展开。

神经网络语言模型架构演进

上个小节介绍的NNLM和Word2Vec是一个DNN架构的神经网络语言模型,随着神经网络架构的演进,神经网络语言模型的架构也在不断演进:

大规模语言模型 Large Language Model (LLM

PaLM、LLaMA、GPT 3.5、GPT 4

大规模语言模型(Large Language Model, LLM) ,即参数规模非常大的神经网络语言模型,由神经网络语言模型随网络架构经长时间发展迭代而来,特点是参数规模达到一定量级(千万~亿)之后,出现了涌现能力,使得模型在各项NLP任务中取得重大突破,接近人类水平。

涌现能力一句话介绍就是模型参数达到一定量级(亿),能力突飞猛进,更多详情,可以参见:

LLM的涌现能力和Scaling
Emergent Abilities of Large Language Models
Scaling Laws for Neural Language Models

神经网络语言模型发展史

nlp中的预训练语言模型总结(单向模型、BERT系列模型、XLNet)

大模型时代之前 ->2019

预训练模型
NLP范式:Pre-training + fintuning 即预训练 + 下游任务精调

在这里插入图片描述

  1. Pre-training -> 训练通用语言模型 (相当于训练模型认识自然语言)
  2. Fine-tuning -> 训练下游NLP任务(相当于训练模型执行任务)

在这里插入图片描述
在这里插入图片描述

大模型时代 2019->

Pre-training + instruction fintuning + RLHF 即 预训练+指令精调+RLHF
下一节的GPT训练流程部分有详细描述

在这里插入图片描述
PaLM: arxiv.org/pdf/2204.02…
LLaMA: arxiv.org/pdf/2302.13…

清华提出了ChatGLM系列,并开源了其中的ChatGLM-6B和ChatGLM2-6B,在C-Eval上测试是目前最好的中文大模型:

cevalbenchmark.com/static/lead…

在这里插入图片描述

GPT发展史

如果我们单看GPT的话

在这里插入图片描述GPT-1: Improving Language Understanding by Generative Pre-Training
GPT-2: Language Models are Unsupervised Multitask Learners
GPT-3: Language Models are Few-Shot Learners

ChatGPT训练流程

图源:State of GPT - Microsoft Build

在这里插入图片描述
笔者翻译上图如下:
请添加图片描述

阶段子阶段目标备注
Pre-Training--------语言建模
Instruction Finetuning---------让模型能够理解自然语言指令
RLHFReward Modeling奖励建模,用来代替人工打分,降低标注成本奖励模型是用来建模强化学习的一个组件
RLHFReinforcement Learning强化学习建模,通过强化学习的方式训练模型输出奖励最大的文本,即更符合人类偏好的文本

强化学习建模过程如下:

  1. 将指令精调后的大语言模型作为Agent,agent的action即给定输入文本 i i i进入 S t a t e State State S i S_i Si​后的文本 O u t p u t i Output_i Outputi​。
  • 所有可能输入的文本构成了agent的状态空间
  • 所有可能输出的文本构成了agent的动作空间
  1. 奖励模型作为Environment对模型输出进行打分,将分数作为奖励。

注:
3. 二元分类说法并不准确,原始目标是希望对两个生成的回复进行打分即两者之间按更符合人类预期进行比较,胜出的回复应该得到更多的分数,亦即获得更大的奖励。或者也可以认为是在两者之间做分类,将更符合人类预期的筛选出来,但前者是更加准确的描述。
在这里插入图片描述
图源:cs224n-2023-lecture11-prompting-rlhf.pdf

  1. 奖励模型是用来实现强化学习的一个辅助模型,可以理解为强化学习建模中的环境(Environment)**

Key Takeaway

  1. 概率语言模型设计用于计算一个句话在自然语言中出现的概率
    n-gram语言模型是概率语言模型基于条件独立假设的简化,给定n个单词,它可以用来预测第n+1单词
  2. 语言建模(即训练语言模型的过程):给定n个单词,预测第n+1个单词是什么。神经网络语言模型使用神经网络进行语言建模。
  3. 神经网络语言模型随着自然语言处理领域不断提出新的网络架构逐步演进,transformer是其中一个标志性里程碑。基于transformer,Google和Open AI分别提出了BERT和GPT 1.0/2.0,开启了自然语言处理pretraining + fintuning(预训练语言模型)的时代,模型参数到达亿级别,大语言模型的雏形出现。
  4. 随着神经网络语言模型的参数量继续增大到一个千亿级别,开始表现出强大的涌现能力,辅以instruction fituning和RLHF的(大语言模型)训练流程改进,突破性的大语言模型ChatGPT出现,大模型时代来临。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1578650.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

rsync+inotify实时同步 和 GFS分布式文件系统概述

目录 一、rsyncinotify实时同步 1.1.实时同步的优点 1.2.Linux内核的inotify机制 1.3.发起端配置rsyncInotify 1.4.配置远程登陆 1.4.1.修改rsync源服务器配置192.168.190.101 ​编辑 1.4.2.配置server 192.168.190.102 二、GFS 2.1.GlusterFS简介 2.2.GlusterFS特点…

6 个典型的Java 设计模式应用场景题

单例模式(Singleton) 场景: 在一个Web服务中,数据库连接池应当在整个应用生命周期中只创建一次,以减少资源消耗和提升性能。使用单例模式确保数据库连接池的唯一实例。 代码实现: import java.sql.Connection; import java.sql.SQLException;public class DatabaseConne…

【SCI绘图】【热力图系列2 R】多特征相关性分析热力图指定聚类 R

SCI&#xff0c;CCF&#xff0c;EI及核心期刊绘图宝典&#xff0c;爆款持续更新&#xff0c;助力科研&#xff01; 本期分享&#xff1a; 【SCI绘图】【热力图系列2 R】多特征相关性分析热力图指定聚类 R 1.环境准备 library(gplots) library(RColorBrewer)2.数据读取 ###…

AI如何与健康管理相结合

AI与健康管理的结合是当今科技和医疗领域的一个重要趋势。随着人工智能技术的不断发展和完善&#xff0c;它在健康管理方面的应用越来越广泛&#xff0c;为人们提供了更加高效、精准和个性化的健康管理服务。本文将探讨AI如何与健康管理相结合&#xff0c;以及这种结合所带来的…

1.Godot引擎|场景|节点|GDS|介绍

Godot介绍 Godot是一款游戏引擎 可以通过在steam商城免费下载 初学者和编程基础稍差的推荐学习使用GDScript&#xff0c;和python有些相似 Godot节点 Godot的开发思想——围绕节点 节点的特征与优势 最常用基本的开发组件大部分都具有具体的功能&#xff0c;如图片&#xf…

JavaScript - 你知道==、===和Object.is的区别吗

难度级别:初级及以上 提问概率:75% 因为==操作符会存在数据类型的隐式转换,所以最终判断的是转换后的值是否相等,经过总结发现,除了null、undefined和NaN以外,其他的数据类型在遇到==数据转换时候,更倾向于先转为数值类型再进行比较,…

UE4_动画基础_ 使用分层动画(Using Layered Animations)

完成在移动过程中武器发射的角色制作&#xff01; 动画混合仅仅意味着在一个角色或骨架网格体上的两个或多个动画之间进行平滑过渡。在虚幻引擎4中&#xff0c;有多种方法可以应用这种混合&#xff0c;要么通过混合空间&#xff0c;或通过实际组合两个基于加权偏差或alpha值的…

【记录】LangChain|llama 2速通版

官方教程非常长&#xff0c;我看了很认可&#xff0c;但是看完了之后呢就需要一些整理得当的笔记让我自己能更快地找到需求。所以有了这篇文章。【写给自己看的&#xff0c;里面半句废话的解释都没有&#xff0c;如果看不懂的话直接看官方教程再看我的】 我是不打算一开始就用…

【简单讲解下Lisp的学习历程】

&#x1f3a5;博主&#xff1a;程序员不想YY啊 &#x1f4ab;CSDN优质创作者&#xff0c;CSDN实力新星&#xff0c;CSDN博客专家 &#x1f917;点赞&#x1f388;收藏⭐再看&#x1f4ab;养成习惯 ✨希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出…

科研学习|科研软件——SPSS统计作图教程:多组折线图(≥3个变量)

一、问题与数据 研究者想研究45-65岁不同性别人群中静坐时长和血胆固醇水平的关系,分别招募50名男性和女性(gender)询问其每天静坐时长(time,分钟),并检测其血液中胆固醇水平(cholesterol, mmol/L),部分数据如图1。研究者该如何绘图展示这两者间的关系呢? 二、问题…

数据结构与算法:哈希表

目录 1.哈希表和哈希 1.1.知识引入 1.2.为什么需要哈希表呢&#xff1f; 2.简易的哈希表 2.1.哈希表的基础结构 2.2.如何实现基础的哈希表 2.2.1.增 2.2.2.删 2.2.3.查 2.3.泛型编程下的哈希表 3.简易的哈希桶 1.哈希表和哈希 1.1.知识引入 哈希表&#xff08;Hash …

面试必问!鸿蒙开发中的FA模型和Stage模型是什么?他们分别有什么区别?

鸿蒙OS&#xff08;HarmonyOS&#xff09; 是面向全场景的分布式操作系统&#xff0c;它通过创新的应用模型&#xff0c;为开发者提供了强大的应用开发框架。 在HarmonyOS的发展过程中&#xff0c;FA模型&#xff08;Feature Ability&#xff09;和Stage模型是两种重要的应用模…

10倍提效!用ChatGPT编写系统功能文档。。。

系统功能文档是一种描述软件系统功能和操作方式的文档。它让开发团队、测试人员、项目管理者、客户和最终用户对系统行为有清晰、全面的了解。 通过ChatGPT&#xff0c;我们能让编写系统功能文档的效率提升10倍以上。 ​《Leetcode算法刷题宝典》一位阿里P8大佬总结的刷题笔记…

单调栈(LeetCode-下一个更大元素)

每日一题 今天刷到了一道用到单调栈来解决的题目&#xff0c;想到自己没有总结过单调栈的知识点&#xff0c;因此想总结一下。 介绍 什么是单调栈&#xff1f; 单调栈的定义其实很简单&#xff0c;所谓单调栈就是指一个单调递增或是单调递减的栈。 那单调栈有什么用呢&#x…

[AI in sec]-039 DNS隐蔽信道的检测-特征构建

DNS隐蔽信道是什么 DCC是指利用DNS数据包中的可定义字段秘密传递信息的通道。其中,“DNS 协议”是目前网络上使用的标准域名解析协议;“可定义字段”是DNS 数据包中的 QNAME 字段、RDATA 字段及RawUDP字段。利用DNS数据包可以构建2种信道:存储信道及时间信道。DCC可以被用于…

长文本大模型火爆国内AI市场,算力需求激增引领行业变革

近期&#xff0c;一款名为Kimi的大模型火爆国内AI市场&#xff0c;以其出色的长文本处理能力和广泛的应用前景吸引了众多关注。随着Kimi等长文本大模型的流行&#xff0c;算力需求持续增长&#xff0c;为AI行业带来了新的变革和机遇。 Kimi突破长文本处理极限&#xff0c;为复杂…

RFID涉密载体柜 RFID智能文件柜系统

涉密载体管控RFID智能柜&#xff08;载体柜DW-G101R&#xff09;通过对涉密物资、设备进行RFID唯一标识并放置于RFID设备涉密物资柜柜体&#xff0c;通过定位每台设备每件涉密物资的位置&#xff0c;实现涉密物资审批、自助借还、防盗等出入库全流程自动化管理。主要管理对象移…

计算机研究生规划

一、计算机研究生技术栈 两条腿走路: 左侧工程实践能力&#xff1a;要掌握python编程语言&#xff0c;它和机器学习、神经网络&#xff08;这两门几乎是必须掌握的技能&#xff09;的学习有很大关系 右侧学术创新能力 二、编程语言能力提升 左边基础&#xff0c;右边教你写…

ICLR24_OUT-OF-DISTRIBUTION DETECTION WITH NEGATIVE PROMPTS

摘要 分布外检测&#xff08;OOD Detection&#xff09;的研究对于开放世界&#xff08;open-world&#xff09;学习非常重要。受大模型&#xff08;CLIP&#xff09;启发&#xff0c;部分工作匹配图像特征和提示来实现文本-图像特征之间的相似性。 现有工作难以处理具有与已…

ping命令返回无法访问目标主机和请求超时浅析

在日常经常用ping命令测试网络是否通信正常&#xff0c;使用ping命令时也经常会遇到这两种情况&#xff0c;那么表示网络出现了问题。 1、请求超时的原因 可以看到“请求超时”没有收到任何回复。要知道&#xff0c;IP数据报是有生存时间的&#xff0c;当其生存时间为零时就会…