datawhale 大模型理论基础引言

datawhale 大模型理论基础引言

news2026/2/12 12:48:10

学习地址：大模型理论基础

一、什么是语言模型（Language Model)

语言模型其实是一个概率模型，给每一个句子列表计算一个概率值：
p(x1,…,xL)

例如：

p(the, mouse, ate, the, cheese)=0.02,

p(the, cheese ate, the, mouse)=0.01,p(the, cheese ate, the, mouse)=0.01

自回归语言模型(Autoregressive language models)

将一个句子的概率的表示成多个条件概率的相乘

二、信息理论、英语的熵、n-gram模型

2.1 信息熵：

信息熵也叫香侬熵，在物理上表示不确定性，熵越大，不确定性越高，包含的信息就越多。

2.2 交叉熵：

用来评估真实数据分布�p的样本的（语言）模型�q之间的差距

2.3 N-gram模型

在一个n-gram模型中，关于Xi的预测只依赖于最后的 n−1 个字符 ,即Xi−(n−1):i−1 ，而不是整个历史：

比如：n = 3

n 太小，那么模型将无法捕获长距离的依赖关系，
n太大，无法得到一个好的概率评估

三、大模型

3.1 强大的生成能力

在给定提示的情况下生成完成的文本： prompt -> task competion

3.2 具备一定的推理能力

目前开源的GPT3.5，4.0已经具备了一些逻辑推理能力，能够独立完成一些任务

3.3 风险

当然大模型还存在一些风险：
比如：
可靠性不能保证，可能输出的一段一本正经的乱说
可能生成社会偏见，或者带有侮辱等一些道德方面的文本

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1389648.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

HPE BladeSystem c7000 现场图片

HPE BladeSystem c7000 现场图片

阅读更多...

解决若依Vue3前后端分离---路由切换时显示白屏

解决若依Vue3前后端分离---路由切换时显示白屏

解决若依Vue3前后端分离---路由切换时显示白屏 1.问题重述解决基于Vue3若依前后端分离项目中出现的路由正常切换但是就是不显示数据的问题，也就是不发起网络请求的问题。找到如下位置中AppMain.vue文件将除了css中的代码进行替换成如下的代码。 <template&g…

阅读更多...

Python数据分析案例34——IMDB电影评论情感分析(Transformer)

Python数据分析案例34——IMDB电影评论情感分析(Transformer)

电影评论的情感分析案例背景很多同学对电影系列的数据都比较喜欢，那我就补充一下这个最经典的文本分类数据集，电影情感评论分析。用神经网络做。对国外的英文评论文本进行分类，看是正面还是负面情感。数据集介绍数据集：IMDb…

阅读更多...

C# wpf 获取控件的刷新时机

C# wpf 获取控件的刷新时机

文章目录前言一、为何需要刷新时机？例子一、隐藏控件后截屏例子二、修改控件大小后做计算二、如何实现？1.使用动画2.使用TaskCompletionSource 三、完整代码四、使用示例1、隐藏工具条截屏2、修改宽高后获取ActualWidth、ActualHeight 总结前言做wp…

阅读更多...

Codeforces Round 920 (Div. 3) F题根号分治，后缀和，后缀和的后缀和

Codeforces Round 920 (Div. 3) F题根号分治，后缀和，后缀和的后缀和

Problem - F - Codeforces 我看的这位UP的视频讲解 ： Codeforces Round 920 (Div. 3) F题根号分治详解_哔哩哔哩_bilibili 目录题意： 思路： 后缀和的后缀和: 后缀和的后缀和的中间段如何求： ———— 根号分治: 核心…

阅读更多...

2024极新生态营再出发，携手华为云点燃AI技术与商业创新的火花

2024极新生态营再出发，携手华为云点燃AI技术与商业创新的火花

“ 成功的风口是时间加产品竞争力 ” 文｜欣桐&凯丰编辑 | 云舒出品｜极新 2023年大模型获得突破性进展，正在带来新一轮科技革命和产业变革，众多头部企业在一年内完成了产品迭代、拿到多轮融资，初创企业更是如…

阅读更多...

Java-网络爬虫(三)

Java-网络爬虫(三)

文章目录前言一、爬虫的分类二、跳转页面的爬取三、网页去重四、综合案例1. 案例三上篇：Java-网络爬虫(二) 前言上篇文章介绍了 webMagic，通过一个简单的入门案例，对 webMagic 的核心对象和四大组件都做了简要的说明，以下内容…

阅读更多...

不是人才用不起，而是AI巡检更有性价比！

不是人才用不起，而是AI巡检更有性价比！

在许多行业中，如煤炭、电力、化工等，安全生产是至关重要的。这就需要通过巡检，对设备运行状态进行实时监测，及时发现并处理潜在的安全隐患，从而降低事故发生的概率。但是传统的巡检方式通常依赖于人工进行，…

阅读更多...

odoo17 | Qweb模板简介

odoo17 | Qweb模板简介

前言到目前为止，我们的房地产模块的界面设计还相当有限。构建列表视图很简单，因为只需要字段列表。表单视图也是如此：尽管使用了几个标签，如 <group>标签或 <page>标签 ，但在设计方面几乎没什么可做的。…

阅读更多...

【Java数据结构】04-图（Prim,Kruskal,Dijkstra,topo）

【Java数据结构】04-图（Prim,Kruskal,Dijkstra,topo）

5 图推荐辅助理解【视频讲解】bilibili Dijkstra Prim 【手动可视化】Algorithm Visualizer （https://algorithm-visualizer.org/） 【手动可视化】Data Structure Visualizations (https://www.cs.usfca.edu/~galles/visualization/Algorithms.ht…

阅读更多...

Python 捕获异常（Try Except Exception）

Python 捕获异常（Try Except Exception）

目录前言常见的十类异常类型： try...except...else语句格式示例1 示例2 捕获所有异常（常用） 格式示例 try...except...finally语句格式示例前言异常捕获就是针对某一部分可能出错的代码，在运行期间一旦出现…

阅读更多...

免费开源OCR 软件Umi-OCR

免费开源OCR 软件Umi-OCR

Umi-OCR 是一款免费、开源、可批量的离线 OCR 软件，基于 PaddleOCR，适用于 Windows10/11 平台免费：本项目所有代码开源，完全免费。方便：解压即用，离线运行，无需网络。高效：自带高效…

阅读更多...

Dhcp中继ensp

Dhcp中继ensp

拓扑图 <Huawei>system-view [Huawei]sysname SW1 [SW1]vlan batch 10 20 [SW1]int e0/0/1 #配置access接口 [SW1-Ethernet0/0/1]port link-type access [SW1-Ethernet0/0/1]port default vlan 10 [SW1-Etherne…

阅读更多...

基于4G数采终端的供热管网在线监测方案

基于4G数采终端的供热管网在线监测方案

我国大部地区全面进入到冬季，北方各地已开启冬季供暖，以保障居民生活所需。由于城市化的发展，城市内各供热区域愈发分散、供热管道漫长、供热环境复杂，对于供热管网及换热站点的监测和维护提出了诸多挑战。方案介绍针对提高供热…

阅读更多...

0、C++预备知识

0、C++预备知识

文章目录 C与C语言为什么要学习CC为什么难学c值得学习的新特征C参考书籍开发工具可移植性和标准程序创建的技巧编译和链接 C与C语言 C是一种计算机高级程序设计语言，C既可以进行C语言的过程化程序设计，又可以进行以抽象数据类型为特点的基于对象的程序…

阅读更多...

强化学习11——DQN算法

强化学习11——DQN算法

DQN算法的全称为，Deep Q-Network，即在Q-learning算法的基础上引用深度神经网络来近似动作函数 Q ( s , a ) Q(s,a) Q(s,a) 。对于传统的Q-learning，当状态或动作数量特别大的时候，如处理一张图片，假设为 210 160 3 …

阅读更多...

Android性能优化 | DEX 布局优化和启动配置文件

Android性能优化 | DEX 布局优化和启动配置文件

Android性能优化 | DEX 布局优化和启动配置文件引言使用DEX布局优化和启动配置文件是优化Android应用性能的有效途径。DEX布局优化可以通过优化应用程序中的DEX文件布局，从而加快Android应用的启动速度和执行速度。启动配置文件则提供了一种灵活的方式来控制应用…

阅读更多...

SDRAM小项目——命令解析模块

SDRAM小项目——命令解析模块

简单介绍： 在FPGA中实现命令解析模块，命令解析模块的用来把pc端传入FPGA中的数据分解为所需要的数据和触发命令，虽然代码不多，但是却十分重要。 SDRAM的整体结构如下，可以看出，命令解析模块cmd_decode负责…

阅读更多...

知存科技助力AI应用落地：WTMDK2101-ZT1评估板实地评测与性能揭秘

知存科技助力AI应用落地：WTMDK2101-ZT1评估板实地评测与性能揭秘

文章目录一、前言二、深入了解存算一体技术2.1 什么是存算一体2.2 存算一体技术发展历程2.3 基于不同存储介质的存内计算芯片性能比较三、国产存算一体，重大进展3.1 知存科技：我国存算一体领域的研发领导者四、知存科技新型 WTM2101 SOC 评估板使用评…

阅读更多...

【RTOS】快速体验FreeRTOS所有常用API（9）中断管理

【RTOS】快速体验FreeRTOS所有常用API（9）中断管理

目录九、中断管理9.1 基本概念9.2 两套API9.3 中断服务程序九、中断管理该部分暂无代码 9.1 基本概念 FreeRTOS中的中断管理主要涉及：两套API、中断服务编写不能阻塞、不能处理耗时任务ISR的优先级高于任务：即使是优先级最低的中断，它的…

阅读更多...

推荐文章

最新文章