Day13—大语言模型

news2024/10/7 5:55:42

定义

大语言模型(Large Language Models)是一种基于深度学习的自然语言处理(NLP)模型,用于处理和生成人类语言文本。

一、认识NLP

在这里插入图片描述

什么是NLP

​ NLP(Natural Language Processing),即“自然语言处理”,主要研究使用计算机来处理、理解及运用人类语言的各种理论和方法,属于人工智能的一个重要研究方向。

​ 简单来说,NLP就是如何让计算机理解人类语言。

NLP的主要研究方向

​ NLP是一个庞大的技术体系,研究方向主要包括机器翻译、信息检索、文档分类、问答系统、自动摘要、文本挖掘、知识图谱、语音识别、语音合成等。

​ 相较于CNN重点应用于计算机视觉领域,RNN则更多地应用于NLP方向。

word2vec

word2vec介绍

​ word2vec是一种基于神经网络的词嵌入技术,通过训练神经网络得到一个关于输入X和输出Y之间的语言模型,获取训练好的神经网络权重,这个权重是用来对输入词汇X进行向量化表示的。

word2vec的两种模型
  • CBOW模型

​ CBOW(Continuous Bag-of-Words Model),即“连续词袋模型”,其应用场景是根据上下文预测中间词,输入X是每个词汇的one-hot向量,输出Y为给定词汇表中每个词作为目标词的概率。
在这里插入图片描述

Skip-gram模型

也称为"跳字模型",应用场景是根据中间词预测上下文词,所以输入X为任意单词,输出Y为给定词汇表中每个词作为上下文词的概率。
在这里插入图片描述

二、全连接神经网络

在这里插入图片描述

全连接神经网络

​ 全连接神经网络是一种连接方式较为简单的人工神经网络结构,某一层的任意一个节点,都和上一层所有节点相连接。

在这里插入图片描述

神经网络的激活函数

在这里插入图片描述
在神经网络中可以引入非线性激活函数,这样就可以使得神经网络可以对数据进行非线性变换,解决线性模型的表达能力不足的问题。

常见的激活函数
  • Sigmoid激活函数

y = 1 1 + e − x \Large y=\frac{1}{1+e^{-x}} y=1+ex1

  • Relu激活函数

y = m a x ( 0 , x ) \Large y=max(0,x) y=max(0,x)

  • tanh激活函数

y = e x − e − x e x + e − x = 1 − e − 2 x 1 + e − 2 x \Large y=\frac{e^x-e^{-x}}{e^x+e^{-x}}=\frac{1-e^{-2x}}{1+e^{-2x}} y=ex+exexex=1+e2x1e2x

  • Softmax激活函数

p l = e z l ∑ j = 1 k e z j \Large p_l=\frac{e^{z_l}}{\sum_{j=1}^ke^{z_j}} pl=j=1kezjezl

Softmax激活函数计算的结果是各个分类的预测概率值,常用于多分类问题

神经网络的过拟合问题

在这里插入图片描述

​ 神经网络因为隐藏层的存在可以实现复杂的非线性拟合功能。但随着神经网络层数加深,神经网络很容易发生过拟合现象(在训练集上表现很好,在未知的测试集上表现很差,即“泛化能力差”)。

解决神经网络过拟合问题的方法
  • 正则化

​ 与很多机器学习算法一样,可以在待优化的目标函数上添加正则化项(例如L1、L2正则),可以在一定程度减少过拟合的程度。

  • Dropout(随机失活)

​ 可以将Dropout理解为对神经网络中的每一个神经元加上一道概率流程,使得在神经网络训练时能够随机使某个神经元失效。

在这里插入图片描述

**注意: **

  • 对于不同神经元个数的神经网络层,可以设置不同的失活或保留概率
  • 如果担心某些层所含神经元较多或比其他层更容易发生过拟合,则可以将该层的失活概率设置得更高一些
感知器工作机制

​ 感知器即单层神经网络,也即"人工神经元",是组成神经网络的最小单

前向传播与反向传播

前向传播

​ 计算输出值的过程称为“前向传播”:将上一层的输出作为下一层的输入,并计算下一层的输出,一直到运算到输出层为止。

反向传播(Back Propagation,BP)

​ 反向传播(BP)说白了根据根据J的公式对W和b求偏导,也就是求梯度。因为我们需要用梯度下降法来对参数进行更新,而更新就需要梯度。

在这里插入图片描述

总结:

前向传播得到输出,反向传播调整参数,最后以得到损失函数最小时的参数为最优学习参数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1864678.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue3+crypto-js插件实现对密码加密后传给后端

最近在做项目的过程中又遇到了一个新的问题,在实现后端管理系统的个人信息页面中,涉及到修改密码的功能,刚开始我直接通过传参的方式将修改的密码传入给后端,可是后端说需要将原密码、新密码以及确认密码都进行加密处理&#xff0…

高铝粉煤灰提取氧化铝可实现资源最大化利用 我国政府重视程度高

高铝粉煤灰提取氧化铝可实现资源最大化利用 我国政府重视程度高 高铝粉煤灰,是指氧化铝含量大于37%的粉煤灰,高铝粉煤灰提取氧化铝,是以高铝粉煤灰为原料,提取氧化铝的技术,可以提高我国氧化铝供应能力,实现…

C语言的学习发展路线(都是干货)

哈喽,大家好呀~我又回来了,前期比较忙,没有时间来更文,现在给大家推荐了一个C语言的学习路线,供大家一起学习啦! 1. 环境搭建与工具篇 选择编译器:常用的编译器有gcc、Clang、Visual Studio等。…

Linux rpm包管理

rpm用于互联网下载包的打包及安装工具,它包含在某些Linux分发版中。它生成具有.RPM扩展名的文件。RPM是RedHat Package Manager (RedHat软件包管理工具)的缩写,类似windows的setup.exe,这一文件格式名称虽然打上了RedHat的标志&am…

推荐给中小学生的暑假打字神器

暑假是孩子们放松身心、增长知识的好时机。在这个漫长的假期里,家长们不仅希望孩子能够快乐地度过每一天,还希望他们能在学习上有所进步。尤其是随着科技的发展,熟练的打字技巧已经成为现代学习和工作的基本技能之一。今天,我要向…

10分钟掌握Python缓存,效率提升1000%

全文速览 python的不同缓存组件的使用场景和使用样例cachetools的使用 项目背景 代码检查项目,需要存储每一步检查的中间结果,最终把结果汇总并写入文件中 在中间结果的存储中 可以使用context进行上下文的传递,但是整体对代码改动比较大…

Jira实践案例分享:小米集团如何通过API请求优化、数据治理与AI智能客服等,实现Jira系统的高效运维

日前,Atlassian中国合作伙伴企业日活动在上海成功举办。活动以“AI协同 创未来——如何利用人工智能提升团队协作,加速产品交付”为主题,深入探讨了AI技术在团队协作与产品交付中的创新应用与实践,吸引了众多业内专家、企业客户及…

股掌柜:实时行情数据和工具:揭示投资潜力的关键

如今充斥着各种投资信息、交易平台和金融工具的时代,如何抓住投资机会成为了每个投资者必须面对的重要挑战。一个明确的投资策略和准确的市场分析成为了判断市场走势和抓住投资机会的关键。而实时行情数据和工具的使用则能够为投资者提供全面、准确的市场信息&#…

选择诊所管理系统的原则是什么?

如今,诊所管理系统已成为医疗机构提升管理效率、优化患者服务的重要工具。然而,市场上的诊所管理系统琳琅满目,功能各异,因此,如何选择一款适合自己诊所的管理系统,是许多诊所管理者需要思考的问题。下面&a…

idea常用配置 | 快捷注释

idea快速注释 一、类上快速注释 (本方法是IDEA环境自带的,设置特别方便简单易使用) 1、偏好设置->编辑器->文件和代码模版 | File-Settings-Editor-File and Code Templates 2、右下方的“描述”中有相对应的自动注注释配置格式 贴…

什么是期货基金?

期货基金,是指广大投资者将资金集中起来,委托给专业的期货投资机构,并通过商品交易顾问进行期货投资交易,投资者承担投资风险并享有投资利润的一种集合投资方式。期货基金的投资对象主要有两大类商品:期货与金融期货。…

使用nvm命令进行node和npm版本下载以及切换

下载以及安装nvm方式 https://blog.csdn.net/ppz8823/article/details/130862191 1.查看nvm版本 nvm -v2.查看node 和 npm版本 node -v npm -v3.使用nvm查看已下载的node版本 nvm ls4.使用nvm 查看可使用的在线node版本 nvm list available4.下载想要使用的node版本&#x…

叉车装载机智能AI影像防撞系统,让车辆远离事故!

"员工受伤会给你的公司带来多少损失? 如果把安全放在首位,你会节省多少钱? 避免碰撞和降低工作场所的伤害风险,不仅可以挽救生命,还可以降低整体成本。" 你知道吗?2021年度全国叉车事故总数为42起…

互联网医院系统开发中的移动端应用设计

在现代医疗服务中,互联网医院系统逐渐成为提升患者体验和优化医疗资源的重要手段。而移动端应用作为互联网医院系统的关键组成部分,其设计和开发尤为重要。本文将从设计原则、技术架构和具体实现等方面探讨互联网医院系统中的移动端应用设计,…

Android studio Logcat 功能介绍

介绍 Android Studio Jellyfish版本下logcat功能,不同的tag会有不同的颜色,不同level等级的log默认也有不同的颜色。log过滤修改的更简洁了,原先的log视图只需要勾选就可以选择不同level的log了,当前需要在输入框中进行过滤器匹配…

高性能并行计算华为云实验三:蒙特卡罗算法实验

目录 一、实验目的 二、实验说明 三、实验过程 3.1 创建蒙特卡罗算法源码 3.2 Makefile的创建与编译 3.3 主机文件配置与运行监测​​​​​​​ 四、实验结果与分析 4.1 原教程对应的实验结果 4.2 改进后的实验结果 五、实验思考与总结 5.1 实验思考 5.2 实验总结…

高效安全的IPXProxy代理服务:摆脱免费代理的烦恼

​在现代互联网环境中,IP代理的使用变得越来越普遍。无论是企业级用户还是个人用户,都需要借助IP代理来实现隐私保护、网络加速和跨区域访问。然而,面对市场上众多的代理服务,有些用户会因为成本考虑而选择免费代理。然而&#xf…

用python做地图绘制

1.写代码 from pyecharts.charts import Map from pyecharts.options import VisualMapOptsmapMap() data[("上海市",122),("北京市",12),("天津市", 12),("广东省",22) ] map.add("测试地图",data) map.set_global_opts(v…

惠海 H6901B升压恒流3.7V 7.4V 12V 24V 30V 36V 48V 60V 80V 100V LED灯杯方案

H6901B是一款升压型LED恒流驱动芯片,具有良好稳定性的特点。H6901B的主要特点包括宽输入电压范围(2.7V-100V)、高工作频率(1MHz)以及多种保护功能(如芯片供电欠压保护、过温保护、软启动等)。此…

专业,城市,院校,高考填报志愿的三要素怎么排序?

我认为排序方式可以参考: 城市>学校 同样是计算机专业,不论学校的高低,一线城市更容易接触到时代的前端,有更多学习机会,有更好的文化氛围,同样在就业的时候也更容易接触到企业.... 如果要把专业考虑进…