优雅谈论大模型7:重新审视神经网络

news2025/1/17 0:03:09

这个专栏围绕着大模型的基本知识点深入浅出,章节之间的联系较为紧密。若在某个环节出现卡点,可以回到如何优雅的谈论大模型重新阅读。而斯坦福2024人工智能报告解读则为通识性读物。若对于如果构建生成级别的AI架构则可以关注AI架构设计专栏。技术宅麻烦死磕LLM背后的基础模型。

神经元

在继续往下的旅程之前,神经网络的基本知识十分重要,因为它涉及到后面大模型参数微调内容。于是就先停下来将一些基础知识讲明白。同时审视下神经网络的原理与背后的数学解释。如此可以更加优雅的理解大模型,当然受益的不仅仅是大模型技术,对于其他的深度神经网络也是十分重要。

左图为人类大脑中神经元的结构,神经元是由细胞体、轴突和树突三个主要部分构成的。其他神经元的信号利用树突传递到某个细胞体,细胞体把这些传递过来的信号整合加工,最终通过轴突的突触传递给周边神经元。所以说人类神经元的模型就是将输入进行加工,然后输出给周边的神经元,最后激活人类对应的反应和行为。

但是若任何的输入都会导致输出,人脑估计也是吃不消,而且会出现人的情绪极不稳定。因此每个神经元都会有一种自我保护的机制(有些资料称呼为阈值),若输入的信号太小或者不是神经元的关注点,那么就会忽略这个信号,不会继续往下传递。

于是科学家们对神经元的模型进行了数学抽象,将每个输入x乘以一个权重w,然后累加之后加上或者减去调整项θ输入激活函数去判断是否输出,以及输出的数值y,最后将这个数据传递给下游。

想象一下,人类大脑有近860亿个神经元,每个神经元有多达10000个突触。输入x可以是现实世界的任何感知,权重都是训练得出,就像小孩子或者宠物,都是通过不断地尝试,不断地学习最终让大脑中的神经元各司其职。而神经网络也是如此,通过对于大量样本的学习,让不同位置的神经元负责某个部分的识别,最终达到最优的效果。

每个人的神经元的权重应该是不一样的,这才造就了个体。而每个人的成长和意识都是由不同的大脑结构(神经网路架构),成长背景(训练模式),接触知识(训练语料),教育模式(调优模式)导致。

激活函数

因此到了这里完成了神经元到神经网络(神经单元)的蜕变。输入x1,x2, x3, 计算z=w1x1+w2x2+w3x3+θ,然后将z输入激活函数u中得到最终的输出值。若激活函数式单位阶跃函数的话,那么z要是小于0,一律输出0。

当然在实际运用中下图的σ激活函数(Sigmoid函数)使用最为广泛。因为它有很多优质的品质。比如它的导数等于自身和1减自身的积。在数值上,只需计算该函数在小范围数字上的值,例如[-10,+10]。对于小于-10的值,函数的值几乎为零。对于大于10的值,函数值几乎为1。

除了σ激活函数还有很多其他的函数,后续大家在看大模型架构的时候可以特意的留意下采用了什么激活函数。

神经网络

掌握了上面的基础知识之后,其实每个人都可以随意的构建自己心目中的神经网络,神经网络无非是将一个个的神经元连接起来。下图为一个经典的神经单元组织模式:阶层型的神经网络,层层递进,而这些中间层称之为隐藏层。

下图是一个具体的例子,例子中的神经网路只有一层的隐含层。将3*4的图像重新排序为一维的数组,然后输入,输入层和隐藏层全部连接,然后隐藏层和输出层也是全连接。图标蓝色的部分为被激活的连接,最终输出预测值0。

细心的同学可能会发现,隐藏层中A其实负责监测图像右边的“竖线”,而C负责监测图像左边的“竖线”,当输入满足的时候,“A”和“C”两个神经单元被激活,然后传递到“0”的神经单元,最终“0”的神经单元会被强力激活。

激活函数的输出离不开输入信号和权重,因此需要某种方式去训练神经网络的权重参数,让中间的这些隐藏层节点能够在整个任务中扮演特定的角色。而这些参数其实某种意义上就是对于信息的一种编码,存储在神经网络中。大模型技术某种意义将神经网络发挥到极致,不断地累加层级、参数量级和连接方式。在算力产业突破的情况下,进行大规模的训练,让复杂神经网络的信息编码更加的高效和智能。

各种组织方式的神经网络

权重学习

那么基础部分剩下最后一个问题,如何进行训练和调整参数。训练一开始所有的神经网络权重都是随机初始化。紧接着开始按照批次(本例的批次为64幅图)分别输入网络,输出预测结果。再将实际值和预测值进行“相减”,求出这个批次的所有预测值与实际值的代价函数,最后通过某种算法(梯度下降法或者其他),逐步的完成所有权重的更新操作。

相似度与点积

仔细观察这个公式,w和x,一个是权重参数,一个是输入,这样相乘的背后有什么数学意义没有?有,其实这样的运算就是求w向量(w1,w2,w3)和x向量(x1,x2,x3)的相似度(内积)。所以从某种意义而言,神经单元将输入和权重进行“相似度”的比较在进行决策是否输出。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1674790.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Hive JSON数据处理

Hive JSON数据处理 JSON(JavaScript Object Notation)文件格式是一种轻量级的数据交换格式,用于存储和传输结构化的数据。它基于JavaScript的语法,但是可以被多种编程语言所支持和解析,因此被广泛应用于各种场景。 J…

数据中心网络随想-电路交换

数据中心网络扩容并不容易,涉及设备上架,切换等又硬又大的动作,期间对所有应用都会产生影响,所以理论上 “加钱加硬件” 这种看起来很简单的事实际上真不如 “写一个随时部署升级的端到端拥塞控制算法” 更容易实施。 傍晚绕小区…

OpenAI春季发布会-免费多模态GPT4O-简介

前言 2024.5.14,OpenAI宣布即将发布一款性能更为强大的大模型GPT4o,虽然没有爆出些超级酷炫无敌吊炸天的新玩意,但是这次的多模态模型,大家可以免费用了~~(但是) 虽然是免费使用,但官方发布会上…

sentinel搭建及使用

1.添加依赖(版本可依赖于父pom) SentinalResource注解: 添加依赖: blockhandler: fallback:

Python 全栈体系【四阶】(四十二)

第五章 深度学习 九、图像分割 3. 常用模型 3.2 U-Net(2015) 生物医学分割是图像分割重要的应用领域。U-Net是2015年发表的用于生物医学图像分割的模型,该模型简单、高效、容易理解、容易定制,能在相对较小的数据集上实现学习…

分析 vs2019 c++ 中的 decltype 与 declval

(1) decltype 可以让推断其参数的类型。按住 ctrl 点击 decltype ,会发现无法查阅 其定义 : (2) 但 STL 库里咱们可以查阅函数 declval 的 定义,很短,摘抄如下: templat…

linux服务器测试NVIDIA显卡性能

1.测试环境 一台Linux服务器电脑(可联网) NVIDIA显卡 注意:仅仅测试浮点运算性能和内存带宽 2.安装测试软件 2.1检查驱动版本 输入指令nvidia-smi,主要是判断显卡驱动有没有安装。如果指令存在可显示如下: luhos…

MySql初学日记

MySql基础 概述 结构化查询语言(Structure Query Language)简称SQL。 是一种特殊的,标准的数据库编程语言,,一般的数据库管理系统都支持,用于对数据库进行增删改查等操作,实现数据持久化到本地。 使用完整的管理系…

[Fork.dev] 增加用idea打开

用Fork做git管理工具时, 只有vscode 和sublime 等. 没有idea的. 今天研究了下如何操作.记录一下 点击 Action 文本框进行编辑 Path填写idea的执行位置. Parameters: 填写 ${repo:path} 代表用idea打开的文件夹路径为当前. 最终显示效果

我是学生,申请加入!KubeBlocks 首次参与开源之夏,前沿技术、丰厚奖金、大牛导师等你来!

滴滴!KubeBlocks 参加今年的开源之夏了!现诚邀您一起探索优质开源社区,通过实战提升研发能力,快来报名项目,赢取奖金和证书吧! 开源之夏是什么? 开源之夏是中国科学院软件研究所发起的“开源软…

汇智知了堂布局鸿蒙生态:推出南向设备开发课程,助力物联网人才培养

随着重庆市在鸿蒙原生应用开发上的积极推进,包括上游新闻、新重庆、华龙网在内的多家传媒巨头携手华为开发者联盟,引领本地传媒业深入探索鸿蒙生态。在此背景下,汇智知了堂积极响应政府与行业的号召,宣布即日起正式开发鸿蒙南向设…

Flutter 玩转动画 + 自定义View 实现积分或金币领取流程动画

一、效果图 二、主要涉及的知识点 AnimationController、Animation、FractionalTranslation 动画Api的运用CustomPainter 自定义View以及每个时机的把握 主要是写篇博客来记录一下这个功能的实现,具体代码就看源代码了,有疑问可以私信沟通 源代码下载…

微服务熔断降级

什么是熔断降级 微服务中难免存在服务之间的远程调用,比如:内容管理服务远程调用媒资服务的上传文件接口,当微服务运行不正常会导致无法正常调用微服务,此时会出现异常,如果这种异常不去处理可能导致雪崩效应。 微服…

无货源做抖音小店怎么找货源?怎么判断厂家是不是源头厂家?

大家好,我是喷火龙 抖音小店无货源玩法最重要的就是找货源,找有优势、稳定、靠谱的供应链。 这篇文章就给大家讲一讲怎么去找货源,怎么找到真正的源头厂家。 一、怎么找货源? 无货源商家找货源在1688、多多上面可能会多点,因…

易图讯科技数字武装三维电子沙盘

深圳易图讯科技(www.3dgis.top)集成了高清卫星影像、地形数据、实景三维模型、基干民兵、普通民兵、重要目标、兵要地志、企业潜力 、行业潜力 、社会组织潜力 、特种装备器材潜力、敌情数据、现场环境数据、物联感知信息,构建一体化的数字孪生空间,实现…

被动防护不如主动出击

自网络的诞生以来,攻击威胁事件不断涌现,网络攻防对抗已然成为信息时代背景下的一场无硝烟的战争。然而,传统的网络防御技术,如防火墙和入侵检测技术,往往局限于一种被动的敌暗我明的防御模式,面对攻击者无…

CAD看图软件有哪些?这几款新手也能用

CAD看图软件有哪些?在工程设计、建筑制图、机械制造等领域,CAD(计算机辅助设计)看图软件是不可或缺的工具。然而,对于新手来说,选择一款合适的CAD看图软件可能会有些困难。那么,今天小编就来介绍…

【Linux】认识文件(四):文件系统,inode,以及软硬连接

【Linux】认识文件(四):文件系统,inode,以及软硬连接 一.磁盘(仅了解)1.组成2.CHS寻址 二.抽象化磁盘(仅了解)三.文件系统1.什么是文件系统2.ext2文件系统的结构i.Date blocksii.Block Bitmapiii.inode1.inode Table2.inode Bitmap iiiii.GDT…

VC 编程开发中的 封装类 :log日志类 和SQL server 操作类 源代码

VC 编程开发中的 封装类 :日志类 和SQL server 操作类 源代码 在VC(Visual C)开发中,日志文件输出是一个至关重要的环节,它对于程序调试、问题排查以及系统监控等方面都具有不可替代的作用。以下是对日志文件输出在VC开…

阿里云ECS服务器实例挂载数据盘步骤(磁盘自动挂载.、访问挂载点)

阿里云ECS服务器实例挂载数据盘步骤 相关指令 df -h 查看磁盘空间 du -sh * 查看使用内存大小1.磁盘自动挂载 首先登录阿里云ECS服务器,通过 df -h 命令查看当前磁盘挂载情况 通过 fdisk -l 命令查看磁盘情况,可以发现有两个盘: 系统盘 …