深入理解生成式AI技术原理:初识生成式AI

news2024/10/7 14:22:07

📣📣📣📣📣📣📣

🎍大家好,我是慕枫
🎍前阿里巴巴高级工程师,InfoQ签约作者、阿里云专家博主,一直致力于用大白话讲解技术知识
🎍在这里和大家分享一线互联网大厂面试经验、技术人成长路线以及Java技术、分布式、高并发、架构设计方面的经验总结
🎍感恩遇见,希望我们都能成为更好的自己
📣📣📣📣📣📣📣

如果将人工智能按照用途进行简单分类的话,人工智能可以划分为决策式AI以及生成式AI两类。所谓决策式AI就是通过学习训练数据的中的条件概率分布情况来进行判断决策,判断样本属于指定目标的概率,比如人脸识别就是典型的决策式AI,终端设备根据摄像头获取到的人脸图像来进行特征信息匹配,和后台系统中的人脸特征库进行对比来判断当前人脸信息是否在系统人脸特征库中或者是否有权限执行操作。而以ChatGPT为代表的生成式AI通过对大量数据的联合概率进行学习,对已有的数据和知识进行归纳总结,同时结合深度学习技术,自动生成新的内容,而新生成的内容可以是文字、图片甚至是视频等多模态内容。本文主要简要介绍深度学习以及大模型基础内容,后续文章中将会继续深入分析这两方面的技术原理。

 

深度学习

深度学习是生成式AI背后比较核心的实现技术,它是机器学习的重要优化手段,而机器学习又是人工智能领域重要的落地实现措施。因此要想理解深度学习,我们先看下什么是机器学习,再来分析下它存在哪些不足才催生发展出来深度学习。关于机器学习有这样的定义。

怎么理解这句话呢?举个栗子大家瞬间就明白了,假如你开发了一个和别人下中国象棋的程序。那么E就表示下象棋的经验,T表示下象棋这件事情,而P就是下象棋可以取胜的概率。所以如果你编写的程序可以通过不断下象棋获得足够多的下象棋的经验,而通过经验的累积又能够提高下象棋获胜的概率,那么我们就可以认为你编写的下象棋的程序具备机器学习的能力。那么这种根据经验来实现程序学习能力优化提升到底是通过什么工程技术来实现的呢?人工神经网络就是通过工程技术手段来落地模拟人脑神经系统的结构和功能从而实现机器学习。

人工神经网络

仿生学一直是人类追求进步的工具,比如人类希望像鸟一样飞行于是发明了飞机,人类希望像鱼一样潜入水底于是发明了潜水艇,人类希望机器能够像人一样进行思考推理,于是开始研究自身大脑运行机理。人们发现自身大脑是由数百亿个神经元组成,这些神经元本身结构并不复杂,而这些神经元互相协作却能完成各项信息的接收处理以及输出,从而构成人的感知,记忆,分析,思考等高阶行为能力。而且随着人年龄的增长,学习能力也是在不断增强。因此如果可以设计出类似人类神经网络能力具备学习能力的系统,那么机器也会像人一样学习进步。实际上从本质上来看,我们可以将人类的大脑看作为一个信息处理器,视觉、听觉、触觉等都是大脑信息的输入信号,而大脑的神经元系统就是信息处理器处理各种输入信号给出对应的行为响应。

正因为受到了人脑神经元结构的启发,先驱们试图通过模拟人脑神经系统来让机器具备人类分析问题解决问题的智能行为。实际上早在1943年,数学家皮茨(Pitts)和麦卡洛克(McCulloch)就发表了论文《A Logical Calculus of Ideas Immanent in Nervous Activity》(《神经活动中思想内在性的逻辑演算》)揭开了人工神经网络研究的序幕。在这篇论文中提出了"人工神经元"抽象的数学模型(M-P Model)用以描述神经元的行为以及信息传递方式。

在M-P模型中,人工神经元可以接收来自外部的多个输入信号,每个输入信号与神经元之间的连接都有相应的连接权重,和生物学意义上的神经元类似,人工神经元同样拥有阈值,达到阈值才会激活神经元。而将将人工神经元进行收尾相连,如同大脑数以亿计的神经元网络,信息在不同的层级的神经元之间进行传递、处理以及抽象,这个过程我们就称之为思考。

此后在M-P模型基础之上,先驱们不但进行研究优化,海布学习规则、感知机学习以及适⽤于多层感知器的反向传播算法BP算法等都被相继提出,但是受限于计算机硬件算力的限制以及其他各种条件的影响。直到2006年,人工智能通过⽆监督的学习⽅法逐层训练算法,再使用有监督的反向传播算法进⾏调优,这种无监督学习和有监督学习相结合的方法在人工智能领域掀起了深度学习的研究浪潮,深度卷积神经网络架构AlexNet,循环神经网络(RecurrentNeuralNetworks,RNN)、长短期记忆网络(LongShort-TermMemory,LSTM)、生成式对抗网络(GenerativeAdversarialNetwork,GAN)等被相继提出。

如上图所示,对于机器学习来说它需要人工介入进行特征提取来帮助机器学习来实现分类处理,而深度学习不需要人工介入干预,自身便可以实现特征提取,这是两者最大的区别。

大模型

以前我们需要对大量标注过的数据进行训练,这样训练出来的模型都是专门应对某一领域的专才,就像AlphaGo一开始他只会下围棋,你让它下中国象棋它就不会了,如果需要它具备下中国象棋的技能就需要重新训练一套模型来支持。这就好比我们早期的烟囱式的技术架构,都是针对某一项特定的业务场景来进行系统平台的建设。但是随着大数据技术的发展、GPU强大算力支撑以及模型不断迭代优化带来了深度学习技术长足发展,特别是大模型出现之后可以以海量无标注的数据中进行自我学习来进行预训练 ,从而获得具备通用知识能力的大模型,而后再结合特定领域知识以及训练任务进行模型微调训练,让大模型成为某个领域的专家模型。比如结合医疗领域知识,那么就可以通过微调任务得到医疗领域模型,如果结合法律领域知识,那么就可以获取到法律领域模型,而不需要再重新训练一套模型。其实大模型的训练过程和我们人类学习的过程是一样的,我们小的时候语数外政治历史地理物理化学生物啥都学,但是到了大学开始分专业,到了研究生就在特定的专业领域进行深耕,最终成为一个专业人才。这个过程是不是和大模型的训练过程有异曲同工之妙。

总结

本文主要对生成型AI进行了初步阐述,同时针对生成型AI最核心的两个技术点分别进行了初步说明,后面的专栏文章中将继续以深度学习以及大模型核心技术点作为切入点来深入分析生成型AI背后的技术原理。希望通过系列文章的说明,让大家对于类似ChatGPT这样的生成型AI有一个更加深刻的理解。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/669415.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

三菱plc编程协议开发记录

目录 1 协议介绍 2 测试报文 3 PLC服务端仿真 4 java测试代码 1 协议介绍 Fx_Serial 通过Fx编程口协议连接三菱FX0N、FX1N、FX2N、FX3U FX3G、FX3S系列PLC。协议的详细介绍文档见附件“FX编程口协议.pdf”。 2 测试报文 组装各种类型报文测试,见附件“报文.xls…

Spring MVC框架步骤

目录 前言1. 配置开发环境2. 创建一个新的Maven项目3. 配置Web.xml文件4. 创建控制器类5. 创建视图6. 配置视图解析器7. 运行应用程序8. 测试应用程序 前言 Spring MVC是一种基于Java的Web应用程序开发框架,它可以帮助开发人员构建灵活、健壮和可扩展的Web应用程序…

【MongoDB】三、使用Java连接MongoDB

【MongoDB】三、使用Java连接MongoDB 实验目的实验内容练习1、开启Eclipse,创建Java Project项目,命名为Mongo12、添加项目依赖的jar包3、创建类MongoDemo4、连接数据库5、查看集合6、创建集合7、删除集合8、查看文档9、插入文档10、更新文档11、删除文档…

hive/spark数据倾斜解决方案

Hive数据倾斜以及解决方案 1、什么是数据倾斜 数据倾斜主要表现在,mapreduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他…

stm32驱动RFID高频读卡器读取IC卡

stm32驱动RFID读卡器读取IC卡 1.介绍RFID2.RFID控制指令2.1 读IC卡号2.2 读IC卡数据块2.3 写数据到IC卡数据块2.4 读取RFID读卡器用户数据2.5 向RFID读卡器写入用户数据 3.代码实例3.1 rfid.c 源文件3.2 rfid 头文件 4. 结语 1.介绍RFID RFID(Radio-Frequency Iden…

篮球比赛管理系统的设计与实现(论文+源码)_kaic

摘要 迅猛发展并日益成熟的网络已经彻底的影响了我们的方方面面。人们也确实真切的体会到了网络带给我们的便捷。本网站的设计理念在于作为一个天津大学生台球联盟推广网,就是能够尽可能详细地展示、介绍台球联盟资讯信息,播放视频,同时为广…

关于Eclipse代码断点调试与相关快捷键

关于Eclipse代码断点调试与相关快捷键 功能快捷键 首先关于DeBug测试的快捷键: Debug F5:Step Into(debug) F6:Step over(debug) F7:Step return(debug) F8&a…

化妆品行业知识分享

目录 一、产品基本信息 1.产品的组成 2. 产品分类 3.常见术语 二、产品特性 1.生产特性 2.销售特性 3.采购特性 4.研发特性 三、行业痛点与解决方案 1.行业主要存在的痛点 2.日常业务解决方案: 3.供应商管理解决方案: 四、总结 一、产品基本信息 1.产品的…

C++基础(13)——STL(stack、queue、list)

前言 本文主要介绍C中STL中的stack、queue和list容器 7.5:stack容器 7.5.1:stack容器基本概念 栈中只有顶端元素才可以被外界调用,因此栈不允许有遍历的行为,其中string、vector、deque都可以遍历 7.5.2:栈的常用接…

AT32F437网络通信

网络时间长了ping不通,解决方法 https :// https://hjha.bar:8443/vod 123456789 /play/id/32052/sid/1/nid/1.html

PYTHON强制升级openpyxl方法--已验证有效

当执行for i, row in enumerate(worksheet.iter_rows(min_row1, max_rowworksheet.max_row,values_onlyTrue)) 出现以下错误时:TypeError: iter_rows() got an unexpected keyword argument ‘values_only’ 说明openpyxl版本过低,需要升级,当…

指令模板:采访大纲生成 | AIGC实践

最近收获了一些朋友的谬赞,说我“执行力太强了”,可以持续输出内容。 呃,其实吧,这些素材都是从我的实际工作和生活中来的,只是稍加整理而已。 要说起来,AIGC的出现已经完全改变了我的工作方式。在遇到问题…

《中国多媒体与网络教学学报》简介及投稿邮箱

《中国多媒体与网络教学学报》简介及投稿邮箱 中国多媒体与网络教学学报 创刊于2002年,是经国家新闻出版总署批准的中央级电子期刊,是国内最早以多媒体形式发表中小学信息化教学改革前沿成果的学术期刊群,是教育部重点成果的发表平台之一,由教育部主管、清华大学主…

谈找工作线上途径

谈找工作 目录概述需求: 设计思路实现思路分析1.51job2.拉勾网 猎聘网站智联招聘网站后记 参考资料和推荐阅读 Survive by day and develop by night. talk for import biz , show your perfect code,full busy,skip hardness,make a better result,wait…

DDOS攻击防御实战(威胁情报)

背景: 不知道大家最近有没有关注到,百度云CDN不支持免费了,网站安全问题越来越严重了…… 常见攻击 DDOS Distributed Denial of Service 分布式拒绝服务攻击可以使很多的计算机在同一时间遭受到攻击,使攻击的目标无法正常使用&…

C++基础(14)——STL(set、pair、map)

前言 本文主要介绍C中STL中的set、pair和map容器 7.8:set、multiset容器 7.8.1:set容器基本概念、构造函数和赋值(、insert) set容器中所有元素都会在插入的时候自动排序 set和multiset的区别 set不允许有重复的元素&#xff…

i5/i7该选谁?差距大不大?i5-13490F、i7-13790F深度测试

一、i5、i7还是性能差不多吗? 自从2017年Zen架构发布开始,Intel与AMD在CPU性能竞争上就进入了激烈的内卷。随着双方在产品竞争上日趋白热化,同世代不同档次CPU产品的性能差距被明显拉大。 那么,过去那种“i5、i7性能差不多&#x…

self-attention(transformer)

自注意力机制 在传统的CNN中,都是对感受野内部的事情进行关联后理解。 感受野实际上关乎了模型对全局信息的理解。 而本质上,感受野是一种特殊的注意力机制,也就是说感受野是一种受限的、具有特定参数的注意力。 之前的内容如DANet&#…

基于webpack开发vue-cli

一、vue-cli开发 1. 项目整体目录 2. package.json {"name": "vue-cli","version": "1.0.0","description": "","main": "index.js","scripts": {"start": "npm …

机器学习常识 23: U-Net

摘要: U-Net 集编码-解码于一体, 是一种常见的网络架构. 图 1. U-Net 例. 如图 1 所示, U-Net 就是 U 形状的网络, 前半部分 (左边) 进行编码, 后半部分 (右边) 进行解码. 编码部分, 将一个图像经过特征提取, 变成一个向量. 前面说过: 深度学习本质上只做件事情, 就是特征提取…