摘要:好久不看理论,最近把自己学过以及用到过的东西都列了出来,主要是这个大纲体系,详细的内容部分是使用LLM来辅助编写的。
一、大模型
1.1 常用大模型
1.1.1 Qwen
Qwen大模型是由阿里巴巴开发的系列大语言模型,最早在2023年8月开源,参数规模从18亿到720亿不等。Qwen系列模型包括基础模型和对话模型,基础模型涵盖多语言数据,对话模型则具备多种能力,如聊天、创作、摘要、信息抽取、翻译、代码生成和数学推理等。
Qwen系列模型的参数规模包括18亿(1.8B)、70亿(7B)、140亿(14B)和720亿(72B),以及对话模型Qwen-Chat,参数规模分别为1.8B、7B、14B和72B。这些模型经过稳定训练,使用大规模、高质量且多样化的数据,涵盖多语言(以中文和英文为主),总量达3万亿token
1.1.2 Llama
LLaMA(Large Language Model Meta AI)是由Meta(前身为Facebook)开发的一种大规模语言模型,旨在提高自然语言处理(NLP)任务的性能。LLaMA基于变换器(Transformer)架构,并经过大规模数据训练,以便在多种语言任务中表现出色。
1.1.3 Gemma
Gemma是Google推出的一系列轻量级、最先进的开放模型,基于创建Gemini模型的相同研究和技术构建。提供了 2B 和 7B 两种不同规模的版本,每种都包含了预训练基础版本和经过指令优化的版本。所有版本均可在各类消费级硬件上运行,无需数据量化处理,拥有高达 8K tokens 的处理能力。
1.1.4 Baichuan
百川大模型是由百川智能研发的一系列大语言模型,具备超千亿参数,采用了“动态数据选择”、“重要度保持”以及“异步CheckPoint存储”等创新技术手段,提升了模型的各项能力。
1.1.5 Yi
Yi大模型是由零一万物(01.ai)发布的开源大模型,主要包括Yi-34B和Yi-6B两个版本。Yi大模型在多个基准测试中表现出色,特别是在Hugging Face的英文测试榜单和C-Eval中文能力排行榜上取得了优异成绩,甚至在MMLU、BBH等综合能力测试中胜出。
1.2 推理框架
这一章节使用方法可以查看往期帖子,大模型运行ollama、vllm、huggingface、modelscope
1.2.1 ollama
Ollama是一个开源框架,专为在本地机器上便捷部署和运行大型语言模型(LLM)而设计。其主要特点和功能包括:
简化部署: Ollama旨在简化在Docker容器中部署大型语言模型的过程,使得非专业用户也能方便地管理和运行这些复杂的模型。
轻量级与可扩展: 作为轻量级框架,Ollama保持了较小的资源占用,同时具备良好的可扩展性,允许用户根据需要调整配置以适应不同规模的项目和硬件条件。
API支持: 提供了一个简洁的API,使得开发者能够轻松创建、运行和管理大型语言模型实例,降低了与模型交互的技术门槛。
预构建模型库: 包含一系列预先训练好的大型语言模型,用户可以直接选用这些模型应用于自己的应用程序,无需从头训练或自行寻找模型源。
模型导入与定制: 支持从特定平台(如GGUF)导入已有的大型语言模型,兼容PyTorch或Safetensors深度学习框架,允许用户为模型添加或修改提示,以引导模型生成特定类型或风格的文本输出。
跨平台支持: 提供针对macOS、Windows(预览版)、Linux以及Docker的安装指南,确保用户能在多种操作系统环境下顺利部署和使用Ollama。
1.2.2 vllm
vLLM(Virtual Large Language Model)是一个由伯克利大学LMSYS组织开源的大语言模型高速推理框架,旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM利用了全新的注意力算法「PagedAttention」,有效地管理注意力键和值,从而显著提高了推理性能。
在吞吐量方面,vLLM的性能比HuggingFace Transformers高出24倍,比文本生成推理(TGI)高出3.5倍。此外,vLLM还支持离线推理和在线推理两种方式。离线推理适用于将图像和文本输入模型获取输出结果,而在线推理则通过API接口集成到应用程序中,实现实时处理。
1.2.3 huggingface
Hugging Face是一家成立于2016年的开源模型库公司,总部位于纽约。其创始人是Clément Delangue、Julien Chaumond和Thomas Wolf,三位热衷于自然语言处理(NLP)和机器学习的研究者和工程师。公司最初专注于开发聊天机器人和对话系统,后来逐渐将重点转移到NLP领域的开源库和工具上。
1.2.4 modelscope
ModelScope是由阿里巴巴达摩院发布的机器学习模型平台,旨在简化机器学习模型的使用流程,提供一站式服务,包括模型探索、推理、训练、部署和应用。
1.3 常用RAG-Agent
RAG常用知识
1.3.1 Langchain-chatchat
LangChain-ChatChat是一个基于ChatGLM等大语言模型与LangChain等应用框架实现的开源项目,旨在建立一个对中文场景友好、可离线运行的知识库问答解决方案。该项目通过本地知识库的问答应用,利用LangChain的思想,实现了对开源模型的支持和私有部署。
LangChain-ChatChat适用于各种需要高级自然语言理解和生成的场景,如企业内部的知识管理系统、客户服务聊天机器人以及教育领域的辅助教学工具等。无论是处理大量的文档资料还是回应用户的即时咨询,LangChain-ChatChat都能提供高质量的交互式体验。
1.3.2 Bisheng
BISHENG是一款开源的LLM应用开发平台,主要用于企业场景。它由华为技术有限公司开发,并于2023年8月底正式基于Apache 2.0协议开源。BISHENG的Github地址为https://github.com/dataelement/bisheng,Demo环境地址为https://bisheng.dataelem.com/。
主要特点
便捷: 即使是业务人员,也可以通过预置的毕昇助手与技能模板,通过简单直观的表单填写方式快速搭建以大模型为核心的智能应用。
灵活: 对大模型技术有了解的人员可以利用数百种开发组件,基于可视化且自由的流程编排能力,开发出丰富的大模型应用,如智能问答、报告生成、自动化、数据分析等。
可靠与企业级: BISHENG具备高并发下的高可用性、应用运营及效果持续迭代优化等企业级特性,适用于真实业务场景。此外,它还提供了完备的非结构化数据治理能力。
1.3.3 Dify
Dify是一个开源的大语言模型(LLM)应用开发平台,旨在简化和加速生成式AI应用的创建和部署。它融合了后端即服务(Backend as Service)和LLMOps的理念,涵盖了构建生成式AI原生应用所需的核心技术栈,包括一个内置的RAG引擎。
Dify支持多种大型语言模型的API接入和调用,包括Claude3、OpenAI等,并与多个模型供应商合作,确保开发者能根据需求选择最适合的模型2。此外,Dify还提供了以下功能:
知识库管理: 支持导入自己的知识库来训练模型,支持对接Notion作为知识库数据来源。
多模态输入输出: 支持图片、文字、语音的输入输出,支持Stable Diffusion WebUI进行图片生成。
多平台集成: 支持接入微信、QQ、钉钉、飞书等平台。
其他工具: 支持网页爬虫、搜索DuckDuckGo、Google SERP、Bing SERP,提供生物医学文献引用、生成二维码、发送SMS等功能。
使用场景
Dify可以用于创建各种AI应用,如评分系统、游戏线路导流、图片视频识别等。它还可以用于创建工作流、机器人智能客服、ASgent等,并暴露接口,上游将参数传递给应用,得到结果并返回给上游端。
1.3.4 FastGPT
FastGPT是一个基于大语言模型(LLM)的智能化平台,擅长理解和处理自然语言。它通过深度学习技术,能够从各种数据源中自动提取和整合信息,生成语义丰富的知识库,并实现智能化的响应和检索。FastGPT的核心功能包括工作流编排和知识库管理,通过这些功能,用户可以快速构建高效的知识库应用。
1.4 大模型微调方法
这一章节详细内容可以查看往期帖子,LLM大模型微调
特性 | LoRA (低秩适应) | Adapter (适配器) |
---|---|---|
定义 | 通过添加低秩矩阵来修改预训练模型的权重,以实现特定任务的微调。 | 在预训练模型的基础上插入小型的、可训练的网络模块(即Adapters),这些模块用于学习特定任务的知识。 |
参数量 | 较少,因为只引入了低秩矩阵。 | 也较少,但通常比LoRA多,因为Adapters可能包含多个层。 |
计算成本 | 相对较低,由于更新的参数较少。 | 中等,取决于Adapter的设计复杂度。 |
微调速度 | 快,因为需要优化的参数较少。 | 较快,但由于可能有更多层,所以比LoRA慢一些。 |
模型性能 | 可能会有所下降,尤其是在资源非常有限的情况下。 | 通常能保持较好的性能,因为Adapter有能力捕捉更复杂的模式。 |
泛化能力 | 由于参数量少,可能会有较好的泛化能力,尤其是在小数据集上。 | 泛化能力较好,因为它能够学习到更丰富的特征表示。 |
迁移学习 | 易于迁移,因为主要调整的是少量的参数。 | 也易于迁移,但可能需要根据新任务调整Adapter的设计。 |
模型大小 | 微调后的模型大小增加不大。 | 模型大小增加相对较大,取决于Adapter的复杂度。 |
适应场景 | 非常适合资源受限的环境或快速原型设计。 | 适用于需要较高准确性的场景,尤其是当有足够的计算资源时。 |
1.4.1 lora
LoRA 的核心思想是:在不改变原始模型权重的情况下,通过引入低秩矩阵的增量来进行微调。也就是说,LoRA 不直接更新原模型的参数,而是为其特定的层添加额外的可训练参数,从而实现对模型的适应调整。一方面知识对部分层进行微调,另一方面还对需要更新的矩阵层ΔW进行了分解,进一步减少了参数量和计算量。
1.4.2 adapter
插入位置: LoRA 是以残差连接的形式 “并联” 在 Transformer 的 W 矩阵上,而 Adapter 是插入在 Feed-forward Layer 后面。
推理延迟: LoRA 在训练完后其参数可以与原有预训练模型直接合并,变回单分支结构,不会引入额外的延迟;而 Adapter 由于引入了额外的串联网络层,因此会带来额外的延迟。
参数存储: 使用 LoRA 进行微调,在训练完毕后只需要保存 LoRA 本身的参数;而使用 Adapter 则要保存整个原有模型的参数。
1.5 微调框架LlamaFactory
这一章节详细内容可以查看往期帖子,LLM大模型微调入门Lora(LlamaFactory)
LLaMA-Factory 是一个开源框架,旨在简化大型语言模型的定制化微调流程。该框架整合了多样化的训练策略与监控工具,支持通过命令行界面(CLI)和网页用户界面(WebUI)等多种方式进行交互,显著降低了进行模型微调所需的技术门槛。通过 LLaMA-Factory,用户能够更加高效、便捷地调整模型以适应特定的应用场景或数据集,进而提升模型性能和应用效果。
1.6 大模型训练方法-RLHF
有个不错的帖子,链接
RLHF(基于人类反馈的强化学习)是一种训练大模型的方法,旨在通过引入人类反馈来优化模型的行为和输出,使其更好地满足人类的需求。这种方法结合了强化学习算法和人类偏好,通过奖励信号指导模型的训练过程,从而增强模型对人类意图的理解和满足程度。
(1)RLHF的基本概念和框架
强化学习算法:常用的算法是PPO(近端策略优化),这是一种“on-policy”算法,直接学习和更新当前策略。
行动:行动指的是语言模型根据给定的提示生成的输出文本,这些文本是模型在尝试完成特定任务或响应特定指令时产生的。
环境:环境是代理(即语言模型)与之交互的外部世界,提供代理可以观察的状态、执行的动作以及根据这些动作给予的奖励。
(2)RLHF的训练过程
使用监督数据微调语言模型:这一阶段与传统的fine-tuning类似,使用大量的监督数据进行预训练。
训练奖励模型:奖励模型输入一个文本序列,输出符合人类偏好的奖励数值。构建奖励模型的训练数据一般是同一个数据用不同的语言模型生成结果,然后人工打分。
训练强化学习模型:在强化学习训练中,需要搞清楚状态空间、动作空间、策略函数和价值函数。动作空间是所有的token,状态空间是输入序列的分布,价值函数由奖励模型和策略约束结合。
二、NLP
2.1 常见网络
2.1.1 CNN
卷积神经网络(Convolutional Neural Network, CNN)是一种在计算机视觉领域取得了巨大成功的深度学习模型。CNN的设计灵感源自人脑的视觉处理方式,旨在模拟人类视觉系统对图像的处理机制。与传统的全连接神经网络不同,CNN通过在输入数据上应用卷积操作来提取局部特征,并通过训练过程自动学习这些卷积操作的参数。
CNN的核心组件及其功能
(1)卷积层(Convolutional Layer)
- 卷积层是CNN的核心组件之一,包含多个可学习的滤波器(也称为卷积核),这些滤波器在输入数据上滑动,进行卷积操作并生成特征图。每个滤波器专注于检测输入数据的不同特征,如边缘、纹理等。通过堆叠多个卷积层,网络能够学习到更加复杂和抽象的特征。
(2)池化层(Pooling Layer)
- 池化层用于减小特征图的空间维度,从而减少模型的参数量和计算复杂度,并且可以增强模型的鲁棒性。最常用的池化操作是最大池化(Max Pooling),它在每个区域内保留最大的特征值。池化操作通过保持主要特征并减少冗余信息来提取出更加重要的特征。
(3)全连接层(Fully Connected Layer)
- 全连接层将卷积层和池化层提取到的特征连接起来,并输出最终的分类或回归结果。它采用传统神经网络中常见的全连接结构,每个神经元都与上一层的所有神经元相连。全连接层的作用是对特征进行组合和整合,以便进行最终的预测。
CNN的特点及其优势
- 局部感受野:CNN通过局部感受野的方式减少参数数量,使得网络易于优化。
- 权值共享:每个滤波器在输入数据上滑动时共享相同的参数,进一步减少了模型的复杂度和过拟合的风险。
- 空间层次结构:CNN的各层中的神经元是3维排列的,包括宽度、高度和深度,这使得CNN能够有效地处理具有空间结构的输入数据,如图像。
CNN的应用领域
CNN在图像识别、目标检测、图像生成等领域取得了显著的进展。例如,AlexNet在2012年的ImageNet比赛中的成功,使得CNN在计算机视觉任务中得到了广泛应用。此外,CNN还可以用于人脸识别、场景理解等任务。
2.1.2 RNN
循环神经网络(Recurrent Neural Network,RNN)是一种在序列数据处理中取得巨大成功的深度学习模型。RNN通过引入时间序列上的隐藏状态,具有处理时序数据和捕捉上下文信息的能力。本文将详细介绍RNN的原理、结构以及在自然语言处理和语音识别等领域的重要应用。
2.1.2.1 RNN原理
2.1.2.1.1 基本思想
RNN的基本思想是引入“记忆”机制,使神经网络可以处理序列数据并保持对过去信息的记忆。每个时间步的隐藏状态会根据输入和前一个时间步的隐藏状态进行更新,从而实现信息的传递和保存。这使得RNN可以捕捉到上下文关系,并对时序数据进行建模。
2.1.2.1.2 循环结构
RNN的循环结构是其与其他神经网络模型最明显的区别。隐藏状态会在每个时间步上被更新,并在下一个时间步作为输入的一部分被传递。这种反馈机制允许网络保持对过去信息的记忆,并在不同时间步上共享权重,避免参数数量的爆炸性增长。
2.1.2.1.3 长期依赖问题
尽管RNN在处理序列数据时具有优势,但在处理长序列时却存在长期依赖问题。由于信息的传递和变换通过每个时间步的隐藏状态完成,当序列较长时,梯度会随着时间步的增加而指数级衰减或爆炸。为了解决这个问题,出现了一些改进的RNN结构,如LSTM和GRU。
2.1.2.2 RNN结构
2.1.2.2.1 输入和输出
RNN的输入可以是任意长度的序列数据,如文本、语音等。每个时间步的输入会与隐藏状态进行计算,并得到输出结果。输出可以是每个时间步的预测结果,也可以是最后一个时间步的隐藏状态。
2.1.2.2.2 隐藏状态更新
RNN的隐藏状态更新是RNN的核心操作。隐藏状态会根据当前时间步的输入和前一个时间步的隐藏状态进行计算,并被传递给下一个时间步。隐藏状态的更新可以使用简单的线性变换和激活函数,也可以使用更复杂的门控机制。
2.1.2.2.3 参数共享
RNN中的参数共享是其特点之一。在每个时间步上,RNN使用相同的权重和偏置进行计算。这种参数共享使得RNN可以处理任意长度的序列数据,并减少了模型的参数数量,提高了训练效率。
2.1.3 LSTM
长短期记忆(LSTM)神经网络是一种特殊的递归神经网络(RNN),专为处理和生成序列数据而设计。LSTM 通过引入“门”的概念来控制信息的流动,解决了传统RNN在处理长序列时的梯度消失和爆炸问题。
(1)LSTM的组成
- LSTM由三个门组成:输入门、遗忘门和输出门。每个门都由一个或多个神经元构成,它们通过加权连接的方式组合在一起。
- 输入门:决定新信息的进入。它包含一个sigmoid层和一个tanh层,sigmoid层控制哪些信息将被更新,tanh层则生成新的候选值供更新。
- 遗忘门:负责控制上一时刻状态中有哪些信息被保留至当前时刻。通过一个sigmoid函数确定哪些信息将被遗忘,哪些信息将被保留。
- 输出门:决定当前时刻的输出。它首先将隐藏状态通过一个tanh层进行压缩,然后通过一个sigmoid层确定输出的最终部分。
(2)LSTM的工作原理
- 在t时刻,输入数据首先经过输入门和遗忘门。通过sigmoid和tanh激活函数的处理,一部分旧的信息被遗忘,新的信息被添加进来。这一过程保证了网络能够学习和记忆长期依赖关系。
- LSTM的核心在于门控机制,通过sigmoid函数和tanh函数的组合,实现了对信息的筛选和更新。这种机制使得LSTM在处理序列数据时具有更强的鲁棒性,能够有效地避免梯度消失和爆炸问题。
- LSTM的输出由输出门决定,它首先将隐藏状态压缩,然后通过sigmoid函数决定最终的输出部分。这使得LSTM具有更好的灵活性,可以适用于不同的任务和应用领域。
- LSTM在训练过程中使用反向传播算法(Backpropagation)进行参数调整。由于LSTM具有非线性特性,通过反向传播算法可以有效地优化网络参数,提高模型的准确率。
- LSTM具有很好的泛化能力,能够在不同的数据集上表现良好。这归功于其门控机制对信息的筛选和更新,使得网络能够有效地学习和记忆长期依赖关系。
- LSTM还可以通过各种变体进行扩展,如双向LSTM、深度LSTM等。这些变体可以进一步提高网络的性能,使其在各种任务中表现出色。
2.1.4 Transformer
Transformer是一种在自然语言处理(NLP)领域具有革命性意义的架构。它诞生于对传统序列处理模型(如循环神经网络RNN及其变体LSTM、GRU)局限性的突破需求。传统的RNN类模型在处理长序列数据时存在梯度消失或梯度爆炸问题,并且难以进行并行计算。
Transformer首次出现在论文《Attention is All You Need》中,它完全基于注意力机制(Attention Mechanism)构建,摒弃了传统的循环和卷积结构。
其核心在于利用自注意力机制(Self Attention)来对输入序列中的各个元素之间的关系进行建模。自注意力机制能够让模型在处理一个词(或序列中的其他元素)时,综合考虑输入序列中其他词与它的关联程度。例如,在翻译句子“我喜欢苹果”时,模型通过自注意力机制可以知道“苹果”在这个语境下是水果,而不是科技公司,这是通过考虑“喜欢”和“我”等词来判断的。
一文搞懂 Transformer
2.1.5 BERT
BERT,全称Bidirectional Encoder Representation of Transformer,首次提出于《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》一文中。简单来说,BERT是使用了Transformer的encoder(即编码器)部分,因此也可以认为BERT就是Transformer的encoder部分。BERT既可以认为是一个生成Word Embedding的方法,也可以认为是像LSTM这样用于特征提取的模型结构。
详解BERT
2.2 通用层
2.2.1 Softmax
Softmax 是用于多类分类问题的激活函数,在多类分类问题中,超过两个类标签则需要类成员关系。对于长度为 K 的任意实向量,Softmax 可以将其压缩为长度为 K,值在(0,1)范围内,并且向量中元素的总和为 1 的实向量。
Softmax 与正常的 max 函数不同:max 函数仅输出最大值,但 Softmax 确保较小的值具有较小的概率,并且不会直接丢弃。我们可以认为它是 argmax 函数的概率版本或「soft」版本。
Softmax 函数的分母结合了原始输出值的所有因子,这意味着 Softmax 函数获得的各种概率彼此相关。
Softmax 激活函数的主要缺点是:
- 在零点不可微;
- 负输入的梯度为零,这意味着对于该区域的激活,权重不会在反向传播期间更新,因此会产生永不激活的死亡神经元。
2.2.2 Sigmoid
Sigmoid 函数的图像看起来像一个 S 形曲线。
(1)函数表达式如下:
f
(
z
)
=
1
(
1
+
e
−
z
)
f(z)=\frac{1}{(1+e^{-z})}
f(z)=(1+e−z)1
(2)在什么情况下适合使用 Sigmoid 激活函数呢?
- Sigmoid 函数的输出范围是 0 到 1。由于输出值限定在 0 到 1,因此它对每个神经元的输出进行了归一化;
- 用于将预测概率作为输出的模型。由于概率的取值范围是 0 到 1,因此 Sigmoid 函数非常合适;
- 梯度平滑,避免「跳跃」的输出值;
- 函数是可微的。这意味着可以找到任意两个点的 sigmoid 曲线的斜率;
- 明确的预测,即非常接近 1 或 0。
(3)Sigmoid 激活函数有哪些缺点?
- 倾向于梯度消失;
- 函数输出不是以 0 为中心的,这会降低权重更新的效率;
- Sigmoid 函数执行指数运算,计算机运行得较慢。
2.2.3 ReLU
(1)ReLU 激活函数图像如上图所示,函数表达式如下:
(2)ReLU 函数是深度学习中较为流行的一种激活函数,相比于 sigmoid 函数和 tanh 函数,它具有如下优点:
- 当输入为正时,不存在梯度饱和问题。
- 计算速度快得多。ReLU 函数中只存在线性关系,因此它的计算速度比 sigmoid 和 tanh 更快。
(3)当然,它也有缺点:
- Dead ReLU 问题。当输入为负时,ReLU 完全失效,在正向传播过程中,这不是问题。有些区域很敏感,有些则不敏感。但是在反向传播过程中,如果输入负数,则梯度将完全为零,sigmoid 函数和 tanh 函数也具有相同的问题;
- 我们发现 ReLU 函数的输出为 0 或正数,这意味着 ReLU 函数不是以 0 为中心的函数。
2.2.4 Tanh/双曲正切激活函数
(1)tanh 激活函数的图像也是 S 形,表达式如下:
(2)tanh 是一个双曲正切函数。tanh 函数和 sigmoid 函数的曲线相对相似。但是它比 sigmoid 函数更有一些优势。
-
首先,当输入较大或较小时,输出几乎是平滑的并且梯度较小,这不利于权重更新。二者的区别在于输出间隔,tanh 的输出间隔为 1,并且整个函数以 0 为中心,比 sigmoid 函数更好;
-
在 tanh 图中,负输入将被强映射为负,而零输入被映射为接近零。
注意:在一般的二元分类问题中,tanh 函数用于隐藏层,而 sigmoid 函数用于输出层,但这并不是固定的,需要根据特定问题进行调整。
2.2.4 正则化 Dropout
在深度学习中,当参数过多而训练样本又比较少时,模型容易产生过拟合现象。过拟合是很多深度学习乃至机器学习算法的通病,具体表现为在训练集上预测准确率高,而在测试集上准确率大幅下降。2012 年,Hinton等人提出了Dropout算法,可以比较有效地缓解过拟合现象的发生,起到一定正则化的效果。
Dropout的基本思想如上图所示,在训练时,每个神经元以概率 p 保留,即以 1-p 的概率停止工作,每次前向传播保留下来的神经元都不同,这样可以使得模型不太依赖于某些局部特征,泛化性能更强。在测试时,为了保证相同的输出期望值,每个参数还要乘以p。当然还有另 外一种计算方式称为Inverted Dropout,即在训练时将保留下的神经元乘以1/p,这样测试时就不需要再改变权重。
至于Dropout为什么可以防止过拟合,可以从以下3个方面解释。
- 多模型的平均:不同的固定神经网络会有不同的过拟合,多个取平均则有可能让一些相反的拟合抵消掉,而Dropout每次都是不同的神经元失活,可以看做是多个模型的平均,类似于多数投票取胜的策略。
- 减少神经元间的依赖:由于两个神经元不一定同时有效,因此减少了特征之间的依赖,迫使网络学习有更为鲁棒的特征,因为神经网络不应该对特定的特征敏感,而应该从众多特征中学习更为共同的规律, 这也起到了正则化的效果。
- 生物进化:Dropout类似于性别在生物进化中的角色,物种为了适应环境变化,在繁衍时取雄性和雌性的各一半基因进行组合,这样可以适应更复杂的新环境,避免了单一基因的过拟合,当环境发生变化时也不至于灭绝。
Dropout被广泛应用到全连接层中,一般保留概率设置为0.5。
2.2.5 归一化 (BN、LN、IN、GN)
神经网络学习过程的本质就是为了学习数据分布,如果我们没有做归一化处理,那么每一批次训练数据的分布不一样,从大的方向上看,神经网络则需要在这多个分布中找到平衡点,从小的方向上看,由于每层网络输入数据分布在不断变化,这也会导致每层网络在找平衡点,显然,神经网络就很难收敛了。
当然,如果我们只是对输入的数据进行归一化处理(比如将输入的图像除以255,将其归到0到1之间),只能保证输入层数据分布是一样的,并不能保证每层网络输入数据分布是一样的,所以也需要在神经网络的中间层加入归一化处理。神经网络学习过程本质上就是为了学习数据分布,如果训练数据与测试数据的分布不同,网络的泛化能力就会严重降低。
四种归一化
在深度学习中,有多种归一化,接下来,我们先用一个示意图来形象的表现BN、LN、IN和GN的区别,在输入图片的维度为(NCHW)中,HW是被合成一个维度,这个是方便画出示意图,C和N各占一个维度。
(1)Batch Normalization
- 1.BN的计算就是把每个通道的NHW单独拿出来归一化处理
- 2.针对每个channel我们都有一组γ,β,所以可学习的参数为2*C
- 3.当batch size越小,BN的表现效果也越不好,因为计算过程中所得到的均值和方差不能代表全局
(2)Layer Normalizaiton
- 1.LN的计算就是把每个CHW单独拿出来归一化处理,不受batchsize 的影响
- 2.常用在RNN网络,但如果输入的特征区别很大,那么就不建议使用它做归一化处理
(3)Instance Normalization
- 1.IN的计算就是把每个HW单独拿出来归一化处理,不受通道和batchsize 的影响
- 2.常用在风格化迁移,但如果特征图可以用到通道之间的相关性,那么就不建议使用它做归一化处理
(4)Group Normalizatio
- 1.GN的计算就是把先把通道C分成G组,然后把每个gHW单独拿出来归一化处理,最后把G组归一化之后的数据合并成CHW
- 2.GN介于LN和IN之间,当然可以说LN和IN就是GN的特列,比如G的大小为1或者为C
BN、LN、IN和GN这四个归一化的计算流程几乎是一样的,可以分为四步:
- 1.计算出均值
- 2.计算出方差
- 3.归一化处理到均值为0,方差为1
- 4.变化重构,恢复出这一层网络所要学到的分布
2.2.6 池化层
在自然语言处理(NLP)领域,池化层(Pooling Layer)通常用于减少数据的维度,同时保留最重要的信息。池化层最初是为计算机视觉中的卷积神经网络(CNN)设计的,但在NLP中也得到了广泛应用,特别是在基于卷积或递归神经网络的模型中。
(1)池化层的作用
- 降低计算复杂度:通过减少特征图的空间尺寸,可以显著降低后续层的计算量和参数数量。
- 提供一定程度的平移不变性:池化操作可以在一定程度上忽略输入位置上的小变化,这有助于提高模型对不同位置出现相同模式的鲁棒性。
- 控制过拟合:通过减少参数数量,池化层可以帮助防止模型过度拟合训练数据。
(2)池化类型
-
最大池化(Max Pooling):从一个区域中选择最大值作为该区域的代表值。这种方法可以捕捉到最显著的特征,并且对于识别局部特征非常有效。
-
平均池化(Average Pooling):取区域内所有元素的平均值。这种方式比较温和,适用于希望保留更多上下文信息的情况。
-
全局池化(Global Pooling):当应用于整个特征图时,称为全局池化。它可以是全局最大池化或全局平均池化,通常用于将固定长度的向量输出给分类器或其他全连接层。
(3)在NLP中的应用
-
文本分类:在使用CNN进行文本分类的任务中,池化层可以用来提取句子级别的特征表示。例如,在字符级或词级的卷积之后,可以通过池化操作获得整个句子的固定长度表示。
-
序列建模:在某些情况下,池化也可以用在递归神经网络(RNN)之上,以获取更抽象级别的表示。不过,由于RNN本身具有顺序处理能力,因此直接在其上应用池化不如在CNN中常见。
-
注意力机制:尽管不是传统意义上的池化,但一些现代NLP模型使用了类似于池化的机制来聚焦于最重要部分的信息。例如,在变压器架构中,多头自注意力机制允许模型关注输入序列的不同部分,从而实现了一种软性的“池化”。
(4)实现细节
-
窗口大小与步幅:定义了池化操作覆盖的区域以及移动的距离。较大的窗口可以更大幅度地减少空间分辨率,而较小的窗口则能更好地保持原始结构。
-
边界填充:有时为了保持输出尺寸不变或者达到特定的输出尺寸,会在输入边缘添加零值(Padding)。
总之,池化层在NLP中是一个重要的组件,它帮助简化模型、增强泛化能力和提高效率。随着研究的发展,新的变体和技术也在不断涌现,如动态池化等,进一步丰富了这一领域的工具箱。
2.3 深度学习训练知识
2.3.1 前向传播
以下是RNN的简单任务的前向传播过程:
- 初始化:开始时,权重和偏置项被随机初始化或者通过预训练得到。
逐层计算: - 嵌入层:将输入的词索引转换成对应的词向量。
- 隐藏层:根据所选模型的不同,信息经过不同的处理方式。例如,在RNN中,当前时刻的状态由前一时刻的状态和当前输入共同决定;而在Transformer中,则通过自注意力机制计算出新的特征表示。
- 激活函数:在某些层后应用激活函数(如ReLU, Sigmoid, Tanh等)引入非线性因素。
- 输出层:最后,通过一个适合于特定任务的输出层(分类任务通常是softmax层,回归任务则可能是单个神经元)生成最终结果。
前向传播其实就是你自己搭建的模型中forward函数的计算过程。
2.3.2 损失函数
在自然语言处理(NLP)中,损失函数是用来衡量模型预测输出与实际标签之间差异的度量。选择合适的损失函数对于训练有效的模型至关重要。下面是一些常用的NLP任务中的损失函数及其详细介绍:
(1)交叉熵损失 (Cross-Entropy Loss)
交叉熵损失是最常见的损失函数之一,在分类问题中尤其有用。它用于量化两个概率分布之间的差异:一个是模型给出的概率分布,另一个是真实标签的概率分布。
公式:
对于单个样本,如果真实标签是
y
y
y,模型预测的概率分布为
y
^
\hat{y}
y^,那么二分类交叉熵损失可以表示为:
L
=
−
[
y
log
(
y
^
)
+
(
1
−
y
)
log
(
1
−
y
^
)
]
L = -[y \log(\hat{y}) + (1 - y) \log(1 - \hat{y})]
L=−[ylog(y^)+(1−y)log(1−y^)]
对于多分类问题,通常使用softmax作为激活函数来保证输出是一个合法的概率分布,此时交叉熵损失可以写作:
L
=
−
∑
i
y
i
log
(
y
^
i
)
L = -\sum_{i} y_i \log(\hat{y}_i)
L=−∑iyilog(y^i)
其中
y
i
y_i
yi 是第
i
i
i 类的真实标签(0或1),
y
^
i
\hat{y}_i
y^i 是模型预测该类别的概率。
应用场景
- 文本分类
- 情感分析
- 机器翻译
(2)均方误差 (Mean Squared Error, MSE)
MSE主要用于回归问题,测量预测值与实际值之间的平均平方差。
公式:
L
=
1
n
∑
i
=
1
n
(
y
i
−
y
^
i
)
2
L = \frac{1}{n} \sum_{i=1}^{n}(y_i - \hat{y}_i)^2
L=n1∑i=1n(yi−y^i)2
其中
y
i
y_i
yi 是真实值,
y
^
i
\hat{y}_i
y^i 是预测值。
应用场景
- 情绪评分预测
- 价格预测
(3)三元组损失 (Triplet Loss)
这种损失函数常用于学习嵌入空间中的距离度量,特别是在面部识别和句子相似性任务中。
公式:
给定一个锚点样本、一个正样本(与锚点同类)和一个负样本(与锚点不同类),三元组损失试图让正样本比负样本更接近锚点。
L
=
max
(
0
,
d
(
a
,
p
)
−
d
(
a
,
n
)
+
α
)
L = \max(0, d(a, p) - d(a, n) + \alpha)
L=max(0,d(a,p)−d(a,n)+α)
其中
d
(
x
,
y
)
d(x, y)
d(x,y) 表示样本
x
x
x 和
y
y
y 之间的距离,
α
\alpha
α 是一个小于零的边际值。
应用场景
- 句子相似性
- 语义匹配
(4)序列到序列模型的损失
对于诸如机器翻译这样的任务,常常使用序列到序列(seq2seq)模型。这类模型通常采用逐词的交叉熵损失,即将每个时间步上的预测视为独立的分类问题。
公式:
L
=
−
∑
t
=
1
T
log
P
(
y
t
∣
y
<
t
,
X
)
L = -\sum_{t=1}^{T} \log P(y_t|y_{<t}, X)
L=−∑t=1TlogP(yt∣y<t,X)
其中
X
X
X 是输入序列,
y
<
t
y_{<t}
y<t 表示直到时刻
t
−
1
t-1
t−1 的所有目标词汇,
P
(
y
t
∣
y
<
t
,
X
)
P(y_t|y_{<t}, X)
P(yt∣y<t,X) 是模型预测下一个词
y
t
y_t
yt 的条件概率。
应用场景
- 机器翻译
- 语音识别
- 文本摘要
(5)CTC损失 (Connectionist Temporal Classification Loss)
CTC损失适用于那些不需要精确对齐的序列标注任务,如自动语音识别。
特点
CTC允许模型直接从输入序列映射到输出序列,而不需要预先确定输入与输出之间的对齐方式。
应用场景
- 语音识别
- 手写识别
选择损失函数的考虑因素
- 任务类型:根据你的任务是分类还是回归来决定。
- 数据特性:例如不平衡的数据集可能需要调整损失函数或者引入权重。
- 模型结构:某些损失函数更适合特定类型的神经网络架构。
2.3.3 反向传播
在自然语言处理(NLP)中,反向传播算法是训练神经网络模型的关键步骤之一。它通过计算损失函数对每个权重的梯度来更新模型参数,从而最小化预测值与实际值之间的差异。这里以循环神经网络(RNN)为例,详细介绍反向传播的过程。
(1)基本概念
- 损失函数:衡量模型预测输出与真实标签之间差异的函数,如交叉熵损失。
- 梯度:表示损失函数相对于模型参数的变化率,用于指导参数如何调整。
- 链式法则:微积分中的一个基本原理,允许我们沿着计算图从输出到输入逐层计算梯度。
(2)反向传播过程
-
前向传播:首先执行一次完整的前向传播,记录下每一步的结果,包括隐藏状态 h t h_t ht 和输出 o t o_t ot。
-
计算初始梯度:根据最终输出 z T z_T zT 与目标标签 y T y_T yT 计算最后一个时间步的损失 L ( z T , y T ) L(z_T, y_T) L(zT,yT),然后基于此计算出 ∂ L ∂ z T \frac{\partial L}{\partial z_T} ∂zT∂L。
-
输出层反向传播:
- 对于每个时间步 t t t 从 T T T 到 1 1 1,使用链式法则计算 ∂ L ∂ o t = ∂ L ∂ z t ⋅ ∂ g ( o t ) ∂ o t \frac{\partial L}{\partial o_t} = \frac{\partial L}{\partial z_t} \cdot \frac{\partial g(o_t)}{\partial o_t} ∂ot∂L=∂zt∂L⋅∂ot∂g(ot)。
- 进而得到 ∂ L ∂ h t = W o h T ⋅ ∂ L ∂ o t \frac{\partial L}{\partial h_t} = W_{oh}^T \cdot \frac{\partial L}{\partial o_t} ∂ht∂L=WohT⋅∂ot∂L。
-
隐藏层反向传播:
- 计算隐藏层激活函数的梯度 ∂ e ( u t ) ∂ u t \frac{\partial e(u_t)}{\partial u_t} ∂ut∂e(ut)。
- 使用链式法则计算 ∂ L ∂ u t = ∂ L ∂ h t ⋅ ∂ e ( u t ) ∂ u t \frac{\partial L}{\partial u_t} = \frac{\partial L}{\partial h_t} \cdot \frac{\partial e(u_t)}{\partial u_t} ∂ut∂L=∂ht∂L⋅∂ut∂e(ut)。
- 然后计算 ∂ L ∂ v t = W h v T ⋅ ∂ L ∂ u t \frac{\partial L}{\partial v_t} = W_{hv}^T \cdot \frac{\partial L}{\partial u_t} ∂vt∂L=WhvT⋅∂ut∂L 和 ∂ L ∂ h t − 1 = W h h T ⋅ ∂ L ∂ u t \frac{\partial L}{\partial h_{t-1}} = W_{hh}^T \cdot \frac{\partial L}{\partial u_t} ∂ht−1∂L=WhhT⋅∂ut∂L。
-
累积梯度:
- 在每个时间步,将梯度累加到相应的权重上,即 ∂ L ∂ W h v + = v t ⋅ ( ∂ L ∂ u t ) T \frac{\partial L}{\partial W_{hv}} += v_t \cdot \left(\frac{\partial L}{\partial u_t}\right)^T ∂Whv∂L+=vt⋅(∂ut∂L)T、 ∂ L ∂ W h h + = h t − 1 ⋅ ( ∂ L ∂ u t ) T \frac{\partial L}{\partial W_{hh}} += h_{t-1} \cdot \left(\frac{\partial L}{\partial u_t}\right)^T ∂Whh∂L+=ht−1⋅(∂ut∂L)T 和 ∂ L ∂ b h + = ∂ L ∂ u t \frac{\partial L}{\partial b_h} += \frac{\partial L}{\partial u_t} ∂bh∂L+=∂ut∂L。
- 同样地,对于输出层权重和偏置进行相应更新。
-
参数更新:
- 一旦所有时间步上的梯度都被正确计算出来,就可以使用优化算法(如梯度下降、Adam等)来更新模型参数。
-
重复迭代:上述步骤通常在一个epoch内针对整个数据集重复多次,直到满足停止条件(例如达到最大迭代次数或验证集上的性能不再提升)。
2.3.4 优化器
在自然语言处理(NLP)中,优化器是训练神经网络模型的关键组件之一。它们负责根据损失函数计算出的梯度来更新模型参数,从而最小化损失。不同的优化器有着不同的策略和特性,适用于不同的场景。下面是几种常见的优化算法及其详细介绍:
(1) 梯度下降 (Gradient Descent, GD)
这是最基础也是最直观的优化方法,它沿着损失函数的负梯度方向调整权重。
-
公式: θ t + 1 = θ t − η ∇ θ L ( θ ) \theta_{t+1}= \theta_t - \eta\nabla_\theta L(\theta) θt+1=θt−η∇θL(θ)
其中 θ \theta θ 是模型参数, η \eta η 是学习率, ∇ θ L ( θ ) \nabla_\theta L(\theta) ∇θL(θ) 是损失函数对参数的梯度。 -
优点:简单易懂。
-
缺点:容易陷入局部极小值;需要手动选择合适的学习率。
(2) 随机梯度下降 (Stochastic Gradient Descent, SGD)
SGD每次迭代仅使用一个样本来估计梯度,而不是整个数据集,这样可以更快地收敛。
- 公式:与GD相同,但每次只用一个样本或一个小批量样本。
- 优点:计算效率高,能更快跳出局部极小值。
- 缺点:梯度估计具有较大方差,可能导致震荡。
(3) 动量法 (Momentum)
动量法通过引入“速度”概念来加速SGD,并减少震荡。
-
公式: v t + 1 = γ v t + η ∇ θ L ( θ t ) v_{t+1} = \gamma v_t + \eta \nabla_\theta L(\theta_t) vt+1=γvt+η∇θL(θt)
θ t + 1 = θ t − v t + 1 \theta_{t+1} = \theta_t - v_{t+1} θt+1=θt−vt+1
其中 v t v_t vt 是速度项, γ \gamma γ 是动量系数(通常设置为0.9左右)。 -
优点:有助于加速收敛并平稳过程。
-
缺点:仍然需要仔细选择学习率。
(4) Nesterov 加速梯度 (Nesterov Accelerated Gradient, NAG)
NAG是一种改进版的动量法,它在计算梯度时考虑了未来的移动方向。
- 公式:类似于动量法,但在计算梯度时先进行一步预移动。
- 优点:比普通动量法更准确,减少了过冲的可能性。
- 缺点:实现稍微复杂一些。
(5) Adagrad
Adagrad自动适应每个参数的学习率,对于稀疏特征特别有效。
-
公式: θ t + 1 = θ t − η G t + ϵ ⊙ ∇ θ L ( θ t ) \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{G_t} + \epsilon} \odot \nabla_\theta L(\theta_t) θt+1=θt−Gt+ϵη⊙∇θL(θt)
其中 G t = ∑ i = 1 t g i 2 G_t = \sum_{i=1}^t g_i^2 Gt=∑i=1tgi2 是所有历史梯度平方的累积和, ϵ \epsilon ϵ 是一个小常数以防止除零错误。 -
优点:自动调节学习率,适合处理稀疏数据。
-
缺点:由于累积梯度平方不断增大,后期学习率会变得非常小。
(6) RMSprop
RMSprop解决了Adagrad学习率急剧下降的问题,通过使用指数衰减平均来平滑过去的梯度。
-
公式: E [ g 2 ] t = γ E [ g 2 ] t − 1 + ( 1 − γ ) g t 2 E[g^2]_t = \gamma E[g^2]_{t-1} + (1-\gamma)g_t^2 E[g2]t=γE[g2]t−1+(1−γ)gt2
θ t + 1 = θ t − η E [ g 2 ] t + ϵ g t \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{E[g^2]_t} + \epsilon} g_t θt+1=θt−E[g2]t+ϵηgt -
优点:改善了Adagrad的缺点,提供了更加稳定的梯度下降。
-
缺点:需要设定额外的超参数 γ \gamma γ。
(7) Adam (Adaptive Moment Estimation)
Adam结合了动量法和RMSprop的优点,同时考虑了一阶矩估计(均值)和二阶矩估计(方差)。
-
公式:
m t = β 1 m t − 1 + ( 1 − β 1 ) g t m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t mt=β1mt−1+(1−β1)gt
v t = β 2 v t − 1 + ( 1 − β 2 ) g t 2 v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2 vt=β2vt−1+(1−β2)gt2
m ^ t = m t 1 − β 1 t \hat{m}_t = \frac{m_t}{1 - \beta_1^t} m^t=1−β1tmt
v ^ t = v t 1 − β 2 t \hat{v}_t = \frac{v_t}{1 - \beta_2^t} v^t=1−β2tvt
θ t + 1 = θ t − η v ^ t + ϵ m ^ t \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{\hat{v}_t} + \epsilon} \hat{m}_t θt+1=θt−v^t+ϵηm^t -
优点:自适应学习率,通常表现良好且易于配置。
-
缺点:可能需要调整超参数 β 1 \beta_1 β1、 β 2 \beta_2 β2和 ϵ \epsilon ϵ。
如何选择优化器
- 任务需求:对于大规模数据集,Adam和RMSprop通常表现良好;对于稀疏数据,Adagrad是一个不错的选择。
- 资源限制:如果计算资源有限,SGD可能是更好的选择,因为它相对简单且计算成本较低。
- 经验法则:在很多情况下,Adam因其良好的性能而成为默认选择,尤其是在没有特殊需求的情况下。
每种优化器都有其适用范围和优缺点,实际应用时可以根据具体问题的特点和实验结果来选择最合适的优化器。如果你有具体的NLP项目,我还可以提供更具体的建议。
2.3.5 学习率
在自然语言处理(NLP)中,学习率(Learning Rate, LR)是优化算法中的一个关键超参数,它决定了模型参数更新的步长。合适的学习率可以帮助模型更快地收敛到最优解,而过大的学习率可能导致训练过程不稳定甚至无法收敛,过小的学习率则会导致训练过程非常缓慢。下面详细介绍学习率的概念、重要性以及如何选择和调整学习率。
(1)学习率的重要性
-
- 影响训练速度:学习率直接影响模型参数更新的速度。较大的学习率可以加快训练速度,但可能跳过最优解;较小的学习率虽然更稳定,但会减慢训练过程。
-
- 影响模型性能:合适的学习率能够帮助模型找到全局最优或局部最优解,从而提高模型在验证集和测试集上的表现。
-
- 防止梯度消失或爆炸:适当的学习率设置有助于避免梯度消失或梯度爆炸问题,尤其是在深度网络中。
(2)如何选择学习率
-
- 经验法则:对于大多数任务,可以从0.1、0.01、0.001等常见的学习率开始尝试。对于一些特定的任务,如RNNs,通常从较低的学习率开始(例如0.01或更低)。
-
- 网格搜索/随机搜索:通过在一个预定义的范围内进行网格搜索或随机搜索来找到最佳的学习率。
-
- 学习率范围测试:这种方法包括使用不同的学习率进行训练,并观察损失函数的变化情况,以此来确定一个合理的学习率范围。
(3)学习率调度策略
为了进一步提升模型性能,可以在训练过程中动态调整学习率。以下是一些常用的学习率调度方法:
-
- 固定衰减:在预定的epoch数之后降低学习率,比如每10个epoch将学习率减半。
-
- 指数衰减:学习率随时间以指数形式递减,公式为 L R = L R 0 ⋅ e − k t LR = LR_0 \cdot e^{-kt} LR=LR0⋅e−kt,其中 k k k 是衰减速率, t t t 是当前迭代次数。
-
- 阶梯式衰减:在达到一定的epoch后,学习率按比例下降。例如,每5个epoch学习率减少0.1倍。
-
- 余弦退火:学习率按照余弦函数的方式逐渐减小至最小值,然后恢复到初始值,这个过程可以重复多次。
-
- 自适应学习率:某些优化器如Adam和Adagrad会自动调整每个参数的学习率。
(4)实践建议
- 初始学习率选择:通常推荐从一个较高的学习率开始,然后逐步减小。可以通过简单的实验来确定一个大致合适的起始点。
- 监控训练过程:在训练过程中密切关注损失曲线和准确率曲线,如果发现震荡或不收敛的情况,应考虑调整学习率。
- 利用回调机制:许多深度学习框架提供了回调功能,可以在训练过程中根据条件自动调整学习率,如当验证损失不再改善时降低学习率。
- 使用学习率查找器:有些工具和技术(如Leslie N. Smith提出的学习率查找器)可以帮助快速找到合适的学习率范围。
总之,学习率的选择是一个需要综合考虑多个因素的过程,包括数据集特性、模型复杂度以及所使用的优化算法。通过合理的策略和不断的实验,可以找到适合特定任务的最佳学习率。
2.4 常用框架
特性/框架 | PyTorch | TensorFlow | Keras |
---|---|---|---|
首次发布 | 2016年 | 2015年 | 2015年 |
主要开发者 | Facebook (Meta) | François Chollet, 后被Google集成进TensorFlow | |
编程风格 | 动态计算图(Eager Execution) | 静态计算图 & 动态执行(自TensorFlow 2.0起) | 高级API,支持动态和静态图 |
易用性 | 高,对初学者友好 | 中到高,学习曲线较陡峭 | 非常高,特别适合快速原型设计 |
社区支持 | 活跃且快速增长 | 非常大且成熟 | 大,但更多作为TensorFlow的一部分 |
跨平台能力 | 良好,支持多种操作系统 | 极佳,广泛支持各种平台 | 依赖于后端,通常是TensorFlow |
生产环境部署 | 较好,但不如TensorFlow成熟 | 极强,拥有完整的生态系统 | 通过TensorFlow提供强大的部署选项 |
灵活性 | 很高,适合研究和实验 | 高,特别是在定义复杂模型时 | 中等,更偏向于标准化操作 |
性能优化 | 提供自动混合精度等工具 | 内置XLA等高级优化技术 | 继承TensorFlow的优化能力 |
移动与嵌入式设备 | 支持,但不如TensorFlow全面 | 强大支持,包括TensorFlow Lite | 通过TensorFlow Lite实现良好支持 |
2.4.1 Pytorch
PyTorch 是一个开源的深度学习框架,由 Meta AI Research(前身为 Facebook 的人工智能研究团队)开发,并于 2016 年首次发布。它基于 Torch 库并使用 Python 语言,提供了灵活且动态的计算图机制,使得用户能够轻松地定义、训练和调试复杂的神经网络模型。PyTorch 支持 GPU 加速运算,具备自动微分功能,可以无缝集成到 Python 生态系统中。它的设计简洁直观,API 接近原生 Python,因此在学术界和工业界都广受欢迎。PyTorch 还拥有丰富的工具包如 torchvision 和 torchtext,支持图像处理、自然语言处理等任务。随着 PyTorch 2.0 的推出,它继续增强了性能与易用性,巩固了其作为领先深度学习平台的地位。
2.4.1 Tensorflow
TensorFlow 是一个由 Google 开发并开源的机器学习框架,于 2015 年首次发布。它提供了一个全面且灵活的生态系统,支持从研究到生产的整个流程。TensorFlow 允许用户构建和训练各种类型的深度学习模型,并通过其强大的分布式计算能力实现高效的数据处理与模型训练。它不仅支持多种编程语言(如 Python、C++等),还提供了丰富的工具集,包括用于数据可视化和调试的 TensorBoard。TensorFlow 的设计注重可扩展性和跨平台兼容性,使得模型可以在不同的设备上运行,包括移动设备和嵌入式系统。此外,TensorFlow Lite 和 TensorFlow.js 分别为移动端和网页端应用提供了轻量级解决方案。随着版本迭代,TensorFlow 不断引入新的特性和优化,以满足日益增长的人工智能需求。
2.4.1 Keras
Keras 是一个用 Python 编写的高级神经网络 API,能够以 TensorFlow、Theano 或 CNTK 作为后端运行。它由 François Chollet 开发并于 2015 年首次发布,以其用户友好性和快速实验能力而闻名。Keras 提供了简洁直观的接口来构建和训练深度学习模型,使得研究人员和开发者可以轻松实现想法而无需深入了解底层细节。其设计哲学强调可扩展性、模块化以及易于使用,支持多种类型的神经网络层、损失函数及优化器。此外,Keras 社区活跃且文档丰富,有助于新手快速入门。自 2017 年起,Keras 成为了 TensorFlow 的官方高级 API,进一步增强了其在业界的应用广泛度和支持力度。
三、机器学习
3.1 SVM支持向量机
支持向量机(Support Vector Machine, SVM)是一种非常强大的机器学习算法,主要用于分类和回归分析。它基于统计学习理论,特别适用于高维空间的数据,并且在解决小样本、非线性及高维模式识别问题中表现出很多特有的优势。SVM的基本思想是寻找一个超平面来分隔不同类别的数据点,使得这个超平面与最近的数据点之间的距离最大化,从而实现对新数据的良好分类。
3.1.1 基本概念
- 超平面:在n维空间中,超平面是一个n-1维的子空间。例如,在二维空间里,超平面就是一条直线;在三维空间中,则是一个平面。
- 间隔:指的是最近的数据点到超平面的距离。SVM试图找到一个能将两类数据分开并且拥有最大间隔的超平面。
- 支持向量:那些最接近决策边界的数据点被称为支持向量。这些点对于定义最终的超平面至关重要。
- 核函数:当数据不是线性可分时,可以通过核技巧将原始数据映射到更高维度的空间,在那里它们可能变得线性可分。常用的核函数包括线性核、多项式核、RBF(径向基函数)核等。
3.1.2 工作原理
- 线性可分情况:如果训练数据集是完全线性可分的,那么SVM会直接找到一个最优超平面,该超平面不仅能够正确地将两个类别分开,而且还能保证从任何一个类别中抽取的最近点到超平面的距离最大化。
- 软间隔优化:现实世界中的数据往往不是完美线性可分的。因此,SVM引入了软间隔的概念,允许部分数据点位于其应有的分类区域之外,通过调整参数C来控制这种错误的程度。
- 核方法:面对非线性问题时,SVM使用核函数将输入特征转换到一个高维空间,在这个空间中寻求一个线性分割面。这种方法避免了直接计算高维空间坐标,而是利用核函数间接完成这一过程。
3.1.3 优点
- 在高维空间中表现良好。
- 当特征数量大于样本数量时仍然有效。
- 通过选择合适的核函数,可以处理多种类型的问题。
- 对于小规模数据集具有较好的泛化能力。
3.1.4 缺点
- 如果特征的数量远大于样本数量,可能会导致过拟合。
- 不适合大数据集,因为训练时间较长。
- 参数选择和核函数的选择对模型性能影响较大。
- 解释性较差,尤其是在使用复杂的核函数时。
3.1.5 应用领域
SVM广泛应用于文本分类、图像识别、生物信息学等领域。随着技术的发展,虽然深度学习在某些领域取得了显著成就,但SVM凭借其简单性和高效性仍然是许多应用场景下的有力工具之一。
总之,SVM是一个功能强大且灵活的机器学习算法,尤其擅长处理复杂的数据集。理解其背后的数学原理有助于更好地应用这项技术解决问题。
3.2 K-Means
K-Means是一种非常流行的无监督学习算法,主要用于数据聚类。它的目标是将n个观测值划分为k个簇(cluster),其中每个观测值属于与其最近的均值(质心)所在的簇。K-Means算法简单、快速,并且在处理大规模数据集时效率较高。
3.2.1 基本概念
- 簇:一组具有相似特征的数据点。
- 质心:每个簇中所有点位置的平均值。
- 距离度量:通常使用欧氏距离来衡量两个点之间的距离,但也可以根据具体情况选择其他距离度量方法。
3.2.2 算法步骤
- 初始化:随机选择k个数据点作为初始质心。
- 分配阶段:对于每一个数据点,计算它到各个质心的距离,并将其分配给距离最近的那个质心所代表的簇。
- 更新阶段:重新计算每个簇的新质心(即该簇内所有点坐标的算术平均值)。
- 重复步骤2和3:不断迭代上述过程,直到满足某个停止条件为止,比如质心不再发生变化或达到最大迭代次数。
3.2.3 优点
- 实现简单,易于理解和实现。
- 对于大型数据集来说,K-Means算法能够高效地收敛。
- 当数据集中的簇大致呈球形分布时表现良好。
3.2.4 缺点
- 需要预先指定簇的数量k,这可能不容易确定。
- 结果容易受到初始质心选择的影响,可能会陷入局部最优解。
- 对异常值敏感,因为使用的是基于距离的方法。
- 不适用于非凸形状的簇或者大小差异很大的簇。
- 只能发现线性边界定义的簇;对于复杂的结构,性能较差。
3.2.5 应用场景
K-Means广泛应用于市场细分、社交网络分析、图像分割、文档分类等领域。例如,在市场营销中,可以通过顾客购买行为等信息将顾客分成不同的群体,以便更有效地进行产品推荐或广告投放。
3.2.6 改进与变体
为了克服传统K-Means的一些局限性,研究者们提出了多种改进版本,如:
- K-Means++:通过改进初始质心的选择策略以提高最终结果的质量。
- Mini-Batch K-Means:适合处理非常大的数据集,通过每次只选取部分样本来更新质心,从而减少计算开销。
- Mean Shift 和 DBSCAN (Density-Based Spatial Clustering of Applications with Noise):这些算法不需要事先指定簇的数量,并且可以发现任意形状的簇。
总之,尽管存在一些限制,K-Means仍然是一个非常实用且强大的工具,尤其当面对相对简单的数据结构时。正确选择参数及合理应用其变体可以帮助克服原始算法的一些不足之处。
3.3 LR线性回归
线性回归(Linear Regression, LR)是一种用于预测分析的统计方法,它试图建立一个或多个自变量(也称为特征或输入变量)与因变量(也称响应或输出变量)之间的线性关系。线性回归是机器学习中监督学习的一部分,广泛应用于经济、金融、社会科学等领域中的趋势预测和关联分析。
3.3.1 基本概念
- 线性关系:指两个变量之间的关系可以用一条直线来近似表示。在统计学中,如果一个变量 y y y的变化可以由另一个或多个变量 x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x1,x2,...,xn通过加权和的形式来预测,则称 y y y与这些 x i x_i xi之间存在线性关系。
- 模型形式:
- 简单线性回归: y = β 0 + β 1 x + ϵ y = \beta_0 + \beta_1x + \epsilon y=β0+β1x+ϵ
- 多元线性回归:
y
=
β
0
+
β
1
x
1
+
β
2
x
2
+
.
.
.
+
β
n
x
n
+
ϵ
y = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_n + \epsilon
y=β0+β1x1+β2x2+...+βnxn+ϵ
其中, β 0 \beta_0 β0是截距项, β 1 , β 2 , . . . , β n \beta_1, \beta_2, ..., \beta_n β1,β2,...,βn是各特征对应的权重系数, ϵ \epsilon ϵ代表随机误差。
3.3.2 目标函数
线性回归的目标是最小化预测值与实际值之间的差异。常用的目标函数为均方误差(Mean Squared Error, MSE):
M S E = 1 n ∑ i = 1 n ( y i − ( β 0 + β 1 x i 1 + β 2 x i 2 + . . . + β n x i n ) ) 2 MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i - (\beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + ... + \beta_nx_{in}))^2 MSE=n1∑i=1n(yi−(β0+β1xi1+β2xi2+...+βnxin))2
其中(n)是样本数量,(y_i)是第(i)个样本的实际输出,而括号内部分则是模型对第(i)个样本的预测输出。
3.3.3求解方法
- 普通最小二乘法(Ordinary Least Squares, OLS):通过求导数找到使MSE最小化的参数值。
- 梯度下降法:迭代更新参数直到收敛到局部最小值。
- 正规方程法:直接计算得到最优参数值,适用于较小的数据集。
3.3.4 优点
- 理论简单,易于理解和实现。
- 对于具有线性关系的数据表现良好。
- 可以提供关于每个自变量如何影响因变量的直观解释。
3.3.5 缺点
- 假设数据间存在线性关系,对于非线性问题效果不佳。
- 对异常值敏感,可能会导致模型偏差。
- 多重共线性(即自变量之间高度相关)会影响模型的稳定性。
3.3.6 应用场景
线性回归可用于多种场景,包括但不限于房价预测、销售预测、风险评估等。在实践中,经常需要对数据进行预处理,如标准化、去除异常值以及处理缺失值等,以提高模型性能。
3.3.7 改进与变体
针对线性回归的一些局限性,发展了若干改进版本:
- 岭回归(Ridge Regression) 和 Lasso 回归:引入正则化项以解决多重共线性和过拟合问题。
- 多项式回归:通过引入高次项来拟合非线性关系。
- 弹性网络(Elastic Net):结合了Lasso和岭回归的优点,同时惩罚系数的绝对值和平方值。
总之,线性回归是一个基础但强大的工具,在许多领域都有着广泛的应用。正确选择模型类型并合理调整参数可以帮助更好地适应具体问题的需求。
3.4 AHP层次分析法
层次分析法(Analytic Hierarchy Process, AHP)是由美国运筹学家托马斯·L·萨蒂(Thomas L. Saaty)在20世纪70年代提出的一种决策支持方法。AHP主要用于解决复杂的多准则决策问题,通过将决策问题分解为多个层次,并对每个层次中的因素进行两两比较来确定其相对重要性,最终帮助决策者做出更加科学合理的决策。
3.4.1 基本步骤
-
建立层次结构模型:首先明确要解决的问题是什么,然后根据问题的性质将整个决策过程分解成目标层、准则层和方案层三个层次。
- 目标层:表示决策的目的或想要达到的结果。
- 准则层:列出影响决策的各种因素或标准。
- 方案层:包含所有可能的选择或备选方案。
-
构造判断矩阵:针对每一层中相邻的两个层次之间,通过专家打分的方式构建判断矩阵。这些矩阵反映了各因素之间的相对重要程度。通常使用1-9标度法来表示一个因素相对于另一个因素的重要性程度。
-
计算权重向量:利用数学方法(如特征根法、几何平均法等)从判断矩阵中导出各因素的权重值。这一步骤是量化不同因素间相对重要性的关键。
-
一致性检验:为了确保判断矩阵的一致性,需要计算一致性比率(Consistency Ratio, CR)。如果CR小于0.1,则认为该矩阵具有满意的一致性;否则需要重新评估调整判断矩阵直至满足条件。
-
综合评价与选择:最后,根据各层次的因素权重及方案得分,综合计算出每个备选方案的整体优先级,从而决定最优解。
3.4.2 优点
- 系统化:能够清晰地展示决策过程中涉及的所有因素及其相互关系。
- 定量化:通过数值形式表达主观判断,使得决策过程更加客观公正。
- 灵活性:适用于多种类型的决策情境,包括但不限于项目选择、资源分配等领域。
- 易理解:对于非专业人士来说也易于理解和参与。
3.4.3 缺点
- 主观性强:虽然引入了数学方法处理数据,但最初的判断矩阵完全依赖于专家的知识经验和主观判断。
- 复杂性:当面对大量准则或方案时,构造和分析判断矩阵的过程可能会变得非常复杂。
- 一致性问题:有时很难保证所有的判断都能保持良好的一致性。
3.4.4 应用领域
AHP被广泛应用于工程管理、环境科学、教育学、医学等多个领域的决策分析中。例如,在工程项目中选择最佳实施方案、在环境保护工作中评估不同治理措施的效果、在学校管理中制定更有效的教学计划等方面都有着成功的应用案例。
总之,层次分析法提供了一种结构化的手段来处理复杂的多准则决策问题,通过将大问题拆解为小部分并逐步求解,有助于提高决策的质量和效率。尽管存在一定的局限性,但对于促进团队讨论达成共识以及辅助个人作出合理决策方面依然十分有效。
3.5 决策树
决策树(Decision Tree)是一种常用的监督学习方法,用于分类和回归任务。它通过递归地将数据集分割成子集,最终形成一个树状结构,其中每个内部节点表示对某个特征的测试,每个分支代表该测试的结果,而每个叶节点则代表一个预测结果或决策。
3.5.1 基本概念
- 根节点:树的最顶端节点,从这里开始划分数据。
- 内部节点:进行特征测试的节点,根据测试结果将数据分配到不同的子节点。
- 分支:连接节点之间的线,表示基于特定条件的数据流向。
- 叶节点:不再分裂的节点,代表了最终的决策结果或预测值。
3.5.2 构建过程
- 选择最佳分割属性:在每个节点上,选择一个最佳属性来进行数据分割,使得分割后的子集尽可能“纯”(即同一类别的样本尽可能多)。常用的方法包括信息增益、信息增益比、基尼不纯度等。
- 递归分割:对于每个新生成的子集,重复上述过程直到满足停止条件,如达到预设的最大深度、节点中的样本数量小于阈值、所有样本属于同一类别等。
- 剪枝处理:为了避免过拟合,可以通过剪枝来简化模型。剪枝有两种主要方式:预剪枝(在构建过程中就限制树的生长)和后剪枝(先让树充分生长,然后去除不必要的节点)。
3.5.3 优点
- 易于理解和解释:决策树的逻辑清晰直观,可以方便地转换为规则形式。
- 能够处理数值型和类别型数据:不需要对数据进行过多预处理。
- 非参数化方法:不要求数据服从特定的概率分布。
- 能自动处理特征间的交互作用:自然地捕捉不同特征之间的复杂关系。
3.5.4 缺点
- 容易过拟合:特别是当树很深时,可能会过度适应训练数据。
- 不稳定:小的数据变化可能导致完全不同的树结构。
- 偏向于选择具有更多水平的特征:这可能导致一些重要的特征被忽略。
3.5.5 应用场景
决策树广泛应用于各种领域,包括但不限于:
- 信用评分:评估个人或企业的信贷风险。
- 医疗诊断:辅助医生根据病人的症状和检查结果作出诊断。
- 市场营销:客户细分、产品推荐等。
- 故障诊断:工业设备维护中快速定位问题原因。
3.5.6 改进与变体
为了克服单一决策树的一些局限性,研究者们发展出了多种改进版本和技术,如:
- 随机森林(Random Forests, RF):通过集成多个决策树来提高预测准确性和稳定性。
- 梯度提升树(Gradient Boosting Trees, GBT):逐步构建一系列弱学习器,每棵树都试图纠正前一棵树的错误。
- XGBoost 和 LightGBM:这些是基于梯度提升框架的高效实现,特别适用于大规模数据集,并且提供了更强大的性能优化选项。
总之,决策树作为一种简单有效的机器学习算法,在许多实际应用中表现出色。通过合理设置参数以及采用适当的剪枝策略,可以帮助提高模型的泛化能力和预测精度。此外,结合其他先进的集成学习技术,还可以进一步提升决策树的表现。
3.6 随机森林
随机森林(Random Forest)是一种集成学习方法,它通过构建多个决策树来进行预测,并将它们的结果进行综合以提高准确性和稳定性。随机森林可以用于分类和回归任务,是基于决策树的扩展和改进版本。由于其强大的性能、易于使用以及对过拟合问题的良好控制,随机森林在机器学习领域中非常受欢迎。
3.6.1 工作原理
- 数据采样:从原始数据集中有放回地抽取样本,形成多个子集。这意味着每个子集可能包含重复的数据点。
- 特征选择:对于每一个子集,在建立决策树时只考虑一部分特征。通常是从所有可用特征中随机选取一个小的子集来决定最佳分裂属性。
- 生成决策树:为每个子集生成一个决策树模型。每棵树都独立地生长到最大深度,或者直到达到预设的停止条件。
- 投票或平均:
- 对于分类问题,最终的预测结果由多数表决决定,即选取出现次数最多的类别作为最终预测。
- 对于回归问题,则取所有树预测值的平均数作为最终输出。
3.6.2 优点
- 高准确性:通过结合多棵决策树的预测,随机森林能够减少偏差并降低方差,从而提升模型的整体性能。
- 抗过拟合能力强:通过对数据和特征的随机化处理,随机森林能够很好地避免单个决策树容易遇到的过拟合问题。
- 可解释性:虽然整体模型较为复杂,但可以通过查看单个决策树来理解部分模型的行为。
- 特征重要性评估:随机森林能够提供一种方法来衡量各个特征的重要性,这对于特征选择很有帮助。
- 并行计算友好:由于每棵树都是独立训练的,因此很容易利用并行计算资源加速训练过程。
3.6.3 缺点
- 计算成本较高:相比于单一决策树,需要更多的计算资源来训练大量的决策树。
- 模型复杂度增加:由于涉及到许多决策树,整个模型变得更为复杂,不易于直接理解和调试。
- 对噪声敏感:尽管具有较强的抗过拟合能力,但在存在大量噪声的情况下,随机森林的表现可能会受到影响。
3.6.4 应用场景
随机森林广泛应用于各种领域,包括但不限于:
- 金融风控:信用卡欺诈检测、贷款审批等。
- 医疗健康:疾病诊断、基因表达数据分析等。
- 电子商务:用户行为分析、商品推荐系统等。
- 自然语言处理:文本分类、情感分析等。
- 图像识别:物体识别、图像分割等。
3.6.5 参数调整
- n_estimators:森林中树木的数量,默认通常是100。增加数量可以改善模型性能,但也增加了计算时间。
- max_features:寻找最佳分割时考虑的最大特征数量。默认情况下,对于分类问题,它是特征总数的平方根;对于回归问题,则是特征总数的三分之一。
- max_depth:限制每棵树的最大深度,防止过拟合。
- min_samples_split 和 min_samples_leaf:控制节点分裂所需的最小样本数,有助于防止过拟合。
- bootstrap:是否采用自助法采样生成子集。
总之,随机森林是一种强大且灵活的机器学习工具,适用于多种类型的数据和问题。通过适当调整参数,可以在保持模型简单易用的同时实现高性能。
四、其他
4.1 数据库
4.1.1 mysql(关系型数据库)
MySQL是一款广受欢迎的开源关系型数据库管理系统,以其可靠性、高效性和易用性著称。它支持多种存储引擎,适用于Web应用、日志系统等场景,能够处理大规模数据集。MySQL使用SQL语言进行数据库管理,并且跨平台兼容Windows、Linux等多种操作系统,是构建动态网站和应用的重要工具之一。
4.1.2 neo4j(图数据库)
Neo4j是一款高度可扩展且性能卓越的开源图形数据库,专为存储和查询大规模、复杂关联的数据集而设计。它采用属性图模型,将数据表示为节点(实体)及其之间的关系(边),每个节点和关系都可以附加属性。这种结构使得Neo4j在处理社交网络分析、推荐系统、知识图谱构建、欺诈检测等需要深入理解数据间联系的应用场景中表现出色。Neo4j支持ACID事务,保证了数据的一致性和可靠性。此外,通过其特有的Cypher查询语言,开发者能够以直观的方式表达复杂的查询需求,极大地简化了开发过程。Neo4j还提供了丰富的API接口以及可视化工具,帮助用户更高效地管理和探索数据。
4.1.3 Milvus(向量数据库)
Milvus是一个开源的向量相似度搜索引擎,专为处理大规模向量数据而设计。它支持多种距离计算方法(如欧氏距离、余弦相似度等),能够高效地执行近似最近邻搜索(ANN)任务,适用于图像检索、视频分析、自然语言处理和推荐系统等多个领域。Milvus采用分布式架构设计,具备良好的扩展性和高可用性,能够轻松应对PB级的数据规模。通过与主流AI框架(如TensorFlow, PyTorch)无缝集成,Milvus简化了从模型训练到部署应用的流程。此外,它还提供了丰富的API接口以及可视化工具(Attu),便于开发者快速构建和优化基于向量的应用服务。
4.1.4 Faiss(向量检索)
Faiss是由Facebook AI Research开发的一个开源库,专注于高效地进行相似性搜索和向量聚类。它特别适用于处理大规模的高维向量数据集,如图像、视频或文本特征向量等。Faiss支持多种索引结构和技术,包括但不限于倒排文件、乘积量化(PQ)、哈希编码等,以实现快速准确的近似最近邻搜索。通过这些技术,Faiss能够在保持较高查询精度的同时显著降低计算资源消耗。此外,它还提供了灵活的API接口,允许用户根据具体应用场景调整参数配置,从而优化性能表现。广泛应用于推荐系统、信息检索以及计算机视觉等领域。
4.2 Docker
Docker 是一个开源的应用容器引擎,它允许开发者将应用程序及其依赖打包进一个可移植的容器中,然后发布到任何流行的 Linux 或 Windows 机器上,并保证其运行环境的一致性。这种容器化技术极大简化了软件部署过程,提高了开发效率和应用的可维护性。Docker 容器基于轻量级虚拟化技术构建,相比传统虚拟机具有更快的启动速度和更低的资源消耗。通过 Dockerfile 可以定义容器镜像的构建步骤,而 Docker Compose 则支持多容器应用的定义与运行。Docker 还拥有庞大的社区支持和丰富的官方及第三方镜像库,使得快速搭建开发、测试或生产环境变得十分便捷。
4.3 Anaconda3
Anaconda3是一个开源的数据科学平台,集成了Python和R的环境管理与包管理系统Conda。它预装了大量科学计算、数据分析和机器学习库,如NumPy、Pandas及SciPy等,并支持通过Jupyter Notebook进行交互式开发。Anaconda3简化了软件包的安装与更新过程,非常适合数据科学家、研究人员以及开发者使用。
4.4 Cuda
CUDA(Compute Unified Device Architecture)是NVIDIA推出的一种并行计算平台和编程模型,它能够让开发者利用NVIDIA GPU的强大性能进行通用计算。通过CUDA,程序员可以编写运行在GPU上的代码,加速处理大量数据密集型任务,如深度学习、科学计算及图像处理等。CUDA支持多种编程语言,并提供了丰富的库和工具,以简化开发过程。