AI菜鸟向前飞 — 大模型基础知识篇

news2025/4/13 3:17:15

前言

主要介绍最最基础的知识，在这个基础上有现在比较流行的GPT、Llama、Gemini**等一系列大模型的出现，打好基础才能更理解上面是如何运作以及实现的过程。

PS：本篇科普不会介绍梯度下降算法（偏导数）等复杂的过程，先只会点到为止。

生命周期

建模（Modeling）

建模是设计深度学习模型的过程，包括选择适当的网络架构。

在此阶段，你需要确定的网络层数，每层的节点数、激活函数类型、优化器以及损失函数等。

训练（Training）

训练阶段是深度学习模型学习并优化权重的过程。        在此阶段，模型通过一组已标记的训练数据进行学习。这个过程在训练数据集上反复运行，直到模型的性能达到满意的程度或者达到预定的迭代次数，其中包含：有监督学习、无监督学习、半监督学习。

验证（Validation）

验证阶段通常在训练过程中进行，其目的是评估模型对未见过的数据的泛化能力。        在此阶段，模型在一个独立的，非训练数据集（验证集）上进行测试。验证过程帮助我们调整模型参数，并决定何时停止训练。

推理（Inference）

推理阶段是模型部署后的阶段，也就是模型在实际环境中作出预测的阶段。        在此阶段，模型接收新的、未标记的数据，然后根据训练得出的模型做出预测，这些预测结果可以被用于各种应用。

算法

Transformer — 目前最火

最开始起源于NLP领域，主要处理文本领域。现在最火的ChatGPT**的底层就是使用的它。

CNN（卷积神经网络**）

主要处理图片数据，应用于计算机视觉领域（CV）。例如：图片识别、分割，目标检测、追踪，图片生成等等

RNN（循环神经网络**）

主要处理文本数据，例如：NLP。在GPT中 讲注意力机制**中也会提到它。

GAN（生成对抗网络）

它是一个生成模型，用于图片领域。例如：AI换脸、图片样式风格迁移，虚拟人物生成等等。

Diffusion Model（扩散模型）

它也是一个生成模型，用于图片领域，强于GAN。

GNN（图神经网络）

主要处理一些图数据，从中做一些特征提取和问题的回答。例如：社交网络关联关系图谱等。

DRL（深度强化学习）

主要处理需要跟环境交互的算法。例如：处理在游戏中，游戏主角与游戏环境之间的交互的奖惩机制。

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以V扫描下方二维码免费领取🆓

在这里插入图片描述

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述