人工智能

深度强化学习（Deep Reinforcement Learning）
图神经网络（Graph Neural Networks, GNNs）
Transformer 一种深度学习模型
大语言模型（Large Language Models, LLMs）

• Marvin Minsky 将其定义为让机器完成通常需要人类智能才能完成的任务的科学

机器学习（Machine Learning, ML）

• AI 的一个子集，利用数据训练模型，使系统无需显式编程即可完成任务。

常见方法：
   •   监督学习：数据有明确的输入和输出。
   •   无监督学习：数据没有明确标签，模型寻找数据的隐藏模式。
   •   强化学习：通过奖励和惩罚学习动作。

深度学习（Deep Learning, DL）

• 机器学习的一个子集，利用多层神经网络处理复杂任务。
• 特点：需要大量数据和算力，能够自动提取特征。

机器学习的分类

   1.   监督学习（Supervised Learning）：
   •   输入和输出数据均已知，模型根据输入数据预测输出标签。
   •   例子：图像分类、回归分析。

   2.   无监督学习（Unsupervised Learning）：
   •   输入数据已知，但没有明确的输出标签，模型需要从数据中发现模式。
   •   例子：聚类、降维。

   3.   强化学习（Reinforcement Learning）：
   •   系统与环境交互，通过获得奖励最大化长期收益。
   •   例子：游戏 AI、机器人路径规划。

半监督学习 (Semi-Supervised Learning)

   •   数据集中包含标注数据和未标注数据的混合。
   •   标注数据用于指导学习，未标注数据提供额外信息（如数据分布）。
   •   特点：
   •   减少标注需求，结合监督和无监督学习的优点。

自监督学习 (Self-Supervised Learning）

自监督是一种无监督学习的形式，数据为自身提供监督信号。
• 从数据本身生成伪标签进行学习，无需人工标注。
• 示例：让模型预测图片的旋转角度。

特点：
• 用数据内在的关系生成学习目标。
• 用于大规模无标签数据学习特征。

自监督学习案例 - 图像旋转

任务描述：
• 输入：一组随机旋转的图片（如 0°、90°、180°、270°）。
• 模型任务：预测图片的旋转角度。

强化学习

定义：
• 强化学习 (Reinforcement Learning, RL) 是通过与环境交互学习的机器学习方法。
• 学习目标：选择能最大化长期奖励的动作。

关键点：
   1.   学习方式：基于试错法的交互学习。
   2.   目标导向：所有学习围绕奖励信号进行。
   3.   映射问题：学会将环境状态映射到合适的动作。

监督学习的流程

定义：
• 监督学习通过已标注数据训练模型，将输入映射到输出。

流程：
   1.   输入：特征数据（如图片）。
   2.   输出：目标值（如“猫”或“狗”）。
   3.   误差：模型预测与目标值的差异。
   4.   优化：通过迭代训练最小化误差。

示例任务：
• 图像分类（猫/狗）。
• 房价预测。

强化学习的流程

流程：
   1.   输入：环境状态。
   2.   输出：动作（由智能体选择）。
   3.   奖励信号：根据动作结果提供反馈（奖励/惩罚）。
   4.   目标：通过试错最大化累积奖励。

特点：
• 训练信息不直接是目标值，而是奖励。
• 适用于动态、交互式任务。

目标：
• 最大化奖励，学习最优策略。

强化学习 (Reinforcement Learning, RL) 的关键特性

关键特性：
   1.   未明确告知动作：
   •   强化学习中的智能体（agent）需要自己探索，并未直接告知正确的行动。
   •   通过环境反馈学习如何选择合适的动作。

2. 试错搜索 (Trial-and-Error Search)：
• 智能体尝试不同的动作并观察结果，通过试错法改进策略。

   3.   延迟奖励 (Delayed Reward)：
   •   智能体可能需要牺牲短期利益以获得更大的长期收益。
   •   例如，棋局中的一步可能暂时失利，但对最终获胜至关重要。

   4.   探索与利用的平衡 (Explore and Exploit)：
   •   探索：尝试新策略以发现潜在更优的解决方案。
   •   利用：利用现有知识采取已知最佳动作。

5. 目标导向与不确定环境：
• 强化学习处理智能体与动态、不确定环境的交互，设计目标明确。

监督学习：
   •   目标：学习条件概率 p_{\theta}(y|x) ，预测 y 给定输入 x 。
   •   应用：分类（如识别图像是否包含猫）、回归（如预测房价）。

无监督学习：
   •   目标：学习数据分布 p_{\theta}(x) 。
   •   应用：聚类、生成模型（如生成新图像）。

强化学习：
   •   目标：学习策略 \pi_{\theta}(a|s) ，即给定状态 s 时选择的动作 a 。
   •   应用：控制系统（如机器人运动控制）。