6.人工智能与机器学习

一、人工智能基本原理

1. 人工智能（AI）定义与范畴

核心目标：模拟人类智能行为（如推理、学习、决策）
分类：
- 弱人工智能（Narrow AI）：专精单一任务（如AlphaGo、语音助手）
- 强人工智能（General AI）：具备人类全面认知能力（尚未实现）
- 超级智能（Superintelligence）：超越人类所有领域的智能（理论阶段）

2. AI技术体系

知识表示：
- 逻辑表示：通过一阶谓词逻辑（FOL）描述事实与规则，例如“若P则Q”的确定性推理。
- 语义网络：以节点（概念）和边（关系）表示知识，支持非结构化数据的灵活关联，如“中南大学→位于→长沙市”。
- 框架与本体：通过预定义模板（框架）或层级化概念体系（本体）组织领域知识，增强知识复用与推理效率。
推理机制：
- 确定性推理：
  - 演绎推理：从一般规则推导出具体结论（如三段论），应用于专家系统与定理证明。
  - 归结推理：通过子句集化简解决逻辑问题，如数学定理求解。
- 不确定性推理：
  - 贝叶斯网络：基于概率图模型处理不确定信息，如医疗诊断中的概率推断。
  - 模糊逻辑：通过模糊集合与模糊推理处理模糊性知识，如模糊控制系统。
搜索与优化：
- 启发式搜索：
  - A*算法：结合启发函数（如欧几里得距离）优化路径规划，广泛应用于游戏AI与机器人导航。
  - 双向搜索：同时从初始状态与目标状态进行搜索，减少搜索空间。
- 进化算法：
  - 遗传算法：模拟自然选择与遗传机制，通过交叉、变异操作优化复杂问题（如函数优化）。
  - 粒子群优化：基于群体智能调整搜索方向，适用于连续空间优化问题。
支撑技术：
- 机器学习：包括监督学习（如线性回归）、无监督学习（如聚类）和强化学习（如AlphaGo策略优化）。
- 深度学习：基于神经网络（CNN、RNN）自动提取特征，突破传统算法的局限性。
- 计算资源：GPU/TPU加速并行计算，分布式架构支持大规模数据处理。

3. 应用与挑战

应用领域：
- 计算机视觉：图像识别（CNN）、目标检测（YOLO）。
- 自然语言处理：机器翻译（Transformer）、情感分析（BERT）。
- 智能决策：博弈论（如AlphaGo）、强化学习（自动驾驶）。
核心挑战：
- 数据依赖：高质量数据获取与偏见治理。
- 可解释性：深度学习“黑箱”问题。
- 伦理与安全：AI决策的公平性与隐私保护。

二、机器学习算法与应用

1. 机器学习基础

定义：通过数据训练模型，使系统具备预测或决策能力
学习范式：
- 监督学习（带标签数据）：分类（邮件垃圾过滤）、回归（房价预测）
- 无监督学习（无标签数据）：聚类（客户分群）、降维（PCA）
- 半监督学习：少量标注数据 + 大量未标注数据（如医学影像中结合少量标注与大量未标注数据）
- 强化学习：智能体与环境交互（如AlphaGo自我对弈、机器人路径规划）

2. 经典算法

线性回归：
- 模型： $\beta_0 + \beta_1x_1 + \cdots + \beta_nx_n$
- 损失函数：均方误差（MSE）
- 优化方法：梯度下降（批量梯度下降、随机梯度下降）
- 应用：房价预测、股票价格趋势分析
决策树与随机森林：
- 分裂标准：信息增益（ID3）、基尼系数（CART）
- 随机森林：多棵树投票，抗过拟合（如客户信用评分模型）
- 改进：通过特征随机选择和样本Bootstrap抽样提升泛化能力
支持向量机（SVM）：
- 核思想：最大化分类间隔（如人脸识别、文本分类）
- 核技巧：将低维数据映射到高维（RBF核、多项式核）
- 改进：引入软间隔处理噪声数据，支持多分类任务
K均值聚类：
- 步骤：初始化中心点 → 分配簇 → 更新中心 → 迭代至收敛
- 优化：K-means++初始化、轮廓系数评估聚类效果
- 应用：客户分群、图像分割

3. 应用场景

金融风控：
- 逻辑回归预测贷款违约概率（如银行信用评分系统）
- SVM识别信用卡欺诈交易（实时检测异常模式）
医疗诊断：
- 随机森林辅助癌症分类（基于基因表达数据）
- 深度学习分析医学影像（如X光片肺结节检测）
推荐系统：
- 协同过滤（用户-物品矩阵分解，如Netflix电影推荐）
- 矩阵分解结合深度学习（如YouTube视频推荐）

三、深度学习与前沿技术

1. 深度学习基础

神经网络架构：
- 前馈神经网络（FNN）：由输入层、隐藏层和输出层构成，通过全连接实现非线性映射，适用于分类和回归任务。
- 反向传播算法：基于链式法则计算梯度，通过梯度下降更新权重，学习率控制参数调整步长。
激活函数：
- ReLU（Rectified Linear Unit）：通过f(x)=max(0,x)解决梯度消失问题，加速收敛。
- Softmax：将输出转换为概率分布，常用于多分类任务的最终层。
正则化技术：
- Dropout：训练时随机屏蔽部分神经元，防止过拟合。
- L1/L2正则化：通过约束权重大小（L1为绝对值和，L2为平方和）抑制模型复杂度。

2. 核心模型与技术

卷积神经网络（CNN）：
- 结构：卷积层（提取局部特征）→ 池化层（降维）→ 全连接层（分类），通过权值共享减少参数量。
- 应用：ImageNet图像分类（ResNet、VGG）、目标检测（YOLO）、医学影像分析（UNet）。
循环神经网络（RNN）：
- 特点：通过循环连接处理序列数据，捕捉时序依赖关系，但存在梯度消失问题。
- 变种：
  - LSTM（长短期记忆）：引入门控机制缓解梯度消失，适用于长序列。
  - GRU（门控循环单元）：简化LSTM结构，性能接近但计算更高效。
Transformer：
- 自注意力机制：计算序列元素间的全局依赖关系，替代传统RNN的序列处理方式。
- 典型模型：
  - BERT（Bidirectional Encoder Representations from Transformers）：双向编码上下文特征，用于文本理解。
  - GPT（Generative Pre-trained Transformer）：生成式预训练模型，通过单向注意力生成文本。

3. 生成模型

生成对抗网络（GAN）：
- 组成：生成器（生成逼真数据）与判别器（鉴别真伪），通过对抗训练提升生成质量。
- 应用：图像生成（StyleGAN）、数据增强、艺术创作（如Deepfake）。
扩散模型（Diffusion Model）：
- 原理：逐步对噪声数据进行去噪，最终生成目标样本（如Stable Diffusion）。
- 优势：生成过程可控（如文本引导图像生成），质量接近真实数据。

四、自然语言处理（NLP）

1. 核心技术

词嵌入：
- 静态词向量：Word2Vec（Skip-Gram/CBOW模型）通过神经网络学习词汇的分布式表示，捕捉语义相似性；GloVe基于全局词频统计，优化共现矩阵分解以提升向量质量。
- 动态词向量：ELMo通过双向LSTM生成上下文相关的词向量，解决多义词问题；BERT采用Transformer架构，通过掩码语言模型（MLM）实现双向上下文感知。
文本分类：
- 传统方法：TF-IDF提取文本特征后，结合SVM分类器实现高效分类。
- 深度方法：TextCNN利用卷积核捕捉局部语义模式；Transformer通过自注意力机制建模长距离依赖，显著提升分类性能。
机器翻译：
- 统计机器翻译（SMT）：基于规则和统计模型（如HMM）对齐源语言与目标语言，但依赖人工构建翻译规则。
- 神经机器翻译（NMT）：以Google Translate为代表，采用编码器-解码器架构，结合注意力机制实现端到端翻译，显著提升流畅度。

2. 大语言模型（LLM）

技术演进：
- GPT系列：GPT-3（1750亿参数）通过自回归生成文本，支持复杂推理；GPT-4引入多模态输入（文本+图像/音频），扩展应用场景。
- 开源模型：LLaMA（280亿参数）和Alpaca（70亿参数）推动技术民主化，降低部署门槛。
应用场景：
- 智能客服：通过意图识别（如BERT）和多轮对话管理（如RAG），实现24小时自动化服务。
- 代码生成：GitHub Copilot基于LLM解析自然语言描述，生成高质量代码片段并提示调试建议。

五、计算机视觉（CV）

1. 核心任务

图像分类：
- 经典数据集：MNIST（手写数字）、CIFAR-10
- 模型：AlexNet（2012年突破）、ResNet（残差网络提升性能）、EfficientNet（高精度低计算量）
目标检测：
- 两阶段：Faster R-CNN（候选区域 + 分类）
- 单阶段：YOLO（实时检测，YOLOv8支持实例分割，应用于自动驾驶）、SSD（单阶段检测）
图像分割：
- 语义分割（FCN、U-Net、DeepLab）
- 实例分割（Mask R-CNN）