《深度学习实战》第10集：联邦学习与隐私保护

第10集：联邦学习与隐私保护

2025年3月4日更新了代码，补充了实例程序运行截图和如何提高模型准确率的方法
系统梳理集集精彩代码验证保证实战
随着数据隐私问题日益受到关注，联邦学习（Federated Learning） 作为一种分布式机器学习方法，正在成为解决隐私保护与模型训练矛盾的关键技术。本文将带你深入了解联邦学习的基本原理、核心技术，并通过实战项目展示其应用。

在这里插入图片描述

一、知识点：联邦学习的核心概念

1. 联邦学习的基本原理

联邦学习是一种分布式机器学习框架，其核心思想是**“数据不动，模型动”**。具体来说，联邦学习允许多个客户端（如手机、IoT设备等）在本地训练模型，然后将模型更新发送到中央服务器进行聚合，而无需共享原始数据。

联邦学习的主要特点：

隐私保护：数据始终保存在本地，避免了敏感信息的泄露。
分布式计算：充分利用边缘设备的计算能力，减少对中心服务器的依赖。
异构性支持：能够处理不同设备上的非独立同分布（Non-IID）数据。

联邦学习的典型架构：

在这里插入图片描述

2. 差分隐私与同态加密

为了进一步增强隐私保护，联邦学习通常结合以下两种技术：

差分隐私（Differential Privacy）
差分隐私通过在模型更新中添加噪声，确保单个数据点对最终结果的影响被限制在一定范围内，从而防止攻击者通过模型反推出原始数据。
同态加密（Homomorphic Encryption）
同态加密允许在加密数据上直接进行计算，而无需解密。这种方法可以确保模型更新在传输过程中始终保持加密状态，进一步提升安全性。

二、实战项目：使用 TensorFlow Federated 实现简单的联邦学习实验

1. 环境准备 python3.8.8 注意一定要python 3.8系列

安装虚拟环境后把pip升级到最新版本，否则会失败

首先，安装 TensorFlow Federated（TFF）库：

pip install tensorflow-federated

2. 数据准备(以下代码可以在jupyter notebook分段运行，也可以整合在一个代码文件运行)

我们使用 TensorFlow 提供的模拟数据集 tff.simulation.datasets.emnist，这是一个手写数字识别任务的数据集。

import tensorflow as tf
import tensorflow_federated as tff
import collections

# 加载 EMNIST 数据集
emnist_train, emnist_test = tff.simulation.datasets.emnist.load_data()

# 查看数据集结构
print(f"训练集客户端数量: {len(emnist_train.client_ids)}")
print(f"测试集客户端数量: {len(emnist_test.client_ids)}")

3. 模型定义

定义一个简单的卷积神经网络（CNN）作为全局模型：

def create_keras_model():
    return tf.keras.models.Sequential([
        tf.keras.layers.InputLayer(input_shape=(28, 28, 1)),
        tf.keras.layers.Conv2D(32, kernel_size=(3, 3), activation='relu'),
        tf.keras.layers.MaxPooling2D(pool_size=(2, 2)),
        tf.keras.layers.Flatten(),
        tf.keras.layers.Dense(128, activation='relu'),
        tf.keras.layers.Dense(10, activation='softmax')
    ])

# 将 Keras 模型转换为 TFF 模型
def model_fn():
    # 获取第一个客户端的数据集
    dataset = emnist_train.create_tf_dataset_for_client(emnist_train.client_ids[0])
    
    # 预处理数据集，添加通道维度
    def preprocess(dataset):
        def batch_format_fn(element):
            return collections.OrderedDict([
                ('x', tf.expand_dims(element['pixels'], axis=-1)),
                ('y', element['label'])
            ])
        
        return dataset.map(batch_format_fn).batch(20)  # 假设批量大小为20

    preprocessed_dataset = preprocess(dataset)
    
    # 检查数据集的 element_spec
    element_spec = preprocessed_dataset.element_spec
    
    return tff.learning.from_keras_model(
        create_keras_model(),
        input_spec=element_spec,  # 使用包含 'x' 和 'y' 的 input_spec
        loss=tf.keras.losses.SparseCategoricalCrossentropy(),
        metrics=[tf.keras.metrics.SparseCategoricalAccuracy()]
    )

4. 联邦学习过程

使用 TFF 的联邦平均算法（FedAvg）进行分布式训练：

# 定义预处理函数
def preprocess(dataset):
    def batch_format_fn(element):
        return collections.OrderedDict([
            ('x', tf.expand_dims(element['pixels'], axis=-1)),
            ('y', element['label'])
        ])
    
    return dataset.map(batch_format_fn).batch(20)  # 假设批量大小为20

# 定义联邦平均过程
iterative_process = tff.learning.build_federated_averaging_process(
    model_fn,
    client_optimizer_fn=lambda: tf.keras.optimizers.SGD(learning_rate=0.02),
    server_optimizer_fn=lambda: tf.keras.optimizers.SGD(learning_rate=1.0)
)

# 初始化全局模型
state = iterative_process.initialize()

# 进行多轮联邦训练
NUM_ROUNDS = 10
for round_num in range(1, NUM_ROUNDS + 1):
    # 随机选择部分客户端参与训练
    sampled_clients = emnist_train.client_ids[:5]
    # 对每个客户端的数据进行预处理
    federated_train_data = [
        preprocess(emnist_train.create_tf_dataset_for_client(client)) for client in sampled_clients
    ]
    
    # 执行一轮训练
    result = iterative_process.next(state, federated_train_data)
    state = result[0]  # 获取第一个元素作为 state
    
    # 输出训练结果
    metrics = result[1]  # 获取第二个元素作为 metrics
    
    # 打印指标结构（仅在第一轮执行，帮助调试）
    if round_num == 1:
        print("指标结构:", metrics.keys())
    
    # 从 'train' 键下获取指标
    train_metrics = metrics['train']
    print(f"Round {round_num}, Loss: {train_metrics['loss']:.4f}, Accuracy: {train_metrics['sparse_categorical_accuracy']:.4f}")

5. 测试模型性能

在测试集上评估全局模型的性能：

# 使用测试集评估模型
evaluation = tff.learning.build_federated_evaluation(model_fn)

# 对测试数据进行预处理，与训练数据使用相同的预处理函数
test_data = [
    preprocess(emnist_test.create_tf_dataset_for_client(client)) 
    for client in emnist_test.client_ids[:5]
]

# 评估模型
test_metrics = evaluation(state.model, test_data)

print(f"测试集准确率: {test_metrics['sparse_categorical_accuracy']:.4f}")

在联邦学习的实战项目中，服务器和客户端的角色分工非常重要。以下是基于 TensorFlow Federated (TFF) 的联邦学习实验中，服务器和客户端的具体职责、代码运行逻辑以及数据流动的详细解释。

系统运行输出：

2025-03-04 18:27:03.432850: W tensorflow/stream_executor/platform/default/dso_loader.cc:59] Could not load dynamic library 'cudart64_101.dll'; dlerror: cudart64_101.dll not found
2025-03-04 18:27:03.433171: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.
训练集客户端数量: 3383
测试集客户端数量: 3383
2025-03-04 18:27:13.277749: I tensorflow/stream_executor/platform/default/dso_loader.cc:48] Successfully opened dynamic library nvcuda.dll
2025-03-04 18:27:13.311964: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1716] Found device 0 with properties: 
pciBusID: 0000:01:00.0 name: Quadro RTX 5000 computeCapability: 7.5
coreClock: 1.545GHz coreCount: 48 deviceMemorySize: 16.00GiB deviceMemoryBandwidth: 417.29GiB/s
2025-03-04 18:27:13.313521: W tensorflow/stream_executor/platform/default/dso_loader.cc:59] Could not load dynamic library 'cudart64_101.dll'; dlerror: cudart64_101.dll not found
2025-03-04 18:27:13.314930: W tensorflow/stream_executor/platform/default/dso_loader.cc:59] Could not load dynamic library 'cublas64_10.dll'; dlerror: cublas64_10.dll not found
2025-03-04 18:27:13.316281: W tensorflow/stream_executor/platform/default/dso_loader.cc:59] Could not load dynamic library 'cufft64_10.dll'; dlerror: cufft64_10.dll not found
2025-03-04 18:27:13.317999: I tensorflow/stream_executor/platform/default/dso_loader.cc:48] Successfully opened dynamic library curand64_10.dll
2025-03-04 18:27:13.319563: W tensorflow/stream_executor/platform/default/dso_loader.cc:59] Could not load dynamic library 'cusolver64_10.dll'; dlerror: cusolver64_10.dll not found
2025-03-04 18:27:13.321041: W tensorflow/stream_executor/platform/default/dso_loader.cc:59] Could not load dynamic library 'cusparse64_10.dll'; dlerror: cusparse64_10.dll not found
2025-03-04 18:27:13.322479: W tensorflow/stream_executor/platform/default/dso_loader.cc:59] Could not load dynamic library 'cudnn64_7.dll'; dlerror: cudnn64_7.dll not found
2025-03-04 18:27:13.322724: W tensorflow/core/common_runtime/gpu/gpu_device.cc:1753] Cannot dlopen some GPU libraries. Please make sure the missing libraries mentioned above are installed properly if you would like to use GPU. Follow the guide at https://www.tensorflow.org/install/gpu for how to download and setup the required libraries for your platform.
Skipping registering GPU devices...
2025-03-04 18:27:16.089791: I tensorflow/core/platform/cpu_feature_guard.cc:142] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN)to use the following CPU instructions in performance-critical operations:  AVX2
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
2025-03-04 18:27:16.098291: I tensorflow/compiler/xla/service/service.cc:168] XLA service 0x19c9bf209f0 initialized for platform Host (this does not guarantee that XLA will be used). Devices:
2025-03-04 18:27:16.098611: I tensorflow/compiler/xla/service/service.cc:176]   StreamExecutor device (0): Host, Default Version
2025-03-04 18:27:16.099028: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1257] Device interconnect StreamExecutor with strength 1 edge matrix:
2025-03-04 18:27:16.099320: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1263]
指标结构: odict_keys(['broadcast', 'aggregation', 'train'])
Round 1, Loss: 2.3634, Accuracy: 0.0917
Round 2, Loss: 2.3296, Accuracy: 0.0917
Round 3, Loss: 2.3195, Accuracy: 0.0979
Round 4, Loss: 2.3126, Accuracy: 0.1104
Round 5, Loss: 2.3051, Accuracy: 0.1187
Round 6, Loss: 2.2987, Accuracy: 0.1500
Round 7, Loss: 2.2941, Accuracy: 0.1458
Round 8, Loss: 2.2898, Accuracy: 0.1292
Round 9, Loss: 2.2850, Accuracy: 0.1417
Round 10, Loss: 2.2797, Accuracy: 0.1521
测试集准确率: 0.1404

6. 实战项目补充说明

1. 联邦学习的整体架构
联邦学习的核心思想是“数据不动，模型动”。具体来说：

客户端：每个客户端在本地拥有自己的数据，并使用这些数据训练模型。
服务器：负责聚合来自多个客户端的模型更新，并生成全局模型。

整个流程可以分为以下几个阶段：

初始化：服务器初始化一个全局模型。
分发模型：服务器将全局模型发送给参与训练的客户端。
本地训练：客户端在本地数据上训练模型，并生成模型更新（如梯度或参数变化）。
上传更新：客户端将模型更新发送回服务器。
聚合更新：服务器对所有客户端的更新进行聚合，生成新的全局模型。
重复迭代：重复上述步骤，直到模型收敛。

2. 服务器端的代码与职责

职责

初始化全局模型。
接收客户端的模型更新。
使用联邦平均算法（Federated Averaging, FedAvg）聚合客户端的模型更新。
分发更新后的全局模型给客户端。

代码实现
以下是服务器端的主要代码逻辑：

# 定义联邦平均过程
iterative_process = tff.learning.algorithms.build_weighted_fed_avg(
    model_fn,  # 模型定义函数
    client_optimizer_fn=lambda: tf.keras.optimizers.SGD(learning_rate=0.02),  # 客户端优化器
    server_optimizer_fn=lambda: tf.keras.optimizers.SGD(learning_rate=1.0)  # 服务器优化器
)

# 初始化全局模型
state = iterative_process.initialize()

# 进行多轮联邦训练
NUM_ROUNDS = 10
for round_num in range(1, NUM_ROUNDS + 1):
    # 随机选择部分客户端参与训练
    sampled_clients = emnist_train.client_ids[:5]  # 假设选择前5个客户端
    federated_train_data = [
        emnist_train.create_tf_dataset_for_client(client) for client in sampled_clients
    ]
    
    # 执行一轮训练
    result = iterative_process.next(state, federated_train_data)
    state = result.state
    
    # 输出训练结果
    metrics = result.metrics['client_work']['train']
    print(f"Round {round_num}, Loss: {metrics['loss']:.4f}, Accuracy: {metrics['sparse_categorical_accuracy']:.4f}")

解释

model_fn 是一个函数，用于定义全局模型结构。
build_weighted_fed_avg 是 TFF 提供的联邦平均算法实现，用于在服务器端聚合客户端的模型更新。
iterative_process.next(state, federated_train_data) 是每轮训练的核心操作，服务器接收客户端的训练数据并更新全局模型。

3. 客户端的代码与职责

职责

接收服务器分发的全局模型。
使用本地数据对模型进行训练。
将本地训练得到的模型更新（如梯度或参数变化）发送回服务器。

代码实现
客户端的训练逻辑由 TFF 自动封装，无需显式编写客户端代码。以下是一个简化的说明：

def model_fn():
    keras_model = create_keras_model()
    return tff.learning.from_keras_model(
        keras_model,
        input_spec=emnist_train.create_tf_dataset_for_client(emnist_train.client_ids[0]).element_spec,
        loss=tf.keras.losses.SparseCategoricalCrossentropy(),
        metrics=[tf.keras.metrics.SparseCategoricalAccuracy()]
    )

解释

create_keras_model() 定义了客户端使用的模型结构。
tff.learning.from_keras_model() 将 Keras 模型转换为 TFF 兼容的格式。
客户端的训练数据通过 emnist_train.create_tf_dataset_for_client(client) 获取，确保数据始终保留在本地。

4. 数据流动与角色分工

服务器端

输入：客户端上传的模型更新（如梯度或参数变化）。
输出：聚合后的全局模型。
数据流动：
- 服务器将全局模型分发给客户端。
- 服务器接收客户端上传的模型更新，并使用联邦平均算法进行聚合。
客户端
输入：服务器分发的全局模型。
输出：本地训练生成的模型更新。
数据流动：
- 客户端从服务器接收全局模型。
- 客户端使用本地数据训练模型，并生成模型更新。
- 客户端将模型更新上传到服务器。

5. 示例中的数据分布

在示例中，我们使用了 TensorFlow 提供的 EMNIST 数据集，该数据集被划分为多个客户端的数据子集。每个客户端的数据子集是独立的，且可能具有非独立同分布（Non-IID）特性。

数据加载

# 加载 EMNIST 数据集
emnist_train, emnist_test = tff.simulation.datasets.emnist.load_data()

# 查看数据集结构
print(f"训练集客户端数量: {len(emnist_train.client_ids)}")
print(f"测试集客户端数量: {len(emnist_test.client_ids)}")

数据分布特点

每个客户端的数据子集通过 emnist_train.create_tf_dataset_for_client(client) 获取。
不同客户端的数据可能是 Non-IID 的，例如某些客户端主要包含数字图像，而另一些客户端主要包含字母图像。

6. 项目小结

服务器端：负责初始化全局模型、分发模型、接收客户端更新并聚合更新。
客户端：负责使用本地数据训练模型，并将模型更新上传到服务器。
数据流动：模型参数在服务器和客户端之间传递，而原始数据始终保留在客户端本地。

通过这种分工，联邦学习实现了数据隐私保护的同时，还能利用分布式计算资源完成模型训练。

三、图示：联邦学习架构与训练过程

1. 联邦学习架构图

以下是联邦学习的典型架构图：

+-------------------+       +-------------------+
|   客户端1         |       |   客户端2         |
| 数据保持本地      |       | 数据保持本地      |
+-------------------+       +-------------------+
          ↓                         ↓
    +------------+           +------------+
    | 模型训练   |           | 模型训练   |
    +------------+           +------------+
          ↓                         ↓
    +---------------------------------------------+
    | 中央服务器：模型参数聚合                   |
    +---------------------------------------------+
          ↓
    +------------+
    | 全局模型更新 |
    +------------+

2. 训练过程示意图

以下是联邦学习的训练过程示意图：

初始模型 → 客户端1训练 → 客户端2训练 → ... → 参数上传 → 中央聚合 → 更新模型 → 下一轮训练

3. 如何提高模型准确率

提高联邦学习模型准确率的方法

目前模型的准确率确实较低（测试集准确率仅为14.04%），以下是几种可以提高准确率的方法：

1. 增加训练轮数

# 增加训练轮数
NUM_ROUNDS = 50  # 从10轮增加到50轮

2. 调整模型架构

def create_keras_model():
    return tf.keras.models.Sequential([
        tf.keras.layers.InputLayer(input_shape=(28, 28, 1)),
        tf.keras.layers.Conv2D(32, kernel_size=(3, 3), activation='relu'),
        tf.keras.layers.MaxPooling2D(pool_size=(2, 2)),
        tf.keras.layers.Conv2D(64, kernel_size=(3, 3), activation='relu'),  # 添加更多卷积层
        tf.keras.layers.MaxPooling2D(pool_size=(2, 2)),
        tf.keras.layers.Dropout(0.25),  # 添加Dropout防止过拟合
        tf.keras.layers.Flatten(),
        tf.keras.layers.Dense(256, activation='relu'),  # 增加神经元数量
        tf.keras.layers.Dropout(0.5),  # 添加Dropout
        tf.keras.layers.Dense(10, activation='softmax')
    ])

3. 调整学习率和优化器

# 定义联邦平均过程
iterative_process = tff.learning.build_federated_averaging_process(
    model_fn,
    client_optimizer_fn=lambda: tf.keras.optimizers.Adam(learning_rate=0.001),  # 使用Adam优化器
    server_optimizer_fn=lambda: tf.keras.optimizers.Adam(learning_rate=0.1)  # 使用Adam优化器
)

4. 增加每轮参与训练的客户端数量

# 增加参与训练的客户端数量
sampled_clients = emnist_train.client_ids[:20]  # 从5个增加到20个

5. 增加每个客户端的批量大小

def preprocess(dataset):
    def batch_format_fn(element):
        return collections.OrderedDict([
            ('x', tf.expand_dims(element['pixels'], axis=-1)),
            ('y', element['label'])
        ])
    
    return dataset.map(batch_format_fn).batch(64)  # 从20增加到64

6. 添加数据增强

def preprocess(dataset):
    def batch_format_fn(element):
        # 添加数据增强
        image = tf.expand_dims(element['pixels'], axis=-1)
        image = tf.image.random_flip_left_right(image)  # 随机水平翻转
        image = tf.image.random_brightness(image, 0.1)  # 随机亮度调整
        
        return collections.OrderedDict([
            ('x', image),
            ('y', element['label'])
        ])
    
    return dataset.map(batch_format_fn).batch(32)