2024 研究生数学建模竞赛（B题）建模秘籍|WLAN组网中网络吞吐量建模|文章代码思路大全

铛铛！小秘籍来咯！
小秘籍团队独辟蹊径，运用特征重要性分析，自适应回归，机器学习算法等强大工具，构建了这一题的详细解答哦！为大家量身打造创新解决方案。小秘籍团队，始终引领着建模问题求解的风潮。

抓紧小秘籍，我们出发吧~

完整内容可以在文章末尾领取！
在这里插入图片描述

问题一

请根据附件WLAN网络实测训练集中所提供的网络拓扑、业务流量、门限、节点间RSSI的测试基本信息，分析其中各参数对AP发送机会的影响，并给出影响性强弱的顺序。通过训练的模型，预测每个AP的发送机会，即发送数据帧序列的总时长（seq_time），并通过测试集 test_set_1_2ap和test_set_1_3ap（仅提供模型输入信息）预测AP发送数据帧序列的总时长。

这个问题要求分析各种参数对AP发送机会的影响，并预测AP的发送时长。
为了解决第一个问题，我们将针对每个因素对AP发送机会的影响进行分析，并基于此构建一个预测模型。以下是分析步骤和建模思路：

1. 分析各参数对AP发送机会的影响

我们需考虑以下主要因素：

RSSI (Received Signal Strength Indication): RSSI是衡量信号强度的指标。信号强度越高，成功发送的机会越大。一般来说，较高的RSSI与较低的干扰相关，增加了AP发送的机会。
CCA门限 (Clear Channel Assessment Thresholds): 分为包检测门限(PD)和能量检测门限(ED)。当RSSI高于PD时，AP能够侦听到信号并作出响应。若低于ED，信道被判定为繁忙，AP则不能发送数据。因此，PD和ED门限的关系直接影响AP的发送机会。
NAV (Network Allocation Vector): NAV用于指示其他节点在特定时间段内不应发送。若AP正在使用信道，周围的节点必须静默，这将影响AP的发送机会。
竞争窗口 (Contention Window, CW): CW的大小和变化会影响AP的回退时间，进而影响发送机会。通常，CW越小，发送的机会越高。
业务流量类型 (Protocol type): 数据传输使用的协议类型（如TCP或UDP）可能影响流量的发送方式和频率，进而影响AP的发送机会。

2. 模型构建

为了预测AP的发送数据帧序列总时长（seq_time），我们可以考虑以下线性模型：

$seq_time = β 0 + β 1 ⋅ RSSI + β 2 ⋅ PD + β 3 ⋅ ED + β 4 ⋅ NAV + β 5 ⋅ CW + β 6 ⋅ Traffic intensity + ϵ \text{seq\_time} = \beta_0 + \beta_1 \cdot \text{RSSI} + \beta_2 \cdot \text{PD} + \beta_3 \cdot \text{ED} + \beta_4 \cdot \text{NAV} + \beta_5 \cdot \text{CW} + \beta_6 \cdot \text{Traffic intensity} + \epsilon$

其中：

$\beta_0$ 是截距项。
$\beta_1, \beta_2, \ldots, \beta_6$ 是各自参数的系数，将通过训练集拟合得出。
$\epsilon$ 是误差项。

3. 变量选择

输入特征:
- RSSI 信息（根据信道的不同，可能存在多个RSSI值）
- PD，ED与NAV门限
- CW的初始值、实际变化
- 流量类型特征（UDP或TCP）
输出特征:
- seq_time（发送数据帧序列的总时长）

4. 训练模型与预测

数据处理: 利用提供的实测数据集，提取特征变量与目标变量。将参数进行标准化处理（如缩放或者归一化）以提高模型的稳定性。
模型训练: 选择合适的机器学习算法（如线性回归、随机森林或支持向量机等），利用训练集拟合模型的参数 $\beta_i$ 。
模型评估: 使用交叉验证和误差分析评估模型的准确性与鲁棒性，特别是关注MAE（Mean Absolute Error）等指标。
预测: 应用已训练的模型，对测试集 test_set_1_2ap 和 test_set_1_3ap 的输入进行预测，得到每个AP的发送数据帧序列的总时长。

5. 影响性强弱顺序

基于模型的回归系数 $\beta_i$ 的值的绝对大小，可以推断各参数影响AP发送时长的强弱顺序。一般认为，系数的绝对值越大，表明该参数对于AP发送机会的影响越显著。

结论

通过上述分析和建模，我们可以有效地评估各项因素对AP发送机会的影响，进而预测实际的发送数据帧序列总时长（seq_time）。该方法为后续的吞吐量预测提供了基础。
为了分析各个参数对AP发送机会的影响，我们需要考虑以下几个关键因素：

RSSI（接收信号强度指示）：RSSI是每个AP能够判断信道是否繁忙的关键参数，它直接影响信道可用性的评估。一般来说，较高的RSSI能够提高信道的利用率，促使AP更频繁地获得发送机会。具体来说，如果AP到STA的RSSI值高，则在进行CCA时很可能判断信道为空闲，从而增加发送机会。
CCA门限（Clear Channel Assessment Threshold）：CTS门限影响AP如何判断信道是否繁忙。如果AP的RSSI低于CCA门限，AP可能会误判信道繁忙，导致发送机会减少。具体而言，设定合理的CCA门限能够提高信道的利用率，减少误判所带来的影响。
NAV（Network Allocation Vector）：通过NAV机制，AP可以预留时间片以保证低延迟业务。然而，若NAV值设置不合理，可能会限制其他AP的发送机会，导致整个网络的吞吐量下降。高NAV值可能会导致相邻AP在NAV时段内被迫静默，从而减少发送机会。
竞争窗口（CW，Contention Window）：CW的大小影响节点之间的竞争机制。CW的初始值越小，AP在竞争信道时获得的机会则越高。二进制指数退避算法使得在发生冲突时CW会增大，从而减少后续的发送机会。
业务流量类型及数据包大小：UDP和TCP等不同类型流量对AP发送机会的影响有所不同。UDP为无连接协议，不需等待确认（ACK），因此其发送机会较为频繁。TCP则需要受到ACK的控制，可能导致更多的等待，从而减少AP发送机会。

因此，可以提出一个综合模型来预测每个AP的发送机会（seq_time），涉及上述因素，可以表示为：

$seq_time = f ( RSSI , CCA t h r e s h o l d , NAV , CW , Traffic Type , Packet Size ) \text{seq\_time} = f(\text{RSSI}, \text{CCA}_{threshold}, \text{NAV}, \text{CW}, \text{Traffic\ Type}, \text{Packet\ Size})$

具体建立模型时，可以选用线性回归、决策树或随机森林等回归模型，根据特征重要性评价（例如，使用SHAP值或特征选择方法）来排序各参数对 $seq\_time$ 的影响。

影响性强弱的顺序（假定性）：

RSSI
CCA门限
NAV
竞争窗口（CW）
业务流量类型及数据包大小

预测AP发送数据帧序列总时长的步骤：

收集和整理训练集中提供的所有特征数据。
对各特征进行预处理（如归一化、标准化）。
根据选定的模型，使用训练数据进行训练。
评估模型的准确性。
将训练好的模型应用于测试集(test_set_1_2ap和test_set_1_3ap)上的特征数据，预测每个AP的发送机会（seq_time）。

依据上述分析，可以使用回归模型来输出预测结果，并对AP发送机会进行排名。通过这个过程，最终得到每个AP的发送序列总时长（seq_time）的预测值。
在分析影响AP发送机会的参数以及预测发送数据帧序列的总时长（ $seq\_time$ ）时，可以考虑以下几个关键因素：

1. 影响因素分析

1.1 RSSI（接收信号强度指示）

RSSI 值直接影响 AP 与 STA 之间的信号质量，进而影响 SINR（信干噪比）：

$RSSI_{AP \to STA} - RSSI_{Interference}$

其中， $RSSI_{Interference}$ 是来自邻近AP的RSSI值。较高的 RSSI 值意味着更强的信号，通常能提高传输的成功率，增加 $seq\_time$ 。

1.2 CCA门限

CCA门限影响信道的评估，直接影响AP竞争信道的机会。若RSSI在CCA门限以下，则AP会判断信道为繁忙，导致发送机会减少。如果设定的 CCA 门限为 $CCA_{threshold}$ ，那么 AP 的发送机会可用下式表示：

$P_{send} = f(RSSI, CCA_{threshold})$

1.3 NAV门限

NAV门限决定在特定时间段内是否需要静默。若RSSI高于NAV门限，则 AP 会更新NAV并有可能在静默期间发送数据。可表示为：

$P_{NAV} = g(RSSI_{NAV})$

1.4 节点竞争机制

节点通过竞争窗口（CW）和 DIFS 定期判断信道的空闲状态，从而发送数据。CW 可表示为 CW 变化曲线，其中 $CW_{min}$ 和 $CW_{max}$ 决定初始化和最长的竞争窗口。

2. 强弱影响顺序

在以上因素中，影响 sende机会的顺序一般为：

RSSI（对AP开启发送机会的直接影响）
CCA门限（影响信道评估）
NAV门限（控制发送房间的静默时间）
节点竞争机制（CW 影响与竞争的复杂性）

3. 模型预测

为了预测 $seq\_time$ ，我们可以建立一个线性回归模型，假设 $seq\_time$ 受多个因素影响，可以表示为：

$seq\_time = \beta_0 + \beta_1 \cdot RSSI + \beta_2 \cdot CCA_{threshold} + \beta_3 \cdot NAV + \beta_4 \cdot CW + \epsilon$

其中， $\beta_0$ 是模型的偏置， $\beta_1, \beta_2, \beta_3, \beta_4$ 是对应影响因素的权重， $\epsilon$ 是误差项。

在得到训练数据后，可以使用最小二乘法或其他回归方法估计系数 $\beta$ ，进而根据 test_set_1_2ap 和 test_set_1_3ap 中提供的输入信息预测每个AP的 $seq\_time$ 。

结论

通过使用上述因素与公式，可以对 AP 的发送机会进行分析，建模并对发送数据帧序列的总时长进行预测。最后，通过对实验数据进行训练与验证，可以提升模型的准确性。
为了分析各种参数对AP发送机会的影响并预测每个AP的发送数据帧序列总时长，我们可以使用线性回归或其他机器学习方法来建立模型。以下是针对第一个问题的Python代码示例，使用pandas和scikit-learn库来进行数据处理和建模。

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# 读取训练数据集
train_data = pd.read_csv('training_set.csv')  # 请替换为实际的训练数据集路径

# 数据预处理
# 选择特征和目标变量
features = ['test_dur', 'eirp', 'pd', 'ed', 'nav', 'sta_to_ap_x_sum_ant_rssi', 'sta_to_ap_x_max_ant_rssi']
target = 'seq_time'  # 发送数据帧序列的总时长

# 处理缺失值
train_data = train_data.dropna(subset=features + [target])

# 特征矩阵和目标向量
X = train_data[features]
y = train_data[target]

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建线性回归模型
model = LinearRegression()

# 训练模型
model.fit(X_train, y_train)

# 预测发送时长
y_pred = model.predict(X_test)

# 评估模型
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'Mean Squared Error: {mse}')
print(f'R-squared: {r2}')

# 读取测试集并进行预测
见完整版

代码解释：

数据读取：使用pandas读取训练数据集和测试数据集。
数据预处理：选择相关特征（如测试时长、发射功率、门限值、RSSI等）和目标变量（发送数据帧序列总时长）。对缺失值进行处理。
模型训练：使用线性回归模型对数据进行训练。
模型评估：使用均方误差（MSE）和R²来评估模型性能。
结果预测：对新测试数据集进行预测，并将结果添加到数据集中。

问题二

问题2. 请根据附件提供的实测训练集中的测试基本信息，特别是节点间RSSI信息和门限信息，结合问题1中对AP发送机会的分析，对测试中AP发送数据选用最多次数的（MCS, NSS）进行建模，并通过测试集 test_set_2_2ap和test_set_2_3ap（仅提供模型输入信息）预测（MCS, NSS）。（AP在AMC算法下自适应调节发送速率，过程中可能采用多个（MCS, NSS）,AMC算法收敛速度快，故其中选用最多次数的（MCS, NSS）反映了SINR水平。）
为了解决问题2，我们需要建立一个数学模型来预测AP发送数据时选择的（MCS, NSS）组合。这个过程涉及对相关的数据进行分析，以便确定影响选择的主要因素。在这个问题中，主要考虑节点间的RSSI信息、门限信息以及之前对AP发送机会分析的结果。

1. 确定模型输入变量

根据题目，模型的输入变量包括但不限于：

节点间的RSSI（Received Signal Strength Indication）
包检测门限 (PD)
能量检测门限 (ED)
NAV门限
CCA门限
AP的发送功率 (EIRP)

这些输入变量会影响每个AP的SINR（信干噪比），从而影响其选择的（MCS, NSS）。

2. 公式化SINR

考虑到AP发送给STA的信号时，STA接收信号时的SINR可以表示为：

$\frac{RSSI_{AP \to STA}}{RSSI_{interference}}$

其中：

$RSSI_{AP \to STA}$ 是AP到STA之间的RSSI。
$RSSI_{interference}$ 是从邻近AP到STA的RSSI。

3. 选择（MCS, NSS）

根据SINR，我们使用自适应调制解调（AMC）算法来选择（MCS, NSS）组合。我们可以假设具有一定SINR阈值范围的（MCS, NSS）组合如下：

一个典型的映射关系为：
- $MCS (k)$ 表示第k个调制编码方案。
- $NSS (m)$ 表示第m个空间流数。

可以建立一个表格，映射不同的SINR范围到对应的（MCS, NSS）组合。例如，假设我们有下列映射：

$\begin{array}{|c|c|c|} \hline SINR_{min} & MCS & NSS \\ \hline 0 \text{ dB} & 0 & 1 \\ 10 \text{ dB} & 4 & 1 \\ 20 \text{ dB} & 8 & 2 \\ 30 \text{ dB} & 11 & 2 \\ \hline \end{array}$

4. 预测模型的构建

根据训练集数据进行线性回归、决策树或者机器学习模型的训练，以将上面的输入变量与输出的（MCS, NSS）组合联系起来。我们可以用机器学习的回归模型预测输出参数。设定模型如下：

$f(RSSI_{AP \to STA}, RSSI_{interference}, PD, ED, NAV, CCA)$

这些值通过构建合适的特征来训练模型。

5. 模型预测

在得到模型后，可以通过输入新的测试集数据（如test_set_2_2ap或test_set_2_3ap）的相关信息来进行预测：

$MCS_{pred}, NSS_{pred}) = g(test\_data)$

6. 验证预测结果

最后，可以通过与实际的（MCS, NSS）组合进行对比，评估模型的预测精度，计算准确率和误差。

总结

本模型通过将影响MCS和NSS选择的主要因素量化，并结合已有数据进行训练，能够预测AP在不同条件下的最佳（MCS, NSS）组合。这体现了WLAN系统中如何利用信道状态与节点间RSSI等信息动态优化传输参数。
要对AP发送数据选用最多次数的（MCS, NSS）进行建模，我们可以借助多个数据输入，例如RSSI信息、门限信息以及AP发送机会的分析结果。模型的核心在于找出MCS与NSS的组合如何受到信道条件（如SINR）的影响，并结合RSSI对其进行预测。
在这里插入图片描述

首先，我们定义影响MCS和NSS选择的关键因素：

信道条件：主要由SINR定义，SINR可以通过以下关系计算：

$SINR = RSSI_{AP} - RSSI_{Neighbor}$

其中， $RSSI_{AP}$ 是发射AP到STA的信号强度， $RSSI_{Neighbor}$ 是干扰AP到STA的信号强度。
门限值：依据PD、ED和NAV的设定来评估信道的可用性。我们设定几个门限，
- $P D$ : 包检测门限
- $E D$ : 能量检测门限
- $N A V$ : 网络分配矢量门限
确保实际检测中，若某个AP的信号RSSI低于相应门限，它将无法成功发送数据，进而影响到MCS和NSS的选择。

接下来，确定使用历史数据来建模如何选择（MCS, NSS）的方法。常见的建模方法包括线性回归、决策树、随机森林和深度学习等。为简单起见，这里我们可以使用逻辑回归模型，用于分类不同的（MCS, NSS）组合。

假设我们有一个训练集 ${(X_i, Y_i)\}$ ，其中 $X_i$ 表示输入特征（如RSSI、门限、发送机会）而 $Y_i$ 表示相应的（MCS, NSS）组合，可以使用Logistic回归模型进行建模：

$\frac{e^{\beta_j^T X}}{\sum_{k} e^{\beta_k^T X}}$

其中 $P (Y = j ∣ X)$ 是输出为第 $j$ 类（即具体的MCS和NSS组合）的概率， $\beta_j$ 是指向该类的参数向量。

为预测的过程，我们可以用上述模型在测试集上进行分类。根据每个AP的输入特征计算出最可能的（MCS, NSS）组合。

最后，结合上面的分析模型和训练/测试数据，即可进行预测：

从测试集test_set_2_2ap和test_set_2_3ap中提取出所有相关的网络拓扑、RSSI、门限信息。
将这些特征输入到经过训练的Logistic回归模型中，得到每个AP最可能使用的（MCS, NSS）组合。

在实际应用中，处理大量数据时，特征选择和数据预处理是至关重要的。选择合适的特征不仅能够提高预测的准确性，也能降低模型的复杂性，从而提高训练和预测的效率。在这段分析中，基于历史数据的热门（MCS, NSS）组合往往能更好反映当前网络环境的特征和挑战。

具体的见解如下：

动态特征调整：在不同的工作条件下，实时更新所选择的（MCS, NSS）组合至关重要。通过动态调整模型，可以确保在流量突发或信道状况变化时仍能维持较高的吞吐量。
多模型集成：可以考虑使用多个模型进行投票，以考虑到不同模型对相同输入后的选择差异，提高预测的稳健性。
反复迭代训练：采用交叉验证方法，反复优化模型，可在未来的信道条件变化下获得更高的准确度。

用以上方法进行的建模与预测将有助于理解和优化WLAN的实际吞吐量表现。
为了解决问题2，我们需要建立一个模型来预测AP在发送数据时所选用的最多次数的（MCS, NSS）组合。这一过程将基于实测训练集中的测试基本信息，特别是节点间的RSSI和门限信息。

建模思路

数据预处理：
- 收集每个AP在每次测试中使用的（MCS, NSS）的次数，并进行统计。
- 解析每个AP的RSSI信息、门限信息以及其它相关特征，为后续建模提供输入。
因果关系分析：
- 确定RSSI、PD、ED、NAV等因素与（MCS, NSS）选择之间的关系。可以通过回归分析或使用机器学习模型（如随机森林、XGBoost等）来捕捉这些关系。
建模过程：
- 构建一个多元回归模型或者分类模型，以RSSI、PD、ED、NAV等作为特征，目标变量为（MCS, NSS）。

数学模型构建

考虑我们定义 $X_i$ 为特征集，包括 RSSI、PD、ED、NAV等参数， $Y_i$ 为（MCS, NSS）选择的输出。

首先，我们将根据多元线性回归模型进行建模，公式如下：

$\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \ldots + \beta_n X_n + \epsilon$

其中：

$Y$ 是随机变量（MCS, NSS）的选择
$\beta_0$ 是偏置项
$\beta_i$ 是模型系数，表示特征 $X_i$ 对 $Y$ 的影响权重
$X_i$ 是输入特征（如RSSI和门限参数）
$\epsilon$ 是误差项

模型训练

通过实测数据进行模型训练，采用如下步骤：

选择特征：选择与（MCS, NSS）选择相关的特征，如RSSI、PD、ED、NAV等。
训练模型：使用线性回归或其他机器学习算法在训练集上训练模型，估计模型参数（ $\beta_0, \beta_1, \ldots, \beta_n$ ）。
验证模型：使用验证集检查模型的准确性，通过观察预测值与真实值的差异来评估模型性能。

预测

通过训练好的模型，对测试集中的输入特征进行预测，得到每个AP的（MCS, NSS）预测值。
在这里插入图片描述

预测输出与结果

对于测试集 $test\_set\_2\_2ap$ 和 $test\_set\_2\_3ap$ ，我们应用已建立的模型进行预测，得到最终的（MCS, NSS）组合。

最终，通过对每个AP预测的（MCS, NSS）组合进行统计，我们可以总结出哪个（MCS, NSS）在给定的信道条件下被选用的次数最多。

这种方法不仅能够利用训练集中的实测数据进行科学建模，而且能够利用模型反映信道条件变化对调制解调方式选择的影响。

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

# 加载训练集
train_df = pd.read_csv("training_set.csv")  # 请替换为实际训练集文件名
# 加载测试集
test_set_2_2ap = pd.read_csv("test_set_2_2ap.csv")  # 请替换为实际测试集文件名
test_set_2_3ap = pd.read_csv("test_set_2_3ap.csv")  # 请替换为实际测试集文件名

# 选择特征
features = ['ap_from_ap_x_sum_ant_rssi', 'ap_from_ap_x_max_ant_rssi', 'ap_from_ap_x_mean_ant_rssi',
            'pd', 'ed', 'nav', 'eirp']  # 可能需要根据数据调整特征选择
target = 'most_frequent_mcs_nss'  # 示例目标列名称，需根据实际数据调整

# 拆分训练集
X = train_df[features]
y = train_df[target]

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

# 选择随机森林回归模型
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# 验证模型
y_pred_val = model.predict(X_val)
print(f"Validation MSE: {mean_squared_error(y_val, y_pred_val)}")
print(f"Validation R^2: {r2_score(y_val, y_pred_val)}")

# 在测试集上预测
test_features_2ap = test_set_2_2ap[features]
test_features_3ap = test_set_2_3ap[features]

见完整版

请注意：

需根据实际训练集和测试集的文件名调整pd.read_csv中的路径。
features和target的名称应根据实际数据调整，以确保与数据集中的列匹配。
保存预测结果的文件名也可以根据需要进行修改。

问题三

问题3：请结合问题1和问题2的分析，对系统吞吐量进行建模，并通过测试集 test_set_1_2ap 和 test_set_1_3ap 预测网络吞吐量。可按照同频AP个数分类建模，也可统一建模。无线信道具有瞬息万变的特点，实测中所测量的RSSI信息属于大尺度信息，不足以完全反应真实信道变化，因而问题2对（MCS, NSS）的建模可能无法获得很高精度。本问题允许采用实测中统计的数据帧真实（MCS, NSS）作为模型输入变量。
为了搭建无线局域网（WLAN）系统的吞吐量模型，我们需要首先明确吞吐量的定义和相关影响因素。基于前两道问题的分析，我们的模型将结合AP的发送机会（即总发送时长）和最常用的调制编码方案（MCS, NSS）来综合预测吞吐量。

1. 吞吐量模型的构建

吞吐量（Throughput, T）的基本公式可以表达为数据成功传输的比特数除以总的传输时间，即：

$\frac{\text{有效传输比特数}}{\text{总传输时长}}.$

在我们的场景中，吞吐量不仅与AP的发送机会相关，也与所选用的调制编码方案（MCS, NSS）和发送的数据帧的比特数有关。因此，我们可以表示吞吐量为：

$seq_time + other_air_time , T = \frac{N_{\text{PPDU}} \cdot L_{\text{PPDU}} \cdot (1 - \text{PER})}{\text{seq\_time} + \text{other\_air\_time}},$

其中：

$N_{\text{PPDU}}$ : 每个数据包中聚合的MAC服务数据单元的数量。
$L_{\text{PPDU}}$ : 每个PPDU的有效比特数。
$\text{PER}$ : 丢包率，表示丢失的数据帧与总数据帧的比率。
$seq_time \text{seq\_time}$ : AP发送数据的帧序列的总时长。
$other_air_time \text{other\_air\_time}$ : 除发送数据帧外，发送管理帧等其他帧和接收所占用的时间。

2. 模型参数的选取

在上述模型中， $N_{\text{PPDU}}$ 和 $L_{\text{PPDU}}$ 都与所用的（MCS, NSS）参数紧密相关。根据数据集，我们可以使用以下公式来反映不同（MCS, NSS）组合下的传输速率：

$L_{\text{PPDU}} = 8 \cdot N_{\text{PPDU}} \cdot (\text{MCS}(NSS)),$

这里， $\text{MCS}(NSS)$ 对应于20MHz带宽下的不同编码调制速率（Mbps）。据此，我们可以使用真实（MCS, NSS）的经验数据来填充模型。

3. 综合预测网络吞吐量

为形成最终的吞吐量预测模型，我们结合前面的问题的分析结果。

在两种情况下（不同的AP数量）我们可以分别建立模型。综合考虑每个AP的发送机会和所选用的（MCS, NSS），我们可以定义总吞吐量 $T_{\text{total}}$ 为所有AP的吞吐量的和：

$T_{\text{total}} = \sum_{i=1}^{N_{\text{AP}}} T_i$

其中：

$N_{\text{AP}}$ 为同频AP的数量；
$T_i$ 表示每个AP的吞吐量，按前述模型计算。

4. 预测过程

参数提取：根据提供的测试集，提取每个AP的参数，包括 $KaTeX parse error: Expected 'EOF', got '_' at position 10: \text{seq_̲time}$ , $other_air_time \text{other\_air\_time}$ , $\text{PER}$ 和所用的（MCS, NSS）。
模型计算：代入参数，通过上述吞吐量模型计算每个AP的吞吐量 $T_i$ 。
结果汇总：计算总吞吐量 $T_{\text{total}}$ 。

5. 总结

最终，通过上面的模型和步骤，使用输入的实测数据集（test_set_1_2ap和test_set_1_3ap），我们能够预测各AP及整个系统的吞吐量。在计算中，确保充分利用实际统计的（MCS, NSS）和其他传输参数，以确保模型准确性。因此，吞吐量的预测结果不仅能够反映出系统在给定条件下的性能，也能够为系统优化提供实据支持。
要对WLAN系统的吞吐量进行建模，首先需要结合问题1中有关AP发送机会的模型和问题2中的（MCS, NSS）选择模型。吞吐量的预测公式可以表示为：

$\text{Throughput} = \frac{\text{Total Bits Sent}}{\text{Total Time Taken}} = \frac{\sum_{\text{AP}} \text{Sent Bits}_{\text{AP}}}{\sum_{\text{AP}} \text{Total Time}_{\text{AP}}}$

其中， $\text{Sent Bits}_{\text{AP}}$ 表示在某个时间段内每个AP成功发送的比特数， $\text{Total Time}_{\text{AP}}$ 表示在同一时间段内每个AP发送数据的总时长。

根据已知信息，可以进一步细化每个AP的发送比特数和时间计算。假设每个AP的发送帧数量为 $n$ , 一帧的长度为 $L_{\text{bit}}$ , 采用的（MCS, NSS）决定了理论的PHY Rate为 $\text{Rate}_{\text{AP}}$ 。则每个AP的吞吐量可以表达为：

$\text{Throughput}_{\text{AP}} = \frac{L_{bit} \times n \times (1 - \text{PER})}{\text{Total Time}_{\text{AP}}}$

其中， $\text{PER}$ 是丢包率，代表成功传输的有效比特所占的比例。

为综合各个AP的吞吐量，最终的系统吞吐量的计算则为：

$\text{Total Throughput} = \sum_{i=1}^{m} \text{Throughput}_{\text{AP}_i}$

在上述公式中， $m$ 为同频AP的数量。对于不同的AP数目（例如2AP或3AP），模型的输入变化主要体现在RSSI、（MCS, NSS）、以及发送机会等多个方面。

独特见解

无线信道的动态特性意味着简单线性模型可能不足以捕捉系统的实际吞吐量，因此建议在模型中引入非线性因素。可以采用机器学习的方法，例如随机森林或神经网络，来对吞吐量进行更复杂的建模。这种方法能够更好地从大量历史数据中学习并预测复杂的非线性关系，特别是在高密度的WLAN网络中，节点之间的竞争和干扰可能导致吞吐量的非线性波动。

此外，考虑到信道的瞬息万变特性，实时数据更新与模型的动态调整也是非常重要的。例如，使用实时监测的RSSI和网络状态信息来不断更新模型参数，这样可以更好地适应信道环境的变化，从而提高吞吐量预测的准确性。
对于问题3，让我们结合问题1和问题2的分析来建模WLAN系统的吞吐量。吞吐量模型需要考虑AP竞争信道发送的机会、每个机会所使用的PHY Rate（由MCS和NSS决定），以及数据帧的比特数。我们可以基于以下几个重要元素来构建我们的吞吐量预测模型。

吞吐量建模

信道发送时间计算：
每个AP的发送数据帧序列的总时长（ $seq\_time_i$ ）代表了AP能够用以发送数据的有效时间。设定AP的发送时长为 $T_i$ ，则：
$T_i = seq\_time_i$
成功发送的数据包数量：
设每个AP在其发送时长内能够成功发送的数据包数量为 $N_i$ ，我们可以通过以下公式计算：
$N_i = \frac{T_i}{ppdu\_dur}$
其中， $ppdu\_dur$ 为每个数据帧的传输时长。
每个AP的吞吐量计算：
吞吐量 $Throughput_i$ 可以用下面的公式计算，考虑到每个数据包的比特数和我们的丢包率（ $PER_i$ ）：
$Throughput_i = N_i \cdot num\_ppdu_i \cdot pkt\_len \cdot (1 - PER_i)$
其中， $pkt\_len$ 为数据包的长度（以比特为单位）。
系统总吞吐量：
系统的总吞吐量 $Total\_Throughput$ 可以通过所有AP吞吐量的累加得到：
$Total\_Throughput = \sum_{i=1}^{m} Throughput_i$
其中， $m$ 为AP的数量。
结合问题2的数据：
在问题2中，我们能够获得每个AP所使用最频繁的 $(MCS, NSS)$ ，这可以用作我们的模型输入。该输入影响到每个AP的PHY速率。我们可以用下面的公式计算每个AP的PHY Rate：
$PHY\_Rate_i = F(MCS_i, NSS_i)$
其中 $F(MCS_i, NSS_i)$ 是 $MCS$ 与 $NSS$ 决定的传输速率函数。

最终，综合以上所有公式，系统吞吐量的最终模型整合可以写作：
$Total\_Throughput = \sum_{i=1}^{m} \left( \frac{T_i}{ppdu\_dur} \cdot num\_ppdu_i \cdot pkt\_len \cdot (1 - PER_i) \right)$
在这里插入图片描述

实际预测

在进行预测时，将从测试集中获取所有需要的参数（即 $T_i$ , $num\_ppdu_i$ , $pkt\_len$ , $PER_i$ , $MCS_i$ , 和 $NSS_i$ ），并计算出每个AP的吞吐量，最终得到系统的总吞吐量。

通过这样的模型和公式，可以完成对WLAN系统吞吐量的有效建模和预测。
针对问题3，我们要构建一个模型来预测系统吞吐量，并使用实测的（MCS, NSS）数据作为输入。我假设我们使用的是线性回归模型作为预测工具，你可以根据你的数据和需求选择更复杂的模型，例如随机森林或神经网络等。

以下是一个Python代码示例，使用pandas和sklearn库进行数据处理和建模。请确保已经安装了这些库。如果没有，使用以下命令安装：

pip install pandas scikit-learn

代码示例如下：

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_percentage_error

# 读取数据
# 假设 training_data 是我们训练的数据集，test_set_1_2ap 和 test_set_1_3ap 是测试集要预测的数据集
training_data = pd.read_csv('training_data.csv')  # 替换为你的训练数据文件路径
test_data_2ap = pd.read_csv('test_set_1_2ap.csv')  # 替换为你的测试集文件路径
test_data_3ap = pd.read_csv('test_set_1_3ap.csv')  # 替换为你的测试集文件路径

# 数据预处理
# 根据实际数据情况选择特征进行建模
features = ['seq_time', 'mcs', 'nss']  # 示例特征，确保这些在你的数据集中存在
X_train = training_data[features]
y_train = training_data['throughput']  # 真实吞吐量

# 拆分训练集和验证集
X_train_subset, X_val, y_train_subset, y_val = train_test_split(X_train, y_train, test_size=0.2, random_state=42)

# 模型训练
model = LinearRegression()
model.fit(X_train_subset, y_train_subset)

# 在验证集上评估
y_val_pred = model.predict(X_val)
print("Validation Mean Absolute Percentage Error (MAPE):", mean_absolute_percentage_error(y_val, y_val_pred))

# 测试集预测
for test_data in [test_data_2ap, test_data_3ap]:
    X_test = test_data[features]
    y_pred = model.predict(X_test)
    test_data['predicted_throughput'] = y_pred
    print(test_data[['test_id', 'predicted_throughput']])
    # 可以将结果保存到文件
    test_data.to_csv(f'predicted_results_{test_data["test_id"].iloc[0]}.csv', index=False)  # 保存预测结果

说明：

数据准备：
- 请确保你的数据文件名和路径正确。
- 选择合适的特征（如seq_time, mcs, nss）进行建模。另外，目标变量是throughput（真实吞吐量）。
模型训练：
- 使用线性回归模型进行训练。您可以根据需要更换为其他类型的模型。
预测和评估：
- 在验证集上进行评估，并计算平均绝对百分比误差（MAPE）。
- 对测试集（test_set_1_2ap和test_set_1_3ap）进行吞吐量预测，并将结果添加到原数据集中。
输出结果：
- 预测结果将被保存为CSV文件，可用于后续分析。

确保仔细检查特征的选择以及模型适用性，这些都会对最终的预测效果产生重大影响。如果预测精度不足，可以考虑引入更多的特征或使用更复杂的模型。

问题四（补充）

问题4. 结合前三个问题的分析，构建系统吞吐量的模型，并通过测试集 test_set_1_2ap 和 test_set_1_3ap 预测网络的总体吞吐量。可以对同频AP个数进行分类建模，也可以采取统一建模的方式进行分析。注意，无线信道的特性十分动态，实际测量中获得的RSSI信息属于大尺度信息，可能无法完美还原真实信道的变化。因此，针对问题2中对（MCS, NSS）构建的模型可接受采用实测中统计的数据帧真实（MCS, NSS）作为模型输入变量。
为了构建WLAN系统的吞吐量模型，我们需要综合前三个问题的分析结果，并考虑每个AP的发送机会、选择的（MCS, NSS）组合以及节点间的RSSI、干扰等因素。以下是模型构建的步骤和公式。

模型构建步骤

定义吞吐量的计算公式：
根据提供的内容，WLAN系统的吞吐量可以表示为各AP的吞吐量之和。设定每个AP的吞吐量为 $T_{AP_i}$ ，系统的总吞吐量 $T_{total}$ 为：
$T_{total} = \sum_{i=1}^{n} T_{AP_i}$
其中， $n$ 为系统中的AP数量。
单个AP吞吐量的计算：
对于每个AP，我们可以使用以下公式计算其吞吐量：
$T_{AP_i} = \frac{N_i \cdot L_i \cdot (1 - PER_i)}{T_{frame_i}}$
其中：
- $N_i$ : AP发送的数据帧总数
- $L_i$ : 每个数据帧的有效比特数。计算公式为： $L_i = num_{ppdu_i} \cdot 8$ （每个 PPDU 的有效载荷比特数，单位为比特）
- $PER_i$ : 丢包率（Packet Error Rate），反映数据帧在传输过程中的丢失概率
- $T_{frame_i}$ : 数据帧的传输时长，计算公式如下：
  $T_{frame_i} = ppdu_{dur_i} + ACK_{dur} + RTO_{dur}$
  其中：
  - $ACK_{dur}$ : ACK的时长（设定为32μs）
  - $RTO_{dur}$ : 超时时间（假设为53μs）。
AP的发送机会和（MCS, NSS）的选取：
AP的发送机会 $q_{AP_i}$ 可以通过前面的问题模型得到，该值影响每个AP数据的发送帧数 $N_i$ ，同时影响AP选择的（MCS, NSS）组合。
总吞吐量的预测：
将所有AP的吞吐量结合得到系统的预测吞吐量 $T_{predict\ total}$ ：
$T_{predict\ total} = \sum_{i=1}^{n} \left(\frac{q_{AP_i} \cdot L_{max_i} \cdot (1 - PER_i)}{T_{frame_i}}\right)$
其中， $L_{max_i}$ 代表在给定条件下的最大数据帧有效比特数，通常取决于所使用的（MCS, NSS）。

最终模型表达

综上所述，WLAN系统的总吞吐量模型可以抽象为：
$T_{total} = \sum_{i=1}^{n} \left(\frac{q_{AP_i} \cdot num_{ppdu_i} \cdot 8 \cdot (1 - PER_i)}{ppdu_{dur_i} + 0.032 + 0.053}\right)$

注意事项

在模型训练过程中，可以使用实际测量的RSSI信息和其他相关参数作为输入，同时利用我们在问题2中得到的（MCS, NSS）统计信息来更新每个AP的发送策略。
模型的精度可以通过与实际测量结果对比，评估误差情况，并优化模型参数。

以上是基于提供信息构建的WLAN系统吞吐量模型。通过这个模型，我们可以对给定数据集下的系统吞吐量进行预测。
在这里插入图片描述

问题4：构建系统吞吐量的模型

在无线局域网（WLAN）的通信中，系统吞吐量的预测可以通过对每个访问点（AP）计算其实际的吞吐量来实现。吞吐量的计算涉及到AP向其关联的站点（STA）发送成功接收的数据量、所使用的物理速率（PHY Rate）以及数据的传输效率。具体步骤如下：

定义吞吐量公式：每个AP的吞吐量可以表示为以下函数：
$T_{AP_i} = \frac{N_{AP_i} \cdot P_{data} \cdot (1 - PER_{AP_i})}{T_{total}}$
其中， $T_{AP_i}$ 是第 $i$ 个AP的吞吐量， $N_{AP_i}$ 是第 $i$ 个AP在测试过程中成功发送的数据帧数量， $P_{data}$ 是单个数据帧的有效负载比特数（可以通过聚合数和单个数据帧长度推算）， $PER_{AP_i}$ 是第 $i$ 个AP的丢包率， $T_{total}$ 是传输所花费的总时间。
有效负载的计算：考虑到AP在发送数据过程中可能采用的聚合和发送速率，单个数据帧的有效负载可以通过下述公式进行计算：
$avg_ppdu_len × n u m p p d u P_{data} = \text{avg\_ppdu\_len} \times num_{ppdu}$
其中， $avg_ppdu_len \text{avg\_ppdu\_len}$ 是所有数据帧的平均长度， $num_{ppdu}$ 是每个PPDU内聚合的数据帧数量。
综合所有AP的吞吐量：由于多个AP同时传输的数据互相具有影响，因此整体系统吞吐量 $T_{total\_system}$ 可以简单地通过所有AP的吞吐量之和来估计：
$T_{total\_system} = \sum_{i=1}^{n} T_{AP_i}$
其中， $n$ 是AP的数量。
基于实时RSSI和（MCS, NSS）数据的输入：由于无线信道的动态变化，建议在模型中使用实测的（MCS, NSS）作为输入，以更好地反映真实的信道条件和SINR。每个AP的物理速率可以表示为:
$PHY_{Rate_{AP_i}} = f(MCS_{AP_i}, NSS_{AP_i})$
根据上述数据，模型可以根据实测数据进行拟合，并预测出每个AP在特定无线条件下的物理速率。
完整的吞吐量模型：因此，我们的总体吞吐量模型可表示为：
$T_{total\_system} = \sum_{i=1}^{n} \frac{N_{AP_i} \cdot P_{data_{i}} \cdot (1 - PER_{AP_i})}{T_{total_{i}}}$

结论与独特见解

通过对每个AP的吞吐量进行建模，并考虑实时的链路条件和发送机制，我们可以更准确地预测整体网络吞吐量。在实际应用中，对于网络管理者来说，把握实时的RSSI和动态的（MCS, NSS）选择可以有效提升网络的整体性能。此外，这种通过实时反馈调整网络资源的方式也适用于其他无线通信系统的优化，从而为用户提供流畅的服务体验。
为了解决问题4，我们将构建一个系统吞吐量模型，以预测无线局域网（WLAN）的总体吞吐量。这个模型需要根据前面的问题1和问题2的分析结果，考虑干扰、信道特性、接入机制等多种因素。

模型的基本构思分为两个主要部分：1) 发送机会模型，2) 吞吐量计算模型。我们将使用 LaTeX 语法来表示数学公式。

1. 发送机会模型

在我们的模型中，发送机会（ $seq\_time$ ）是影响吞吐量的关键因素。在每个接入点（AP），我们将发送机会表示为：

$seq\_time_i = f_{send_op}(RSSI_{i,j}, CCA\_threshold, NAV_{threshold}, CW, \ldots)$

其中， $i$ 表示第 $i$ 个AP， $j$ 表示与AP相连的STA（站点），具体影响因素包括：

$RSSI_{i,j}$ ：节点间的接收信号强度指示。
$CCA\_threshold$ ：信道可用评估的门限。
$NAV_{threshold}$ ：网络分配矢量的门限。
$C W$ ：当前竞争窗口的大小。

可以依据训练集数据用机器学习方法（如线性回归、随机森林等）构建 $f_{send\_op}$ 的具体形式，计算出所有AP的发送机会。

2. 吞吐量计算模型

利用每个AP的发送机会，我们可以计算总的系统吞吐量。吞吐量的计算公式如下：

$throughput_i = seq\_time_i \cdot R_{i} \cdot (1 - PER_i)$

其中：

$throughput_i$ 是第 $i$ 个AP的实际吞吐量。
$seq\_time_i$ 是第 $i$ 个AP的发送时长（来自发送机会模型）。
$R_{i}$ 是第 $i$ 个AP在发送过程中选择的有效PHY速率，即对应 $(MCS, NSS)$ 的速率，可以基于我们在问题2中的分析结果来确定。
$PER_i$ 是第 $i$ 个AP的丢包率，表示为 $PER_i = \frac{failed\_frames_i}{total\_frames_i}$ 。

AP的总体吞吐量则为所有AP吞吐量之和：

$throughput_{total} = \sum_{i=1}^{N} throughput_i$

其中， $N$ 为同频AP的总数量。
在这里插入图片描述

3. 整体模型

综合以上，总体吞吐量模型可表示为：

$throughput_{total} = \sum_{i=1}^{N} f_{send\_op}(RSSI_{i,j}, CCA\_threshold, NAV_{threshold}, CW, \ldots) \cdot R_{i} \cdot (1 - PER_i)$

模型预测

通过利用测试集 test_set_1_2ap 和 test_set_1_3ap 中收集的输入特征，我们可以输入到该模型中以预测系统的总体吞吐量。

这种建立模型的方法不仅考虑了信号强度和干扰，还强调了节点之间的竞争接入机制，这有助于更准确地预测在复杂环境下的WLAN吞吐量。通过评估不同的AP配置（2AP和3AP），我们能够得出更为有效的预测，以指导实际应用中的网络优化策略。
为了解决第四个问题，我们需要构建一个系统吞吐量的模型。这可以通过使用前三个问题的分析结果，结合测试数据集进行建模。我们可以使用线性回归或其他机器学习方法来预测吞吐量。以下是一个可能的实现代码示例，使用Python的 pandas 和 scikit-learn 库进行数据处理和建模。

假设我们的数据集中包含我们需要的特征以及目标变量（吞吐量）。下面是示例代码：

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

# 读取数据集
train_data_2ap = pd.read_csv('test_set_1_2ap.csv')
train_data_3ap = pd.read_csv('test_set_1_3ap.csv')

# 合并数据集
train_data = pd.concat([train_data_2ap, train_data_3ap], axis=0)

# 特征选择（根据前三个问题的分析选择相关特征）
features = ['test_dur', 'eirp', 'pd', 'ed', 'nav', 'sta_from_ap_x_mean_rssi', 
            'sta_to_ap_x_sum_ant_rssi', 'sta_to_ap_x_mean_ant_rssi', 
            'seq_time', 'num_ppdu', 'per']  # 等等，具体特征根据你的数据集确定

# 目标变量
target = 'throughput'

# 分割特征和目标
X = train_data[features]
y = train_data[target]

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 使用随机森林回归模型
model = RandomForestRegressor(n_estimators=100, random_state=42)

# 训练模型
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估模型
mse = mean_squared_error(y_test, y_pred)
见完整版