【2024美赛】C题 Problem C: Momentum in Tennis网球运动中的势头网球问题一python代码

news2025/4/2 16:11:03

1 题目

http://t.csdnimg.cn/BzhFu

2 问题一数学模型

采用隐马尔可夫模型（Markov Model），这是一种描述随机过程的数学模型，它满足马尔可夫性质，即未来状态的概率只依赖于当前状态，与过去的状态无关。马尔可夫模型可以分为马尔可夫链和隐马尔可夫模型两种常见形式。模型建立过程如下，

建立状态： 在网球比赛中，每个时间点的状态可以用元组来表示：(状态可以是盘分0-0、1-0、2-0等，可以以是局分1-6、2-6等，可以是小比分15-0、30-0、40-0等，以及其他特征)。其中，球员表示当前发球的球员；比分状态表示局分和盘分的组合；发球方表示该时间点的发球方是哪个球员。
状态转移矩阵： 通过观察比赛数据，可以建立状态转移矩阵来描述状态之间的转移概率。对于相邻的时间点，可以统计从一个状态转移到另一个状态的次数，然后将这些计数转换为概率。举例来说，对于当前状态 (player1, score_status, server)，下一个状态 (next_player1, next_score_status, server) 的转移概率可以表示为 transition_matrix[(player1, score_status, server)][(next_player1, next_score_status, server)]。本模型以比分出现的次频次作为状态转移概率，只考了盘分和局分，没有考虑小分，即15-0,30-0,40-0这样的小分。
发球方优势模型： 代码中使用了一个函数 serving_advantage 来模拟发球方的优势。该函数返回了一个假设的发球方赢得比赛的概率。
胜率计算： 根据状态转移矩阵和发球方优势模型，可以计算每个时间点球员的胜率。对于每个状态乘以发球优势比例，可以用以下公式计算其胜率:

问题一代码实现

读取了网球比赛数据，并根据比赛的局分和盘分创建了一个表示比赛积分状态的新列。
定义了一个函数 serving_advantage 用来计算发球方赢得比赛的概率，假设发球方赢得比赛的概率为60%，接发方赢得比赛的概率为40%。
构建了一个状态转移矩阵，根据比赛中每个时间点的状态计算了从当前状态到下一个状态的转移概率。
根据状态转移矩阵计算了每个时间点上两位球员的胜率，并将结果可视化为比赛进程图，显示了每位球员在比赛中的预测胜率。

因此，该模型以状态转移矩阵为基础，通过定义的发球优势和转移概率，可以预测每个时间点上两位球员在比赛中的胜率，并将预测结果可视化为比赛进程图。




import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 读取数据
data = pd.read_csv("data/Wimbledon_featured_matches.csv")

# 添加一列表示比赛积分状态（包括局分和盘分）
data['score_status'] = data['p1_games'].astype(str) + '-' + data['p2_games'].astype(str) + ' ' + data['p1_sets'].astype(str) + '-' + data['p2_sets'].astype(str)

# 只分析第一场比赛
match_1 = data.iloc[0]['match_id']
df = data[data['match_id']==match_1]
player1 = data.iloc[0]['player1']
player2 = data.iloc[0]['player2']
print(player1,player2)
df

在这里插入图片描述

# 定义函数计算发球方赢得比赛的概率
def serving_advantage(server):
    if server == 1:
        return 0.6  # 假设发球方赢得比赛的概率为60%
    else:
        return 0.4  # 假设接发方赢得比赛的概率为40%

# 构建状态转移矩阵
def build_transition_matrix(df):
    transition_matrix = {}
    for i in range(len(df) - 1):
        row = df.iloc[i]
        next_row = df.iloc[i + 1]
        current_state = (row['player1'],row['score_status'],row['server'])
        next_state = (next_row['player1'], next_row['score_status'],row['server'])
        if current_state not in transition_matrix:
            transition_matrix[current_state] = {}
        if next_state not in transition_matrix[current_state]:
            transition_matrix[current_state][next_state] = 0
        transition_matrix[current_state][next_state] += 1
    # 将计数转换为概率
    for current_state, next_states in transition_matrix.items():
        total_transitions = sum(next_states.values())
        for next_state in next_states:
            transition_matrix[current_state][next_state] /= total_transitions
    return transition_matrix

transition_matrix = build_transition_matrix(df)
transition_matrix

在这里插入图片描述

# 根据状态转移矩阵计算每个时间点的比赛胜率
def calculate_win_prob(transition_matrix):
    win_prob = {}
    for state in transition_matrix:
        # 运动员的胜率计算
        if state not in win_prob.keys():
            win_prob[state] = 0  # 初始化胜率为0
        for next_state, prob in transition_matrix[state].items():
            win_prob[state] = prob * serving_advantage(state[2])
    return win_prob

win_prob = calculate_win_prob(transition_matrix)
win_prob

在这里插入图片描述

# 可视化比赛进程
def visualize_match_flow(win_prob, df):
    x = np.arange(len(df))
    y_p1 = [win_prob[(df.iloc[i]['player1'], df.iloc[i]['score_status'],df.iloc[i]['server'])] for i in range(len(df))]
    print(y_p1[-10:])
    y_p2 = [1 - win_prob[(df.iloc[i]['player1'], df.iloc[i]['score_status'],df.iloc[i]['server'])] for i in range(len(df))]  # 第二个运动员的预测概率
    print(y_p2[-10:])
    plt.figure(figsize=(10, 5))
    plt.plot(x, y_p1, color='red', label=player1)
    plt.plot(x, y_p2, color='blue', label=player2)
    plt.xlabel('Point Number')
    plt.ylabel('Win Probability')
    plt.title('Match Flow')
    plt.legend()
    plt.show()

visualize_match_flow(win_prob, df)


![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/3b23b31d15654ab58593c0bcc6bf68fe.png)