2024年欧洲杯开赛至今,德叔已经用人工智能预测了小组赛阶段的36场比赛,以及淘汰赛阶段的8场比赛,并且通过在网络上的发文,记录了所有这些比赛的预测结果。这些文章引来了不少朋友的围观,也让很多人对人工智能预测球赛这件事产生了浓厚的兴趣和好奇心,今天德叔就给大家讲一讲AI究竟是如何进行预测的,至于它的预测到底靠不靠谱,相信大家看完文章后,会得到答案。
很多人这里可能有疑问,德叔你有啥资格讲人工智能?德叔呢,从86年世界杯开始看球,自小又喜欢踢球,上学期间也参加了不少足球比赛,大学本科计算机专业,毕业后在计算机通信行业工作了二十多年,这些经历让德叔觉得自己还是可以稍微聊聊AI和足球的。
今天的文章主要包含了三部分内容:1,AI预测足球的过程。2,举例说明。3,影响AI预测准确率的原因。
AI预测足球比赛的过程,其实并不复杂,主要就是下面几步,大家可以和自己平时预测比赛做个对照,看看我们和机器的区别在哪里:
1, 评估影响比赛结果的因素
AI通过大模型的训练数据和知识库,运用机器学习和统计模型,找出各种因素对比赛结果产生的不同影响,从而确定影响比赛的一些重要因素。
这次欧洲杯预测中,德叔使用的ChatGPT和文心一言,基本都确定了6到7项重要因素来作为预测的依据,包括球队实力,球员表现,历史交锋,战术安排,伤病停赛,比赛环境,心理及外部因素等。这点AI和我们其实没有太多不同。
2,数据收集与整理
对第一步中所确定的每项因素,进行数据收集和整理,比如球队实力因素方面的数据包括:排名,近期战绩,进攻和防守数据等,球员表现方面的数据包括:进球、助攻、防守数据等,历史交锋数据包括:胜负、比分等等。
在数据收集这一点上,我相信很多喜欢研究比赛的朋友应该也都在做同样的事情。
3,数据分析与处理
将每一个影响因素量化为可比较的数值,再给每个因素分配相应的权重值,以反映不同因素对比赛结果影响的不同重要性。
将影响因素进行量化,这一点就和我们在电脑上玩的足球游戏一样,对球员和球队的各项指标进行评分。而权重的分配,则可以简单理解成每个因素对结果的影响占多大比重,比如球队实力方面的权重占25%,球员因素占20%,历史交锋占10%等等。这一点,我相信很多朋友其实也在做,只不过我们可能更多靠感觉来完成,同时我们的权重分配可能也更随意些,有时候更看重球员实力,有时候更看重历史交锋等,不同像AI那样严谨。
4,建立预测模型
构建一个多变量回归模型或机器学习模型来整合各个因素的数据。模型输入包括球队实力、球员状态、历史交锋数据等,输出为预期进球数和失球数。
预测比赛胜负,其实就是对球队预期进球数和失球数的一个比较,因此AI需要构建一个模型来完成预期进球数和失球数的计算。
5,模拟与预测
将当前比赛的所有数据输入到预测模型中,生成预测结果。并进行多次模拟,考虑不同情景下各因素的变化,得到更稳定的预测结果。
从上一步开始,AI和我们有了很大的不同,当普通球迷预测比赛时,是不会运用机器模型来计算球队预期进球数和失球数的,只是根据一些过往数据在大脑中做个粗略的估算。比如一个球队近期都是大比分赢球,我们就想他这场大概也会进很多球,对手实力很弱,所以可能失球会是0,诸如此类的。
6,校正与优化
使用历史比赛数据校正模型,确保模型的准确性和可靠性。调整模型参数,使其更贴近实际比赛结果。
这一步就是机器学习的一个过程,也是AI越来越聪明的根本原因。我们人类当然也有自我学习和修正的能力,但是这个改进的效率远没有机器高。
至此,一个人工智能预测足球比赛的系统性步骤,就全部完成了。
下面德叔以ChatGPT对于本届欧洲杯小组赛葡萄牙vs捷克的那场比赛预测为例,看看AI是如何完成数据量化和比分预测的:
1,数据量化:
2,权重分配
3,模型计算
加权平均计算:
葡萄牙总得分 = 22.5 + 17.0 + 7.0 + 12.0 + 8.5 + 8.0 = 75.0
捷克总得分 = 20.0 + 15.0 + 6.5 + 11.25 + 8.0 + 7.5 = 68.25
4,比分预测
根据总得分的对比和预测模型计算,预测出葡萄牙可能会以2-1或3-1战胜捷克。
最终,葡萄牙队确实在当晚的比赛中,以2比1的比分战胜了捷克队。
德叔这里只是用了一场ChatGPT预测正确的比赛进行举例。当然,很多比赛,AI也并没有预测出正确的结果。但总体的预测过程基本是一样的。如果我们对AI进行更多提示词的干预,比如让它调整某些因素的权重,或者投喂更多的比赛数据等,也都会影响到预测的结果。
最后,我们来看看影响人工智能预测足球比赛准确性的因素有哪些:
1,随机性和不可预测事件
比如球场上的突发意外因素,伤病,红牌,误判等,还包括运气因素,门柱,横梁等这些都会直接影响比赛结果,但却无法被大模型准确预测。
2,数据和模型的局限性
模型局限性指的是,预测都是基于特定假设的,考虑的都是一种稳定状态,比如阵容的稳定性等。如果不进行有效提示,大模型可能考虑不到出场球员的变化。
3,人为因素
球员状态的波动,教练战术安排改变等,大模型是无法提前预测到的。并且这些都是各支球队的机密。
4,外部因素
比如场地条件,天气因素等等
5,时间和小样本问题
足球比赛,尤其是国家队的比赛,一个重要特点就是,短期比赛数据量较少,容易受到偶然因素的影响。而长期数据虽然稳定,但未必能准确反映当前的球队情况。就相当于我们不能用20年前国足和沙特的比赛结果,来作为现在比赛预测的依据是一个道理。
总结:
尽管AI预测在数据分析和历史规律的基础上可以提供较为科学的结果,但足球比赛的复杂性和变数决定了模型预测和实际结果之间经常存在差异。虽然通过更多实时数据分析,不断优化和调整模型,可以一定程度提高预测准确性,但是,模型预测依然无法消除所有的不确定性,而这些不确定性,恰恰可能会直接影响比赛结果,这也正是足球的魅力所在。