作者:陈之炎
本文约1500字,建议阅读5分钟
本文介绍了如何在足球比赛中读懂随机博弈。
据悉世界足坛的传奇球星梅西将于2023年6月中率领阿根廷国家足球队来到中国北京,参加一场备受瞩目的比赛。这场比赛成为了足球迷们心心念念的盛事,将带来激动人心的体育盛宴。比赛门票已经炒到了5位数,对于囊中羞涩的工薪一族,两个人一起去看场球,要花费一个月的工资,心疼之外肝也疼。在AI 高度发展的今天,机智的的程序媛们已经开始考虑用人工智能来模拟这一场盛况空前的足球赛了。
首先,将足球比赛视同为多智能体的强化学习过程,并使用博弈论的概念和方法来建模多智能体系统。可以将足球比赛视同为随机博弈问题,其中进攻方的智能体使用概率策略来通过一个未知的防守方的智能体。将随机策略解描述为一组特定状态下矩阵策略中的纳什均衡策略。这样一来,一场盛况空前的AI合成足球赛便诞生了。
将随机博弈定义为元组,其中n 为球员数目,为转移函数,为球员的动作集合,
为折扣因子,:为球员i 的奖励函数。随机博弈中的转移函数是给定参与者当前状态和联合动作的下一个状态的概率分布。奖励函数为球员i 经过联合动作之后在状态下获得的奖励。与马尔可夫决策过程相似,随机博弈也具有马尔可夫性质。也就是说,球员的下一个状态和奖励只取决于当前的状态和所有球员的当前的行为。
对于一个多人随机博弈问题,如果知道博弈中的奖励函数和转移函数,就可以找到博弈中的纳什均衡。随机博弈中的纳什均衡可以描述为一个包括n个策略的元组,对于状态集中的全部状态的全部策略,有:
其中:为球员i的可用策略集合,为球员i在当前状态及所有球员纳什均衡策略下的折扣奖励之和,为了简便起见,用表示纳什均衡策略下的状态-价值函数。同理,可以定义动作-价值函数为球员i在当前状态及所有球员联合动作,在纳什均衡策略下的折扣奖励之和,有:
其中:为球员i在纳什均衡策略下,以动作为变量的概率分布;
为给定当前状态s和联合动作下,进入状态的概率;
为给定当前状态s和联合动作下,进入状态获得的即时奖励。
在公式(2)和(3)的基础上,将(1)纳什均衡重写为:
可以根据球员奖励函数的不同,对随机博弈建模。如果所有球员都有相同的奖励函数,则称该博弈为完全合作博弈或团队博弈;如果一个球员的奖励函数总是与另一个球员的奖励函数符号相反,则称该博弈称为完全竞争博弈或零和博弈;对于具有全类型奖励函数的博弈,称之为一般和随机博弈。
利用随机博弈理论建模一场精彩的足球比赛,中国足球迷将有幸亲眼目睹梅西的惊艳表现,感受他的技术和灵动的脚步。梅西率领的阿根廷国家足球队将在北京展现他们的实力和风采。这将是一场不可错过的精彩比赛,必将留下难以磨灭的回忆。无论是球迷还是足球爱好者,都期待着这场比赛的到来。在正式比赛开始之前,不妨先让计算机系的博士们先来建模一场仿真秀吧!
编辑:王菁
数据派研究部介绍
数据派研究部成立于2017年初,以兴趣为核心划分多个组别,各组既遵循研究部整体的知识分享和实践项目规划,又各具特色:
算法模型组:积极组队参加kaggle等比赛,原创手把手教系列文章;
调研分析组:通过专访等方式调研大数据的应用,探索数据产品之美;
系统平台组:追踪大数据&人工智能系统平台技术前沿,对话专家;
自然语言处理组:重于实践,积极参加比赛及策划各类文本分析项目;
制造业大数据组:秉工业强国之梦,产学研政结合,挖掘数据价值;
数据可视化组:将信息与艺术融合,探索数据之美,学用可视化讲故事;
网络爬虫组:爬取网络信息,配合其他各组开发创意项目。
点击文末“阅读原文”,报名数据派研究部志愿者,总有一组适合你~
转载须知
如需转载,请在开篇显著位置注明作者和出处(转自:数据派THUID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。
未经许可的转载以及改编者,我们将依法追究其法律责任。
往期回顾
点击“阅读原文”加入组织~