即时战略游戏的AI策略思考

想起来第一次玩RTS游戏，就是框住一大群兵进攻，看他们把对面消灭干净……我接触的第一款游戏是《傲世三国》那会儿是小学，后来高中接触了魔兽地图编辑器，我发现自己喜欢直接看属性而省去争论和试验的步骤——我喜欢能一眼看透的感觉。

这篇博客都是务虚的，没啥干货，全是不算成熟的想法和思考。

【本篇将以“单位”来统一对实体、兵力、对象、算子等的称呼】

一、策略的描述

研究生的课题是“人机结合的智能体构建方法”，于是我回忆起了这些东西，但好像真的没认真考虑过什么是策略，怎么才能取胜（我不喜欢枯燥的练习游戏水平）。

我先是用极限法想到：是不是即时战略的兵极端抽象后就是下棋那种回合制，一种局面仅有固定的策略和解法（比如中国象棋的残局）？

还一个问题，涉及博弈论和社会关系计算的，我如何制作一个可以模拟这些过程、看到质点如何成为如此策略的平台工具？

1.行为建模

1)有限状态机

petri网络和基于有限状态机的规则推理

2)行为树

ROS机器人的操作系统中常常使用行为树

2.驱动方式

这部分我采用魔兽地图编辑器的思路来描述。

魔兽地图编辑器（以下简称WE），每个触发分为3个东西【事件、条件、动作】

1)时间驱动

这个是某个仿真引擎中的虚函数，它的两个触发条件就是时间和事件。

2)事件驱动

这个是最常用的，比如”任意单位被攻击“，然后条件是”被攻击的单位拥有技能【反击螺旋】“，最后动作是”随机数触发，如果触发了，选定范围形成单位组，对单位组施加伤害，被攻击的单位播放旋转动画“。

3)连锁反应的推理驱动

这个也就是经由其他触发器来引发这个触发启动的。

二、游戏和平台的构建

大战略，战役，战术小队，单兵技术……

钢铁雄心、骑马与砍杀（大地图与战场的分割，指挥下令）、魔兽争霸……在不同层面有不同的战斗表现方式，但是面面俱到的话玩家不可能学的过来而挫败。

一种战术是如何描述的？策略是如何描述和执行的？

1.环境交互

研究庙算平台后，我对这个平台做出了一些自己粗略的印象（编写规则式ai）：

赋予算子反应（行动），然后再检查条件，再赋予行动。

基础的行动就是我们可以执行的指令，行动序列就是要产出的东西。

2.强化学习

智能体（Agent）

强化学习的本体，作为学习者或者决策者。

{

策略（Policy）策略是从状态到动作的一个映射，智能体根据策略来选取动作。

价值函数（Value Function）用价值函数来评估当前状态的好坏程度。

模型（Model）智能体对环境的建模，即对环境的动力学进行建模。

{状态转移概率、奖励函数}

}

环境

强化学习智能体以外的一切，主要由状态集合组成。

状态（环境、智能体、信息）

一个表示环境的数据，状态集则是环境中所有可能的状态。

动作

智能体可以做出的动作，动作集则是智能体可以做出的所有动作。

奖励

智能体在执行一个动作后，获得的正/负反馈信号，奖励集则是智能体可以获得的所有反馈信息。

目标

智能体自动寻找在连续时间序列里的最优策略，而最优策略通常指最大化长期累积奖励。

因此，强化学习实际上是智能体在与环境进行交互的过程中，学会最佳决策序列。

序列决策

按时间顺序进行一系列决策，是一种动态的决策方式，可用于随机性或不确定性动态系统最优化。马尔可夫决策问题就属于序列决策问题。

另起一个，智能体分类

1、根据智能体的学习内容，我们可以把智能体分为如下三类：

基于策略（policy based）的智能体 直接学习策略，不需要学习价值函数。
基于价值（value based）的智能体 学习价值函数，通过价值函数隐式地得到策略。
演员-评论家（Actor Critic）的智能体 是基于策略和基于价值的结合，既学习策略，也学习价值函数。

2、根据智能体是否需要对环境动力学进行建模，可以把智能体分为如下两类：

基于模型（model based）的智能体 通过对环境进行建模，以此来学习策略或价值函数。
不于模型（model free）的智能体 不需要对环境建模，通过学习价值函数和策略函数进行决策。

第一讲强化学习介绍 - 知乎 (zhihu.com)

3.炼丹（深度学习拟合）

对于可以清楚描述的数学问题不需要炼丹，对于尚不清楚的只能炼丹让ai帮我们试。

三、从玩家角度入手

我想到了如下几个东西。

1.术语

快攻：牺牲经济和科技的发展，尽可能在初期就全力建造部队击败对手；为了加快速度，经常需要把产兵建筑偷偷造在对手的基地附近，还可以派出部分甚至所有农民来协助进攻。
Timing一波：预测对手的兵力薄弱期，通过固定的运营策略，在这些时间点集结出尽可能强大的兵力发动总攻，并且往往伴随着关键科技的恰巧升级完成。
压制：派出部队前压，占对手的一些便宜或者把对手压在家里无法开矿，而自己则趁机扩张。
骚扰：派出高机动单位、空中单位或者运输局运载部队，尽量避开敌方主力而去击杀对方的农民，从而打击他的经济。
控图：处于均势时，在战线上四处游走，进行充分的侦查，了解敌方主力位置和构成，等待时机进攻或者骚扰。
偷经济：认为敌方不会细致侦查时，偷偷在较远的位置开出分矿，铤而走险来获得经济优势。
偷科技：牺牲兵力或者经济，从而提早研发关键科技，来获得进攻Timing的提前
大后期：前中期侧重于防守和扩张，并构筑大量防守建筑来稳定战线，最终在良好的经济和科技支撑下，造出大量高级部队来蚕食消灭对手。这样一局比赛往往要很久，比如“城市化”战术甚至有打过7个多小时的...
换家：在正面对抗能力不如对手时，充分发挥游击战的思想，避开敌方部队的锋芒，在对方进攻时绕到他家中进行互拆，这个战术最能体现出星际2的复杂性和选手的应变能力。

以上战术的术语来自：AlphaStar的游戏——星际争霸2 AI综述_星际 op ai-CSDN博客