LLM来模拟世界大战,会发生什么?

news2025/1/23 4:40:04

深度学习自然语言处理 原创
作者:Winnie

战争与和平一直是塑造人类历史的重要元素。最近的一项研究聚焦于用LLMs模拟国际冲突,特别是第一次世界大战、第二次世界大战以及中国古代的战国时期。通过这些历史事件的详细模拟,研究团队探索了国际关系动态和触发战争的关键因素。50798857111336460dc5f2ae022b3450.png具体来说,这项研究关注于三个主要问题:首先是探索基于LLM的MAS在模拟战略规划和决策制定过程中的有效性;其次是识别那些在历史上触发战争的关键因素;最后是评估历史事件的不可避免性,特别是那些导致战争或和平的条件。

让我们一起来看看LLM在国际冲突中是怎么表现的吧!

Paper: War and Peace (WarAgent): Large Language Model-based Multi-Agent Simulation of World Wars
Link: https://arxiv.org/abs/2311.17227

[明天直播]LLMs时代下幻觉、对话、对齐、CoT、Agent和事实性评估领域的前沿研究

国家代理

在这篇研究中,一个关键组成部分是国家代理人。这些代理人在模拟国际冲突中扮演至关重要的角色。每个国家代理都由其对应的国家档案定义。在每一轮中,代理根据行动空间中可用的行动,通过精心构建的提示来对当前情况做出反应。引导提示将代理引导通过复杂的国际关系情况,确保他们的行动和决策经过深思熟虑。它通过分析联盟和敌对关系、权衡利益和导航决策步骤等来引导代理。

9c3d3f3d652c6536786c6b43c75c1cad.png

国家代理档案

国家代理档案基于六个基本维度:领导力、军事能力、资源、历史背景、关键政策和民众士气。每个维度都为我们理解这些代理人在模拟中的行为和决策提供了多维度的视角。

以下是一个英国代理档案的例子。

984fe362368b84add7bef7c0e49c51e1.png 058209a3b17e174dace91b01516b53fd.png

国家代理行动空间

国家代理的行动空间被分为七个不同的类别:

  • Wait for action:这允许代理人采取被动态度,观察其他参与者的行为及背景的变化。

  • General mobilization:使国家能够为潜在冲突做好准备。

  • Declare war:这是国家对另一国家采取敌对行动的正式声明。

  • Military alliance:是多个国家之间提供相互支持的正式协议。

  • Non-intervention treaty:是国家间承诺不干预对方内政的外交协议。

  • Peace agreement:旨在结束冲突,建立未来关系的框架。

  • Send message:是代理人进行非正式沟通的方式。

行动的属性被细致地定义,包括公开性、输入类型和是否需要回应。公开性决定了行动的可见度和公众意识水平,分为公开和私人两种。输入类型指定了行动启动所需的信息或资源,而是否需要回应则指明了行动是否需要其他实体的反馈。

WarAgent多智能体系统(MAS)

WarAgent围绕四个基本构建块展开:国家代理、秘书代理、委员会和Stick:

  • 国家代理:每个国家代理由对应的国家档案定义,并根据行动空间中可用的行动做出反应。引导提示帮助代理导航复杂的国际关系环境,并确保其行动和决策经过深思熟虑。

  • 秘书代理:作为LLMs的补充,秘书代理负责验证国家代理的行动适当性和基本逻辑一致性。这个角色不仅确保行动符合已定义的参数,还负责验证行动的逻辑连贯性。

  • 委员会:委员会管理国际关系,作为动态记录平台,收集并显示模拟中的关系动态。它帮助代理根据最新信息做出决策。

  • Stick:作为内部记录系统,棒跟踪关键指标,如动员情况、内部稳定性和战备预测,以确保国家代理的行动与预定义的协议和标准保持一致。

如下图所示,委员会类可以跟踪和管理不同国家之间四种类型的国际关系。如战争宣言(W)表示国家之间的冲突或战争,用符号“×”表示。军事联盟(M)表示国家之间的正式军事合作伙伴关系,用符号“&”表示。Stick侧重于跟踪对国家的决策过程至关重要的关键指标,包括动员、内部稳定性和战备预测。dc5f08a1860320dc82ee629eb73e707a.png

每个国家代理与其秘书代理之间存在指定的互动。秘书代理评估国家代理提出的行动计划,确保其符合格式、内容和逻辑一致性。国家代理之间的互动由历史背景下的触发事件引发。代理们共同对触发事件作出反应,并通过各种行动和沟通互动进行交流。

87b681da3f30cc9a17de1d6f0e08ac4e.png

在MAS中,每个代理的初始行动都是由触发事件引发的。在历史背景下,触发事件指的是引发各国之间一系列反应的事件,最终导致重大历史事件的发展。在模拟中,触发事件作为所有代理响应的初始情景。例如,在第一次世界大战的情况下,奥地利-匈牙利的弗朗茨·费迪南大公被暗杀被广泛认为是触发事件。类似地,在第二次世界大战中,触发事件通常被认为是德意志帝国入侵波兰。在战国时期的背景下,金国在韩国、赵国和魏国之间的分裂通常被视为触发事件。

实验设置

本实验旨在验证LLM在模拟复杂历史事件方面的有效性。实验选用了OpenAI开发的GPT-4作为后端模型,讨论以下问题。

  • 模拟效果(RQ1):在历史上准确的条件下展示模拟结果,旨在证明WarAgent系统在提供可信模拟方面的能力。采用人工评估和多次运行计算准确性得分的方法来验证结果。

  • 战争的导火索(RQ2):通过探索性“假设”情景,重点是评估历史背景下触发事件的重要性,特别是在第一次世界大战的情况下。

  • 战争不可避免性(RQ3):考察不同的初始条件下各种场景,通过改变决策过程或国家条件来构建替代历史叙事,并分析其对历史轨迹的影响。

评估

  • 人工评估: 检查国家代理执行的行动是否与其国家配置文件一致,评估行动是否符合国家利益,以及代理在不同回合中的一致性。

  • Board连通性评估: 根据Wikipedia描述和总结,严格评估模拟场景与实际历史事件的忠实度,特别是军事联盟的形成、宣战和全面动员的实施。

  • 联盟准确度分数: 使用“两个分区的互信息分数”来评估模拟联盟与历史联盟的一致性,采用Python中SciPy的标准实现。宣战/全面动员准确度分数:使用Jaccard集相似性指数来评估这两个领域的模拟准确度。

实验分析

人类评估

实验从以下三个方面对模拟结果进行了观察:军事联盟、宣战和不干涉条约。

  • 军事联盟: 在所有模拟中,英国与法国、德意志帝国与奥匈帝国、塞尔维亚与俄罗斯之间均形成了一致的联盟。模拟结果显示,由于德意志帝国的扩张政策,英国和法国视其为潜在对手。德意志帝国与奥匈帝国的联盟则基于语言和民族共性及外交孤立法国的共同目标。塞尔维亚和俄罗斯的联盟基于共同的民族背景和战略利益。

  • 宣战: 在所有模拟中,奥匈帝国不断地向塞尔维亚和俄罗斯宣战,德意志帝国也对俄罗斯宣战。法国和英国对德意志帝国的宣战在大部分模拟中也发生了。这些宣战行为反映了当时的联盟结构和历史敌意。

  • 不干涉条约: 在每次模拟中,美国总是参与至少一项不干涉条约。美国的外交策略倾向于避免冲突,通过不干涉条约保持距离。奥斯曼帝国也在大多数模拟中采取了类似的策略。

实验中还观察到了两种特殊情况:一是没有联盟支持的消息,二是背叛联盟。这些情况表明国家代理在不断变化的政治背景下作出了战略性的决策。

这些发现表明,模拟在复制历史情景方面是有效的,特别是在将刺杀事件视为触发事件的情况下。模拟行动展现了高度的合理性,忠实于实际历史背景,从而证明了基于LLM的MAS在模拟复杂历史事件方面的有效性。

准确性分析

0ee0575be41c8e39cdccb4f0e24cd659.png
  • 联盟准确性: 在七次模拟中,英国和法国、俄罗斯和塞尔维亚、奥匈帝国和德意志帝国、俄罗斯和法国、奥斯曼帝国和德意志帝国等历史上的联盟在模拟中得到了再现。

  • 宣战准确性: 在模拟中,列日战役之前的宣战行为如奥地利对塞尔维亚、俄罗斯对奥匈帝国、德意志帝国对塞尔维亚、俄罗斯对德意志帝国、法国对德意志帝国的宣战均被重现。

  • 动员状态准确性: 除了美国之外,所有国家在这一时期都进入了动员状态,与历史情况相符。

错误分析

  • 联盟形成错误:在七次模拟中,英国和法国与德意志帝国-奥匈帝国联盟结成意外联盟的情况出现了一次,这与历史上的情况不符。

  • 宣战错误:英国和法国是否向奥匈帝国或德意志帝国宣战的选择,有时与历史上的情况不一致。历史上,这些国家最初与德意志帝国发生冲突,但在某些模拟中,它们错误地被描绘为与奥匈帝国对抗。

  • 动员错误:美国的军事动员描绘有误。历史上,美国在1917年较晚加入一战,但在部分模拟中,美国与英国结成联盟并早期进行动员。

总结

WarAgent模拟系统已经证明了其作为理解国际冲突动态的工具的可靠性。它展示了基于LLM的多智能体AI系统的能力,可以原型化和分析复杂的人类行为。通过比较不同的Casus Belli设置,实验揭示了即使是最小或null的触发因素也可能演变成类似于冷战的情况。这强调了在一定情况下通向战争的路径往往是不可避免的性质。实验进一步支持了这一观点,通过对国家设置的反事实改变,暗示国家政策的偏差是改变这些看似注定的结果的必要手段。

这些发现突显了冲突在特定情况下的决定性本质,但也指出了通过修改国家政策或关系的战略性调整的潜力,以改变这些看似注定的结果。我们也认识到了当前框架在充分捕捉国际关系复杂性方面存在局限,因此为未来研究提供了方向。

dd05def674c5a0f08c36eb4a2456391e.jpeg


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

d8f70162333832c0f0cb891a241ecb39.png

id:DLNLPer,记得备注呦

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1279635.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

「Verilog学习笔记」自动贩售机2

专栏前言 本专栏的内容主要是记录本人学习Verilog过程中的一些知识点,刷题网站用的是牛客网 自动贩售机中可能存在的几种金额:0,0.5,1,1.5,2,2.5,3。然后直接将其作为状态机的几种状…

HTML_web扩展标签

1.表格标签 2.增强表头表现 4.表格属性(实际不常用) 结构标签: 合并单元格: 更多请查看主页

爬虫-xpath篇

1.xpath的基础语法 表达式描述nodename选中该元素/从根节点选取、或者是元素和元素间的过渡//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置.选取当前节点…选取当前节点的父节点选取属性text()选取文本 举例: 路径表达式结果html选择html元…

Nacos源码解读04——服务发现

SpringBoot自动注入 项目启动的时候会通过自动注入的机制将 NacosDiscoveryClientConfiguration注入 当注入NacosDiscoveryClientConfiguration的时候会将DiscoveryClient一起注入Bean DiscoveryClient实现了SpringCloud的DiscoveryClient接口,重点是getInstances和…

ROS集成开发环境的搭建

目录 一、安装终端 二、安装VScode 1、安装 2、vscode 集成 ROS 插件 三、launch文件示例 实现 运行 launch 文件 一、安装终端 sudo apt install terminatorTerminator 常用快捷键 AltUp //移动到上面的终端 AltDown …

基于remix+metamask+ganache的智能合约部署调用

在我们部署合约时为了让它更接近真实区块链去中心化体验,我们需要调用小狐狸(Metamask)来进行真实交易,而metamask里没有内置虚拟测试币,我们需要进行调用Ganache来添加带有虚拟测试币的账号。以上就是三者的关系&…

量子光学的进步:光子学的“下一件小事”

量子光学是量子力学和光学交叉领域中发展迅速的一门学科,探索光的基本特性及其与物质在量子水平上的相互作用。通过利用光的独特特性,量子光学为通信、计算、密码学和传感等各个学科的变革性进步铺平了道路。 如今,量子光学领域的研究人员和工…

YITH Request a Quote Premium商城请求报价插件

点击访问原文 YITH Request a Quote Premium商城请求报价插件 - 易服客工作室 YITH Request a Quote Premium商城请求报价插件是一款非常强大的工具,专为希望为其尊贵客户提供定制定价选项的企业量身定制。这个特殊的插件使客户能够认真提交包含特定产品或服务的细…

Python---格式化输出与%百分号----涉及转义符 \ 反斜杠的使用

相关链接Python--格式化输出中的转义符号----\t 制表符(空格的)和\n(换行的)_唯元素的博客-CSDN博客 Python---字符串(用单、双引号、 三单/双引号定义。反斜杠 \ 转义,单在双内/双在单内 )-CS…

手写VUE后台管理系统7 - 整合Less样式

整合LESS 安装使用 Less(Leaner Style Sheets),是一门向后兼容的 CSS 扩展语言。 Less 官网:https://less.bootcss.com/ 安装 yarn add less安装完成就可以直接使用了 使用 以文件形式定义全局样式 在 assets 目录下创建 less …

【Element-ui】InputNumber 计数器与Select 选择器

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、InputNumber 计数器1.1 基础用法:1.2 禁用状态1.3 步数1.4 严格步数1.5 精度1.6 尺寸1.7 按钮位置1.8 Events1.9 Methods 二、Select 选择器2.1…

超大规模集成电路设计----学习框架(一)

本文仅供学习,不作任何商业用途,严禁转载。绝大部分资料来自----数字集成电路——电路、系统与设计(第二版)及中国科学院段成华教授PPT 超大规模集成电路设计----学习框架(一) 这门课在学什么?这门课该怎么学&#xf…

Java LeetCode篇-深入了解关于栈的经典解法(栈实现:中缀表达式转后缀)

🔥博客主页: 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 中缀表达式转后缀说明 1.1 实现中缀表达式转后缀思路 2.0 逆波兰表达式求值 2.1 实现逆波兰表达式求值思路 3.0 有效的括号 3.1 实现有效的括号思路 4.0 栈的压…

魔法时代:人工智能如何重塑我们的日常生活

现在的我们正在目睹一个新时代的到来——人工智能(AI)的时代。这个时代由算法驱动,由数据精炼,由机器学习引领,正逐渐成为我们生活中不可或缺的一部分。人工智能像一位魔法师,以其独特的能力,从根本上改变了我们的生活…

力扣题:字符的统计-12.2

力扣题-12.2 [力扣刷题攻略] Re:从零开始的力扣刷题生活 力扣题1:423. 从英文中重建数字 解题思想:有的单词通过一个字母就可以确定,依次确定即可 class Solution(object):def originalDigits(self, s):""":typ…

Hdoop学习笔记(HDP)-Part.14 安装YARN+MR

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

可用的镜像 yum 源

目录 ftp.sjtu.edu.cn 镜像 yum 源centos 的镜像 yum 源 mirrors.sohu.comcentos 的镜像 yum 源 mirrors.163.comcentos 的镜像 yum 源 ftp.sjtu.edu.cn 镜像 yum 源 镜像 yum 源地址 : http://ftp.sjtu.edu.cn/centos/ centos 的镜像 yum 源 http://ftp.sjtu.edu…

git如何关联克隆远程仓库

一、添加远程仓库 之前我们仅仅是在本地创建了一个Git本地仓库,这里我们再在GitHub创建一个Git远程仓库,并且让这两个仓库进行远程同步,这样,GitHub上的仓库既可以作为备份,又可以让其他人通过该仓库来协作开发。 1.…

面试--各种场景问题总结

1.在开发过程中,你是如何保证机票系统的正常运行的? 用户、测试、监控和日志、安全措施、数据备份、系统设计、需求分析 2.在机票系统开发过程中,你最有成就的事情,为什么? 用户体验感、高可用和稳定性、客户满意度、系…

使用Visual Studio创建第一个C代码工程

文章目录 2019创建C工程创建C文件运行 上一节我们使用记事本编辑C代码,在命令行运行文件,这种方式只是作为对编译器的了解,实际的开发中一般使用集成开发环境比较多,因为 集成开发环境操作比较简单,通常可编辑&#x…