深度学习实战 | 开发一个围棋智能体

news2024/9/21 15:36:58

图片

01、数据模型

神经网络的训练过程需要将HD5文件中的样本数据解析出来。数据集中的棋盘局面可以提取后直接输入卷积网络进行特征提取。从属性中取出样本标签用于神经网络的损失计算和反向传播。如图1所示,落子方信息从属性中提取后不用参与棋盘局面的特征提取,而是直接加入之后的逻辑判断中。

图片

■ 图1 基本的数据流结构框架

要用神经网络来学习围棋,首先要将围棋棋盘用数学符号表示。图2显示的是5×5围棋棋盘的数字记法,通常是把二维图形盘面转换成矩阵的形式,其中,数字1代表黑棋,-1代表白棋,棋盘上的空子位用0表示。

图片

■ 图2 围棋盘面的数字记法

除了有棋盘的局面,为了让神经网络能给出落子建议,还需要告诉神经网络当前是该轮到谁来落子了。如图3所示,针对同一局面,不同的落子方也会有不同的选择。

图片

■ 图3 同一盘面的不同选择

如图5-8所示,如果整个策略完全是由全连接网络组成的,除了要把二维的棋盘摊平成一维数据之外,从保持神经网络的结构尽量简洁这个角度出发,可以只为逻辑判断网络增加一个表示是哪方落子单一输入接口,用1和-1来分别表示当前应该是黑方还是白方落子。

图片

 

■ 图4 使用全连接神经网络时的数据预处理

图4演示了采用卷积网络对围棋盘面进行处理时可选用的两种方式。一种是和前面采用全连接网络对输入进行预处理的方式类似,把对棋盘的二维结构特征提取过程和当前的落子方信息分开,当前落子方仅作为逻辑判断网络的一个单独输入节点。或者考虑到棋盘局面是一个二维数据,采用卷积网络采集图形特征的信息时,可以为卷积网络的输入多增加一个通道,用这个通道来提供当前应当是黑方还是白方落子的信息。这种方法的好处是实现上要比上一种方法简单,缺点是必须要和卷积网络搭配使用,但是考虑到围棋棋盘采用卷积网络能获取到更好的图形特征,所以对于处理围棋游戏而言这并不算是一个缺点。

图片

■ 图4 卷积神经网络对围棋盘面的两种处理方式

本文采用先通过卷积网络提取棋盘局面的特征,而后将盘面特征结合当前的落子方一起输入逻辑判断网络进行最后的落子选择。

 

02、获取训练样本

u-go.net是一个围棋爱好者自建的网站,任何人都可以从上面免费下载KGoServer(KGS)网站上棋手的对战记录。这些对战记录都被保存为SGF格式文件。网站上提供了7段以上或4段以上棋手的对弈记录,并且提供“.zip”“.tar.gz”和“.tar.bz2”三种格式文件的下载。通常为了保证机器学习后的下棋棋力,可以采用7段以上的对弈棋谱,如果样本偏少,再考虑使用4段以上的对弈棋谱。

为了在Windows上处理这些数据方便,推荐下载“.zip”格式的文件。如果读者愿意,完全可以手工逐个单击下载,不过为了方便和快速,MyGo的SGF_Parser目录下提供了一个Python小程序,可以使用这个程序方便地获取所有的“.zip”格式链接。具体的操作方法为:右击浏览器,把网页文件保存在MyGo\SGF_Parser文件夹下,使用默认文件名“u-go.net.html”保存。再在cmd窗口里运行python fetchLinks.py>zip.link来执行如代码片段1所示的Python文件。打开新生成的“zip.link”文件,将全部内容复制后粘贴到迅雷中下载,文件请保存在“MyGo\SGF_Parser\sgf_data\”。全选所有下载的ZIP文件,右击选择7-zip进行解压,选择“提取到当前目录”,这样,在“MyGo\SGF_Parser\sgf_data\”目录下就会有全部待解析处理的SGF文件了。

 【代码片段1】爬取训练样本的网页链接。

MyGo\SGF Parser fetchLinks.py
from bs4 import BeautifulSoup
f = open('u-go.net.html','r')
html = f.read()
soup = BeautifulSoup(html,"html.parser")
for link in soup.find all('a'):
if'zip'in link.get('href'):
print(link.get('href'))

 围棋棋盘本身并没有方向性。例如,开局时己方第一个子落在哪个星位对对手而言并没有什么区别。但是对于计算机而言,程序没有人类那种自适应的能力,特别是通过卷积网络来提取特征值时,网络对物体特征的位置或者方向是很敏感的。图像识别的人工智能训练中有一种称为数据增强的技术,方式是通过旋转或者翻转原始样本来增加神经网络训练时的样本集,这便使得神经网络在训练后能够识别倒转的、对称的或者不同角度的目标物体。在训练围棋智能体的时候,为了提高训练的效率也采用类似的技术。由于围棋棋盘总是一个四方形,在获取一个训练样本后,可以对这个样本进行90°、180°、270°的旋转,同时还可以对样本进行水平镜像翻转,并再次进行之前的旋转操作。如图5所示,一盘盘面通过上述这种技术处理后就变成了8个样本。

图片

■ 图5 一盘盘面处理成8个样本

由于人工棋谱的数量相对于机器学习所需要的数量来说还是相对偏少的,通过上述技术可以缓解这个问题,但是要从根本上解决,必须要将样本生成的过程自动化。最方便的产生棋谱的方式是使用现有的围棋智能程序来相互对弈,通过这种方式可以产生源源不断的围棋棋谱。但是这种方式有一个致命的缺点,就是被训练的智能程序在棋力上很难突破原智能程序。这个致命缺点也是传统的以监督学习为核心算法的人工智能的一个通病。在后面的章节中将会看到其他更加有效的方法来增强围棋智能体的训练结果。不过目前而言,通过这种传统方法,围棋智能程序在棋力上已经能够胜过随机落子的系统了。

03、代码演示

传统的神经网络通过监督学习来更新其中的参数信息,本质上就是通过拟合训练集中的数据从而建立一个预测函数,并依靠这个函数对新的数据推测出新的结果。其中,训练资料是由输入样本和预期输出的标签所组成。而函数的输出可以是一个连续的数值或是预测一个分类。简单来看,围棋游戏可以抽象为人工智能研究领域的分类问题。19路棋盘的361个落子位就是361种分类。本节将会利用前面的知识并使用神经网络来具体实现一个智能程序,它可以根据棋面的不同局势判定当前棋局局面应该归类为361个分类中的哪一个,并给出落子建议。

结构上可以借鉴著名的Inception来构建围棋智能程序网络。在Inception出现之前,大部分流行的卷积神经网络仅仅是把卷积层堆叠得越来越多,使网络越来越深,以此希望能够得到更好的性能。

Inception结构的主要特点是采用了不同大小的卷积核对同一对象进行特征提取并在最后对不同尺度的特征进行拼接融合。初级阶段可以不必使用像Inception那么深的网络,图6是模仿并简化了Inception后的卷积网络结构,它只借鉴Inception的一组模块用于棋盘的棋形识别,然后再使用全连接层来做逻辑判断。为了能平滑地从卷积网络过渡到感知网络,可以故意让最后一层卷积的输出是一个1×1×c的形状,然后再使用flatten功能把这层展开为感知网络。

图片

■ 图6 模仿并简化Inception后的卷积网络架构

在机器学习中,样本常常不能一次性获取全部完整的样本,它总是一点一点积累的。在围棋训练样本这件事情上也是一样,得到一些棋谱就把它们拿来作为训练样本,等有新的赛事结束后再把新的棋谱拿来作新的样本。每次获取到新的样本集后都可以为其独立生成一个HDF5文件,而无须每次都全量重新生成一个单独的HDF5文件。在训练时,每次都从文件系统上随机抽取HDF5文件会增加磁盘I/O的开销。由于HDF5文件结构非常简单,从理论上看,只要保证group名不重复,把新增的HDF5文件合并到原来的HDF5文件上是完全可行的。技术上,HDF5官方套件提供了一个叫作h5copy的命令行工具可以用来做HDF5文件的合并,但在使用它之前,需要下载完整的HDF5应用程序,Windows用户可以在官网上直接下载。 

代码片段2定义了存放学习记录的位置、学习样本文件和网络模型。

【代码片段2】初始定义。

filePath = "./game_recorders/game_recorders.h5"   #1
games = HDF5(filePath,mode = 'r')                 #2
type = 'pd_dense'                                 #3
model = DenseModel( dataGenerator = games. yeilds_data, boardSize = 9, dataSize = 1024 * 100,model = type)                                 #4

 说明/

(1) 学习样本的数据存放在HDF5的格式文件中。训练样本可以从历史棋局中获取,也可以通过程序来自动生成,如何通过程序来自动生成棋谱将在通用化围棋智能体程序中进行介绍。

(2) 通过games来实现从存储样本的HDF5文件中获取训练样本和对应的标签。

(3) 在DenseModel()中预定义了网络模型,pd_dense类型包含一个可选的参数用来专门指定是使用全连接网络还是卷积网络,默认是卷积网络。type也可以直接设定为cnn,从而显式地指出使用卷积网络。

(4) 调用预定义的DenseModel()神经模型。使用games中的数据发生器来产生源源不断的训练数据。数据发生器是一项非常好用的技术,特别是对于样本数据量巨大的训练过程,系统由于内存限制,不可能一次性载入全部数据,通过这项继续,训练过程可以逐个按需获取训练样本。

代码片段3定义了模型的编译、学习及保存的方法。

【代码片段3】模型的编译、学习及保存。

MyGo sample loader.py
model.model compile()        #1
model.model fit(batch size = 16 * 2,epochs = 10000,earlystop = 10,checkpoint = True)  #2
model.model save(type + '.h5')  #3

说明/

(1) 使用DenseModel()方法预定义的梯度优化算法和误差函数。

(2) 开始训练,这里使用了早停和记录网络参数的功能。由于训练回合过多,对训练效果也不清楚,所以使用早停和参数记录可以避免由于网络设计不合理导致的训练时间浪费。

(3) 训练完成后保存模型。

使用Keras来做传统的神经网络训练十分方便,代码写作方式也基本固定,额外要做的仅是在参数选择上进行调整。大家可以使用MyGo\test_fast_play.py来看一下使用这种训练方法的棋力。

代码片段4演示了其中如何装载和使用学习后的智能体。

【代码片段4】装载智能体并开始下棋。

MyGo test fast play.py
from board fast import *   #1
board = Board(size = 9)
bot1= None #2
bot2 = Robot(ai='SD', boardSize = 9,model = pd dense')   #2
game = Game(board)
print(game.run(play b = bot1,play w = bot2,isprint = True)) #3

说明/

(1) 引入board_fast工具下的所有类方便后续调用。

(2) bot1设置手工输入,bot2采用刚刚训练好的模型。Robot类默认装载MyGo目录下的lj.h5神经网络权重文件,所以在使用训练结果时要记得手工调整一下训练结果文件的文件名。

(3) 运行棋局并打印出胜负结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/819323.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【无标题】BTY-DNS推广机制及首次空投规则

BTY-DNS,致力于创建Web3领域中的去中心化身份(DID)。 BTY-DNS的.yuan域名自开放上线以来,获得广大用户的喜爱与勇跃注册,目前.yuan的域名注册量已近千个。BTY-DNS具有推广奖励机制,同时对于持有DNS的用户将…

vscode里安装Go插件和配置Go环境

vscode是一款跨平台、轻量级、插件多的开源IDE,在vscode不仅可以配置C/C、Python、R、Ruby等语言的环境,还可以配置Go语言的环境。这里介绍在vscode里安装Go语言的插件和配置Go语言环境,系统是Win10 64位。 1、下载Go安装包和配置GOROOT、GO…

《统计学》贾俊平 第八版 第6章 统计量及其抽样分布

这里写自定义目录标题 1、统计量的概念2、为什么要用统计量3、常用统计量4、由正态分布导出几个重要分布(1)抽样分布(3)t分布(4)F分布——两个样本方差比的抽样分布 5、样本均值分布与中心极限定理&#xf…

ALLEGRO之Analyze

本文主要讲述ALLEGRO的Analyze菜单。 (1)Initialize:暂不清楚; (2)Model Browser:暂不清楚; (3)Model Assignment:暂不清楚; &…

有哪些类似bootstrap的纯css框架?

前言 下面是一些类似bootstrap的css框架,以及其开源的仓库和网址附上,整理不易,希望多多点一下赞同收藏喜欢哈~ 1、Tailwind Star:70.5k Tailwind CSS 是一个实用的工具集,用于快速构建现代化的自定义用户界面。它提…

IDEA偶尔编译的时候不识别lombok

偶尔IDEA启动项目的时候会识别不到lombok,识别不到get()跟set()方法 方案 在settings添加下面代码 -Djps.track.ap.dependenciesfalse

SAP 委外副产品业务

SAP 委外副产品业务 1.订单bom设置数量为负 2.采购收货时,副产品O库存增加,545 O 借:原材料 贷:委外加工-发出材料 3.从O库存调拨回本地库存,542

数实融合 产业共创 | 竹云受邀出席“2023湾区数字科技50人论坛”

7月29日,“2023湾区数字科技50人论坛”在深圳湾科技生态园圆满举行!本届论坛由深圳市科学技术协会指导,中国鲲鹏产业源头创新中心、湾盟产业创新服务中心主办,深圳市金融攻关基地、广东赛迪工业和信息化研究院、香港科技大学深港协…

【Python】Python使用TK实现动态爱心效果

【Python】Python使用Tk实现动态爱心效果 画布使用了缓存机制,启动时绘制足够多的帧数,运行时一帧帧地取出来展示,明显更流畅,加快了程序执行速度。将控制跳动动画的函数从正弦函数换成了贝塞尔函数,贝塞尔函数更灵活…

vue中显示在页面顶部的进度条插件——NProgress

我们在一些网站中经常见到导航栏上方的进度条显示,大家仔细观察,其实csnd中也有类似的效果,如下图显示效果,我们现在就来一起看看这个功能需求是怎么实现的。 一、功能需求 首先,实现这个功能其实不难,说实…

独立成分分析ICA理论推导

Independent Component Analysis

刷题笔记 day3

力扣 11 盛水最多的容器 解法:使用对撞指针解题。 思路: 定义两个指针 left(指向数组首端)和 right(指向数组尾部),来计算其容积; 让对应数值较小的指针移动一步,再次…

发npm包

重点文件 .github -> workflow -> .yml文件 发自己的包 新建dev分支,合并到master后自动执行 fork别人的包 fork -> base dev新建本地rebase-dev分支 -> 提交push后合并至dev -> dev合并至master后自动执行 值得注意的是,fork别人的…

rsync 第一章

1.实验一 2.实验二

C++多态之——虚表地址所在内存空间的位置

众所周知,虚拟地址空间划分成了好几个部分,有堆区、栈区、常量区、静态区...... (500条消息) C/C代码内存分布图_程序分布图_橙予清的zzz~的博客-CSDN博客https://blog.csdn.net/weixin_69283129/article/details/126122989大家可以看这篇文章深入了解我…

食堂管理必备技巧,你学会了吗?

随着科技的不断进步和智能化的发展,各个领域都在积极探索如何将智能技术应用于实际生活中,学校食堂也不例外。 学校食堂作为学生日常生活的重要组成部分,其高效管理和优质服务对学生的学习和生活质量具有重要影响。为了满足学生和教职工对食堂…

docker容器的基本操作

一、查看Docker的版本信息 [roothuyang1 ~]# docker version 二、查看docker的详细信息 [roothuyang1 ~]# docker info 三、Docker镜像操作 Docker创建容器前需要本地存在对应的镜像,如果本地加载不到相关镜像,Docker默认就会尝试从镜像仓库https://hu…

3ds Max建模教程:模拟布料拖拽撕裂和用剑撕裂两种效果

推荐: NSDT场景编辑器 助你快速搭建可二次开发的3D应用场景 1. 拖拽撕布 步骤 1 打开 3ds Max。 打开 3ds Max 步骤 2 在透视视口中创建平面。保持其长度 后座和宽度后座为 100。 创建平面 步骤 3 转到助手>假人并在 飞机的两侧。 助手>假人 步骤 4 选…

SpringBoot复习:(10)SpringApplication中的initializer成员变量是怎么初始化的?

initializers成员变量定义如下: 在构造方法里通过setInitializers setInitializers的代码很简单: 其中的参数通过getSpringFactoriesInstances来获取的,该方法的代码如下: 其中调用的重载的方法代码如下: 它调用…

python-网络爬虫.BS4

BS4 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库, 它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方 式。 Beautiful Soup 4 官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ 帮助手册&…