基于强化学习的多模态优化问题解空间聚类进化算法

news2025/1/25 4:33:37

Reinforcement-Learning-Based Evolutionary Algorithm Using Solution Space Clustering For Multimodal Optimization Problems
基于强化学习的多模态优化问题解空间聚类进化算法
摘要
在进化算法中,如何有效地选择用于生成后代的交互式解决方案是一个具有挑战性的问题。尽管提出了许多算子,但大多数算子随机选择交互式解(父解),对各种问题中的景观特征没有特殊性。
为了解决这一问题,本文提出了一种基于强化学习的进化算法,以在近似吸引池内选择解。
在该算法中,解空间由k维树划分,子空间的特征从两个方面进行近似:目标值和不确定性。
因此,构建了两个强化学习(RL)系统来确定搜索位置:基于目标的RL利用吸引盆地(聚集子空间),
而基于不确定性的RL探索搜索相对较少的子空间。在广泛使用的基准函数上进行了实验,证明该算法优于其他三种流行的多模态优化算法。

介绍
许多实际问题具有局部最优或多重全局最优,例如电磁设计、蛋白质结构设计和特拉斯结构优化[1],其中多个有前景的解决方案可以带来显著的好处。因此,优化器应该避免陷入局部优化,并找到更多的备选优化。这是一个具有挑战性的要求,特别是对于传统的数学优化算法。
analysis of the landscape
进化算法(EA),如遗传算法(GA)[2]、粒子群优化(PSO)[3]、差分进化(DE)[4]和蚁群优化(ACO)[5],使用基于种群的范式同时进行搜索。
群体中的所有解决方案都可以与其他解决方案交互,并使用不同的操作员生成新的解决方案,这些算子的选择。对算法的效率有影响。
例如,PSO中不同的速度更新方程将导致不同的优化结果,类似地,不同的变异算子(如rand/1、best/1和rand/2)将生成不同的新解。
然而,大多数算法随机选择交互式解决方案(父母),不考虑不同的问题。尽管一些算法针对不同的搜索策略合并了多个进化算子,但如何构造算子集以及如何自适应地选择算子成为新的挑战性问题。
从另一个角度来看,一些作品侧重于景观分析,然后解决方案可以根据其所在的景点盆地进行合作。????

EA中最常用的峰值检测方法是基于人群的聚类技术[6]-[8]。根据个体的适合度值和位置,总种群可以分为几个亚种群。在每个亚群中,个体可以被视为在同一个峰值进行搜索。但由于种群规模稳定,这些算法往往具有有限的数据,并且很难通过聚类方法保证峰值检测的精度。此外,由于个体的适应值和位置不断变化,聚类只能反映当前的人口分布,而不能反映问题景观的确切特征。
为了克服上述问题,本文引入了一种基于强化学习(RL)的进化算法,该算法采用了解空间聚类(RLEA-SSC)技术,其中所有生成的解都用于估计吸引盆地并指导父母的选择(交互式解)。这里的吸引池包含局部最优点周围的所有点,当使用贪婪的局部搜索时,这些点可以导致最优点。
In the algorithm, the k−dimensional tree (kd-tree) is applied to discretize the solution space, hence subspaces can serve as the units of clustering and they can be clustered via the RL-learned potential values to approximate the basin of attraction.
该算法采用k维树(kd-树)对解空间进行离散化,将子空间作为聚类的单位,通过rl学习势值对子空间进行聚类,逼近吸引池。
同时,为了跟踪更多的吸引盆地,分别构建了两个RL系统来开发和探索子空间。实验结果还证明了与其他最先进的多模态优化算法相比的竞争性能。
本文的其余部分组织如下:第二节描述了基于聚类的多模态优化算法和基于RL的EA的相关工作。第三节介绍了RLEA-SSC的详细信息,第四节给出了实验分析。最后,第五节总结了论文,第六节包括确认。

RELATED WORK 相关工作
对于一个算法来说,定位多个最优值是一个挑战。在现有的多模态优化算法中,提出了许多小生境方法来跟踪有希望的最优值。一些改进的DE算法基于拥挤比或距离构建邻域[9],以保持种群覆盖不同的峰值。一些PSO变体[10]定义拓扑以限制粒子之间的相互作用。然而,小生境技术对小生境参数敏感,基于邻域的算法总是随机选择拓扑。如果没有适当的参数设置,算法的性能将显著下降。如何设计一种覆盖所有潜在优化的有效方法仍然是一项具有挑战性的任务。在过去的十年中,一些算法试图在搜索过程中自动近似地形。
如上所述,大多数具有景观近似的算法都基于种群的聚类。该问题的景观模型是根据人口的当前分布及其个体的适应值建立的,因此用于描述问题特征的信息有限。此外,人口的分布是动态变化的,具有很大的随机性。这些复杂的情况对聚类的精度提出了更高的要求。

利用最近更好的聚类技术,提出了一种小生境协方差矩阵自适应进化策略(CMA-ES)[6],其中构建了个体的生成树,并将树切成簇,以便在不同的预测盆地中保持CMA-ES。在没有预定义参数的情况下,应用亲和力传播聚类来自动预测景观轮廓[7],其中聚类方法有助于定位多个峰值,而无需额外的适应度评估。在[11]中,将多模态优化问题转化为多目标优化问题,其中多个优化可以成为帕累托最优解,并且更容易同时定位。类似地,[12]中提出了多模态优化算法(EMO-MMO)的进化多目标优化。在EMO-MMO中,使用多目标优化算法来近似景观,并通过切割采样点的景观来检测潜在的峰值。

Previous algorithms tend to use the current population as clustering data or use many pre-samplings to model the landscape: the former mechanism is inclined to miss some valuable historical information and the latter one will require many fitness evaluations.
以往的算法倾向于使用当前种群作为聚类数据或使用大量的预采样来建模景观,前者容易遗漏一些有价值的历史信息,而后者则需要进行多次适应度评估。
幸运的是,在对问题进行建模时,可以应用许多机器学习算法。同时,EA参与了关于如何选择有前景的空间进行搜索的决策序列,RL可以是优化选择和逼近每个决策潜力的代表性方法。然而,当前关于RL在EA中的应用的大多数工作都集中在参数控制和算子选择上,而不是本文所关注的潜在空间的选取。
RL用于控制步长[13]和突变(重组)比率[14],其中子代的改善比率被设置为奖励,那么累积奖励(行动值)可以用作参数设置有多好的指标。与特定参数控制相比,通用参数控制器可以同步控制各种参数。使用定义的状态向量,包括表型和基因型的多样性、适应度值的均值和方差以及停滞计数器[15],用树动态划分状态空间,并使用时间差法更新动作值。因此,可以选择参数集。除了参数控制之外,RL还用于控制操作员的选择。作为四个变异和交叉算子的混合,在搜索过程中应用了三种RL更新算法来选择算子,提高了搜索效率[16]。遵循同样的想法,进化规划[17]选择了四个具有自适应比率的变异算子(高斯、列维、柯西和单点变异算子),这些算子根据行动值设置,并以后代的适应值作为奖励。
尽管RL系统被引入到EA的框架中,但RL组件的设计与问题有关,如何构建动作集也成为一个挑战。最重要的是,几乎所有的奖励都是根据其后代的健康值或提高的可能性来设置的,因此,行动的选择范围很快就会收敛到一个小范围。由于缺乏足够的探索,即使是有希望获得长期回报的行动也可能无法选择。
RLEA-SSC
在本节中,将详细介绍RLEA-SSC,包括RLEA-SC框架、RL组件、子空间聚类、动作选择以及与EA的集成。
在RLEA-SSC中,为了描述连续解空间,用k-d树划分空间。建立了两个RL系统,从两个角度近似子空间的搜索潜力:目标值和不确定性。因此,RL引导进化算子在具有相应档案的选定子空间中生成新的解。此外,子空间被聚类以近似吸引盆地,算法中的模块关系如图1所示。
在这里插入图片描述
RL前期工作
强化学习是学习在特定情况下应该做什么,以最大化数字奖励信号。状态用于反映当前的情况,并且该行为可以从外部获得奖励(在RL中称为环境)。对于学习者(在RL中称为代理)来说,目标是通过试错行为最大化累积奖励。RL的过程如图所示。2[18]。在时间t,代理采取行动At,环境将向代理返回奖励Rt。同时,代理的状态从St转换为St+1。最后,可以使用更新的策略重复该过程的其余部分。
在这里插入图片描述
在接下来的部分中,构建了两个RL框架:基于目标的RL和基于不确定性的RL。两者都有相同的状态定义,但动作集和奖励设置不同。其中一个RL系统用目标值评估子空间,并决定要搜索哪些聚类子空间;另一种方法评估每个子空间的搜索不确定性,并指导在搜索相对较少的子空间中进行搜索。
1) 状态定义:对于EA,最终目标是将个体收敛到具有最高适应值的点。当算法使用历史解作为父代来产生后代时,历史解的分布可以反映算法的搜索状态。在RLEA-SSC中,算法本身可以被视为代理,历史解的分布被定义为代理的状态。当解空间由k-d树[19]划分时,k-d树可以查询位置属于哪个子空间。此外,为了简化状态的复杂性,每个子空间都使用一个存档来存储特定的历史解。因此,存档可以反映子空间中的搜索历史。以二维解空间为例:搜索空间可以划分为M个矩形子空间,第i个子空间Subi将分配一个解档案Arci(稍后介绍)。时间t的状态可以表示为St=(Arc1(t),Arc2(t)…,ArcM(t))。
2) 行动定义:在哪里搜索是决定优化算法效率和准确性的决定性选择。解的目标值直接决定优化结果。考虑到这一点,设计了一种根据客观值反馈进行搜索的行动。然而,对于一个复杂的问题,基于客观反馈的估计可能并不精确,尤其是在缺乏足够的历史信息的情况下。因此,还设计了另一种基于搜索不确定性的动作。在RLEA-SSC中,这两种类型的操作选择子空间,其中相应的归档解决方案可以作为父级来生成新的解决方案。此外,基于目标的行动通过目标值更新行动值,而基于不确定性的行动通过不确定性更新行动值。
基于目标的行动去,选择集群。集群中的所有元素都是k-d树分区的子空间,其存档将合并为存档以生成新的解决方案。对于每个簇,它可以被识别为一个吸引盆地,其中子空间被近似为一个有希望的峰值区域。例如,如果五个子空间被聚类为:Go1=(Sub1,Sub2,Sub3),Go2=(Sub4,Sub5),并且基于目标的动作集Ao被表示为:Ao=(Go1,Go2)。类似地,基于不确定性的动作选择集群。稍有不同的是,将从集群中选择一个子空间,其存档将用于生成新的解决方案。基于不确定性的簇和动作集分别表示为Gu和Au。
3) 奖励设置:对于RL系统,累积奖励的最大化是代理的目标,奖励的设计将直接决定算法的搜索偏好。为了权衡在具有高目标价值的子空间中的开发与对有前景的吸引盆地的探索,RLEA-SSC结合了两种类型的奖励:基于目标的奖励和基于不确定性的奖励。当采取动作At时,生成属于子空间簇Gi的新解Sol。对于最大化优化问题,基于目标的奖励ROt计算如下等式(1):
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/376920.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《数据库系统概论》学习笔记——第二章 : 关系数据库

教材为数据库系统概论第五版(王珊) 这一章前面部分基本概念比较多,但学会对后面的学习有很大帮助。基本出题方向就是关于关系数据库的一些概念(比较多),然后计算题基本必考关系代数,一些基本的问…

UEditorPlus v2.9.0发布 文档仓库开源,修复若干问题

UEditor是由百度开发的所见即所得的开源富文本编辑器,基于MIT开源协议,该富文本编辑器帮助不少网站开发者解决富文本编辑器的难点。 UEditorPlus 是有 ModStart 团队基于 UEditor 二次开发的富文本编辑器,主要做了样式的定制,更符…

Hbase资源隔离操作指南

1.检查集群的环境配置 1.1 HBase版本号确认> 5.11.0 引入rsgroup的Patch: [HBASE-6721] RegionServer Group based Assignment - ASF JIRA RegionServer Group based Assignment 社区支持版本:2.0.0 引入rsgroup的CDH版本 5.11.0 https://www.…

高通平台开发系列讲解(Sensor篇)Gsensor基础知识

文章目录 一、什么是SENSOR?二、Sensor的分类及作用三、Gsensor的工作原理及介绍3.1、常见Gsensor3.2、Gsensor的特性沉淀、分享、成长,让自己和他人都能有所收获!😄 📢本篇文章将介绍 Sensor 基础 一、什么是SENSOR? 传感器(英文名称:sensor )是一种检测装置,能感…

【Windows】U盘用完不能直接拔的原因?

小时候刚开始学习使用电脑时,总是被告知,用完U盘之后,一定要在电脑上先安全弹出USB设备之后才能拔掉,那时候就一直不明白为什么要这么做,而且最气的是有时候点击了安全弹出,结果被告知“正在使用无法弹出”…

换了固态硬盘需要重装系统吗?教你如何实现不重装系统!

电脑大家都用过嘛,如果您的计算机装的还是机械硬盘,想必阁下肯定是修身养性的高手,因为在这个浮躁的社会中,是很少有人能够忍受5分钟甚至更久的开机时间的,不仅开机慢,应用程序的响应速度也很慢&#xff0c…

STM32开发(16)----CubeMX配置DMA

CubeMX配置DMA前言一、什么是DMA?二、实验过程1.CubeMX配置2.代码实现3.实验结果总结前言 本章介绍使用STM32CubeMX对DMA进行配置的方法,DMA的原理、概念和特点,配置各个步骤的功能,并通过串口DMA传输实验方式验证。 一、什么是…

华为OD机试题,用 Java 解【最短耗时】问题

最近更新的博客 华为OD机试题,用 Java 解【停车场车辆统计】问题华为OD机试题,用 Java 解【字符串变换最小字符串】问题华为OD机试题,用 Java 解【计算最大乘积】问题华为OD机试题,用 Java 解【DNA 序列】问题华为OD机试 - 组成最大数(Java) | 机试题算法思路 【2023】使…

关于IB学习,大学申请需要了解什么?

越来越多的孩子选择高中上IB课程,然而在IB学习中,会遇到很多问题,尤其是大学申请的问题,很多人还不是很了解。这里小编给大家整理了详细的解答。另外,还罗列了关于IB考试之后的相关问题,希望都能帮到学习IB…

pytorch入门6--数据分析(pandas)

pandas是基于Numpy构建的,提供了众多比NumPy更高级、更直观的数据处理功能,尤其是它的DataFrame数据结构,可以用处理数据库或电子表格的方式来处理分析数据。 使用Pandas前,需导入以下内容: import numpy as np from …

数据结构与算法之冒泡排序(含改进版)

目录冒泡排序概念代码实现时间复杂度代码改进冒泡排序概念 冒泡排序(Bubble Sort)是一种简单的排序算法。它重复地遍历要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。遍历数列的工作是重复地进行直到没有再…

产品新说 | 指标的异常检测怎么做,能更好配合业务变化(二)

前言:上期分享我们提到了指标异常检测实践要素中的三个方面:以面对业务变动为前提,确定业务波动是周期性还是非周期性,进而选对算法;通过确认业务的常规指标,确定异常方向进行监测(上基带 / 下基…

【夏虫语冰】Win10局域网下两台电脑无法ping通: 无法访问目标主机

文章目录1、简介2、修改高级共享设置3、启用防火墙规则4、局域网内的其他主机访问NAT模式下的虚拟机4.1 虚拟机网络设置4.2 访问测试4.2.1 http测试4.2.2 curl测试4.2.3 telnet测试4.2.4 端口占用测试5、其他结语1、简介 ping 192.168.31.134ping主机ip时,访问无法…

华为OD机试模拟题 用 C++ 实现 - 学校运动会(2023.Q1)

最近更新的博客 【华为OD机试模拟题】用 C++ 实现 - 最多获得的短信条数(2023.Q1)) 文章目录 最近更新的博客使用说明学校运动会题目输入输出示例一输入输出示例一输入输出Code使用说明 参加华为od机试,一定要注意不要完全背诵代码,需要理解之后模仿写出,通过率才会高…

Python--深入浅出的装饰器--2

前言如果上一章没怎么看懂,那么本章就放弃吧。好了,本章一起看看装饰器的另一种用法,带参数的装饰器。废话总结一下,经过前一章的学习,其实不难看出,装饰器的模板其实就是在此基础上,我们可以肆…

推荐几个实用的在线教程(建议收藏)

hello,大家好,我是木荣君。作为一名技术人员,工作中熟练使用各种管理及设计工具是一项必备的技能。今天给大家分享一下我工作中经常查看和学习的几个在线教程地址。供大家参考学习,建议收藏,真的很实用! Gi…

IEEE Fellow李海洲:远渡重洋,万里求索,“机器智能对话”是毕生所求

一直来到实叻坡,乜事无。上山来做工,伯公“多隆”保平安。——潮州过番歌 所谓“过番”,指早期潮州人外出务工,乘坐小船历经七天七夜到达东南亚谋生,“实叻坡”是马来语“Selat”的音译词,便是指“新加坡”…

djvu批量转换为pdf的工具和djvu阅读器(附下载链接)

简介 DjVuToy是一款美观易用、功能强大的DjVu处理工具,DjVuToy官方版功能包括图像文件转DjVu,支持PDG、BMP、GIF等格式。转换的同时可以进行OCR,生成双层DjVu。可以插入、删除、移动、旋转多页DjVu中的页面。还可以将多个DjVu文件合并成一个&…

《数据库系统概论》学习笔记——第一章:绪论

教材为数据库系统概论第五版(王珊) 第一章基本就纯概念了,考试基本就考简答题啥的。概念还是比较多,平时没事就看看记一下,重点看一些有比较的部分,比如文件管理和数据库的区别,各种数据模型之间…

阶段十:总结专题(第七章:分布式篇)

阶段十&#xff1a;总结专题&#xff08;第七章&#xff1a;分布式篇&#xff09;Day-第七章&#xff1a;分布式篇1. CAP 定理**CAP 定理****不一致的产生**<font color #FF0000>**保证一致性**<font>**保 CP 失 A****保 AP 失 C****一致性级别**2. Paxos 算法**Pa…