【博客之星】2024年度个人成长、强化学习算法领域总结

news2025/2/26 3:49:49

        📢在2025年初,非常荣幸能通过审核进入到《2024年度CSDN博客之星总评选》TOP300的年度评选中,排名40。这还是第一次来到这个阶段,作为一名博士研究生,还是备受鼓舞的。在这里我将以回顾的方式讲述一下这一年在CSDN中走过的路,也对这一年来在👉强化学习领域的相关算法和内容进行总结。

【博客之星】2024年度个人成长、强化学习算法领域总结

目录

一、2024这一年的回顾

1.发文数量

2.文章数据

3.博客数据

4.博客成就 

5.博客之星评选

二、2024年度强化学习算法总结

1.强化学习的核心改进

2.强化学习的跨领域应用

3.技术集成与生态系统

4.未来展望

5.总结

三、文末愿景


一、2024这一年的回顾

1.发文数量

        在这一年的创作中,共发布94篇文章,其中强化学习算法相关文章发布了65篇,将其分为了六个专栏,主要关注于单智能体强化学习算法多智能体强化学习算法。

        在强化学习文章的基础上,总结了强化学习相关算法,建立了GitCode算法库,希望在未来打造成最完备的强化学习算法库,也得到了GitCode官方的支持:

  •         单智能体强化学习算法库
  •         多智能体强化学习算法库

2.文章数据

        强化学习算法相关文章是这个系列的主要文章,得益于大家的支持,每篇文章基本都得到了2000+的阅读量、100+的点赞、评论、收藏。

        很多文章也进入了热榜,也十分有幸多次上了综合热榜、领域内容榜(结构与算法、人工智能),多次斩获第一No.1

3.博客数据

        截至目前为止,访问量突破了百万大关,博客总排名也进入了前1000名,获得了2W粉丝的支持,感谢这一年来大家的关照。

        文章的点赞达到了9420次,内容获得了10620次评论、10865次收藏、代码片获得了7732次分享。

4.博客成就 

        2024年是十分值得纪念的一年,在这一年中,通过对嵌入式领域、人工智能领域、通信领域的文章的发布,成为了人工智能领域优质创作者;随后时间,通过对强化学习算法系列文章的发布,以成为了 CSDN博客专家。之后扩展到了其他社区,也取得了一定成就,如成为了华为云享专家等。

        博客也多次成为了创作者周榜第一No.1,从长沙周榜第一转移到了上海市周榜第一。

5.博客之星评选

        今年也是很有幸成功入围2024年博客之星,创作影响力排名榜总分490(满分500),排名第40名。往年只是看着各位大佬互相发招,今年很荣幸获得这个机会,能够和各位大佬互相交流,让我受益匪浅。也希望在接下里的评选中能够得到大家的支持,感谢,感谢!!!

 


二、2024年度强化学习算法总结

        2024年,强化学习(Reinforcement Learning, RL)领域取得了显著的进展,其研究热点涵盖了理论创新、实际应用和技术集成。本文从强化学习的核心改进、跨领域应用以及未来趋势展望等方面,为您通俗解读这一年的重要成果。

1.强化学习的核心改进

  • 高效性与稳定性的新突破

    • 样本效率:通过结合模型学习(Model-based RL)和基于信任区域优化(TRPO、PPO)的改进,样本效率显著提高,尤其在少样本场景下的性能更为突出。
    • 探索机制优化:引入基于智能记忆的探索策略(如Memory Augmented Exploration),使得探索过程更加智能化,减少冗余。
    • 长期依赖建模:Transformer架构被广泛用于捕捉复杂任务中的长时依赖关系。
  • 离线强化学习的迅速发展

    离线RL(Offline RL)技术通过整合大规模的历史数据进行策略优化,突破了传统RL对实时环境交互的依赖。2024年,结合生成对抗网络(GAN)和自监督学习(Self-Supervised Learning)的离线RL算法在医疗、自动驾驶等领域大显身手。

  • 多智能体系统的强化学习

    多智能体RL(Multi-Agent RL)取得了新的突破,尤其是在多智能体协作与博弈的场景中。结合博弈论的平衡点算法(如Nash-DQN)和通信增强技术,使得智能体之间的协作更加高效。

2.强化学习的跨领域应用

  • 工业与工程优化

    • 强化学习被用于物流调度、供应链优化等实际问题,显著提高了资源利用率。特斯拉和亚马逊的物流机器人项目广泛采用基于RL的动态路径规划算法。
    • 制造业中,RL用于设备维护预测和流程优化,减少了非计划性停机时间。
  • 医疗与健康管理

    • 在医疗领域,RL被用于个性化治疗方案的推荐,例如癌症治疗中的动态剂量调整。
    • 基于RL的健康管理模型通过预测用户行为和健康风险,优化个性化的健康干预措施。
  • 游戏与内容生成

    • AlphaZero框架的改进被用于游戏AI开发,展现出超越人类的策略水平。
    • RL还被用于生成艺术内容和增强虚拟现实体验,为游戏和影视行业注入了新活力。

3.技术集成与生态系统

强化学习与大模型的融合

        2024年,强化学习与大规模语言模型(如GPT-4.5)的结合成为研究热点。这种融合实现了从语言到动作的无缝连接,为人机交互、机器人导航等场景带来更多可能。

        提出了新型RLHF(Reinforcement Learning with Human Feedback)技术,优化模型输出质量,同时增强用户体验。

强化学习与图神经网络的协同
        强化学习与图神经网络(GNN)的结合在大规模网络优化(如社交网络分析、通信网络优化)中表现突出。这种协同方式极大地扩展了RL的应用边界。

4.未来展望

  1. 更高的样本效率与鲁棒性
    未来的强化学习将继续聚焦于提高样本效率和策略的鲁棒性,探索如何在更复杂的环境中实现快速收敛。

  2. 伦理与安全性问题
    随着RL在实际应用中的广泛部署,其安全性和伦理问题日益凸显。未来需要更全面的约束机制和验证方法。

  3. 普及与工具化
    RL工具包的不断完善(如RLlib和TensorFlow Agents),让更多开发者能够快速上手,并将其应用于真实场景。

5.总结

        2024年,强化学习领域经历了理论与实践的双重飞跃,其在智能系统开发、生产优化和人类福祉提升方面发挥了重要作用。展望未来,随着技术的持续突破和生态的逐步完善,强化学习将为更多行业赋能,推动智能化社会的加速到来。


三、文末愿景

        在最后,作为一名耕耘在算法领域的研究生程序猿,我想用一个经典算法作为2024年的总结,它能够通过结合来时的路与展望终点的路,为我提供一个优质的前进路径。如果我能够规划好未来,或许未来的我能够走向一条次优路径,甚至是走向人生的最优路径。

"""
项目:A*算法代码

作者:不去幼儿园

时间:2025年1月19日

"""
import heapq
import numpy as np
import math
import matplotlib.pyplot as plt
plt.rcParams['font.family'] = 'SimHei'  # Windows系统常用中文字体

def heuristic_func(node, goal):
	# 将当前节点和目标节点组合为一个状态输入神经网络
	# value = np.linalg.norm(np.array(node) - np.array(goal))  # 欧式距离
	value = sum(map(lambda x, y: math.fabs(x - y), node, goal))  # 曼哈顿距离
	return value

def reconstruct_path(came_from, current):
	# 从目标节点倒推到起点,返回完整路径
	path = [current]
	while current in came_from:
		current = came_from[current]
		path.append(current)
	path.reverse()  # 翻转路径使其从起点到终点
	return path

def Astar(env, start, goal, function_flag=False):
	# 初始化开启列表,用优先队列存储待处理节点
	open_list = []
	open_list_ = []
	close_list = []
	close_list_ = []
	heapq.heappush(open_list, (0, start))  # 优先级为 f_score,节点为 start
	open_list_.append(start)
	came_from = {}  # 记录每个节点的上一个节点
	g_score = {start: 0}  # 记录从起点到当前节点的实际代价
	f_score = {start: heuristic_func(start, goal) + g_score[start]}  # 初始总代价
	transition_cost = 1  # 状态转移代价
	GAMA = 0.5
	step_num = 0
	while open_list:
		step_num += 1
		# 从优先队列中取出代价最低的节点
		current_tuple = heapq.heappop(open_list)
		current = current_tuple[1]
		open_list_.remove(current)
		close_list.append(current_tuple)
		close_list_.append(current)
		if current == goal:
			# 找到目标,重建路径并返回
			return reconstruct_path(came_from, current), step_num

		# 遍历当前节点的所有邻居
		for neighbor, cost in env.get_neighbors(current, transition_cost):
			tentative_g_score = g_score.get(current, float('inf')) + cost  # 计算临时的 g_score
			if neighbor in close_list_:
				continue
			if neighbor not in open_list_:
				# 如果从当前节点到邻居的路径更短,更新路径信息
				came_from[neighbor] = current
				g_score[neighbor] = tentative_g_score
				# 计算邻居的 f_score 并加入优先队列
				f_score[neighbor] = GAMA*tentative_g_score + (1-GAMA)*heuristic_func(neighbor, goal)
				# if (f_score[neighbor], neighbor) not in open_list:
				open_list_.append(neighbor)
				heapq.heappush(open_list, (f_score[neighbor], neighbor))
			else:
				if tentative_g_score < g_score.get(neighbor, float('inf')):
					# 如果从当前节点到邻居的路径更短,更新路径信息
					came_from[neighbor] = current
					g_score[neighbor] = tentative_g_score
					# 计算邻居的 f_score 并加入优先队列
					f_score[neighbor] = GAMA * tentative_g_score + (1 - GAMA) * heuristic_func(neighbor, goal)
					# if (f_score[neighbor], neighbor) not in open_list:
					open_list_.append(neighbor)
					heapq.heappush(open_list, (f_score[neighbor], neighbor))

	return None, step_num  # 没有找到路径

在这新的2025年中,也祝愿阅读这篇文章的你们都能找到属于自己人生的最优路径。

所愿皆所得,所念皆所愿,所期皆所念,所念皆星河。

人生之路幸福美满,不留遗憾。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2279521.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

GoLang教程004:流程控制和if语句介绍

文章目录 3、流程控制3.1 流程控制的作用3.2 控制语句的分类3.3 if分支3.3.1 单分支3.3.2 多分支3.3.3 双分支 3、流程控制 3.1 流程控制的作用 流程控制的作用&#xff1a;流程控制语句是用来控制程序中各语句执行顺序的语句&#xff0c;可以把语句组合成能完成一定功能的小…

【Web】2025-SUCTF个人wp

目录 SU_blog SU_photogallery SU_POP SU_blog 先是注册功能覆盖admin账号 以admin身份登录&#xff0c;拿到读文件的权限 ./article?filearticles/..././..././..././..././..././..././etc/passwd ./article?filearticles/..././..././..././..././..././..././proc/1…

uniApp开通uniPush1.0个推,SpringBoot集成uniPush1.0个推

uniApp开通unipush1.0个推&#xff0c;SpringBoot程序集成 一、APP开通unipush1.0个推(商户App源码仅支持1.0个推) 1.app模块配置开通推送 2.应用开通推送 3.开通后点击消息推送菜单会看到如下页面 完成以上步骤后 此时android 仅支持在线推送。 4.配置各厂商离线推送 暂未…

华为昇腾910B1基于 LoRA 的 Qwen2.5-7B-Instruct 模型微调

目录 系统环境虚拟环境微调模型yaml文件training_losstraining_eval_loss 系统环境 Ascend-hdk-910b-npu-driver_24.1.rc3_linux-aarch64.run Ascend-hdk-910b-npu-firmware_7.5.0.1.129.run Ascend-cann-toolkit_8.0.RC3.alpha003_linux-aarch64.run Ascend-cann-kernels-910…

窥探QCC518x/308x系列与手机之间的蓝牙HCI记录与分析 - 手机篇

今天要介绍给大家的是, 当我们在开发高通耳机时如果遇到与手机之间相容性问题, 通常会用Frontline或Ellisys的Bluetooth Analyzer来截取资料分析, 如果手边没有这样的仪器, 要如何窥探Bluetooth的HCI log.这次介绍的是手机篇. 这次跟QCC518x/QCC308x测试的手机是Samsung S23 U…

【GIS操作】使用ArcGIS Pro进行海图的地理配准(附:墨卡托投影对比解析)

文章目录 一、应用场景二、墨卡托投影1、知识点2、Arcgis中的坐标系选择 三、操作步骤1、数据转换2、数据加载3、栅格投影4、地理配准 一、应用场景 地理配准是数字化之前必须进行的一项工作。扫描得到的地图数据通常不包含空间参考信息&#xff0c;需要通过具有较高位置精度的…

【云岚到家】-day02-客户管理-认证授权

第二章 客户管理 1.认证模块 1.1 需求分析 1.基础概念 一般情况有用户交互的项目都有认证授权功能&#xff0c;首先我们要搞清楚两个概念&#xff1a;认证和授权 认证: 就是校验用户的身份是否合法&#xff0c;常见的认证方式有账号密码登录、手机验证码登录等 授权:则是该用…

VUE学习笔记(入门)5__vue指令v-html

v-html是用来解析字符串标签 示例 <!doctype html> <html lang"en"> <head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, initial-scale1.0" /><title>Document<…

二、华为交换机 Trunk

一、Trunk功能 Trunk口主要用于连接交换机与交换机&#xff08;或路由器&#xff09;&#xff0c;允许在一条物理链路上传输多个VLAN的数据。这大大增加了网络的灵活性和可扩展性&#xff0c;使得不同VLAN之间的通信变得更加便捷。 二、作用原理 标签处理&#xff1a;Trunk口能…

基于SSM的自助购药小程序设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导&#xff0c;欢迎高校老师/同行前辈交流合作✌。 技术范围&#xff1a;SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容&#xff1a;…

AI守护煤矿安全生产:基于视频智能的煤矿管理系统架构解析

前言 本文我将介绍我和我的团队自主研发设计的一款AI产品的成果展示——“基于视频AI识别技术的煤矿安全生产管理系统”。 这款产品是目前我在创业阶段和几位矿业大学的博士共同从架构设计、开发到交付的全过程中首次在博客频道发布, 我之前一直想写但没有机会来整理这套系统的…

SpringCloud -根据服务名获取服务运行实例并进行负载均衡

Nacos注册中心 每个服务启动之后都要向注册中心发送服务注册请求&#xff0c;注册中心可以和各个注册客户端自定义协议实现服务注册和发现。 pom.xml <dependency><groupId>com.alibaba.cloud</groupId><artifactId>spring-cloud-starter-alibaba-na…

LLM - 大模型 ScallingLaws 的 CLM 和 MLM 中不同系数(PLM) 教程(2)

欢迎关注我的CSDN&#xff1a;https://spike.blog.csdn.net/ 本文地址&#xff1a;https://spike.blog.csdn.net/article/details/145188660 免责声明&#xff1a;本文来源于个人知识与公开资料&#xff0c;仅用于学术交流&#xff0c;欢迎讨论&#xff0c;不支持转载。 Scalin…

Android CustomTextField

在 Compose 中开发用户界面时&#xff0c;需要处理输入框和键盘的交互&#xff0c;例如在键盘弹出时调整布局位置&#xff0c;避免遮挡重要内容。本篇博客将通过一个完整的示例展示如何实现这一功能。 功能概述 本例实现了一个简单的输入框。当输入框获得焦点或输入文字时&…

【韩顺平Java笔记】第8章:面向对象编程(中级部分)【338-342】

338. 零钱通消费 package com.masterspark.smallchange;import java.text.SimpleDateFormat; import java.util.Date; import java.util.Scanner;public class SmallChangeSys {public static void main(String[] args) {//1. 先完成显示菜单&#xff0c;并可以选择菜单&#…

Mac M1处理器uiautomatorviewer 使用

问题 Android自带工具uiautomatorviewer在mac电脑上运行报错 解决 有位大神解决了这个问题 项目网址&#xff1a;https://github.com/TarCV/uiautomatorviewer-gradle ./gradlew installDist JAVA_OPTS-XstartOnFirstThread ./build/install/uiautomatorviewer-gradle/bin…

【漫话机器学习系列】054.极值(Extrema)

极值&#xff08;Extrema&#xff09; 定义 极值是数学分析和优化问题中的一个核心概念&#xff0c;指函数在某个定义域内取得的最大值或最小值。根据极值的性质&#xff0c;可以将其分为两类&#xff1a; 局部极值&#xff08;Local Extrema&#xff09;&#xff1a;函数在…

QT开发技术 【基于TinyXml2的对类进行序列化和反序列化】一

一、对TinyXml2 进行封装 使用宏 实现序列化和反序列化 思路&#xff1a; 利用宏增加一个类函数&#xff0c;使用序列化器调用函数进行序列化 封装宏示例 #define XML_SERIALIZER_BEGIN(ClassName) \ public: \virtual void ToXml(XMLElement* parentElem, bool bSerialize …

代码随想录训练营第五十一天| 99.岛屿数量 深搜 岛屿数量 广搜 100.岛屿的最大面积

99.岛屿数量 深搜 题目链接&#xff1a;99. 岛屿数量 讲解链接&#xff1a;代码随想录 就是dfs模版题目 在dfs里可以先定义方向数组移动 再遍历分别向四个方向移动 同时记得更新当前nextx nexty 再判断是否越界 再执行判断条件 当前位置未走过 visited[i][j] false 一开始jav…

【HarmonyOS之旅】基于ArkTS开发(二) -> UI开发之常见布局

目录 1 -> 自适应布局 1.1 -> 线性布局 1.1.1 -> 线性布局的排列 1.1.2 -> 自适应拉伸 1.1.3 -> 自适应缩放 1.1.4 -> 定位能力 1.1.5 -> 自适应延伸 1.2 -> 层叠布局 1.2.1 -> 对齐方式 1.2.2 -> Z序控制 1.3 -> 弹性布局 1.3.1…