人工智能 - 1

news2025/1/31 14:01:47

深度强化学习(Deep Reinforcement Learning)
图神经网络(Graph Neural Networks, GNNs)
Transformer    一种深度学习模型
大语言模型(Large Language Models, LLMs)


人工智能


    •    Marvin Minsky 将其定义为让机器完成通常需要人类智能才能完成的任务的科学

机器学习(Machine Learning, ML)


    •    AI 的一个子集,利用数据训练模型,使系统无需显式编程即可完成任务。

 常见方法:
    •    监督学习:数据有明确的输入和输出。
    •    无监督学习:数据没有明确标签,模型寻找数据的隐藏模式。
    •    强化学习:通过奖励和惩罚学习动作。

深度学习(Deep Learning, DL)


    •    机器学习的一个子集,利用多层神经网络处理复杂任务。
    •    特点:需要大量数据和算力,能够自动提取特征。


机器学习的分类


    1.    监督学习(Supervised Learning):
    •    输入和输出数据均已知,模型根据输入数据预测输出标签。
    •    例子:图像分类、回归分析。

    2.    无监督学习(Unsupervised Learning):
    •    输入数据已知,但没有明确的输出标签,模型需要从数据中发现模式。
    •    例子:聚类、降维。

    3.    强化学习(Reinforcement Learning):
    •    系统与环境交互,通过获得奖励最大化长期收益。
    •    例子:游戏 AI、机器人路径规划。

半监督学习 (Semi-Supervised Learning)


    •    数据集中包含标注数据和未标注数据的混合。
    •    标注数据用于指导学习,未标注数据提供额外信息(如数据分布)。
    •    特点:
    •    减少标注需求,结合监督和无监督学习的优点。

自监督学习 (Self-Supervised Learning)

  自监督是一种无监督学习的形式,数据为自身提供监督信号。
    •    从数据本身生成伪标签进行学习,无需人工标注。
    •    示例:让模型预测图片的旋转角度。

特点:
    •    用数据内在的关系生成学习目标。
    •    用于大规模无标签数据学习特征。

自监督学习案例 - 图像旋转

任务描述:
    •    输入:一组随机旋转的图片(如 0°、90°、180°、270°)。
    •    模型任务:预测图片的旋转角度。


强化学习

定义:
    •    强化学习 (Reinforcement Learning, RL) 是通过与环境交互学习的机器学习方法。
    •    学习目标:选择能最大化长期奖励的动作。

关键点:
    1.    学习方式:基于试错法的交互学习。
    2.    目标导向:所有学习围绕奖励信号进行。
    3.    映射问题:学会将环境状态映射到合适的动作。


监督学习的流程

定义:
    •    监督学习通过已标注数据训练模型,将输入映射到输出。

流程:
    1.    输入:特征数据(如图片)。
    2.    输出:目标值(如“猫”或“狗”)。
    3.    误差:模型预测与目标值的差异。
    4.    优化:通过迭代训练最小化误差。

示例任务:
    •    图像分类(猫/狗)。
    •    房价预测。


强化学习的流程

流程:
    1.    输入:环境状态。
    2.    输出:动作(由智能体选择)。
    3.    奖励信号:根据动作结果提供反馈(奖励/惩罚)。
    4.    目标:通过试错最大化累积奖励。

特点:
    •    训练信息不直接是目标值,而是奖励。
    •    适用于动态、交互式任务。

目标:
    •    最大化奖励,学习最优策略。

强化学习 (Reinforcement Learning, RL) 的关键特性

关键特性:
    1.    未明确告知动作:
    •    强化学习中的智能体(agent)需要自己探索,并未直接告知正确的行动。
    •    通过环境反馈学习如何选择合适的动作。


    2.    试错搜索 (Trial-and-Error Search):
    •    智能体尝试不同的动作并观察结果,通过试错法改进策略。


    3.    延迟奖励 (Delayed Reward):
    •    智能体可能需要牺牲短期利益以获得更大的长期收益。
    •    例如,棋局中的一步可能暂时失利,但对最终获胜至关重要。


    4.    探索与利用的平衡 (Explore and Exploit):
    •    探索:尝试新策略以发现潜在更优的解决方案。
    •    利用:利用现有知识采取已知最佳动作。


    5.    目标导向与不确定环境:
    •    强化学习处理智能体与动态、不确定环境的交互,设计目标明确。

监督学习:
    •    目标:学习条件概率  p_{\theta}(y|x) ,预测  y  给定输入  x 。
    •    应用:分类(如识别图像是否包含猫)、回归(如预测房价)。

无监督学习:
    •    目标:学习数据分布  p_{\theta}(x) 。
    •    应用:聚类、生成模型(如生成新图像)。

强化学习:
    •    目标:学习策略  \pi_{\theta}(a|s) ,即给定状态  s  时选择的动作  a 。
    •    应用:控制系统(如机器人运动控制)。


智能体 (Agent)


    •    在强化学习中,智能体是执行动作并从环境中学习的主体。
    •    智能体通过感知环境状态、采取动作来影响环境。

特性:
    1.    时间相关性:决策依赖于时间序列中的状态。
    2.    持续学习与规划:智能体根据经验调整策略。
    3.    目标:通过行动影响环境,达到预定目标。
    4.    环境不确定性:环境可能具有随机性,智能体需要应对。

循环过程:
    1.    智能体感知环境状态。
    2.    根据策略选择动作。
    3.    环境反馈新状态和奖励。


强化学习概述

 任务(Task):强化学习的目标是通过与环境交互,学习如何成功地达到某个目标

 特点

• 通过经验学习(Learn via experiences)。

• 不像监督学习那样有明确的标签,而是通过试错探索策略。

示例

游戏:玩家知道自己赢了还是输了,但不知道下一步该怎么走。

控制:例如交通系统能测量车流延迟,但不知道如何减少拥堵。

强化学习的应用案例

1. 空间探索(Optimal Control):控制卫星运行轨迹。

2. 机器人(Robotics):机器人学习翻转煎饼等操作。

3. 迷宫与路径规划(Maze & Sokoban Puzzle)

 通过强化学习训练智能体在复杂环境中找到最优路径。

4. Sokoban(仓库推箱子):经典的强化学习任务,智能体需要规划动作把箱子推到正确位置。

5. 群体智能(Multi-Agent Systems)

躲猫猫(Hide and Seek):智能体学习不同的策略,如追逐、筑墙、利用坡道等,模拟多智能体博弈。

以下是对您上传的三张图片中涉及知识点的总结和解释:

RL Problems Are Strategic

1. 内容概述:

强化学习(Reinforcement Learning, RL)能够实现战略层面的自动化。

 图片展示了现代商业的三个核心功能(业务函数):

策略(Strategy)

决策(Decision)

流程(Process)

• 不同功能的重要性(价值)和技术对应:

 流程自动化可以通过软件工程完成。

 决策自动化可以通过机器学习完成。

战略自动化可以通过强化学习完成。

• 价值金字塔表明:策略比决策和流程更高层次,同时对业务价值贡献更大。

2. 关键点:

业务功能的分层:策略 > 决策 > 流程。

自动化技术的应用:流程用软件工程,决策用机器学习,策略用强化学习。

 商业意义:频繁但耗时的操作适合软件化,而高价值的策略需要强化学习的介入。

Markov Decision Processes (MDPs)

1. 内容概述:

强化学习问题通常可以表示为马尔科夫决策过程(Markov Decision Process, MDP)。

MDP 的核心特性是“马尔科夫性”:

• 当前状态St 的未来状态St+1 仅取决于当前状态,不依赖于历史状态。

智能体基于当前状态采取行动,从环境中获得奖励并更新状态。

马尔科夫性:未来状态与过去状态条件独立,仅依赖当前状态。

交互循环:状态 - 动作 - 奖励之间的循环构成 MDP 的动态决策过程。

Defining MDPs

1. 内容概述:

 MDP 的正式定义包括以下组件:

 状态集(States, S):环境可能的状态集合。

 初始状态(Start state, 

 动作集(Actions, A):智能体可采取的动作集合。

 状态转移函数(Transitions, 或 :描述从一个状态到另一个状态的概率。

 奖励函数(Rewards, :每个状态转移的奖励值。

 折扣因子(Discount factor, :用于计算未来奖励的现值。

2. 关键概念:

 策略(Policy):在每个状态下的动作选择规则。

 回报(Utility/Return):累计的折扣奖励值。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2286940.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux_线程同步生产者消费者模型

同步的相关概念 同步:在保证数据安全的前提下,让线程能够按照某种特定的顺序访问临界资源,从而有效避免饥饿问题,叫做同步竞态条件:因为时序问题,而导致程序异常,我们称之为竞态条件。 同步的…

Github 2025-01-30 Go开源项目日报 Top10

根据Github Trendings的统计,今日(2025-01-30统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Go项目10Ollama: 本地大型语言模型设置与运行 创建周期:248 天开发语言:Go协议类型:MIT LicenseStar数量:42421 个Fork数量:2724 次关注人…

【Rust自学】17.2. 使用trait对象来存储不同值的类型

喜欢的话别忘了点赞、收藏加关注哦(加关注即可阅读全文),对接下来的教程有兴趣的可以关注专栏。谢谢喵!(・ω・) 17.2.1. 需求 这篇文章以一个例子来介绍如何在Rust中使用trait对象来存储不同值的类型。 …

VLLM性能调优

1. 抢占 显存不够的时候,某些request会被抢占。其KV cache被清除,腾退给其他request,下次调度到它,重新计算KV cache。 报这条消息,说明已被抢占: WARNING 05-09 00:49:33 scheduler.py:1057 Sequence gr…

Java线程认识和Object的一些方法

本文目标: 要对Java线程有整体了解,深入认识到里面的一些方法和Object对象方法的区别。认识到Java对象的ObjectMonitor,这有助于后面的Synchronized和锁的认识。利用Synchronized wait/notify 完成一道经典的多线程题目:实现ABC…

数据库管理-第287期 Oracle DB 23.7新特性一览(20250124)

数据库管理287期 2025-01-24 数据库管理-第287期 Oracle DB 23.7新特性一览(20250124)1 AI向量搜索:算术和聚合运算2 更改Compatible至23.6.0,以使用23.6或更高版本中的新AI向量搜索功能3 Cloud Developer包4 DBMS_DEVELOPER.GET_…

【MySQL】MySQL客户端连接用 localhost和127.0.0.1的区别

# systemctl status mysqld # ss -tan | grep 3306 # mysql -V localhost与127.0.0.1的区别是什么? 相信有人会说是本地IP,曾有人说,用127.0.0.1比localhost好,可以减少一次解析。 看来这个入门问题还有人不清楚,其实…

MySQL(高级特性篇) 14 章——MySQL事务日志

事务有4种特性:原子性、一致性、隔离性和持久性 事务的隔离性由锁机制实现事务的原子性、一致性和持久性由事务的redo日志和undo日志来保证(1)REDO LOG称为重做日志,用来保证事务的持久性(2)UNDO LOG称为回…

【Block总结】HWD,小波下采样,适用分类、分割、目标检测等任务|即插即用

论文信息 Haar wavelet downsampling (HWD) 是一项针对语义分割的创新模块,旨在通过减少特征图的空间分辨率来提高深度卷积神经网络(DCNNs)的性能。该论文的主要贡献在于提出了一种新的下采样方法,能够在下采样阶段有效地减少信息…

【解决方案】MuMu模拟器移植系统进度条卡住98%无法打开

之前在Vmware虚拟机里配置了mumu模拟器,现在想要移植到宿主机中 1、虚拟机中的MuMu模拟器12-1是目标系统,对应的目录如下 C:\Program Files\Netease\MuMu Player 12\vms\MuMuPlayer-12.0-1 2、Vmware-虚拟机-设置-选项,启用共享文件夹 3、复…

力扣面试150 快乐数 循环链表找环 链表抽象 哈希

Problem: 202. 快乐数 👩‍🏫 参考题解 Code public class Solution {public int squareSum(int n) {int sum 0;while(n > 0){int digit n % 10;sum digit * digit;n / 10;}return sum;}public boolean isHappy(int n) {int slow n, fast squa…

安卓(android)实现注册界面【Android移动开发基础案例教程(第2版)黑马程序员】

一、实验目的(如果代码有错漏,可查看源码) 1.掌握LinearLayout、RelativeLayout、FrameLayout等布局的综合使用。 2.掌握ImageView、TextView、EditText、CheckBox、Button、RadioGroup、RadioButton、ListView、RecyclerView等控件在项目中的…

SpringSecurity:There is no PasswordEncoder mapped for the id “null“

文章目录 一、情景说明二、分析三、解决 一、情景说明 在整合SpringSecurity功能的时候 我先是去实现认证功能 也就是,去数据库比对用户名和密码 相关的类: UserDetailsServiceImpl implements UserDetailsService 用于SpringSecurity查询数据库 Logi…

微服务入门(go)

微服务入门(go) 和单体服务对比:里面的服务仅仅用于某个特定的业务 一、领域驱动设计(DDD) 基本概念 领域和子域 领域:有范围的界限(边界) 子域:划分的小范围 核心域…

996引擎 - NPC-动态创建NPC

996引擎 - NPC-动态创建NPC 创建脚本服务端脚本客户端脚本添加自定义音效添加音效文件修改配置参考资料有个小问题,创建NPC时没有控制朝向的参数。所以。。。自己考虑怎么找补吧。 多重影分身 创建脚本 服务端脚本 Mir200\Envir\Market_Def\test\test001-3.lua -- NPC八门名…

基于MinIO的对象存储增删改查

MinIO是一个高性能的分布式对象存储服务。Python的minio库可操作MinIO,包括创建/列出存储桶、上传/下载/删除文件及列出文件。 查看帮助信息 minio.exe --help minio.exe server --help …

观察者模式和订阅发布模式的关系

有人把观察者模式等同于发布订阅模式,也有人认为这两种模式存在差异,本质上就是调度的方法不同。 发布订阅模式: 观察者模式: 相比较,发布订阅将发布者和观察者之间解耦。(发布订阅有调度中心处理)

(2025 年最新)MacOS Redis Desktop Manager中文版下载,附详细图文

MacOS Redis Desktop Manager中文版下载 大家好,今天给大家带来一款非常实用的 Redis 可视化工具——Redis Desktop Manager(简称 RDM)。相信很多开发者都用过 Redis 数据库,但如果你想要更高效、更方便地管理 Redis 数据&#x…

Baklib引领内容管理平台新时代优化创作流程与团队协作

内容概要 在迅速变化的数字化时代,内容管理平台已成为各种行业中不可或缺的工具。通过系统化的管理,用户能够有效地组织、存储和共享信息,从而提升工作效率和创意表达。Baklib作为一款新兴的内容管理平台,以其独特的优势和创新功…

Java实现.env文件读取敏感数据

文章目录 1.common-env-starter模块1.目录结构2.DotenvEnvironmentPostProcessor.java 在${xxx}解析之前执行,提前读取配置3.EnvProperties.java 这里的path只是为了代码提示4.EnvAutoConfiguration.java Env模块自动配置类5.spring.factories 自动配置和注册Enviro…