国科大《高级人工智能》沈老师部分——行为主义笔记

news2025/1/16 1:13:41

国科大《高级人工智能》沈老师部分——行为主义笔记

  • 沈华伟老师yyds,每次上他的课都有一种深入浅出的感觉,他能够把很难的东西讲的很简单,听完就是醍醐灌顶,理解起来特别清晰
  • 今年考试题目这部分跟往年基本一样,沈老师画的重点才是真的重点

文章目录

  • 一、蚁群优化算法
  • 二、粒子群算法
  • 三、多臂赌博机
  • 四、马尔科夫决策过程
  • 五、策略学习
  • 六、博弈
  • 七、GNN卷积网络
  • 八、因果分析
  • 考试回忆

一、蚁群优化算法

  • 思想:局部随机搜索+自增强
  • 基本原理:用蚂蚁的行走路径表示待优化问题的可行解,整个蚂蚁群体的所有路径构成待优化问题的解空间。
    蚂蚁依概率选择侯选位置移动,在经过的路径上留下信息素,信息素会随时间挥发,且信息素浓度大的路径更易被选取。 最终,整个蚂蚁会在正反馈的作用下集中到最佳的路径上,此时对应的便是待优化问题的最优解。
  • 算法过程:对m只蚂蚁随机放在n个城市,按照公式选择下一个城市的概率,此时公式正比于信息素浓度;
    所有蚂蚁周游完后,更新信息素(与路的长度、挥发速度相关);
  • 适用范围:一种离散的解空间搜索方法,适用于图中找最优路径

二、粒子群算法

  • 思想:随机优化

  • 基本原理:

    • 每个粒子对应于一个可行解,粒子通过位置和速度表示(速度:下一步移动的方向和距离,位置:求解问题的一个解)
    • 粒子根据对其他个体信息+位置的评价,更新自己的速度与位置;重复直到粒子群找到问题的最优解
  • 算法过程:

      1. 初始化粒子群:随机生成粒子的位置和速度;当前粒子最优位置 全局最优位置
      1. 循环直到满足条件
      • ①计算每个粒子的适应度函数
      • ②更新每个粒子历史最好适应度+相应位置,更新当前全局最好适应度+位置
      • ③更新粒子的速度和位置:速度 = 原速度倾向 + 回到历史最优位置的倾向 + 粒子群全局最优位置的倾向
        在这里插入图片描述
  • 适用范围:求解连续解空间的优化问题

三、多臂赌博机

  • 优化目标:摇固定次数的臂,获得期望累计奖励最大
  • 探索与优化关系:利用(即时奖励最大化) + 探索(长期奖励最大化)
  • 乐观初值法:为每个行为赋一个高的初始估值,初期每个行为都有较大机会被explore
  • UCB:选择潜力大的行为:依据估值的置信上界行为选择(当前估值高+不确定性高)

四、马尔科夫决策过程

  • 马尔科夫决策过程:采取行动a转变为下一状态后,获得奖励
  • 要素:状态、行为、模型
  • 奖励假设:最终目标能通过最大化累计奖励实现
  • 贝尔曼方程
    在这里插入图片描述
    • 格子世界问题(见后)

五、策略学习

动态规划:

  • 策略估值:策略=》估值
  • 策略提升:根据当前估值=>新策略
  • 策略迭代:从初始策略开始,迭代进行策略估值和策略提升,最终得到最优策略
  • 估值迭代:从初始状态估值开始,进行估值迭代,找到最优状态估,进而根据最优估值,贪心得到最优策略

动态规划、蒙特卡洛、时序差分联系和区别(图)

  • 动态规划:一层全展开
  • 蒙特卡洛:基于经验,一条线
  • 暴力搜索:全部展开
  • 时序差分:基于经验自举,只有一步的一条线

六、博弈

  • 博弈要素:局中人(策略制定者)、策略(可供局中人选择的行动方案)、效用函数(最大化自己的效用)
  • 零和博弈:效用函数玩家收益之和为0(剪刀石头布)
  • 最佳应对:针对其他人当前策略,自己当前策略优于自己其他策略
  • 纳什均衡:相对其他局中人的最佳应对(谁动谁吃亏)
  • 社会最优:和最优
  • 帕累托最优:至少一人最优
  • 囚徒困境:
    • 帕累托最优决策组合:(坦白,抗拒),(抗拒,坦白)和(抗拒,抗拒)
    • 纳什均衡策略组合:(坦白,坦白)不是帕累托最优
    • 社会最优策略组合:(抗拒,抗拒)
      在这里插入图片描述
  • 拍卖:
    • 首价:同时提交密封报价,选出价最高以出价购买;最优报价低于估价;人越多,报价越接近估价
      • 纳什均衡:每个竞拍者的报价低于其对商品的估价
    • 次价:同时提交密封报价,选出价最高以第二高出价购买
      • 纳什均衡:每个竞拍者会倾向于采用其对商品的估价进行报价
  • 讨价对象:双方对商品估值之差
  • maxmin、minmax策略:
    • Maxmin:最大化自己最坏情况下的利益
    • minmax:最小化对手最好情况下的利益
    • 零和博弈时收益对偶
  • 匹配市场:对于z: 7 5 2 - 5 2 0 = 2 3 0,3最大,选b
    在这里插入图片描述
  • 议价权
    • 稳定结局:未配对的边收益和>=1
      在这里插入图片描述
    • 纳什议价解:
      • 剩余价值:1-x-y
      • A收益=(1+x-y)/2
      • B收益=(1+y-x)/2
    • 均衡结局:任意配对边都满足
      在这里插入图片描述
    • 备选项:不与当前配对的话,能得到的最大收益

七、GNN卷积网络

  • spectral谱方法(数学方法)
    • 将图的拉普拉斯矩阵的特征向量作为基底,将样本投影到该空间后,进行卷积操作
    • 采用超参控制每次选择的相邻节点数量,对变化后的样本做 filter 和求加,再将输出结果进行拉普拉斯的逆变换,并输出非线性化后的结果
  • spatial空间方法(计算机方法)
    • 从CNN向GCN卷积的k迁移问题在于,需要确定一个固定的邻域,后续卷积的定序、参数共享步骤都可以在确定邻域后解决
  • 谱方法可以被定义为空间方法的一个子集
    • 相较于空间方法在原始空间定义聚合函数,谱方法在规范后实质上是对变换到新的空间中的样本进行卷积
    • 因此谱方法可以被看作是变换空间后的空间方法,其从属于空间方法这一类别。而谱方法将显式地写出了空间变换,空间方法直接将 kernel matrix 定义出来,未写明变换的空间

八、因果分析

d分离问题判断:
在这里插入图片描述

在这里插入图片描述

考试回忆

  • 选择题:
    • 人工智能三大分支
    • 图灵测试
    • 强化学习状态图选择蒙特卡洛方法
    • 囚徒困境帕累托最优
    • minmax和maxmin策略
    • 图神经网络
    • 最优匹配问题
    • 因果模型图判断d分离
  • 简答题:
    • 描述蚁群优化算法 or 粒子群优化算法(万年不变)
  • 应用题:
    • 格子游戏(万年不变)
      • 贝尔曼方程 + 策略提升 + 求解最优策略

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/156071.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

长城汽车2022年销量106万辆,20万以上车型占比15%

2023年,长城汽车预计将推出超10款新能源车型,发力新能源和智能化。1. 年度销量:超106万辆 根据长城最新发布的产销数据:•2022年,长城汽车全年销售1,067,523辆; •其中,海外市场累计销售173,180…

2022CTF培训(十二)IOT 相关 CVE 漏洞分析

附件下载链接 NETGEAR R7800(CVE-2020-11790) NETGEAR R7800 存在命令注入漏洞,下面以 V1.0.2.62 版本固件为例进行介绍。 固件仿真 漏洞存在于 uhttpd 中,由于该功能比较独立,可以直接用 qemu user mode 仿真。 /…

在 anaconda 中安装 tensorflow models (gpu)

环境:Windows; Intel CPU Nvidia GPU 1. 创建环境 不推荐单次安装过多的库,可能导致安装失败(如超出终端缓存等)注意添加库的顺序 tensorflow-gpu 需要在 cudatoolkit 之前否则下载的 tensorflow-gpu 不支持 gpu 「实测」 TODO…

设备注册挂载流程(包含上电、使能、i2c通讯介绍)

目录 简介 上电时序 电压不同 时序不同 使能与复位 CLK时钟 I2C通讯 主从关系 识别设备 通讯格式 简介 任何相对于主板芯片的外挂设备都需要一定的注册挂载流程 (外挂设备:比如摄像头、nfc芯片、显示屏等等) 设备的挂载则需要满足…

JAVAEE-多线程(4)

目录 定时器 实现自己的Timer 线程池 常见的锁策略: 乐观锁和悲观锁 读写锁和普通互斥锁 重量级锁和轻量锁 自旋锁和挂起等待锁 公平锁和非公平锁 可重入锁和不可重入锁 synchronized CAS CAS和ABA问题 锁粗化 JUC 原子类 Semaphore CountDownLatc…

CAN总线控制器MCP2515 替代芯片 DP2515 DP2515-I/ST

汽车K总线与CAN的区别是什么 1、功能不同   K线一般用于检测系统,属单线模式,与诊断仪器连接并相互传递数据。CAN线主要用于控制单元与控制单元之间传递数据、属双线模式,分高位线和地位线。   2、通讯速度不同   K线通讯速率较低&…

101.对称二叉树 | 递归 + 迭代

对称二叉树 leetcode : https://leetcode.cn/problems/symmetric-tree/ 参考 对称二叉树 递归思路 首先在开始时, 一定要注意, 对称二叉树对比的并不是一个节点的左右子树, 而是两棵树, 这个很关键! 对比时是内侧和内侧对比, 外侧和外侧对比, 递归三步 : 确定递归的参数以…

1.1.2 了解JAVA语言

文章目录1 JAVA语言发展史2 面向对象的概念3 跨平台性4 JDK1 JAVA语言发展史 JAVA是由詹姆斯•高斯林(James Gosling)所创建的,其1977年获得了加拿大卡尔加里大学计算机科学学士学位,1983年 获得了美国卡内基梅隆大学计算机科学博…

4)Mybatis数据源以及事务实现

1. Mybatis数据源分为两种,一种直接连接数据库,一种使用连接池连接数据库,具体代码实现在包目录下 org.apache.ibatis.datasource 数据源接口: javax.sql.DataSource 池化数据源: org.apache.ibatis.datasource.…

OpenGL集锦(1)-安装与概述

目录概述fedora下安装编写OpenGL应用程序测试hello,world概述 OpenGL(英语:Open Graphics Library,译名:开放图形库或者“开放式图形库”)是用于…

Lichee_RV学习系列--CoreMark-Pro移植

Lichee_RV学习系列文章目录 Lichee_RV学习系列—认识Lichee Rv Dock、环境搭建和编译第一个程序 Lichee_RV学习系列—移植dhrystone 文章目录Lichee_RV学习系列文章目录一、CoreMark-Pro简介二、获取源码三、编译coremark-pro1、配置coremark-pro2、编译coremark-pro四、开发板…

各种树的总结

1.B树和B树 数据库的大量数据用什么存储?为什么是B树和B树?使用二叉树不行吗?先来说说他们的演变吧,首先如果用二叉树的话都为排好序的树查询起来是不是效率不高?所以此时我们提出了对树排序,就变成了二叉…

联想拯救者屏幕亮度无法调节,监视器和显卡驱动问题,经过多种测试

主要的问题位置 1,设备管理器中的监视器部分 2,设备管理器的显卡适配器部分 个人电脑出现这种情况的原因 自己拆一下机器加装固态,但这种感觉不应该导致问题。但导致这种问题的原因可能是装固态时候把电池拔了。 一些网上常说的方法 更新…

数字化转型对企业有什么意义?有哪些案例可以分享?

如何看待制造企业数字化转型?制造业企业数字化转型有哪些思路和案例? 一提到制造企业数字化转型,大多数人都认为,这是专属于大型制造企业的行为。其实不然,对于中小型制造企业,数字化转型也应该从易到难&a…

interview

1.PyTorch1.1 Conv2d1.2 dataset,dataloader1.3 训练pipeline1.4 梯度归零1.5 torch保存模型种类及区别2.目标检测2.1 yolo3,4,5,7区别2.2 yolo使用的loss(ciou,BCE等等)ciouBCElossL1,L2,CE,BCE2.3 图像增强2.4 IOU计算公式3.深度学习基础3.1 卷积公式4.TensorRT5.…

Niantic:未来AR重要场景,VPS众包3D地图到底是啥?

几个世纪以来,人们使用指南针、地图、星盘和象限仪来找路,而在过去二十年里,GPS成为了主流的定位系统,并且与手机结合后,让人们的出行越来越方便。而随着摄像头等技术发展,我们也开始看到视觉定位技术的崛起…

(almalinux,rockylinux,openeuler,openanolis,centos,ubuntu)云原生容器镜像漏洞trivy扫描对比

一、下载并安装trivy漏洞扫描工具 下载: https://github.com/aquasecurity/trivy/releases/download/v0.31.3/trivy_0.31.3_Linux-64bit.rpm 以下为centos平台的安装: [rootlocalhost ~]# rpm -ivh trivy_0.31.3_Linux-64bit.rpm Preparing... …

【算法刷题 DAY03】剑指offer树相关算法题总结2

JZ7 重建二叉树 描述 给定节点数为 n 的二叉树的前序遍历和中序遍历结果,请重建出该二叉树并返回它的头结点。 例如输入前序遍历序列{1,2,4,7,3,5,6,8}和中序遍历序列{4,7,2,1,5,3,8,6},则重建出如下图所示。 提示: 1.vin.length pre.length 2.pre 和…

CSS入门二、美化页面元素

零、文章目录 文章地址 个人博客-CSDN地址:https://blog.csdn.net/liyou123456789个人博客-GiteePages:https://bluecusliyou.gitee.io/techlearn 代码仓库地址 Gitee:https://gitee.com/bluecusliyou/TechLearnGithub:https:…

【高速数字化仪应用案例系列】虹科数字化仪在光纤领域的应用

光纤应用 光纤越来越多地应用于各种领域。它们能够以光速长距离传输信息,并且损耗低,这使它们成为大容量远程数据通信的主要媒介。因此,光纤网络可以在电信系统中找到,它们用于传输和接收的目的。它们还用于提供各种数字服务&…