AI人工智能 强化学习

news2024/9/21 22:57:28

AI人工智能 强化学习基础

强化学习基础
这种类型的学习被用来加强或加强基于评论者信息的网络。 也就是说,在强化学习下训练的网络从环境中获得一些反馈。 但是,反馈是评价性的,并且不像监督式学习的情况那样具有启发性。 基于这种反馈,网络将对权重进行调整以获得更好的评论信息。

这个学习过程类似于监督学习,但我们可能拥有的信息非常少。 下图给出了强化学习的框图
在这里插入图片描述

AI人工智能 构建模块:环境和代理

环境和代理是人工智能强化学习的主要构件。

媒介代理

代理媒介是能够通过传感器感知其环境并通过效应器作用于该环境的任何事物。
人用媒介具有与传感器平行。诸如眼睛,耳朵,鼻子,舌头和皮肤之类的感觉器官以及用于效应器的诸如手,腿,嘴等其他器官。
机器人媒介取代了传感器的摄像头和红外测距仪,以及各种效应器的马达和执行器。
软件媒介已将位串编码为其程序和操作。

代理术语

以下术语在AI中的强化学习中更频繁地使用

代理的性能测量 - 这是决定代理成功程度的标准。
代理的行为 - 代理在任何给定的感知顺序之后执行的行为。
感知 - 它是特定实例中代理的感知输入。
感知序列 - 这是代理人迄今为止所了解的所有历史。
代理功能 - 它是从训示序列到动作的映射。

环境 某些程序在局限于键盘输入,数据库,计算机文件系统和屏幕上字符输出的完全人造环境中运行。

相比之下,一些软件代理(如软件机器人或软驱)存在于丰富且无限的软域中。 模拟器具有非常详细和复杂的环境。 软件代理需要实时从多种行为中进行选择。

例如,设计用于扫描顾客的在线偏好并向顾客展示有趣物品的软堆可在真实环境和人工环境中工作。

环境属性 如下所述,环境具有多重属性

离散/连续 - 如果环境的数量有限且截然不同,则环境是离散的,否则它是连续的。 例如,象棋是一个离散的环境,驾驶是一个连续的环境。
可观察/部分可观察 - 如果可以从知觉中确定每个时间点环境的完整状态,则可观察到; 否则它只是部分可观察的。
静态/动态 - 如果环境在代理正在执行时没有改变,那么它是静态的; 否则它是动态的。
单个代理/多个代理 - 环境可能包含其他代理,这些代理可能与代理的类型相同或不同。
可访问/不可访问 - 如果代理的传感设备可以访问完整的环境状态,则可以访问该代理的环境; 否则它是无法访问的。
确定性/非确定性 - 如果环境的下一个状态完全由当前状态和代理的行为决定,那么环境是确定性的; 否则它是非确定性的。
情节式/非情节式 - 在情节化环境中,每个情节由代理人感知并然后行动组成。 其行动的质量取决于情节本身。 随后的剧集不依赖于前几集中的动作。 情景环境要简单得多,因为代理人不需要提前思考。

在这里插入图片描述

AI人工智能 用Python构建环境

建设强化学习代理,将使用 OpenAI Gym 软件包,该软件包可使用以下命令来安装

pip install gym

OpenAI 健身房有各种各样的环境可以用于各种目的。 其中很少是:Cartpole-v0,Hopper-v1 和 MsPacman-v0。 他们需要不同的引擎。 OpenAI Gym 的详细文档可以在 这里 找到。

以下代码显示了 cartpole-v0 环境的 Python 代码示例

import gym
env = gym.make('CartPole-v0')
env.reset()
for _ in range(1000):
   env.render()
   env.step(env.action_space.sample())

AI人工智能 用Python构建一个学习代理

对于构建强化学习代理,我们将使用如下所示的 OpenAI Gym 包

import gym
env = gym.make('CartPole-v0')
for _ in range(20):
   observation = env.reset()
   for i in range(100):
      env.render()
      print(observation)
      action = env.action_space.sample()
      observation, reward, done, info = env.step(action)
      if done:
         print("Episode finished after {} timesteps".format(i+1))
         break

观察小推车可以平衡。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1994362.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python自动化水印处理:让你的图像版权保护更高效

在这个数字化时代,图像和照片已成为我们日常生活和工作中的重要组成部分。然而,随着互联网的普及,版权保护变得越来越具有挑战性。 在这个数字化时代,图像和照片已成为我们日常生活和工作中的重要组成部分。然而,随着…

在线音频剪辑免费工具哪个好用?推荐这6款新手必备的工具

在这个声音无处不在的时代,音频剪辑不仅是专业音乐人的专利,更是每个新媒体运营者不可或缺的利器。 无论是制作引人入胜的短视频背景音乐,还是编辑动人心弦的播客内容,一款强大的音频剪辑工具都能让你的作品如虎添翼。 今天&…

Linux系统之ls命令的基本使用

Linux系统之ls命令的基本使用 一、ls命令介绍二、ls命令的使用帮助2.1 命令格式2.2 命令选项2.3 使用帮助 三、ls命令的基本使用3.1 列出当前目录中的所有文件和目录3.2 列出指定目录中的所有文件和目录3.3 显示文件的详细信息3.4 列出所有文件和目录3.5 显示目录本身&#xff…

临床必备!常用的营养评估量表分享,附操作步骤与评分标准

常笑医学整理了3个临床常用的营养评估量表,支持下载和在线使用,供临床医护工作人员参考。 01 营养风险筛查评分简表 (完整量表请点击量表名称查看) NRS2002(Nutrition Risk Screening 2002, NRS2002)是欧洲…

嵌入式学习笔记十三——C语言指针变量、一维数组的指针、快速排序

指针变量 指针初始化 指针变量初始化:如果没有初始化,指针是随机值,既野指针。初始化可以让指针变量有明确的指向。 int a 10;int *p &a;//指针初始化int *p NULL; //NULL 0号地址 --- 空指针 指针赋值 int * p;p NULL;int a;i…

【机器学习西瓜书学习笔记——特征选择与稀疏学习】

机器学习西瓜书学习笔记【第十一章】 第十一章 特征选择与稀疏学习11.1子集搜索与评价特征特征选择为什么要特征选择如何进行特征选择子集搜索子集评价 11.2过滤式选择Relief适用场景如何确定相关统计量 11.3包裹式选择优缺点 11.4嵌入式选择与L1正则化L1/L2正则化L1正则化问题…

【微信小程序开发】——奶茶点餐小程序的制作(一)

👨‍💻个人主页:开发者-曼亿点 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 曼亿点 原创 👨‍💻 收录于专栏&#xff1a…

Nginx+Tomcat负载均衡、动静分离群集(群集)

实验主机:101 102 103 101:nginx 102:tomcat1 103:tomcat2 先配置两个tomcat服务器 拉进去所需的安装包; 同步会话开始搭建; 安装编译环境; 解压并移动到方便管理的地方; 然后在root的家目录下创建一个目录及测试…

Google安装JSON-handle扩展

JSON-hande下载地址: JSON-Handle 官网 - 打开json格式文件的浏览编辑器 1. 重命名扩展文件(crx)后缀 为 zip。 2. 解压zip成文件夹,保存到指定目录。 3. Google浏览器地址栏输入 “chrome://extensions/”回车。然后开启 开发者模式。 4. 点击“加载…

疯狂Java讲义_08_泛型

文章目录 泛型的传参若函数里的参数使用基类接受所有的派生类,怎么做? 类型通配符的上限类型通配符的下限 泛型的传参 注意 若类 Base 是类 Derived 的基类(父类),那么数组类型 Base[] 是 Derived[] 的基类&#xff0…

【编码解码神器】CyberChef v10.18.9

# 简介 CyberChef 是一个在线编码解码工具,包含了四百多种在线编解码工具,它提供了一种简单易用的方式来对数据进行各种加密、解密、编码和解码操作。你可以把它想象成一个多功能的”数字厨房”,在这里,你可以用各种”烹饪”方法…

无人机与自主系统

无人机(Unmanned Aerial Vehicle, UAV)和自主系统正在迅速改变许多行业,从农业到物流,再到军事领域。无人机作为一种能够自主或半自主飞行的飞行器,结合自主系统的技术,具备了更高的灵活性和执行复杂任务的…

牛羊肉巨头的数字化战略:凯宇星辉如何领先市场

凯宇星辉的创业成长史,给出了中国牛羊肉企业如何从散户走向集团化经营的路线图。 总部位于大连的凯宇星辉,在牛羊肉进口贸易领域白手起家,十余年时间,已形成以澳新、南美、北美等全球三大牛羊肉主产区为主渠道的全球直采网络布局…

【linux|001】Unix和Linux的关系 及 它们的发展历史

🍁博主简介: 🏅云计算领域优质创作者 🏅2022年CSDN新星计划python赛道第一名 🏅2022年CSDN原力计划优质作者 ​ 🏅阿里云ACE认证高级工程师 ​ 🏅阿里云开发者社区专家博主 💊交流社…

巴黎奥运会上,墨水屏标签能怎么玩?

截至8月7日,中国代表团在2024巴黎奥运会上已经斩获了22金21银16铜,合计59枚奖牌,位居奖牌第二。在为奥运健儿欢呼喝彩的同时,我们也注意到巴黎奥运会在环保方面的创新,并探讨如何应用墨水屏标签这一智慧显示技术&#…

[转]通俗易懂的LLM(上篇)

前言 2022年年底OpenAI发布ChatGPT,将LLM(Large Language Model)带向了一个新的高度,而2023年OpenAI继续放出大招:更强大的GPT-4问世,瞬间引爆了整个互联网圈。在这个大模型时代,作为一名NLPer&…

什么是oled?

LED 是有机发光二极管(Organic Light-Emitting Diode)的缩写,是一种先进的显示技术。与传统的液晶显示技术(LCD)不同,OLED 显示器不需要背光模块,因为每个像素本身可以发光。 OLED 的基本原理和…

文档控件DevExpress Office File API v24.1 - 支持基于Unix系统的打印

DevExpress Office File API是一个专为C#, VB.NET 和 ASP.NET等开发人员提供的非可视化.NET库。有了这个库,不用安装Microsoft Office,就可以完全自动处理Excel、Word等文档。开发人员使用一个非常易于操作的API就可以生成XLS, XLSx, DOC, DOCx, RTF, CS…

Java实战二 添加lombok使用@Data,编写第一个接口-用户注册并使用postman测试

添加lombok依赖 使用Data注解,省略写getter和setter 创建返回结果Result类 创建三层结构UserController类UserService接口UserServiceImpl实现类UserMapper接口 UserController编写注册接口register UserService定义方法 UserServiceImpl实现方法 UserMapper中编写s…

一款免费、简单、快速的JS打印插件,web 打印组件,基于JavaScript开发,支持数据分组,快速分页批量预览,打印,转pdf,移动端,PC端

前言 在数字化办公时代,打印需求呈现多样化和复杂化的趋势。现有的打印软件往往存在cao作繁琐、兼容性差、功能单一等问题,难以满足现代企业高效、灵活的打印需求。 为了解决这些痛点,一款简单、高效、多功能的打印插件成为了迫切需求。 介…