555555

news2025/1/17 13:49:53

在这里插入图片描述

欢迎关注博主 Mindtechnist 或加入【Linux C/C++/Python社区】一起探讨和分享Linux C/C++/Python/Shell编程、机器人技术、机器学习、机器视觉、嵌入式AI相关领域的知识和技术。


人工智能与机器学习

    • 📝人工智能相关概念
      • ☞什么是人工智能、机器学习、深度学习
      • ☞人工智能发展必备的三要素
      • ☞人工智能主要分支
    • 📝机器学习工作流程
      • ☞数据集
      • ☞数据基本处理
      • ☞特征工程
      • ☞机器学习
        • o 监督学习
        • o 无监督学习
        • o 半监督学习
        • o 强化学习
      • ☞模型评估
        • o 分类模型评估
        • o 回归模型评估
        • o拟合


专栏:《机器学习》



📝人工智能相关概念

☞什么是人工智能、机器学习、深度学习

人工智能这个概念诞生于1956年的达特茅斯会议,因此,1956年也是人工智能元年。在《Python深度学习》一书中,人工智能简洁定义为:努力将通常由人类完成的智力任务自动化。

  • 机器学习是人工智能的一个实现途径;
  • 深度学习是机器学习的一个方法发展而来;

三者的关系如下图所示:在这里插入图片描述
在早期计算机专家认为,只要可以在程序中写出足够多的明确规则来处理知识,就可以实现人工智能,这种方法被称为符号主义人工智能(symbolic AI)。
后来在图灵关于“计算机除了执行我们的命令外,能否自我学习执行特定任务的方法”这一问题之后,又引出了一种新的编程范式。在符号主义人工智能范式中,人们输入规则(程序)以及根据这些规则要处理的数据,系统输出问题的答案。而在机器学习中,人们输入的是数据和从这些数据中预期得到的答案,系统输出的是规则,这些规则可以应用于新的数据并由计算机自动生成答案。这就是机器学习(machine learning),机器学习系统是训练出来的,而不是直接通过程序明确写出来的,所以,机器学习与数理统计密切相关。
深度学习(deep learning)是机器学习的一个分支领域,深度学习强调从连续的层中进行学习,所谓深度是指一系列连续的表示层,数据模型包含的层数称为模型的深度,这些表示层都是通过数据训练自动学习的,通常它们是由神经网络(neural network)模型中学习得到的。我们可以这么理解,深度学习网络中的每一层都像一个过滤器,原始信息经过每一层的过滤器后纯度越来越高。神经网络中每层对输入数据所做的操作保存在当前层的权重(也称为该层的参数)中,权重的本质是一串数字,每一层实现的变换都由权重来参数化。于是,学习的意思就是指为神经网络的所有层找到一组权重值,使得神经网络能够将每个示例输入与其目标一一对应。神经网络的输出值与预期值之间的差距,由损失函数(也叫目标函数)来评价,损失函数的输入为预测值与真实目标值,然后计算出一个距离值,以此来衡量网络在这个示例上的效果好坏。深度学习则是利用这个距离值作为反馈信号来对权重值进行微调,以降低当前示例的损失值。微调的任务由优化器完成,该过程实现了反向传播算法。一开始给神经网络的权重赋予随机值,随着网络处理的示例越来越多,权重值向着正确方向一步步的调整,损失值也将逐渐降低,这个过程就是循环训练的过程。重复这个循环过程来得到使损失函数最小的权重值,而具有最小损失的网络,其输出和目标值尽可能地接近,这就是训练好的网络。(参考《Python深度学习》一书)
在这里插入图片描述

☞人工智能发展必备的三要素

  • 数据
  • 算法
  • 计算力
    • CPU:中央处理器
    • GPU:图形处理器
    • TPU:谷歌张量处理器
    • NPU:神经网络处理器

我们一般用到的是CPU和GPU,二者的区别在于:

  • CPU主要适合I\O密集型的任务
  • GPU主要适合计算密集型任务

对于CPU和GPU并没有谁好谁坏之分,它们的应用场景不同,如果你需要进行大量的计算一般使用GPU,GPU就是为计算而生的;如果你需要频繁的进行IO操作,比如频繁读写文件等等,就需要使用CPU,使用GPU反而不好。
适合在GPU上运行的程序一般具有如下特征:

  • 计算密集型的程序。
    所谓计算密集型(Compute-intensive)的程序,就是其大部分运行时间花在了寄存器运算上,寄存器的速度和处理器的速度相当,从寄存器读写数据几乎没有延时。可以做一下对比,读内存的延迟大概是几百个时钟周期;读硬盘的速度就不说了,即便是SSD, 也实在是太慢了。
  • 易于并行的程序。
    GPU其实是一种SIMD(Single Instruction Multiple Data)架构, 他有成百上千个核,每一个核在同一时间最好能做同样的事情。

☞人工智能主要分支

人工智能的主要技术领域分为计算机视觉CV、自然语言处理NLP(包含文本挖掘/分类、机器翻译和语音识别)、机器人三大领域。

  • 计算机视觉
    计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。物体检测和人脸识别是其比较成功的研究领域。
  • 语音识别
    语音识别是指识别语音(说出的语言)并将其转换成对应文本的技术,文本转语音/TTS也是这一领域内一个类似的研究主题。语音识别现在已经应用很久了,但是类似于鸡尾酒效应、声纹识别等问题还亟待解决。
  • 文本挖掘/分类
    这里的文本挖掘主要是指文本分类,该技术可用于理解、组织和分类结构化或非结构化文本文档。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。
  • 机器翻译
    机器翻译(MT)是利用机器自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)。
  • 机器人
    机器人学(Robotics)研究的是机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理。机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。

📝机器学习工作流程

我们已经知道,机器学习就是从数据中自动分析模型,并利用模型对位置数据进行预测。
机器学习工作流程总结

  1. 获取数据。
  2. 数据基本处理。
  3. 特征工程。
  4. 机器学习(模型训练)。
  5. 模型评估,达到要求则上线服务,否则重复上面的过程。

☞数据集

在这里插入图片描述
在这里插入图片描述
在数据集中:

  • 一行数据我们称为一个样本。比如在电影图表中,序号1-9,每一行都是一个样本。
  • 一列数据我们成为一个特征。比如在电影图表中,搞笑镜头/拥抱镜头/打斗镜头,每一列都是一个特征。
  • 有些数据有目标值(标签值),有些数据没有目标值。比如在电影图表中,电影类型就是这个数据集的目标值,而在下面的人物图表中就没有目标值。

数据类型构成:

  • 特征值+目标值(目标值是连续的和离散的)。比如上面的电影图标,在电影图表中,目标值即电影类型有喜剧、动作、爱情,每个类型都是一个离散的点,此时称目标值是离散的;如果目标值是房价,房价的数值可以是连续的,从1万-10万每平方米,这就称目标值是连续的。
  • 只有特征值,没有目标值。比如上面的人物图表。

数据分割:

  • 机器学习一般的数据集会划分为两个部分:
    • 训练数据:用于训练,构建模型。
    • 测试数据:在模型检验时使用,用于评估模型是否有效。
  • 常用的划分比例:
    • 训练集:70% 80% 75%
    • 测试集:30% 20% 25%

☞数据基本处理

处理数据集中的缺失值和异常值。

☞特征工程

特征工程(Feature Engineering)是指使用专业背景知识和技巧去处理数据,使得特征能够在机器学习算法上发挥更好的作用,特征工程直接影响着机器学习的效果。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
特征工程主要包含三个内容:

  • 特征提取
    将数据(比如文本或图像)转换成可用于机器学习的数字特征(比如二进制数据)。
  • 特征预处理
    通过一系列函数变换,将特征数据转换成更适合算法模型的特征数据的过程。
  • 特征降维
    在某些特定条件下,降低随机变量(特征)的个数,得到一组不相关主变量的过程。比如将三维立体的地球转换为二维的地图。

☞机器学习

根据数据集的组成,可以把机器学习算法分为监督学习、无监督学习、半监督学习和强化学习几类。

o 监督学习

监督学习是指输入数据是由输入特征值和目标值所组成的,在监督学习中,根据函数的输出不同可以分为两类:

  • 函数输出连续的值,称为回归;
  • 函数输出有限个离散值,称为分类;

回归问题
比如说房价预测,我们根据数据样本集可以拟合出一条连续曲线,这就是回归问题
在这里插入图片描述
分类问题
比如说我们判断一个形状是矩形还是圆形
在这里插入图片描述
监督学习的方法及特点
在这里插入图片描述

o 无监督学习

无监督学习是指,输入数据是由输入特征值组成,没有目标值。输入数据没有被标记,也没有确定的结果,样本数据类别未知,需要根据样本间的相似性对样本集进行类别划分。比如下图对人物进行分类。
在这里插入图片描述
无监督学习方法及特点
在这里插入图片描述
监督学习和无监督学习对比如下
在这里插入图片描述

o 半监督学习

半监督学习是指,训练集同时包含有样本数据和未标记样本数据。

o 强化学习

强化学习是指智能系统在与环境的连续交互中学习最佳行为策略的机器学习问题。强化学习主要包含五个元素:agent, action, reward, environment, observation。强化学习的目标就是获得累计最多的奖励。
在这里插入图片描述

☞模型评估

模型评估是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。按照数据集的目标值不同,可以把模型评估分为分类模型评估和回归模型评估。

o 分类模型评估

比如前面判断图形是圆形还是矩形(离散的)
在这里插入图片描述
其评价指标包括:准确率、精确率、召回率、F1-score、AUC指标等。

o 回归模型评估

比如前面的房价预测(连续的)
在这里插入图片描述
评价指标包括:均方根误差(Root Mean Squared Error,RMSE)、相对平方误差(Relative Squared Error,RSE)、平均绝对误差(Mean Absolute Error,MAE)、相对绝对误差(Relative Absolute Error,RAE)

o拟合

模型评估是用来评价训练好的模型的表现效果的,从表现效果来看,大致可以分为两类:过拟合和欠拟合。

  • 欠拟合(under-fitting):模型学习太过粗糙,连训练集中的样本数据特征关系都没有学出来。比如说,识别猫科动物,机器学习学到的特征包括四条腿、会撒娇,实际上狗也有四条腿,也会撒娇,这就导致机器可能把狗也误认为猫科动物。
  • 过拟合(over-fitting):所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在测试数据集中表现不佳。比如说,机器学习时使用的都是黄色的老虎、橘猫、黄色的狮子,这时候机器学习到的特征就包含了一个颜色特征:黄色。但是白色的老虎或者黑猫可能被机器识别为非猫科动物。

在这里插入图片描述
在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1658866.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【二次元MMORPG游戏开发】任务系统技术拆解

引言 各位同学大家好。在今天的分享当中,我将对任务系统去做一个拆解。也许你见过很多任务系统,但是今天我要分享的是我们经过一个框架迭代以后的任务系统。我会结合客户端的功能演示给大家去讲解。 跟着演示学开发 基本操作 好,首先我们点…

STM32 ADC学习

ADC Analog-to-Digital Converter,即模拟/数字转换器 常见ADC类型 分辨率和采样速度相互矛盾,分辨率越高,采样速率越低。 ADC的特性参数 分辨率:表示ADC能辨别的最小模拟量,用二进制位数表示,比如8,10…

clickhouse学习笔记06

ClickHouse的建表和引擎选择思路讲解 ClickHouse的常见注意事项和异常问题排查 ClickHouse高性能查询原因剖析-稀疏索引 ClickHouse高性能写入剖析-LSM-Tree存储结构

【每日力扣】98. 验证二叉搜索树 与 108. 将有序数组转换为二叉搜索树

🔥 个人主页: 黑洞晓威 😀你不必等到非常厉害,才敢开始,你需要开始,才会变的非常厉害 98. 验证二叉搜索树 给你一个二叉树的根节点 root ,判断其是否是一个有效的二叉搜索树。 有效 二叉搜索树定义如下&a…

Centos7使用kubeadm搭建k8s集群(一主两从)----(mac版)

一、环境准备 1、下载centos7镜像 阿里巴巴开源镜像站-OPSX镜像站-阿里云开发者社区 下载地址: centos安装包下载_开源镜像站-阿里云 选择对应的版本即可,我下载的:CentOS-7-x86_64-DVD-2207-02.iso 2、使用VirtualBox安装centos 选择新建&#xff0c…

【读论文】Gaussian Grouping: Segment and Edit Anything in 3D Scenes

Gaussian Grouping: Segment and Edit Anything in 3D Scenes 文章目录 Gaussian Grouping: Segment and Edit Anything in 3D Scenes1. What2. Why3. How3.1 Anything Mask Input and Consistency3.2 3D Gaussian Rendering and Grouping3.3 Downstream: Local Gaussian Editi…

用手势掌控PPT,玩转演示新姿势

推荐运行环境 使用anaconda创建环境,以免污染原来的python开发环境conda install python3.9pip install -q mediapipe0.10.0pip install pyautoguiPython: version 3.8 - 3.11PIP: version 20.3 请注意以下的坑 以下为我测试过程中的大坑,请及时避开&am…

【嵌入式开发实验】外部中断 按键 LED灯;定时中断;检测直流电机的转速 液晶屏显示;(附实验代码+注释+实验简析)| 附:步进电机/循迹小车相关

“永远不要停止思考,永远不认输。” 🎯作者主页: 追光者♂🔥 🌸个人简介: 💖[1] 计算机专业硕士研究生💖 🌿[2] 2023年城市之星领跑者TOP1(哈尔滨)🌿 🌟[3] 2022年度博客之星人工智能领域TOP4🌟 🏅[4] 阿里云社区特邀专家博主🏅 �

4. Python的深拷贝、浅拷贝

文章目录 0、先说结论1、浅拷贝修改元素值2、深拷贝修改元素值学习链接 0、先说结论 无论深拷贝还是浅拷贝都会为新对象分配一块新的内存,因此新老对象id不相同。 对于浅拷贝,新老对象内部的可变and不可变元素id都是相同的(在没修改元素值之前)。 对于深…

【限时免费,手慢无】Unity 怪物资源包,MONSTER 动作超丰富,不领后悔!

Unity 怪物资源包,MONSTER 动作超丰富 前言资源包内容领取兑换码 前言 👾 突破想象!惊艳众人的怪物模型登场 👾 今天要向大家介绍一款令人瞩目的游戏怪物模型!这个看似丑陋的小怪物,却有着巨大的潜力&…

JavaWeb之过滤器(Filter)与监听器(Listener)

前言 过滤器(Filter) 1.什么是过滤器 2.过滤器的语法格式 3.使用场景 3.1.如何防止用户未登录就执行后续操作 3.2.设置编码方式--统一设置编码 3.3.加密解密(密码的加密和解密) 3.4.非法文字筛选 3.5.下载资源的限制 监听器(Listener) 1.什么是监听器 2.监听器分类…

目标检测——色素性皮肤病变数据集

引言 亲爱的读者们,您是否在寻找某个特定的数据集,用于研究或项目实践?欢迎您在评论区留言,或者通过公众号私信告诉我,您想要的数据集的类型主题。小编会竭尽全力为您寻找,并在找到后第一时间与您分享。 …

如何理解VMware中的网络模式(NAT、桥接、仅主机)

目录 Ⅰ.NAT模式 Ⅱ.仅主机模式 Ⅲ.桥接模式 Ⅰ.NAT模式 NAT模式:将物理机的网卡作为虚拟交换机的上线链路,将vmware的私有网络转成可以上网的地址进行网络访问,因此在NAT模式下虚拟机是可以访问外部网络的(图一) …

电路板维修【一】

最近喜欢上了电路板维修,经常看很多博主的维修视频,觉得还是颇有收获的(维修板子原来有方法可循),于是做笔记如下: 一.【修了半天也没找到问题,原来是检查方向错了,变频油烟机板维修…

基于SSM的“医院院内物资管理系统”的设计与实现(源码+数据库+文档+PPT)

基于SSM的“医院院内物资管理系统”的设计与实现(源码数据库文档PPT) 开发语言:Java 数据库:MySQL 技术:SSM 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 功能模块图 系统登录页面 用户管理功能模块 模板列表管…

CSS---复合选择器、元素显示模式和背景(三)

一、CSS的复合选择器 1.1 什么是复合选择器 在CSS中,可以根据选择器的类型把选择器分为基础选择器和复合选择器,复合选择器是建立在基础选择器之上,对基本选择器进行组合形成的。 复合选择器是由两个或多个基础选择器连写组成,它…

监控异地组网怎么组网?

监控异地组网是指在不同地域的网络环境下,实现对监控设备的远程访问和管理。在传统的网络环境下,由于网络限制和设备配置等问题,监控设备的远程访问往往受到一定的限制和困扰。为了解决这个问题,引入了天联组网技术,实…

LLM大语言模型(十五):LangChain的Agent中使用自定义的ChatGLM,且底层调用的是remote的ChatGLM3-6B的HTTP服务

背景 本文搭建了一个完整的LangChain的Agent,调用本地启动的ChatGLM3-6B的HTTP server。 为后续的RAG做好了准备。 增加服务端role:observation ChatGLM3的官方demo:openai_api_demo目录 api_server.py文件 class ChatMessage(BaseModel…

英语学习笔记9——How are you today?

How are you today? 你好吗? 词汇 Vocabulary well adj. 好的 n. 井 fine adj. 美好的 两个方面:天气、身体。 搭配:a fine day 晴朗的一天    It’s a fine day today. 今天很晴朗。 good adj. 好的 口语偏多 搭配:Good jo…

【Python技术】使用akshare、pandas高效复盘每日涨停板行业分析

作为一个程序员宝爸,每天的时间很宝贵,工作之余除了辅导孩子作业,就是补充睡眠。 怎么快速高效的进行当天A股涨停板的复盘,便于第二天的跟踪。这里简单写个示例, 获取当天连涨数排序,以及所属行业排序。 …