0.机器学习基础

news2025/4/15 13:28:54

0.人工智能概述:

(1)必备三要素:

  • 数据
  • 算法
  • 计算力
    • CPU、GPU、TPU
    • GPU和CPU对比:
      • GPU主要适合计算密集型任务;
      • CPU主要适合I/O密集型任务;

【笔试问题】什么类型程序适合在GPU上运行?——面试题<1>

(2)人工智能、机器学习、深度学习区别?

  • 机器学习是人工智能的一个实现阶段;
  • 深度学习是机器学习的一个方法发展而来(神经网络);

(3)起源:

  • 图灵测试:
    • 机器与人隔开情况下,人提问机器回答测试5min,测试完成后让人回答:在你对面的是人还是机器?若30%的人无法判断,这个机器就通过了测试。该测试提出者:艾伦.麦席森.图灵。
  • 达特茅斯会议:
    • 1956年8月,提出机器模仿人类学习,无实质东西,会议长达2个月,1956年是人工智能元年。

(4)发展经历:

  • 起步
  • 反思
  • 应用
  • 低迷
  • 稳步
  • 蓬勃

(5)分支:

  • 计算机视觉(CV)

指机器感知环境能力,这一技术类别中经典任务有图像形成、图像处理、图像提取和图像的三位推理。物体检测和人脸识别是其比较成功的研究领域。

  • 自然语言处理(NLP)
    • 覆盖文本挖掘/分类、机器翻译和语音识别。

语言识别:指识别语言(说出语言)并将其转换成文本的技术。仍面临声纹识别和[鸡尾酒会效应]等一些特殊情况的难题。语言识别验证依赖于云平台,离线处理可能无法取得利息的工作原理。

文本挖掘和分类:对文字进行情绪分析、对里面垃圾信息检测。面临:可能出现歧义。

机器翻译:将A语言翻译B语言。面临:方言、行话表现不好。

  • 机器人

固定机器人:工业应用;

移动机器人:工业和家庭应用。

一.机器学习介绍

1.步骤:

  • 获取数据
  • 数据基本处理(科学计算库)
    • Matplotlib
    • Pandas
    • Numpy
    • Seaborn
  • 特征工程
  • 机器学习算法
  • 模型评估与调优

2.概述:

(1)定义:

机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测

(2)工作流程:

机器学习工作流程总结:

  • 获取数据
  • 数据基本处理
  • 特征工程
  • 机器学习(模型训练)
  • 模型评估
    • 结果达到要求,上线任务
    • 没有达到要求,重新上面步骤

3.工作流程详述:

(1)获取数据:

  • 在数据集中一般:
    • 一行数据是一个样本;
    • 一列数据是一个特征;
    • 有些数据有目标值(标签值),有些数据没有目标值(如上表中,电影类型就是这个数据集中的目标值)
  • 数据类型构成:
    • 数据类型一:特征值+目标值(目标值是连续的和离散的)
    • 数据类型二:只有特征值,没有目标值(典型算法:聚类算法)。
  • 数据分割:
    • 机器学习一般数据集划分为两个部分:
      • 训练数据:用于训练,构建模型;
      • 测试数据:在模型检验时使用,用于评估模型是否有效。
    • 划分比例:
      • 训练集:70% 80% 75%
      • 测试集:30% 20% 25%

(2)数据基本处理:

即对数据进行缺失值,去除异常值等处理。

(3)特征工程:

  • 定义:特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。
  • 为什么需要?
    • 数据和特征决定机器学习上限,而模型和算法只是逼近这个上限而已。
  • 包含内容
    • 特征提取
      • 将任意数据(如文本或图像)转换为可用于机器学习的特征工程;
    • 特征预处理
      • 通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程;
    • 特征降维
      • 指在某些特定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程; 

(4)机器学习(模型训练):

选择合适算法对模型进行训练。

(5)模型评估:

对训练好模型进行评估。

二.机器学习算法分类:

1.监督学习:

1.1.定义:

  • 输入数据是由输入特征值和目标值所组成;
    • 函数的输出可以是一个连续的值(称为回归);
    • 或是输出有限个离散值(称为分类);

(1)回归问题:

例如:预测房价,根据样本集:拟合出一条连续曲线。

(2)分类问题:

例如:根据肿瘤特征判断良性还是恶性,得到结果是“良性”或者“恶性”,是离散的。

2.无监督学习:

2.1.定义:

  • 输入数据是由输入特征值组成,没有目标值;
    • 输入数据没有被标记,也没有确定的结果。样本数据类别未知;
    • 需要根据样本间的相似性对样本集进行类别划分。
  • 例:

【无监督与有监督对比】:

3.半监督学习:

3.1.定义:

  • 训练集同时包含有标记样本数据和未标记样本数据;
  • 例:

监督:从数据库中得到未标记数据,让专家预测,得到大量标记过数据,通过标记过数据训练预测模型;

半监督:从数据库中得到少部分未标记数据,让专家预测,得到少量标记过数据,通过少量数据训练初步模型,再用未标记的数据进行模型得出(优化)。

总之:半监督是通过少量标记数据训练初步模型,再利用大量未标记数据进行模型优化。

4.强化学习:

4.1.定义:

  • 实质是make decisions问题,即自动进行决策,并且可以做到连续决策。
  • 例:小孩走路,首先站起来,保持平衡,接下来先迈出左腿还是右腿,迈出一步再迈出一步。

小孩就是agent,他试图通过采取行动来操纵环境,并且从一个状态转变到另一个状态,当他完成任务的子任务时,孩子得到奖励;并且当他不能走路时就不会给奖励。

主要包含五个元素: agent ,action, reward,environment, observation

【强化与监督对比】

监督学习强化学习
反馈映射输出的是之间的关系,可以告诉算法什么样的输入对应着什么样的输出输出的是给机器反馈reward function,即用来判断这个行为是好是坏
反馈时间做了比较坏的选择会立刻反馈给算法结果反馈有延迟,有时候可能需要走了很多步以后才知道以前的某一步的选择是好还是坏
输入特征输入是独立同分布面对的输入总是在变化,每当算法做出一个行为,它影响下一次决策的输入

【拓展概念】什么是独立同分布?

概念:西瓜书中解释:输入空间中的所有样本服从一个隐含未知的分布,训练数据所有样本都是独立的从这个分布上采样而得。

  • 独立:每次抽样之间没有关系,不会相互影响;
    • 举例:给一个骰子,每次抛骰子抛到几就是几,这是独立;如果我要骰子两次之和大于8,那么第一次和和第二次抛就不独立,因为第二次抛的结果和第一次相关;
  • 同分布:每次抽样,样本服从同一个分布
    • 举例:给一个骰子,每次抛骰子得到任意点数的概率都是1/6,这个就是同分布;
  • 独立同分布:i.i.d.,每次抽样之间独立而且同分步。

5.小结:

inout目的案例
监督(supervised learning)有标签有反馈预测结果猫狗分类、房价预测
无监督(unsupervised learning)无标签无反馈发现潜在结构“物以类聚人以群分”
半监督(Semi-Supervised learning)部分有标签,部分无标签有反馈降低数据标记难度
强化(reinforcement learning)决策流程及激励系统一系列行动长期利益最大化学下棋

三.模型评估:

1.分类模型评估:

  • 准确率:
    • 预测正确的数站样本总数的比例;
  • 其他评价指标:精确率、召回率、F1-score、AUC指标等。

2.回归模型评估:

  • 均方根误差( Root Mean Squared Error,RMSE)
    • RMSE是一个衡量回归模型误差率的常用公式。不过,它仅能比较误差是相同单位的模型。

 a = actual target真实值

p = predicted target预测值

  • 例:

  • RSE:(预测值 - 真实值 )的平方和 /(真实值的均值 - 真实值的平方和)
  • MAE:(预测值 - 真实值)的绝对值的和 / 样本数量
  • RAE:(预测值 - 真实值的绝对值和)/ (真实值的均值 减 真实值的绝对值的和)

3.拟合:

模型评估用于评价训练好的模型的表现效果,其效果大致分为:过拟合、欠拟合。

在训练过程中,可能会遇到:

训练数据训练的很好,误差不大,为什么在测试集上有问题,出现这种情况就是拟合问题。

3.1.欠拟合(under-fitting):

  • 模型学习太过粗糙,连训练集中的样本数据特征关系都没有学出来。
  • 训练集与测试集中表现不好;

3.2.过拟合(over-fitting):

  • 所建成的机器学习模型或者深度学习模型在训练样本中表现的过于优越,导致在测试数据集中表现不佳
  • 训练集表现比较好,测试集中表现不好;

四.深度学习简介:

1.概念:

  • 深度学习(deep learning)(也称为速度结构学习【deep structure learning】、层次学习【Hierarchical learning】或者深度机器学习【deep machine learning】)是一类算法集合、是机器学习的一个分支。
  • 深度学习近些年来,在会话识别、图像识别和对象侦测等领域出现出来惊人的准确性。
  • 但是,“深度学习”在1986年有Dechter在机器虚席领域提出,然后在2000年有Aizenberg等人引入到人工神经网络中。而现在,由于Alex Krizhevsky在2012年使用卷积网络结构赢得了ImageNet比赛后受到大家瞩目。
  • 卷积网络之父:Yann LeCun

2.各层负责内容:

  • 1层负责识别颜色及简单纹理;
  • 2层一些神经元可以识别更加细化的纹理,布纹、刻纹、叶纹等;
  • 3层一些神经元负责感受黑夜里的黄色烛光,高光,萤火,鸡蛋黄色等;
  • 4层一些神经元识别萌狗的脸,宠物形貌,圆柱体事物,七星瓢虫等存在;
  • 5层一些神经元负责识别花,黑眼圈动物,鸟,键盘,原型屋顶等;

五.Jupyter Notebook

1.定义:

Jupyter 项目是一个非盈利的开源项目,源于2014年的ipython项目,因为它逐渐发展为支持夸所有编程语言的交互数据科学和数据计算。

  • Jupyter Notebook,原名IPython Notebook,是IPython的加强网页版,一个开源Web应用程序;
  • 名字源自Julia、Python和R(数据科学的三种开源语言)
  • 是一款程序员和科学工作者的编程/文档/笔记/展示软件;
  • .ipynb文件格式使用于计算型叙述的JSON文档格式的正式规范;

2.为什么使用:

  • 传统软件开发:工程/目标明确
    • 需求分析:设计框架,开发模版,测试
  • 数据挖掘:艺术/目标不明确
    • 目的是具体的洞察目标,而不是机械的完成任务;
    • 通过执行代码来解决问题;
    • 迭代式改进代码来解决方法;

实时运行代码、叙事性的文本和可视化被整合在一起,方便使用代码和数据来叙述故事。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2334201.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

系统与网络安全------网络通信原理(4)

资料整理于网络资料、书本资料、AI&#xff0c;仅供个人学习参考。 网络层解析 IP 网络层概述 位于OSI模型第三层作用 定义网络设备的逻辑地址&#xff0c;俗称网络层地址&#xff08;如IP地址&#xff09; 在不同的网段之间选择最佳数据转发路径 协议 IP协议 IP数据包…

Java基础 4.12

1.方法的重载&#xff08;OverLoad&#xff09; 基本介绍 Java中允许同一个类&#xff0c;多个同名方法的存在&#xff0c;但要求形参列表不一致&#xff01; 如 System.out.println(); out是PrintStream类型 重载的好处 减轻了起名的麻烦减轻了记名的麻烦 2.重载的快速入…

XILINX DDR3专题---(1)IP核时钟框架介绍

1.什么是Reference Clock&#xff0c;这个时钟一定是200MHz吗&#xff1f; 2.为什么APP_DATA是128bit&#xff0c;怎么算出来的&#xff1f; 3.APP &#xff1a;MEM的比值一定是1:4吗&#xff1f; 4.NO BUFFER是什么意思&#xff1f; 5.什么情况下Reference Clock的时钟源可…

clickhouse注入手法总结

clickhouse 遇到一题clickhouse注入相关的&#xff0c;没有见过&#xff0c;于是来学习clickhouse的使用&#xff0c;并总结相关注入手法。 环境搭建 直接在docker运行 docker pull clickhouse/clickhouse-server docker run -d --name some-clickhouse-server --ulimit n…

React 组件样式

在这里插入图片描述 分为行内和css文件控制 行内 通过CSS中类名文件控制

利用 pyecharts 实现地图的数据可视化——第七次人口普查数据的2d、3d展示(关键词:2d 、3d 、map、 geo、涟漪点)

参考文档&#xff1a;链接: link_pyecharts 官方文档 1、map() 传入省份全称&#xff0c;date_pair 是列表套列表 [ [ ],[ ] … ] 2、geo() 传入省份简称&#xff0c;date_pair 是列表套元组 [ ( ),( ) … ] 1、准备数据 population_data&#xff1a;简称经纬度 population_da…

解决 Elasticsearch 分页查询性能瓶颈——从10分钟到秒级的优化实践

大家好&#xff0c;我是铭毅天下&#xff0c;一名专注于 Elasticsearch &#xff08;以下简称ES&#xff09;技术栈的技术爱好者。 今天我们来聊聊球友提出的一个实际问题&#xff1a; ES分页查询性能很差&#xff0c;使用from/size方式检索居然需要10分钟&#xff01; 这是一个…

记录IBM服务器检测到备份GPT损坏警告排查解决过程

服务器设备&#xff1a;IBM x3550 M4 Server IMM默认IP地址&#xff1a;192.168.70.125 用户名&#xff1a;USERID 密码&#xff1a;PASSW0RD&#xff08;注意是零0&#xff09; 操作系统&#xff1a;Windows Hyper-V Server 2016 IMM Web System Status Warning&#xff1…

毫米波测试套装速递!高效赋能5G/6G、新材料及智能超表面(RIS)研发

德思特&#xff08;Tesight&#xff09;作为全球领先的测试测量解决方案提供商&#xff0c;始终致力于为前沿技术研发提供高精度、高效率的测试工具。 针对毫米波技术在高频通信、智能超表面&#xff08;RIS&#xff09;、新材料等领域的快速应用需求&#xff0c;我们推出毫米…

Linux中卸载宝塔面板

输入命令 wget http://download.bt.cn/install/bt-uninstall.sh 执行脚本命令 sh bt-uninstall.sh 根据自己的情况选择1还是2 卸载完成校验 bt 这样我们的宝塔面板就卸载完了

无人机的振动与噪声控制技术!

一、振动控制技术要点 1. 振动源分析 气动振动&#xff1a;旋翼桨叶涡脱落&#xff08;如叶尖涡干涉&#xff09;、动态失速&#xff08;Dynamic Stall&#xff09;引发的周期性气动激振力&#xff08;频率与转速相关&#xff09;。 机械振动&#xff1a;电机偏心、传动轴不…

【蓝桥杯】第十六届蓝桥杯 JAVA B组记录

试题 A: 逃离高塔 很简单&#xff0c;签到题&#xff0c;但是需要注意精度&#xff0c;用int会有溢出风险 答案&#xff1a;202 package lanqiao.t1;import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWrit…

OSPF的接口网络类型【复习篇】

OSPF在不同网络环境下默认的不同工作方式 [a3]display ospf interface g 0/0/0 # 查看ospf接口的网络类型网络类型OSPF接口的网络类型&#xff08;工作方式&#xff09;计时器BMA&#xff08;以太网&#xff09;broadcast &#xff0c;需要DR/BDR的选举hello&#xff1a;10s…

python+requests接口自动化测试框架实例教程

&#x1f345; 点击文末小卡片 &#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 前段时间由于公司测试方向的转型&#xff0c;由原来的web页面功能测试转变成接口测试&#xff0c;之前大多都是手工进行&#xff0c;利用postman和jmeter进行…

2021第十二届蓝桥杯大赛软件赛省赛C/C++ 大学 B 组

记录刷题的过程、感悟、题解。 希望能帮到&#xff0c;那些与我一同前行的&#xff0c;来自远方的朋友&#x1f609; 大纲&#xff1a; 1、空间-&#xff08;题解&#xff09;-字节单位转换 2、卡片-&#xff08;题解&#xff09;-可以不用当组合来写&#xff0c;思维题 3、直…

智能资源管理机制-重传机制

一、发送端资源管理的核心机制 1. 滑动窗口&#xff08;Sliding Window&#xff09; 这是TCP协议的核心优化设计&#xff1a; 窗口动态滑动&#xff1a;发送端不需要保留所有已发送的分组&#xff0c;只需维护一个"发送窗口"窗口大小&#xff1a;由接收方通告的接…

设计模式 --- 原型模式

原型模式是创建型模式的一种&#xff0c;是在一个原型的基础上&#xff0c;建立一致的复制对象的方式。这个原型通常是我们在应用程序生命周期中需要创建多次的一个典型对象。为了避免初始化新对象潜在的性能开销&#xff0c;我们可以使用原型模式来建立一个非常类似于复印机的…

汽车软件开发常用的建模工具汇总

目录 往期推荐 1.Enterprise Architect&#xff08;EA&#xff09; 2.MATLAB/Simulink 3.TargetLink 4.Rational Rhapsody 5.AUTOSAR Builder 6.PREEvision 总结 往期推荐 2025汽车行业新宠&#xff1a;欧企都在用的工具软件ETAS工具链自动化实战指南&#xff1c;一&am…

SSM废品买卖回收管理系统的设计与实现

&#x1f345;点赞收藏关注 → 添加文档最下方联系方式咨询本源代码、数据库&#x1f345; 本人在Java毕业设计领域有多年的经验&#xff0c;陆续会更新更多优质的Java实战项目希望你能有所收获&#xff0c;少走一些弯路。&#x1f345;关注我不迷路&#x1f345; 项目视频 07…

@SchedulerLock 防止分布式环境下定时任务并发执行

背景 在一个有多个服务实例的分布式系统中&#xff0c;如果你用 Scheduled 来定义定时任务&#xff0c;所有实例都会执行这个任务。ShedLock 的目标是只让一个实例在某一时刻执行这个定时任务。 使用步骤 引入依赖 当前以redisTemplate为例子&#xff0c;MongoDB、Zookeeper…