【15%】100小时机器学习——什么是机器学习

news2025/1/8 4:08:19

前言

虽然已经好久没有更新了,但笔者最近一直都在努力学习哦。

前面三三两两根据GitHub上的项目写了一些实验操作,但是总觉得这样是不行的。碎片化的学习只能是建立在已知的基础上进行熟练,不能作为打基础的主力方法,最关键的是,GitHub的这个项目听起来非常诱人,但是并不适合自己从头开始认真学习,其内容过于零散,于是从本节开始,决定不再拾人牙慧,进入自己的系统化的学习过程。
第一讲就讲讲机器学习的概念

一、机器学习概念介绍

1.1 概览

人工智能,机器学习和深度学习之间的关系

图片引自博客园-王松伯(侵删)

早期的人工智能可以说是一个宏伟的目标,因为它的目的是赋予机器人的智慧,这种称为“强人工智能”,例如科幻电影里的终结者,能够像人类一样思考、学习、独立完成各项任务等;目前所能完成的是”弱人工智能“,主要是帮助人类完成某项特定的任务,例如搜索引擎、下围棋等。
机器学习就是实现弱人工智能的一种方式。
深度学习,属于机器学习的一个子领域,主要使用神经网络算法解决机器学习中的分类问题。人工神经网络(Artificial Neural Networks)是早期机器学习中的一个重要的算法,以我们大脑互相交叉相连的神经元为启发,人工神经网络具有离散的层、连接和数据传播的方向,深度学习的深度(deep),指的就是神经网络中众多的层数。

日常的应用

  • 搜索引擎(Google)
  • 物品识别
  • 标记垃圾邮件
  • 计算生物学(基因组研究)
  • 手写识别
  • 。。。

商业应用:

· 市场营销 (客户留存、分群、获取、产品推荐)
· 运营管理 (库存分析、供给分析、商品推荐)
· 风险欺骗 (欺诈检测、风险预警、信用评分、损失分析)
· 金融市场 (现金流预测、预算模拟、金融风控模型)
· 其他 (生命科学、健康医疗、社会科学、媒体、旅游)

1.1.1 机器学习定义

第一个机器学习的定义来自于Arthur Samuel。他定义机器学习为,在进行特定编程的情况下,给予计算机学习能力的领域。Samuel的定义可以回溯到50年代,他编写了一个西洋棋程序。这程序神奇之处在于,编程者自己并不是个下棋高手。但因为他太菜了,于是就通过编程,让西洋棋程序自己跟自己下了上万盘棋。通过观察哪种布局(棋盘位置)会赢,哪种布局会输,久而久之,这西洋棋程序明白了什么是好的布局,什么样是坏的布局。

A subset of AI in the field of computer science that often uses statistical techniques to give computers the ability to 'learn'.

近代的定义

一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升。
由Tom Mitchell提出,来自卡内基梅隆大学

graph TD
A[定义问题] --> B[收集数据]
B --> C[特征工程]
C --> D[建模] 
D --> E[调整模型设置] 
E --> F[评价模型]
F --> G[部署]
G --> H[模型更新]

1.1.2 机器学习与传统规则引擎的区别

规则引擎:

  • 编程解决问题
  • 人为定义决策

机器学习:

  • 从经验中学习
  • 决策规则复杂

举例说明

  • 规则引擎
    类似于手机上的单机斗地主,编程者提前拟定决策规则,并进行编程实现,这种规则引擎为固定的,无论和电脑玩多少次,电脑的打牌水平都不会有长进。
  • 机器学习
    类似于下围棋的AlphaGo,任务T就是成为下棋高手,经验E就是成千上万次的练习,性能度量值P就是能够打败人类的下棋高手。

机器学习可以做到使用历史数据,学习特征,实现预测

1.2 机器学习类型

不同的机器学习类型

Label
🌟SupervisedYes
🌟UnsupervisedNo
Semi-supervisedPart
ReinforcedNo(rewarding)

Label🏷️ 标签用于标记物体的属性,可以理解成 y = ax+b 中的y
例如垃圾邮件问题,是否为垃圾就是邮件的标签;预测房价问题,所给的一个小区的房屋价格就是房屋的标签。

数据获取网站 kaggle
数据获取网站 UCI
可以从这些网站中获取数据进行练习。

1.2.1 有监督学习

解决的两类常见问题:

  • 分类问题
  • 回归问题
分类 classification回归 regression
目标变量离散连续
  • 使用有标签数据训练模型
  • 为新数据打标签
  • 大部分机器学习模型为有监督学习
回归问题例子:房价预测
吴恩达机器学习案例

吴恩达机器学习课程案例

  • 模型评价指标 Normalized RMSE [值越小越好]/ Goodness of Fit( R^2 ) [值越大越好]
  • 特征重要性
分类问题例子:判断肿瘤类别
吴恩达机器学习案例
  • 模型评价指标 Performance(AUC) (一般来说 >0.85 说明非常好)
  • 特征重要性
  • 混淆矩阵 Confusion Matrix
True PositivesFalse Positives
False NegativesTrue Negatives
监督学习总结

两种问题:

  • 分类问题
    把数据按类别划分,例如鉴别肿瘤是良性还是恶性,邮件是否是垃圾邮件。

  • 回归问题

1.2.2 无监督学习

无监督VS有监督
吴恩达机器学习案例

无监督学习的数据没有标签(或者有相同的标签),无监督学习的任务就是将这些数据分成不同的簇,所以称为聚类算法,谷歌新闻就是使用了无监督学习,将网络中海量的新闻自动分类,每一个类都是不同的主题。

无监督学习特点
  • 使用无标签数据训练模式
  • 发现数据固有特征
  • 可用于数据降维、异常检测
  • 聚类是最常见的无监督学习技术
无监督学习的应用

无监督学习没有收到人工输入的数据标签,对于算法的角度而言,只有一堆包含属性值的数据,通过运行一个聚类算法,就能够得到这些数据的分类结果。
例子:鸡尾酒宴会问题。
宴会的环境比较嘈杂,交谈声、音乐声和其他噪声等交织在一起,在不同的位置放置两个麦克风🎤,记录宴会的声音数据。通过无监督学习,就能完成音频输入的分离。[插入video play 6:30]

例子:Iris聚类
  • 组内离差平方和 (判别聚类算法好坏的关键指标)
无监督学习总结
  • 聚类问题
  • 异常值检测问题

1.2.3 半监督学习

特点
  • 使用少量有标签数据训练
  • 为大部分无标签数据打标签(标签预处理)
    应用目的:
    节约训练成本
    节约打标签成本

1.2.4 强化学习

学习一系列的行动(actions) ,使奖励(reward) 最大化。
例如:alpha go、自动驾驶

1.3 总结

见xmind。



喜欢的朋友记得点赞、收藏、关注哦!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2171146.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

物联网系统中声音拾取音频方案_咪头

01 物联网系统中为什么要使用咪头 物联网系统中使用咪头(麦克风或传声器)的原因主要可以归结为以下几个方面: 声音信号的拾取与转换 基本功能:咪头是一种将声音转换为电信号的装置。在物联网系统中,咪头负责捕捉周围…

一键降重:芝士AI如何简化论文查重过程?

大家写论文时“旁征博引”是常规操作,所以重复率就成了投稿前的“噩梦”。自己降重,发现怎么改写都无法下降重复率,可能一天改下来下降3%,让人抓狂。 但今天开始,你不用再苦恼啦,更不用自己抓耳挠腮一整天…

商汤SenseNova 5.5大模型的应用实践

SenseNova 5.5如何重塑金融、医疗与自动驾驶的未来 ©作者|wy 来源|神州问学 一、引言 人工智能(AI)作为引领未来发展的重要力量,正以前所未有的速度改变着我们的生活和工作方式。每年一度的世界人工智能大会(WAIC&#xf…

高密度EEG人脑成像:技术与应用

摘要 EEG是一种非侵入性的人脑神经活动测量技术。随着数字技术的进步,EEG分析已从定性分析幅值和频率调制发展到全面分析记录信号的复杂时空特征。EEG能够在亚秒级的时间范围内测量神经过程,但其空间分辨率较低,这使得难以准确可靠地定位EEG…

【Gitee自动化测试5】Gitee免费版的所有按钮

一、首页 就红框里有用 1. 仓库(Repository) 功能:仓库是一个项目的存储空间,用于保存源代码、文档、配置文件等与项目相关的内容。每个仓库通常会有一个版本控制系统(如 Git)来跟踪代码的变更历史。用…

Xinstall助力广告主实现精准投放,提升App广告效果!

随着移动互联网的快速发展,App广告投放已成为品牌推广的重要手段。然而,广告投放的效果如何,是否达到了预期的目标,这些问题一直困扰着广告主。今天,我们就来聊聊App广告投放数据统计的痛点,以及Xinstall如…

从体质入手:气虚痰湿人群的健康攻略

“气虚”与“痰湿”是中医体质学九大体质中常见的两种易胖体质,可以说大多数肥胖人群都有这两种体质的身影。比如气虚质的特征是容易疲劳,乏力,出汗,抵抗力差,声弱,气短,面部苍白或萎黄等&#…

车辆目标检测、工程车辆检测算法、工程车辆类型检测

工程车辆检测算法主要用于智能交通系统、建筑工地管理、矿山开采、物流运输等领域,通过图像识别技术来检测和识别视频或图像中的工程车辆。这种技术可以帮助管理者实时监控工程车辆的活动,确保施工安全、交通流量管理和资源调度的效率。以下是关于工程车…

cups-browsed远程代码执行漏洞安全风险通告

今日,亚信安全CERT监控到安全社区研究人员发布安全通告,披露了cups-browsed 远程代码执行漏洞(CVE-2024-47176)。由于cups-browsed 服务在处理网络打印任务时,会绑定到 UDP 端口 631 上的 INADDR_ANY 地址,从而信任来自任何来源的…

uniapp框架中实现文件选择上传组件,可以选择图片、视频等任意文件并上传到当前绑定的服务空间

前言 uni-file-picker是uniapp中的一个文件选择器组件,用于选择本地文件并返回选择的文件路径或文件信息。该组件支持选择单个文件或多个文件,可以设置文件的类型、大小限制,并且可以进行文件预览。 提示:以下是本篇文章正文内容,下面案例可供参考 uni-file-picker组件具…

Linux高级IO之poll与epoll

文章目录 poll使用 epoll系统调用 epoll的工作原理红黑树队列 epoll的工作模式水平触发边缘触发 Reactor设计模式工作原理epoll Reactor设计模式的简单示例 poll和epoll都是多路转接的调用,但是epoll实在过于优秀了,一般也都是用epoll的,除此…

mysql索引结构操作(主键/唯一键/普通索引的创建/查询/删除),复合索引介绍(索引覆盖,索引最左匹配原则)

目录 索引操作 创建索引 主键索引 介绍 在创建表时设置主键 创建表后添加主键 唯一键索引 介绍 在创建表时设置唯一键 创建表后添加唯一键 普通索引 在创建表时指定某列为索引 创建表后添加普通索引 自主命名索引 索引创建原则 哪些列适合创建索引 不适合作为…

猫头虎带你解决:error Error: certificate has expired

🐯猫头虎带你解决:error Error: certificate has expired 💥 今天有粉丝问猫哥:“🐯猫头虎,我在 Node.js 项目中使用 Yarn 安装包时遇到了一个错误:Error: certificate has expired。你能帮忙解…

【机器学习(十二)】机器学习回归案例之二手汽车价格预测—XGBoost回归算法—Sentosa_DSML社区版

文章目录 一、算法和背景介绍二、Python代码和Sentosa_DSML社区版算法实现对比(一) 数据读入与统计分析(二) 数据处理(三) 特征选择与相关性分析(四) 样本分区与模型训练(五) 模型评估和模型可视化 三、总结 一、算法和背景介绍 关于XGBoost的算法原理,已经进行了介…

[C++]栈队列改成模板类

栈、队列都更改成模板类 栈 .hpp #ifndef MY_STACK_H #define MY_STACK_H #include <iostream>using namespace std;template<typename T> class my_stack { private:T *base;//动态栈指针int top;//栈顶元素int size;//栈大小 public:my_stack();//无参构造my_…

宠物空气净化器有必要买吗?希喂、霍尼韦尔和352哪款更推荐?

国庆假终于要来了&#xff0c;对于我这个上班族而言&#xff0c;除了春节假期最期待的就是这个国庆假&#xff0c;毕竟假期这么长&#xff0c;家里还有一只小猫咪&#xff0c;一直都没时间陪它&#xff0c;终于给我找到时间带它会老家玩一趟了。 我跟我妈说的时候&#xff0c;…

Apache OFBiz SSRF漏洞CVE-2024-45507分析

Apache OFBiz介绍 Apache OFBiz 是一个功能丰富的开源电子商务平台&#xff0c;包含完整的商业解决方案&#xff0c;适用于多种行业。它提供了一套全面的服务&#xff0c;包括客户关系管理&#xff08;CRM&#xff09;、企业资源规划&#xff08;ERP&#xff09;、订单管理、产…

Vulhub TheEther_1.0.1靶机详解

项目地址 https://download.vulnhub.com/theether/theEther_1.0.1.zip实验过程 将下载好的靶机导入到VMware中&#xff0c;设置网络模式为NAT模式&#xff0c;然后开启靶机虚拟机 使用nmap进行主机发现&#xff0c;获取靶机IP地址 nmap 192.168.47.1-254根据对比可知theEthe…

【 EXCEL 数据处理 】000003 案列 标记涨跌,保姆级教程。使用的软件是微软的Excel操作的。处理数据的目的是让数据更直观的显示出来,方便查看。

【 EXCEL 数据处理 】000003 案列 使用条件格式之大于和小于&#xff0c;标记涨跌&#xff0c;保姆级教程。使用的软件是微软的Excel操作的。处理数据的目的是让数据更直观的显示出来&#xff0c;方便查看。 &#x1f4da;一、直接上案例 &#x1f4d6;1.使用条件格式之大于和小…

CMU 10423 Generative AI:lec7、8、9(专题2:一张图理解diffusion model结构、代码实现和效果)

本文介绍diffusion model是什么&#xff08;包括&#xff1a;模型详细的架构图、各模块原理和输入输出、训练算法解读、推理算法解读&#xff09;、以及全套demo代码和效果。至于为什么要这么设计、以及公式背后的数学原理&#xff0c;过程推导很长很长&#xff0c;可见参考资料…