机器学习day1

news2024/10/6 0:35:15

一、人工智能三大概念

人工智能三大概念 人工智能(AI)、机器学习(ML)和深度学习(DL)

人工智能:人工智能是研究计算代理的合成和分析的领域。人工智能是使用计算机来模拟,而不是人类的大脑。

人工智能(AI)是一个广泛的概念,它涵盖了使计算机能够执行类似人类智能任务的技术和方法。AI的目标是使计算机系统能够理解和分析复杂的信息,从而做出决策、学习、推理、理解语言、识别模式等。AI的应用领域非常广泛,包括语音识别、自然语言处理、计算机视觉、机器人技术、专家系统等。

机器学习:允许计算机无需明确地自动学习的研究领域

机器学习(ML)是人工智能的一个重要分支,它专注于研究和开发能够自动从数据中学习和改进的算法。机器学习算法通过训练数据来寻找规律或模式,并据此对新的、未见过的数据进行预测或分类。机器学习可以分为有监督学习、无监督学习、半监督学习和强化学习等多种类型,每种类型都有其特定的应用场景和优势。

深度学习:也叫深度神经网络,大脑仿生,设计一层一层的神经元模拟万事万物

深度学习(DL)是机器学习的一个子集,它基于神经网络模型,特别是深度神经网络模型。深度学习通过构建多层神经网络来模拟人脑的工作方式,从而实现对复杂数据的理解和分析。

三者的关系

人工智能是一个宏观的概念,机器学习是实现人工智能的一种关键方法,而深度学习则是机器学习的一个重要分支和前沿领域

 学习方式

基于规律的学习:程序员根据经验利用手工的if-else进行预测

基于模型的学习:从数据中自动学出规律

基于模型的学习:比如房价预测

二、机器学习的应用领域和发展史

机器学习的应用领域:

图像识别,无人驾驶,智能翻译,医疗智能翻译,数据挖掘

机器学习的发展史可以追溯到上个世纪五十年代。以下是一些关键的发展阶段和里程碑:

  1. 早期研究:在20世纪50年代和60年代,人工智能和机器学习的概念开始形成。这一时期的研究主要集中在符号逻辑和基于规则的专家系统上。然而,由于当时计算能力的限制,这些系统往往难以处理复杂的问题。
  2. 神经网络的出现:20世纪80年代,神经网络的研究开始兴起。神经网络是一种模拟人脑神经元连接和交互的模型,它具有较强的自学习和自适应能力。尽管当时神经网络的性能有限,但它为后来的深度学习技术奠定了基础。
  3. 统计学习方法的兴起:在90年代和21世纪初,统计学习方法如支持向量机(SVM)、决策树、随机森林等逐渐流行起来。这些方法在解决分类、回归等问题上取得了显著成效,并在许多实际应用中得到了广泛应用。
  4. 深度学习的崛起:自2012年以来,深度学习技术取得了突破性进展。通过构建深度神经网络模型并利用大量数据进行训练,深度学习在图像识别、语音识别、自然语言处理等领域取得了显著成果。特别是2016年AlphaGo战胜围棋世界冠军李世石的事件,更是引发了全球对人工智能和深度学习的关注。

人工智能发展三要素

数据   算法  算力

• CPU:主要适合I\O密集型的任务

• GPU:主要适合计算密集型任务

• TPU:专门针对大型网络训练而设计的一款处理器 

四、机器学习常用术语

在机器学习的领域中,理解并正确应用常用术语是掌握这一技术的基础。以下是对机器学习中的一些关键术语的理解:

  1. 样本(Sample):在机器学习中,样本通常指的是一组数据的实例,这些数据实例包含了描述对象的特征信息。样本是机器学习算法进行学习和预测的基础。例如,在房价预测的任务中,每一个房屋的相关信息(如面积、地理位置、楼层等)就可以视为一个样本。

  2. 特征(Feature):特征是指描述样本属性的变量。在机器学习中,特征是用来训练模型的关键信息。通过提取和选择有效的特征,我们可以帮助模型更好地理解和预测目标变量。在房价预测的例子中,房屋的面积、地理位置等都可以作为特征。

  3. 标签(Label):标签是机器学习任务中需要预测的目标变量。在监督学习中,每个样本通常都对应一个标签,这个标签是已知的,用于指导模型的学习过程。在房价预测的任务中,房价就是我们需要预测的标签。

  4. 训练集(Training Set):训练集是用于训练机器学习模型的数据集。在训练过程中,模型会学习如何从输入的特征中预测出目标标签。通过不断地迭代和优化,模型会逐渐提高预测的准确性。

  5. 测试集(Test Set):测试集用于评估训练好的模型的性能。与训练集不同,测试集中的数据在模型训练过程中是不可见的,因此可以用来检验模型对未知数据的预测能力。通过比较模型在测试集上的预测结果与实际标签的差异,我们可以评估模型的泛化能力。

五、机器学习算法分类

机器学习算法可以根据不同的学习方式和应用场景进行分类。以下是几种主要的机器学习算法分类:

  1. 监督学习(Supervised Learning)
    • 在监督学习中,算法通过训练数据集进行学习,训练数据集中的每个样本都有已知的标签或结果。算法的任务是找出输入和输出之间的映射关系,从而对新的、未见过的数据进行预测。
    • 常见的监督学习算法包括线性回归、逻辑回归、支持向量机(SVM)、决策树、随机森林和梯度提升机等。
  2. 无监督学习(Unsupervised Learning)
    • 在无监督学习中,算法从未标记的数据中找出隐藏的结构或模式。由于没有标签或目标变量,无监督学习算法主要关注数据的内在属性和关系。
    • 常见的无监督学习算法包括聚类算法(如K-均值聚类、层次聚类等)、降维算法(如主成分分析PCA、t-SNE等)和关联规则学习等。
  3. 半监督学习(Semi-supervised Learning)
    • 半监督学习是监督学习和无监督学习的结合,它使用部分标记的数据和大量未标记的数据进行训练。这种方法尤其适用于标记数据有限但未标记数据丰富的场景。
    • 半监督学习算法试图利用未标记数据中的结构信息来改进仅使用标记数据时的学习性能。
  4. 强化学习(Reinforcement Learning)
    • 强化学习是一种通过试错来学习的策略。在这种方法中,算法(或代理)通过与环境的交互来学习如何做出最佳决策,以最大化累积奖励。
    • 强化学习在游戏AI、机器人控制等领域有着广泛的应用,例如AlphaGo围棋算法就是强化学习的一个著名案例。

六、机器学习建模流程

1. 获取数据

  • 搜集数据集:根据机器学习任务的需求,搜集相关的数据集。这可以通过公开数据集、网络爬虫、API接口或企业内部数据仓库等途径获得。
  • 数据清洗:去除重复数据、无关数据或错误数据,确保数据的质量和准确性。

2. 数据基本处理

  • 异常值处理:检测并处理数据中的异常值,如通过删除、替换或插值等方法。
  • 缺失值处理:对于数据中的缺失值,可以通过删除含有缺失值的记录、填充缺失值(如均值填充、中位数填充、插值或模型预测等)来处理。
  • 数据变换:可能需要对数据进行标准化、归一化或编码(如独热编码)等操作,以便于后续的特征工程和模型训练。

3. 特征工程

  • 特征提取:从原始数据中提取出有意义的特征,这些特征应能够反映数据的内在规律和模式。
  • 特征转换:对提取出的特征进行必要的转换,如多项式特征、对数转换等,以增强模型的表达能力。
  • 特征选择:通过统计方法、模型选择或领域知识等方式,选择出对模型性能提升最有帮助的特征。

4. 机器学习(模型训练)

  • 选择合适的算法:根据任务类型和数据的特性,选择合适的机器学习算法。例如,对于分类任务可以选择逻辑回归、决策树或随机森林等;对于聚类任务可以选择K-means或层次聚类等。
  • 模型训练:使用处理好的数据和选定的算法进行模型训练。这通常涉及设置模型参数、优化算法和迭代次数等。

5. 模型评估

  • 评估指标:根据任务类型选择合适的评估指标,如准确率、召回率、F1值、AUC-ROC等。
  • 模型调优:根据评估结果对模型进行调优,包括调整模型参数、更换算法或进行进一步的特征工程等。
  • 交叉验证:使用交叉验证方法来评估模型的稳定性和泛化能力,选择最优的模型进行后续的上线服务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1625278.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【办公类-22-14】周计划系列(5-5)“周计划-05 周计划表格内教案部分“节日”清空改成“节日“” (2024年调整版本)Win32

背景需求: 本学期19周,用了近10周的时间,终于把周计划教案部分的内容补全了(把所有教案、反思的文字都撑满一个单元格), 一、原始教案 二、新模板内的教案 三、手动添加文字后的样式(修改教案…

庐山研习班上介绍的25个LINUX工具

从2013年的第一届算起,庐山研习班走过十余个年头,办了十几次了。但每一次,都有很多不一样。即使是相同的主题,也有很大差异。 今年春季的庐山研习班是在上个周末。周四晚上我和大部分同学都到了五老峰脚下的训练基地。 除了周六下…

【C++ STL序列容器】list 双向链表

文章目录 【 1. 基本原理 】【 2. list 的创建 】2.1 创建1个空的 list2.2 创建一个包含 n 个元素的 list(默认值)2.3 创建一个包含 n 个元素的 list(赋初值)2.4 通过1个 list 初始化另一个 list2.5 拷贝其他类型容器的指定元素创…

HNCTF 2022 week1 题解

自由才是生活主旋律。 [HNCTF 2022 Week1] Interesting_include <?php //WEB手要懂得搜索 //flag in ./flag.phpif(isset($_GET[filter])){$file $_GET[filter];if(!preg_match("/flag/i", $file)){die("error");}include($file); }else{highlight_…

CentOS7安装并配置Yearning并实现无公网IP远程SQL审核与数据查询

目录 ​编辑 前言 1. Linux 部署Yearning 2. 本地访问Yearning 3. Linux 安装cpolar 4. 配置Yearning公网访问地址 5. 公网远程访问Yearning管理界面 6. 固定Yearning公网地址 结语 前言 作者简介&#xff1a; 懒大王敲代码&#xff0c;计算机专业应届生 今天给大家聊聊…

Docker 的数据管理 端口映射 容器互联 镜像的创建

目录 概念 概念 管理 Docker 容器中数据主要有两种方式&#xff1a;数据卷&#xff08;Data Volumes&#xff09;和数据卷容器&#xff08;DataVolumes Containers&#xff09;。总结&#xff1a;因为容器数据是临时保存的为了安全&#xff0c;就要让数据保持持久化。 1&#…

qt QTreeWidget 学习

树形控件的节点可以有多层、多个子节点&#xff0c; 如果将子节点全部展开&#xff0c;那么每一行都是一个数据条目。QTreeWidgetItem 比较特殊&#xff0c;一个条目内部可以有多列数据信息&#xff0c;相当于表格控件一整行的表格单元集成为一个条目。 默认情况下&#xff0c;…

Methoxy-PEG-PLGA,mPEG-PLGA是一种可生物降解的两亲性嵌段共聚物

【试剂详情】 英文名称 mPEG-PLGA&#xff0c;Methoxy-PEG-Poly(lactide-co-glycolide)&#xff0c;Methoxy-PEG-PLGA&#xff0c; mPEG-Poly(lactide-co-glycolide) 中文名称 聚乙二醇单甲醚聚乳酸&#xff0c;乙醇酸两嵌段共聚物 外观性状 由分子量决定&#xff0c;液体…

调试记录 Flash 芯片 GD25LQ128ESIG 的程序烧录问题

1. 烧录工具 工具型号&#xff1a; VS4000P 2. 烧录问题 1. 烧录器选择烧录型号过程中没有看见 Flash 芯片 GD25LQ128ESIG 的型号。其中有GD25Q128E &#xff0c;但是三个选项的封装不对。 3. 解决过程 1. 尝试别的类型的芯片型号烧录。 A.GD25LQ80E(SOP8_200) B.GD25LQ64E(SOP…

IDEA 2024.1 配置 AspectJ环境

最近Java课设在学习AspectJ&#xff0c;做PPT顺便写一个博客 下载包 首先去AspectJ官网下载一个JAR包并安装 安装完最后可以按照他的建议配置一下 然后找到AspectJ的安装位置的lib目录&#xff0c;把三个包拷到自己项目中的lib目录下 由于最新版的IDEA已经不支持AspectJ了 所…

(八)Servlet教程——创建Web项目以及Servlet的实现

1. 打开Idea编辑器 2. 点击界面上的“新建项目”按钮 3. 设置好项目名称和位置 应用服务器选择之前设置好的Tomcat服务器 构建系统默认选择Maven 4. 点击“下一步”按钮 5. 点击“完成”按钮&#xff0c;Idea就创建好了项目&#xff0c;创建完成后的目录结构如下图所示 6. 此…

脉冲电源的直流斩波板设计总结(RC缓冲电路,输出电容选值)

IC的RC缓冲 总结一下过去电加工所的直流斩波板问题 1&#xff1a;电流突变问题 在独立式电火花脉冲电源里面&#xff0c;用电阻去限制电流&#xff0c;从而抑制当极间突变时的电流突变。 在非独立式的脉冲电源里面&#xff0c;电流平时是稳定在循环电感里面&#xff0c;当击…

ESLlint重大更新后,使用旧版ESLint搭配Prettier的配置方式

概要 就在前几天&#xff0c;ESLint迎来了一次重大更新&#xff0c;9.0.0版本&#xff0c;根据官方文档介绍&#xff0c;使用新版的先决条件是Node.js版本必须是18.18.0、20.9.0&#xff0c;或者是>21.1.0的版本&#xff0c;新版ESLint将不再直接支持以下旧版配置(非扁平化…

USB设备的音频类UAC

一、UAC简介 UAC&#xff08;USB Audio Class&#xff09;是USB设备的音频类&#xff0c;它定义了USB音频设备与主机计算机通信的方式。UAC标准是USB规范的一部分&#xff0c;并受到各种操作系统&#xff08;包括Windows、macOS和Linux&#xff09;的支持。 UAC是基于libusb,实…

抖音智能运营系统源码

这是一个一站式服务的抖音智能运营系统&#xff0c;旨在提升内容创作者和营销人员的工作效率。它是一个综合性的在线服务平台&#xff0c;专为抖音内容创作者和营销人员设计。系统基于高性能、可扩展性强的ThinkPHP框架&#xff0c;整合了视频处理、数据分析、文案生成与配音等…

联网获取不了IP地址:原因分析与解决方案

在数字化时代&#xff0c;网络连接已成为我们日常生活和工作中不可或缺的一部分。然而&#xff0c;有时我们可能会遇到一个问题&#xff1a;设备在尝试连接到网络时&#xff0c;无法获取IP地址。这种情况可能导致我们无法访问互联网或局域网资源。那么&#xff0c;联网获取不了…

PD虚拟机和双系统哪个好 Mac建议装双系统吗

在当今数字化时代&#xff0c;对于部分使用Mac电脑的用户来说&#xff0c;选择如何在系统中运行Windows或其他操作系统能节省大量精力。Parallels Desktop&#xff08;PD&#xff09;虚拟机和双系统是两种常见的选择&#xff0c;它们各自具有优势和限制。下面我们来看看PD虚拟机…

stack,queue的模拟实现以及优先级队列

这篇博客用来记录stack&#xff0c;queue的学习。 stack的模拟实现 stack的模拟实现比较简单&#xff0c;先上代码 #pragma once #include<vector> #include<list> #include<deque> #include<iostream> using std::deque; using namespace std;name…

【AI】Deepstream入门(2)Ubuntu20.04安装Deepstream

1、安装GPU驱动 本人显卡型号:RTX4060 Laptop(笔记本专用显卡) 【AI】惠普暗夜精灵9安装Ubuntu20.04+nvidia驱动 2、安装cuda、cuDNN 【AI】Ubuntu20.04安装cuda、cuDNN 3、安装TensorRT 1)下载 下载地址:https://docs.nvidia.com/deeplearning/tensorrt/archives/i…

数字藏品:重塑艺术与科技的新媒介

数字藏品&#xff0c;这个新兴的词汇&#xff0c;正在逐渐渗透到我们的日常生活中。它不仅是一种新的艺术表达方式&#xff0c;更是一种科技与艺术相结合的全新媒介。那么&#xff0c;数字藏品究竟是什么呢&#xff1f; 首先&#xff0c;我们需要明确一点&#xff0c;数字藏品并…