人工智能期末复习笔记(更新中)

news2025/1/20 5:57:49

分类问题

分类:根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类
垃圾分类、图像分类
在这里插入图片描述

怎么解决分类问题

在这里插入图片描述

分类和回归的区别

在这里插入图片描述

1. 逻辑回归分类

用于解决分类问题的一种模型。根据数据特征或属性,计算其归属于某一类别
的概率P,根据概率数值判断其所属类别。主要应用场景:二分类问题。
在这里插入图片描述

1. 谈谈你对机器学习的理解,包括回归和分类的相同点和不同点

机器学习是一种通过数据(经验)和算法让计算机从中学习并改善系统自身的性能的技术。
回归和分类的相同点:
预测性质:回归和分类都是用来预测未知数据的属性或类别。
监督学习:这两种任务都属于监督学习的范畴,即训练数据集包含了输入和相应的输出(标签)。
使用模型:它们都需要构建一个数学模型,该模型能够从训练数据中学习,然后用于对新数据进行预测。
回归和分类的不同点:
预测目标:

回归的目标是预测连续型变量的数值,例如房价、温度等。回归问题的输出是一个连续的数值。
分类的目标是预测离散的类别或标签,例如判断邮件是否为垃圾邮件、图片中的物体类别等。分类问题的输出是一个离散的类别。
输出类型:

回归的输出是连续的实数值,可以是任意范围内的数字。
分类的输出是离散的类别,通常是有限的、预定义的标签集合。
评估指标:

回归问题通常使用诸如均方误差(Mean Squared Error, MSE)、均方根误差(Root Mean Squared Error, RMSE)等连续型指标来评估预测结果的准确性。
分类问题通常使用准确率(Accuracy)、精确率(Precision)、召回率(Recall)等离散型指标来评估模型的性能。

2. 简述机器学习的流程

抽象实际问题,获取数据,数据预处理,特征工程,训练模型及调优,模型评估不断迭代模型,获取最终模型

3. 简述监督学习与无监督学习之间的区别

数据类型:监督学习使用有标签的数据,无监督学习使用无标签的数据。
目标:监督学习旨在预测输出,无监督学习旨在发现数据中的结构和模式。
应用:监督学习用于分类和回归,无监督学习用于聚类、降维等

4. 数据预处理的过程中,对于异常数据处理的方法有哪些

1.删除异常值
2.修正异常值
3.数据变换
4.使用离群值检测算法
5.使用模型

填空题

机器学习

  1. 机器学习的工作流程:抽象实际问题、获取数据、数据预处理、特征工程、训练模型及调优、模型评估、获取最终模型
  2. 数据预处理的方法:数据清洗、数据变换、数据过滤
  3. 特征工程定义:从原始数据中进行特征构建、特征提取、特征选择
  4. 数据集分为:训练集(用于学习的数据集)、验证集(用来预防过拟合的发生,辅助训练过程的数据集)、测试集(用于测试和评估训练好的模型的数据集)
  5. 机器学习分为:监督学习、半监督学习、无监督学习
  6. 监督学习:基于标签训练数据的机器学习模型的过程
  7. 半监督学习:使用大量的未标记数据、以及同时使用标记数据,来进行模型识别工作
  8. 无监督学习:建立及其学习模型的过程不依赖标签训练数据

在机器学习中,回归和分类是两种基本的任务类型

  1. 分类:根据数据的属性或特征是否相似,来把它们归为一类
  2. 回归:评估输入变量和输出变量之间关系的过程

回归和分类的不同点:

预测目标:

回归的目标是预测连续型变量的数值,例如房价、温度等。回归问题的输出是一个连续的数值。
分类的目标是预测离散的类别或标签,例如判断邮件是否为垃圾邮件、图片中的物体类别等。分类问题的输出是一个离散的类别。
输出类型:

回归的输出是连续的实数值,可以是任意范围内的数字。
分类的输出是离散的类别,通常是有限的、预定义的标签集合。
评估指标:

回归问题通常使用诸如均方误差(Mean Squared Error, MSE)、均方根误差(Root Mean Squared Error, RMSE)等连续型指标来评估预测结果的准确性。
分类问题通常使用准确率(Accuracy)、精确率(Precision)、召回率(Recall)等离散型指标来评估模型的性能。
课本原话
区别在于输出变量类型不同,分类的输出是离散的,回归的输出是连续的,分类问题是从不同类型的数据中学习数据的边界,而回归问题是从同一类型的数据中学习到这种数据中不同维度间的规律,去拟合真实规律

  1. 数据清洗的目的:将数据集中的”脏“数据去除
  2. 脏数据:缺少的数据、异常的数据、重复的数据
  3. 缺少的数据的处理方法:直接删去、填充为一个常量、取均值、中位数或使用频率高的值、插值填充、模型填充
  4. 异常数据的发现方法:建模法、计算机检查和人工检查相结合、聚类、密度法
  5. 数据变换:对对象的属性再数值上进行处理,包括规范化、离散化、稀疏化
  6. sklearn基本功能主要分为:数据预处理、数据降维、模型选择、分类、回归、聚类

逻辑回归分类

逻辑回归定义:用来解释输入变量和输出变量之间关系的一种技术,主要用于二分类问题

  1. sigmoid()函数:
    在这里插入图片描述

线性回归预测

线性回归定义:利用数理统计中回归分析来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法

聚类(无标红,非重点)

聚类定义:根据相似性原则,将具有较高相似度的数据对象划分为同一类簇,将具有较高相异度的数据对象划分为不同类簇。(无监督学习)
聚类算法:K-Means算法(K均值算法)

  1. 初始化质点
  2. 聚类对象
  3. 更新质点

第4章 自然语言处理(NLP)

  1. 自然语言处理工具包:NLTK

  2. 使用stemming、lemmatization还原词汇

  3. 词袋模型:文本特征提取方式

  4. 文本分析的主要目的之一:把文本转化为数值

  5. 分析文档的步骤:1. 提取文档 2. 转换为数值形式

  6. 使用TF-IDF算法构建文档类别检测器
    作用:对文档所属的类别进行检测
    TF-IDF:是一种用于信息检索与数据挖掘的常用加权技术
    TF-IDF的值是这两个值的乘积:TF*IDF
    TF-IDF主要思想:p113
    TF-IDF作用:去除过滤常见的词语,从而保留重要的词语

  7. 主题模型算法不需要任何被标记的数据

  8. LDA包括三层结构:词、主题、文档(重点)

  9. LDA是非监督机器学习

课后习题

列出几种文本特征提取算法:词袋模型、TF-IDF、文本主题模型(LDA)
列出几种自然语言处理开源工具包:NLTK、Gensim、TextBlob

第5章 语言识别

将音频信号从时域转换为频域

  1. 音频信号包括:频率、相位、振幅的正弦波
  2. 信号的基本性质:时域、频域
  3. 时域是唯一实际存在的域,真实世界的,频域是一个数学构造,正弦波是频域唯一存在的波形
  4. 时域的基本变量:时间
  5. 频域的基本变量:频率
  6. 将音频信号从时域转换为频域:快速傅里叶变换

提取语音特征

  1. MFCC:用于从给定音频信号中提取频域特征
  2. 只使用低频MFCC,丢弃中高频MFCC
  3. 提取语言特征参数MFCC主要流程:预加重、分帧、加窗、FFT、Mel滤波器组、对数对算、DCT离散余弦变换

课后习题

  1. 列举几个语言识别技术的应用领域:通信、家电、工业、汽车电子、家庭服务、医疗、消费电子产品

  2. 简单概述语言识别技术的原理:
    先采集并预处理信号,使用数字信号处理技术提取声音的特征,利用声学模型和语言模型分析声音的特征和语言规律,以实现对语音输入的理解和处理

  3. 实现音频信号从时域转换为频域:
    首先将连续的模拟信号采样为离散的数字信号。然后,使用傅里叶变换(如快速傅里叶变换)将离散时域信号转换为频域信号,以分析信号在不同频率上的能量分布。

第6章 计算机视觉

视频中移动物体检测方法

  1. 帧间差分法
  2. 色彩空间
  3. 背景差分法

差分法的实现

  1. 视频采集
  2. 图像预处理
  3. 提取背景
  4. 二值化
  5. 获取前景图片

第7章 人工神经网络

  1. 循环神经网络基本原理:一个序列当前的输入与前面的输出有点联系,在网络会记忆前面的信息并计算当前的输出,隐藏层之间的节点是有连接的,隐藏层的输入包括输入层的输出和上一时刻隐藏层的输出。

简答题(概念)

  1. 机器学习:机器学习是一种通过数据(经验)和算法让计算机从中学习并改善系统自身的性能的技术,分为监督学习、半监督学习、无监督学习。
  2. 人工神经网络定义:一种模仿人类大脑结构和作用的数学模型,从而模拟人脑神经系统对复杂信息处理。
  3. 循环神经网络定义:是对序列数据建模的人工神经网络,目的是处理序列数据。
  4. 深度学习定义:是一种精确的分层学习,指在多个计算阶段中精确第分配信用,以转换网络中的聚合激活,从而由简单的基础来学习和分析处理复杂的问题。
  5. 卷积神经网络:一种专门用于处理具有网格结构数据的深度学习模型,本质为前馈神经网络,包括卷积计算且具有深度结构。
  6. 强化学习:解决智能体在与外部环境交互活动的过程中,能够通过自身学习策略来应对外部环境问题,从而达到回报效益最大化的状态。
  7. 前馈神经网络:没有反馈机制,只能向前传播而不能反向传播来调整权值参数的神经网络模型。
  8. 神经元结构:神经元是ANN中的基本单元,每个神经元接收多个输入信号(通常包括权重和偏置),对这些输入信号进行加权求和,然后通过一个激活函数生成输出。
  9. 感知器:感知机(Perceptron)是一种最简单的人工神经网络模型,通常用于二元分类任务。它由输入层、权重、偏置、激活函数和输出层组成

第8章 强化学习和深度学习

  1. 卷积层的三个参数:核大小、步长、填充

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1880786.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[Cloud Networking] OSPF

OSPF 开放式最短路径优先(Open Shortest Path First)是一种动态路由协议,它属于链路状态路由协议,具有路由变化收敛速度快、无路由环路、支持变长子网掩码和汇总、层次区域划分等优点。 1 OSPF Area 为了适应大型网络&#xff0…

C程序设计谭浩强第五版

程序习题 第一章1、第5题2、第6题 第三章1、第2题2、第2题3、第3题4、第4题Tips 第一章 1、第5题 编写一个C程序,运行时输出以下图形: #include <stdio.h> int main() {for (int i 0; i < 4; i) // 输出4行循环控制{for (int j 0; j < i; j) //第几行就输出几…

leetcode-19-回溯-组合问题(剪枝、去重)

引自代码随想录 一、[77]组合 给定两个整数 n 和 k&#xff0c;返回 1 ... n 中所有可能的 k 个数的组合。 示例: 输入: n 4, k 2 输出: [ [2,4], [3,4], [2,3], [1,2], [1,3], [1,4]] 1、大致逻辑 k为树的深度&#xff0c;到叶子节点的路径即为一个结果 开始索引保证不…

一、Redis简介

一、Redis介绍与一般应用 1.1 基本了解 Redis全称Remote Dictionary Server(远程字典服务)&#xff0c; 是一个开源的高性能键值存储系统&#xff0c;通常用作数据库、缓存和消息代理。使用ANSI C语言编写遵守BSD协议&#xff0c;是一个高性能的Key-Value数据库提供了丰富的数…

VMware中的三种虚拟网络模式

虚拟机网络模式 1 主机网络环境2 VMware中的三种虚拟网络模式2.1 桥接模式2.2 NAT模式2.3 仅主机模式 3 网络模式选择及配置NAT模式3.1 VMware虚拟网络配置3.2 虚拟机选择网络模式3.3 Windows主机网络配置 4 配置静态IP 虚拟机联网方式为桥接模式&#xff0c;这种模式下&#x…

5.6 0-1背包问题

#include<iostream> #include<string> #include<stdlib.h> #include<bits/stdc.h> using namespace std;int c;//背包容纳的重量 int n;//物品数量 int cw;//当前重量 int cv;//当前价值 int bestv;//当前最优价值 int x[100]; int bestx[100]; struct…

Python 算法交易实验75 QTV200后续想法梳理

说明 在第一步获取数据源&#xff0c;然后进入Mongo(第一个数据节点)开始&#xff0c;QTV200的数据流体系就开始动了。后续用多少时间完成不太好确定&#xff0c;短则数周&#xff0c;长则数月。毕竟有过第一版实验的基础&#xff0c;应该还是可以做到的。 下面就是天马行空&…

【TB作品】玩具电子琴,ATMEGA128单片机,Proteus仿真

题目 7 &#xff1a;玩具电子琴 基于单片机设计一能够发出中音八个音阶的音乐信号的电子琴&#xff0c;能够实现弹奏和音符显示功 能。 具有 8 个音阶按键&#xff0c;每按下一个按键时&#xff0c;所对应的 LED 点亮&#xff0c;音符进行显示。 具体要求如下&#xff1a; &…

zabbix server client 安装配置

Zabbix Server 采用源码包部署&#xff0c;数据库采用 MySQL8.0 版本&#xff0c;zabbix-web 使用 nginxphp 来实现。具体信息如下&#xff1a; 软件名 版本 安装方式 Zabbix Server 6.0.3 源码安装 Zabbix Agent 6.0.3 源码安装 MySQL 8.0.28 yum安装 Nginx 1.20…

淀山湖之行随笔

我们仰望清新&#xff0c;但又不得不被世俗所伴。 近日上海开始进入梅雨季节&#xff0c;每天大大小小的雨水不断&#xff0c;整个环境也格外的潮湿&#xff0c;不过已经逐渐习惯这种气候&#xff0c;所谓的见怪不怪。 今日是周日&#xff0c;思绪好久&#xff0c;准备去淀山湖…

贪心问题(POJ1700/1017/1065)(C++)

一、贪心问题 贪心算法 贪心算法&#xff08;greedy algorithm&#xff09;&#xff0c;是用计算机来模拟一个「贪心」的人做出决策的过程。这个人十分贪婪&#xff0c;每一步行动总是按某种指标选取最优的操作。而且他目光短浅&#xff0c;总是只看眼前&#xff0c;并不考虑…

【mysql死锁】示例 和讨论 “SHOW ENGINE INNODB STATUS“

文章目录 mysql 死锁死锁演示表结构如下 死锁查询mysql 详情命令行 SHOW ENGINE INNODB STATUS 如果 两个事务都是按照先更新1 再更新2的顺序去做更新 会发生死锁么&#xff1f;验证一下所以 如果顺序是一致的 不会产生死锁 只会进行等待 防止mysql 死锁的方式优化sql 自行顺序…

(2024,DDPM,DDIM,流匹配,SDE,ODE)扩散:基础教程

Step-by-Step Diffusion: An Elementary Tutorial 公和众与号&#xff1a;EDPJ&#xff08;进 Q 交流群&#xff1a;922230617 或加 VX&#xff1a;CV_EDPJ 进 V 交流群&#xff09; 目录 0 前言 1 扩散的基础知识 1.1 高斯扩散 1.2 抽象中的扩散 1.3 离散化 2 随机采样…

React 打包时如何关闭源代码混淆

React 开发中&#xff0c;使用 npm build 命令进行生产代码打包&#xff0c;为了压缩代码并尽量保证代码的安全性&#xff0c;React 打包时会代码进行压缩和混淆&#xff0c;但是有时我们需要 debug 生产环境的源代码&#xff0c;例如当我们调试 SSR 的项目时&#xff0c;需要禁…

业务模型扩展字段存储

构建业务模型时&#xff0c;通常模型会设置扩展信息&#xff0c;存储上一般使用JSON格式存储到db中。JSON虽然有较好的扩展性&#xff0c;但并没有结构化存储的类型和非空等约束&#xff0c;且强依赖代码中写入/读取时进行序列化/反序列化操作&#xff0c; 当扩展信息结构简单且…

SpringMVC(1)——入门程序+流程分析

MVC都是哪三层&#xff1f;在Spring里面分别对应什么&#xff1f;SpringMVC的架构是什么&#xff1f; 我们使用Spring开发JavaWeb项目&#xff0c;一般都是BS架构&#xff0c;也就是Browser&#xff08;浏览器&#xff09;-Server&#xff08;服务器&#xff09;架构 这种架构…

JVM(12):虚拟机性能分析和故障解决工具之JConsole

1 JConsole作用 查看Java应用程序的运行概况&#xff0c;监视垃圾收集器管理的虚拟机内存(堆和元空间)的变化趋势&#xff0c;以及监控程序内的线程。 2 使用说明 代码如下&#xff1a; package com.example.demo;import java.io.IOException; import java.util.ArrayList; …

AliyunOS安装Node.js

方法1&#xff1a;dnf软件包安装工具自动安装 最方便的安装方式是通过系统的dnf工具&#xff0c;我测试使用的AliyunOS的版本是Alibaba Cloud Linux 3.2104&#xff0c;具体流程如下&#xff1a; dnf module list nodejs #列出服务器中可以使用的所有nodejs版本确定下来希望安…

[Ant Design Vue 树控件Tree]内存溢出报错

使用ant design vue控件时发现报错&#xff0c;但是数据展示时没有问题的&#xff1b; 具体报错信息&#xff1a;Maximum call stack size exceeded 经排查&#xff0c;是我的目录下数据过多&#xff0c;差不多有小一万的数据&#xff1b; 查看官方文档&#xff0c;使用虚拟滚…

50-4 内网信息收集 - 本机信息收集

一、内网信息收集 内网信息收集可以从以下几个方面进行:本机信息收集、域内信息收集、内网资源探测等。通过这些步骤,我们可以全面了解当前主机的角色和所处内网的拓扑结构,从而选择更合适、更精准的渗透方案。 二、本机基础信息收集 在本机基础信息收集阶段,可以执行以下…