Python 机器学习入门:数据集、数据类型和统计学

news2025/1/12 12:17:32

机器学习是通过研究数据和统计信息使计算机学习的过程。机器学习是迈向人工智能(AI)的一步。机器学习是一个分析数据并学会预测结果的程序。

数据集

在计算机的思维中,数据集是任何数据的集合。它可以是从数组到完整数据库的任何东西。

数组的示例:

[99,86,87,88,111,86,103,87,94,78,77,85,86]

数据库的示例:

Carname  Color  Age  Speed  AutoPass
BMW  red  5  99  Y
Volvo  black  7  86  Y
VW  gray  8  87  N
VW  white  7  88  Y
Ford  white  2  111  Y
VW  white  17  86  Y
Tesla  red  2  103  Y
BMW  black  9  87  Y
Volvo  gray  4  94  N
Ford  white  11  78  N
Toyota  gray  12  77  N
VW  white  9  85  N
Toyota  blue  6  86  Y

通过查看数组,我们可以猜测平均值可能在80到90之间,我们还能够确定最高值和最低值,但我们还能做什么?

通过查看数据库,我们可以看到最受欢迎的颜色是白色,而最老的车辆为17岁,但如果我们能够通过查看其他值来预测车辆是否具有AutoPass呢?

这就是机器学习的用途!分析数据并预测结果!

在机器学习中,通常需要处理非常大的数据集。在本教程中,我们将尽量让您尽可能容易地理解机器学习的不同概念,并使用易于理解的小型数据集。

数据类型

要分析数据,重要的是要知道我们正在处理的数据类型。

我们可以将数据类型分为三个主要类别:

  • 数值
  • 分类
  • 顺序

数值数据是数字,并且可以分为两个数值类别:

  1. 离散数据 - 限制为整数的数字。示例:汽车经过的数量。
  2. 连续数据 - 有无限值的数字。示例:物品的价格或大小。

分类数据是不能相互比较的值。示例:颜色值或任何是/否值。

顺序数据类似于分类数据,但可以相互比较。示例:学校成绩,其中A好于B等等。

通过了解数据源的数据类型,您将能够知道在分析数据时使用哪种技术。

您将在接下来的章节中了解更多有关统计学和数据分析的内容。

机器学习 - 均值、中位数、众数

在观察一组数字时,我们可以学到什么?

在机器学习(以及数学)中,通常有三个值引起我们的兴趣:

  • 均值 - 平均值
  • 中位数 - 中间值
  • 众数 - 出现最频繁的值

示例:我们已经记录了13辆车的速度:

speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]

这些速度的平均值、中间值和最常见的速度值是多少呢?

均值

均值是平均值。

要计算均值,找到所有值的总和,并将总和除以值的数量:

(99+86+87+88+111+86+103+87+94+78+77+85+86) / 13 = 89.77

NumPy模块有一个用于此目的的方法。了解有关NumPy模块的信息,请查看我们的NumPy教程。

示例:使用NumPy的mean()方法找到平均速度:

import numpy

speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]

x = numpy.mean(speed)

print(x)

中位数

中位数是排列所有值后位于中间的值:

77, 78, 85, 86, 86, 86, 87, 87, 88, 94, 99, 103, 111

在找到中位数之前,需要确保对数字进行排序。

NumPy模块有一个用于此目的的方法:

示例:使用NumPy的median()方法找到中间值:

import numpy

speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]

x = numpy.median(speed)

print(x)

如果中间有两个数字,将这些数字的总和除以2。

77, 78, 85, 86, 86, 86, 87, 87, 94, 98, 99, 103

(86 + 87) / 2 = 86.5

示例:使用NumPy模块:

import numpy

speed = [99,86,87,88,86,103,87,94,78,77,85,86]

x = numpy.median(speed)

print(x)

众数

众数是出现最频繁的值:

99, 86, 87, 88, 111, 86, 103, 87, 94, 78, 77, 85, 86 = 86

SciPy模块有一个用于此目的的方法。了解有关SciPy模块的信息,请查看我们的SciPy教程。

示例:使用SciPy的mode()方法找到出现最频繁的数字:

from scipy import stats

speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]

x = stats.mode(speed)

print(x)

最后

为了方便其他设备和平台的小伙伴观看往期文章:公众号搜索Let us Coding,或者扫描下方二维码,关注公众号,即可获取最新文章。

看完如果觉得有帮助,欢迎点赞、收藏关注

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1182494.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

3线SPI驱动 HX8347 TFT屏

老五家2.8寸屏,3线SPI驱动 前言 要知道屏幕的驱动芯片都小的惊人,想必是不会打上丝印的。从几百个引脚中判断哪个是哪个,想想就晕。 大佬们都太厉害了,看看PFC就知道屏幕的接线定义。一直好奇这种神技是怎么练成的。也尝试自己来…

Excel宏标记在所有工作表中标记关键字(以域名为例)并将结果输出到另一张Sheet

Excel宏标记在所有工作表中标记关键字(以域名为例)并将结果输出到另一张Sheet 因为我的需求是标记一组url,所以使用正则进行匹配,将匹配到的url标红,并将标记结果统计输出到新建的名为“标记结果”的Sheet中 效果如下: 统计页 …

jeecgboot vue3使用JAreaSelect地区选择组件时返回省市区的编码,如何获取到选择地区的文字

JAreaSelect文档地址:添加链接描述 当我们的BasicForm表单组件中使用选择省市区的JAreaSelect组件时,获取到的返回值是地区的编码,如“530304”这样子,但我在小程序中展示数据的时候需要明确的地址,如“云南省昆明市五…

WordPress主题 JustNews主题6.0.1(亲测首页不空白)

介绍 资源入口 需要用WordPress5.X版本 JustNews介绍:一款专为博客、自媒体、资讯类的网站设计开发的WordPress主题,自v3.0版开始支持自主研发的前端用户中心,不仅支持注册、登录、账户设置、个人中心等常用页面的添加,还可以上传…

wandb报错Network error (ProxyError), entering retry loop

解决方案:改成离线模式 import os import wandb os.environ[“WANDB_API_KEY”] ‘KEY’ os.environ[“WANDB_MODE”] “offline” 原因: 使用wandb在线模式运行代码,服务器是一边运行我们的代码一边向wandb官网上传我们的数据&#xff0…

如何使用Pyarmor保护你的Python脚本

目录 一、Pyarmor简介 二、使用Pyarmor保护Python脚本 1、安装Pyarmor 2、创建Pyarmor项目 3、添加Python脚本 4、配置执行环境 5、生成保护后的脚本 三、注意事项与未来发展 四、未来发展 五、总结 本文深入探讨了如何使用Pyarmor工具保护Python脚本。Pyarmor是一个…

Python和BeautifulSoup库的魔力:解析TikTok视频页面

概述 短视频平台如TikTok已成为信息传播和电商推广的重要渠道。用户通过短视频分享生活、创作内容,吸引了数以亿计的观众,为企业和创作者提供了广阔的市场和宣传机会。然而,要深入了解TikTok上的视频内容以及用户互动情况,需要借…

SpringSecurity6 | 委派筛选器代理和过滤器链代理

✅作者简介:大家好,我是Leo,热爱Java后端开发者,一个想要与大家共同进步的男人😉😉 🍎个人主页:Leo的博客 💞当前专栏: Java从入门到精通 ✨特色专栏&#xf…

世微 AP2400 宽电压降压恒流驱动IC 过EMC认证线路方案

产品描述 AP2400 是一款 PWM 工作模式,外围简单、外驱功率管,适用于 5-100V 输入的高精度降压 LED 恒流驱动芯片。外 驱 MOS,输出电流可达 6A。 AP2400 可实现三段功能切换,通过 MODE1/2/3 切换三种功能模式:全亮, 半亮…

电子式电表和智能电表哪个更适合家用?

随着科技的发展,家用电力设备也在不断升级。电子式电表和智能电表作为两种常见的电表类型,究竟哪个更适合家用呢?今天,小编将会从多个角度进行全面分析,帮助大家做出明智的选择。 一、工作原理及准确性比较 1.电子式电…

vue 点击滑动到页面指定位置(点击下滑滚动)的功能

需求 点击页面上的 文字 滑动到页面指定位置 三种方法 document.getElementById(show).scrollIntoView() // 默认滚动至节点置顶document.getElementById(show).scrollIntoView(false) // 默认滚动至节点显示document.getElementById(show).scrollIntoView({ behavior: &quo…

【电路笔记】-并联RLC电路分析

并联RLC电路分析 文章目录 并联RLC电路分析1、概述2、AC的行为3、替代配置3.1 带阻滤波器3.2 带通滤波器 4、总结 电子器件三个基本元件的串联行为已在我们之前的文章系列 RLC 电路分析中详细介绍。 在本文中,介绍了另一种称为并联 RLC 电路的关联。 在第一部分中&a…

MySQL事务机制,事务与并发

mysql应对并发设立了四种事务机制: READ UNCOMMITEDREAD COMMITZEDREPEATABLE READSERIALIZABLE 以上按照串行程度排序 READ UNCOMMITED只要有人修改,我都能读到,不论是不是commited,但这有问题,万一A修改了&#xf…

钓鱼识别视频AI算法,让智慧水务更上一层楼

智慧水务已经成为现代水务行业的发展趋势,通过一系列的技术升级,实现智能化、高效化的水资源管理。其中,钓鱼识别视频AI算法的应用,更是为安全防线提供了强大的技术支持。本文将围绕智慧水务技术升级和钓鱼识别视频AI算法展开讨论…

考研顺序表的初始化、销毁、打印、封装、增删改查代码看这一篇就够了

目录 题目 头文件&#xff1a; SeqList.c 文件 销毁函数 封装函数&#xff0c;动态扩容 尾插法 打印函数 头插法 尾删法 头删法 指定位置插入 指定下标位置删除 按值查找下标 Test.c测试类 题目 // SeqList.h #pragma once #include <stdio.h> #include <…

不得不学的“职场高手秘籍”,有这3张表,做工作进度管理必备!

在职场中&#xff0c;进度管理是非常重要的一环&#xff0c;无论是完成自己的工作还是协调团队的工作&#xff0c;都需要对进度进行有效的管理&#xff0c;以确保工作能够顺利进行&#xff0c;达成既定目标。 工作进度表 工作管理/自动统计/图表分析/可编辑修改 在制定工作计划…

挑战100天 AI In LeetCode Day04(热题+面试经典150题)

挑战100天 AI In LeetCode Day04&#xff08;热题面试经典150题&#xff09; 一、LeetCode介绍二、LeetCode 热题 HOT 100-62.1 题目2.2 题解 三、面试经典 150 题-63.1 题目3.2 题解 一、LeetCode介绍 LeetCode是一个在线编程网站&#xff0c;提供各种算法和数据结构的题目&am…

11月15-19日,第二十五届高交会等你来

11月15—19日&#xff0c;第二十五届中国国际高新技术成果交易会&#xff08;以下简称“高交会”&#xff09;将在深圳会展中心&#xff08;福田展区&#xff09;和深圳国际会展中心&#xff08;宝安展区&#xff09;两馆同时举行。 本届高交会以“激发创新活力提升发展质量”…

【CSDN 每日一练 ★☆☆】【链表】删除排序链表中的重复元素

【CSDN 每日一练 ★☆☆】【链表】删除排序链表中的重复元素 链表 递归 题目 存在一个按升序排列的链表&#xff0c;给你这个链表的头节点 head &#xff0c;请你删除所有重复的元素&#xff0c;使每个元素 只出现一次 。 返回同样按升序排列的结果链表。 示例 示例 1&am…

如何给WSL2缩减硬盘(即减小虚拟大小)?

如何给WSL2缩减硬盘&#xff08;即减小虚拟大小&#xff09;&#xff1f; 1.软件环境⚙️&#x1f50d;2.问题描述&#x1f50d;&#x1f421;3.解决方法&#x1f421;&#x1f914;4.结果预览&#x1f914; 1.软件环境⚙️ Windows10 教育版64位 WSL 2 Ubuntu 20.04 &#x1f…