机器学习 - 准备数据

news2025/1/15 23:39:46

“Data” in machine learning can be almost anything you can imagine. A table of big Excel spreadsheet, images, videos, audio files, text and more.

机器学习其实可以分为两部分

  1. 将不管是什么data,都转成numbers.
  2. 挑选或者建立一个模型来学习这些numbers as best as possible.

下面是代码展示,创建一个straight line data

import torch 
from torch import nn  # nn: neural networks. This package contains the building blocks for creating neural networks 
import matplotlib.pyplot as plt 

# Create linear regression parameters
weight = 0.7
bias = 0.3 

# Create data 
start = 0
end = 1
step = 0.02 
X = torch.arange(start, end, step).unsqueeze(dim=1)  # X is features
y = weight * X + bias   # y is labels
print(X[:10])
print(y[:10])

# 结果如下
tensor([[0.0000],
        [0.0200],
        [0.0400],
        [0.0600],
        [0.0800],
        [0.1000],
        [0.1200],
        [0.1400],
        [0.1600],
        [0.1800]])
tensor([[0.3000],
        [0.3140],
        [0.3280],
        [0.3420],
        [0.3560],
        [0.3700],
        [0.3840],
        [0.3980],
        [0.4120],
        [0.4260]])

将上面获取到的数据进行拆分,每部分数据带有不同的意思。

SplitPurposeAmount of total dataHow often is it used?
Training setThe model learns from this data (like the course materials you study during the semester)~60-80%Always
Validation setThe model gets tuned on this data (like the practice exam you take before the final exam).~10-20%Often but not always
Testing setThe model gets evaluated on this data to test what it has leanred (like the final exam you take at the end of the semester).~10-20%Always

When dealing with real-world data, this step is typically done right at the start of a project (the test set should always be kept separate from all other data). Let the model learn on training data and then evaluate the model on test data to get an indication of how well it generalizes to unseen examples.

下面是代码。

# Create train/test split 
train_split = int(0.8 * len(X))
X_train, y_train = X[:train_split], y[:train_split]
X_test, y_test = X[train_split:], y[train_split:]

# Learn the relationship between X_train and y_train
print(f"X_train length: {len(X_train)}")
print(f"y_train length: {len(y_train)}")
# Learn the relationship between X_test and y_test
print(f"X_test length: {len(X_test)}")
print(f"y_test length: {len(y_test)}")

# 输出如下
X_train length: 40
y_train length: 40
X_test length: 10
y_test length: 10

通过将各个数字显示出来,更直观

plt.figure(figsize=(10, 7))

# s 代表是散点的大小
plt.scatter(X_train, y_train, c="b", s=4, label="Training data")
plt.scatter(X_test, y_test, c="r", s=4, label="Testing data")

plt.legend(prop={"size": 14})
plt.show()

结果如图
都看到这了,给个赞呗~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1530720.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

移远通信,开启透明天线中的“创新密码”

近日,全球领先的物联网整体解决方案供应商移远通信正式对外宣布,其以远远领先行业的速度推出前沿技术成果——5G透明天线。该天线主体选用透明薄膜材质,具有性能优、重量轻、尺寸灵活、透明度高、环境融合度好等优势,特别适用于智…

ideaSSM 工程车辆人员管理系统bootstrap开发mysql数据库web结构java编程计算机网页源码maven项目

一、源码特点 idea 开发 SSM 工程车辆人员管理系统是一套完善的信息管理系统,结合SSM框架和bootstrap完成本系统,对理解JSP java编程开发语言有帮助系统采用SSM框架(MVC模式开发),系统具 有完整的源代码和数据库&…

蓝桥杯练习03个人博客

个人博客 介绍 很多人都有自己的博客,在博客上面用自己的方式去书写文章,用来记录生活,分享技术等。下面是蓝桥云课的博客,但是上面还缺少一些样式,需要大家去完善。 准备 开始答题前,需要先打开本题的…

SPI读写学习

走到初衷使用STM32的地方,例子是读写W25Q,但是手上没有25Q,只有一个SPI接口的SD卡。在UNO上已经实验OK,线接好后,发现SD卡里有个寄存器转换表,跟例子的SPI接口不一样,要改的太多。 u32 SPI_FLAS…

修复打印机不能打印的10种方法,总有一种适合你

前言 技术有时很奇怪,我们可以用声音控制恒温器,但有时打印机会像15年前一样令人困惑和不可靠。如果打印机向你抛出错误(或完全忽略你的要求),可能有许多原因。 不幸的是,仅仅找出问题才成功一半,另一半是解决方案,它将使你的打印机重新工作。下面是如何解决问题的方…

CTF题型 php反序列化进阶(1) php原生类 例题和总结

CTF题型 php反序列化进阶(1) php原生文件操作类 例题和总结 文章目录 CTF题型 php反序列化进阶(1) php原生文件操作类 例题和总结特征原理 我们可以通过PHP自身本来就有的类来进行文件操作扫描目录的三个类DirectoryIterator(支持glob://协议)FilesystemIterator(继…

【黑马头条】-day01环境搭建SpringBoot-Cloud-Nacos

文章目录 1 环境搭建及简介2 项目介绍2.1 应用2.2 业务说明2.3 技术栈2.4 收获2.5 大纲 3 Nacos准备3.1 安装Nacos 4 初始工程搭建4.1 环境准备4.1.1 导入项目4.1.2 设置本地仓库4.1.3 设置项目编码格式 4.2 全局异常4.2.1 自动装配 4.3 工程主体结构 5 登录功能开发5.1 需求分…

关于《动手学深度学习》找不到d2l.......和#@save的思考

在运行书上的代码时,会出现报错。 最后通过简单粗暴的方法解决了这个问题,在此记录一下。 一、#save是什么 # 表明是注释,所以这句话对代码没有影响,只是一个“标识”,表明在d2l文档中,作者已经写好了这…

实用翻译英语的Chrome插件

工作中,时常需要阅读网页技术文档,阅读英语技术论文,对翻译的需求很迫切; Chrome默认的翻译比较呆板; 这边推介更加智能的双语翻译,同时支持pdf翻译,下载地址: https://chrome.goo…

设计模式之简单工厂模式详解

简单工厂模式 工厂模式:工厂方法模式; 低阶:简单工厂模式; 高阶:抽象工厂模式; 1)概述 定义一个工厂类,根据参数的不同返回不同类的实例,被创建的实例通常都具有共同…

设备安全与设备管理系统的融合发展之路

随着企业运营的不断复杂化和市场竞争的加剧,设备安全与设备管理系统的融合发展已经成为企业追求卓越运营、实现持续发展的必经之路。这种融合不仅提升了设备的安全性,更提高了设备管理的效率与精准度,为企业的整体运营奠定了坚实基础。 一、设…

华为机试真题练习汇总(81~90)

华为机试真题练习汇总(81~90) 华为机试真题练习汇总(81~90)HJ81 字符串字符匹配** HJ82 将真分数分解为埃及分数HJ83 二维数组操作HJ84 统计大写字母个数HJ85 最长回文子串HJ86 求最大连续bit数HJ87 密码强度等级* HJ88 扑克牌大小…

Go语言实战:深入掌握标准库flag的强大用法

Go语言实战:深入掌握标准库flag的强大用法 引言flag库基础命令行参数的基本概念使用flag库定义和解析命令行参数处理非选项命令行参数小结 高级用法自定义Flag的解析命令行参数的分组和嵌套小结 实战技巧组织复杂命令行应用的参数错误处理和用户帮助信息调试命令行应…

PHP 服务实现监控可观测性最佳实践

前言 本次实践主要是介绍 PHP 服务通过无侵入的方式接入观测云进行全面的可观测。 环境信息 主机环境:CentOS 7.8PHP:7.4.33MySQL:5.7 接入方案 准备工作 安装 DataKit # 需要把token 改成观测云空间的实际token值(可在观测…

G*T、文心一言微信 AI 机器人的时代已经来临!

前言 在当今的科技时代,人工智能(AI)的发展速度可谓是日新月异。其中,自然语言处理(NLP)领域的模型,如 G*T、文心一言等,已经成为了 AI 领域的主流。不仅如此,将 AI 接入…

铸铁平台制造工艺有多精细你知道吗——河北北重

铸铁平台的制造工艺要求相对较高,需要经过以下精细工艺: 材料选择:铸铁平台通常使用灰口铸铁,其具有良好的耐磨性和强度。材料的选择要考虑到使用环境和平台的功能需求。 模具制造:根据设计要求制作模具,模…

算法---二分查找练习-3(山脉数组的顶峰索引)

山脉数组的顶峰索引 1. 题目解析2. 讲解算法原理3. 编写代码 1. 题目解析 题目地址&#xff1a;点这里 2. 讲解算法原理 初始化两个指针 left 和 right&#xff0c;分别指向数组的起始位置和结束位置。 进入循环&#xff0c;循环条件为 left < right。 在每次循环中&…

全平台(淘宝1688京东)商品详情API接口(item_get-获得全平台商品详情接口)

全平台商品详情API接口&#xff08;item_get-获得全平台商品详情接口&#xff09;&#xff0c;全平台API接口可获取到商品链接&#xff0c;商品ID&#xff0c;商品标题&#xff0c;商品价格&#xff0c;品牌名称&#xff0c;店铺昵称&#xff0c;sku规格&#xff0c;sku属性&am…

自注意力机制的理解

一、自注意力要解决什么问题 循环神经网络由于信息传递的容量以及梯度消失问题&#xff0c;只能建立短距离依赖关系。为了建立长距离的依赖关系&#xff0c;可以增加网络的层数或者使用全连接网络。但是全连接网络无法处理变长的输入序列&#xff0c;另外&#xff0c;不同的输…

【Android】【Bluetooth Stack】蓝牙电话本协议之同步通讯录分析(超详细)

1. 精讲蓝牙协议栈&#xff08;Bluetooth Stack&#xff09;&#xff1a;SPP/A2DP/AVRCP/HFP/PBAP/IAP2/HID/MAP/OPP/PAN/GATTC/GATTS/HOGP等协议理论 2. 欢迎大家关注和订阅&#xff0c;【蓝牙协议栈】专栏会持续更新中.....敬请期待&#xff01; 目录 1. 协议简述 1.1 PBAP…