Python 与数据科学实验（Exp9）

Python 与数据科学实验（Exp9）

news2026/2/11 6:18:29

实验9 多分类手写数字识别实验

1.实验数据

（1）训练集

所给数据一共有42000张灰度图像（分辨率为28*28），目前以train_data.csv文件给出. 图像内容涵盖了10个手写数字0-9。图像示例如图所示：

train_data.csv文件前10行如图

（训练集文件前10行数据，label列表示数字的值，pixel0到pixel783是像素灰度值）

原始数据以CSV格式给出，每一行为一幅图片，其中第一列为数字值，其余为该幅图片的像素灰度值。请注意，一般就识别问题而言，对于图像可能需要将不同图片的灰度值范围做标准化处理，如使得每一张图片的灰度值范围都相同。而我们所给数据尚未完成这个步骤。

（2）测试集

另有1000条未知标签的测试数据图片（分辨率也为28*28），保存在“test_data.csv”文件中。每一行为给定图片的灰度值，而每张图片代表的数值待建模识别。

2.实验目的

(1)设计样本的特征向量，具备一定的特征工程能力。如可以考虑对图片像素点的灰度值进行降维等处理（PCA等）；

(2)利用机器学习分类算法，基于训练集训练出手写数字识别的分类器模型；

(3)进而将构建好的分类器模型应用于测试集，给出全体未知标签样本的分类结果。

3.实验思路

(1)在附录中给出了可视化的一个例程（render.py，请把该程序和数据文件train_data

.csv放在同一文件夹下测试），可以从该程序中学习下数据的读取方法。

(2)具体的机器学习算法不限，以预测效果最佳为目标，追求准确率越高越好；可以尝试多种学习模型的集成。

(3)针对所给图像的灰度值进行数据变换、降维等特征工程相关预处理，实现方法不限。

(4)多分类的分类器请自学，如可以采用KNN，GNB，Logistic Regression，决策树，svm的SVC（from sklearn.svm import SVC）等

4. 实验要求

(1)将预测结果保存在名为“preds.txt”的文本文件中，内容为1000行，每一行只有0-9数字中的一个数字，代表你的算法对测试数据的预测结果。预测数据顺序须与测试集“test_data.csv”中的样本顺序保持一致。

(2)将结果文件“preds.txt”和代码打包，以附件形式提交至学习通，无需提交本次实验报告文件。

(3)本次实验成绩评定采用竞赛机制。由于本次实验为多分类问题，我们将计算每位同学预测结果的准确率，然后由高到低进行排序评定相应的实验成绩。

注：准确率(accuracy)是指分类正确的测试样本数占总测试样本数的比例。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/529640.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

算法（一）—— 回溯（4）困难题

算法（一）—— 回溯（4）困难题

文章目录 1 37 解数独2 51 N 皇后 1 37 解数独首先明确需要两个for循环，这样才可以遍历整个9*9的表。此题数字的选取逻辑再次展现了回溯的暴力性。此题需要拥有返回值，与数据结构（六）—— 二叉树（5）中…

阅读更多...

物联网和云计算：如何将设备数据和云端服务相结合

物联网和云计算：如何将设备数据和云端服务相结合

第一章：引言物联网和云计算是当今IT领域中的两个重要概念，它们的结合为企业和个人带来了巨大的机遇和挑战。物联网通过连接各种设备和传感器，实现了设备之间的互联互通，而云计算则提供了强大的计算和存储能力。本文将深入探讨如何…

阅读更多...

MySQL学习（基础篇1.0）

MySQL学习（基础篇1.0）

MySQL概述（基础） SQL 全称Structured Query Language,结构化察浑语言。操作关系型数据库的编程语言，定义了一套操作关系型数据库的统一标准。 SQL通用语法 SQL语言的统统用语法： SQL语句可以单行或多行书写，以分号…

阅读更多...

论文阅读|基于图神经网络的配电网故障定位方法

论文阅读|基于图神经网络的配电网故障定位方法

来源：北京交通大学硕士学位论文，2022 摘要电网拓扑形态多样，重构场景频繁，，传统故障定位方法的单一阈值设定无法满足要求，基于人工智能的配电网故障定位技术具有很大的应用潜力，但仍存在着拓…

阅读更多...

HTML概述及常用语法

HTML概述及常用语法

什么是 HTML HTML 用来描述网页的一种语言 HTML -- hyper text markup language 超文本标记语言超文本包括：文字、图片、音频、视频、动画等等标记语言：是一套标记标签， HTML 使用标记标签来描述网页 <> HTML 发展史 HTML5 …

阅读更多...

Web基础 ( 二 ) CSS

Web基础 ( 二 ) CSS

2.CSS 2.1.概念与基础 2.1.1.什么是CSS Cascading Style Sheets 全称层叠样式单简称样式表。是告诉浏览器如何来显示HTML的元素的特殊标记 2.1.2.编写方式 2.1.2.1.外部文件在html文件的<head>中加入<link>结点来引入外部的文件 <link rel"stylesh…

阅读更多...

Go Wails Docker图形界面管理工具 (5)

Go Wails Docker图形界面管理工具 (5)

文章目录 1. 前言2. 效果图3. 代码 1. 前言接上篇，本次添加Docker存储卷功能待优化: 优化分页效果添加存储卷大小查看功能 2. 效果图 3. 代码直接调用官方库 app.go func (a *App) VolumeList() ([]*volume.Volume, error) {resp, err : Cli.VolumeList(context…

阅读更多...

Linux中关于时间修改的命令

Linux中关于时间修改的命令

目录 Linux中关于时间修改的命令 data命令语法格式示例 date命令中的参数以及作用常用格式示例 timedatectl命令语法格式 timedatectl 命令中的参数以及作用常用格式 Linux中关于时间修改的命令 data命令 data --- 用于显示或设置系统的时间与日期用户只需在强…

阅读更多...

干货丨警惕！14个容易导致拒稿的常见错误

干货丨警惕！14个容易导致拒稿的常见错误

Hello,大家好！ 这里是壹脑云科研圈，我是喵君姐姐~ 从做研究、到写论文、再到投稿，每一步都是巨大的挑战。以下列举了一些在这些过程中可能导致拒稿的常见错误，希望能帮助大家避开。 01 格式问题 1.没有遵守投稿须知期刊提供了…

阅读更多...

oracle基于时间点恢复遇到ORA-10877错误

oracle基于时间点恢复遇到ORA-10877错误

一次给客户进行基于时间点恢复的时候,出现报错ORA-10877,如下: 这里很奇怪,这个归档日志有的,当前全库的备份是05-14 23点的,所以应该是可以恢复的,检查一下alter日志: 这里报错,指定的时间scn不属于当前的incarnation,那么检查一下当前的incarnation: 这里当前的incarnation是…

阅读更多...

Linux实操篇---常用的基本命令3（用户(组)管理命令、文件权限类、搜索查找类、压缩解压类）

Linux实操篇---常用的基本命令3（用户(组)管理命令、文件权限类、搜索查找类、压缩解压类）

一、用户管理命令 Linux是一个多用户，多任务的分时操作系统。甚至有可能同时登录，同时操作。所以给用户不同的账号。 useradd添加新用户基本语法： 只能用root进行操作。 useradd 用户名添加新用户 useradd -g 组名用户名添加新用…

阅读更多...

MyBatis Plus 代码生成器

MyBatis Plus 代码生成器

一、引入POM依赖 <dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-boot-starter</artifactId><version>3.5.3.1</version></dependency><dependency><groupId>com.baomidou</groupId&g…

阅读更多...

3ds Max云渲染平台哪个好？

3ds Max云渲染平台哪个好？

3ds Max云渲染平台哪个好？ 3ds Max是一款包含建模、动画、粒子动力学等强大功能的三维动画制作软件，3ds Max对特定如游戏建模、特效制作、产品模型设计等领域都具备了过硬的专业能力，同时3ds Max也是很多CGer青睐的CG软件。作为支持3ds Ma…

阅读更多...

黑马Redis笔记高级篇 | Redis最佳实践

黑马Redis笔记高级篇 | Redis最佳实践

黑马Redis笔记高级篇 | Redis最佳实践 1、Redis键值设计1.1、优雅的key结构1.2、拒绝BigKey1.3、恰当的数据类型1.4、总结 2、批处理优化1.1、Pipeline1.2、集群下的批处理 3、服务端优化3.1、持久化配置3.2、慢查询3.3、命令及安全配置3.4、内存配置 4、集群最佳实践 1、Redis…

阅读更多...

深度学习用于医学预后-第二课第三周14-15节-评估方法比较以及Kaplan-Meier估计

深度学习用于医学预后-第二课第三周14-15节-评估方法比较以及Kaplan-Meier估计

评估对比我们现在对 t25 的生存率得出了一个新的估计值，为0.56。现在，让我们将其与之前所做的估计进行比较。当我们假设所有患者在他们截尾时间立即死亡时，我们获得了一个低生存概率为0.29。而在另一极端，如果我们假设他们永久…

阅读更多...

LeetCode 周赛 345（2023/05/14）体验一题多解的算法之美

LeetCode 周赛 345（2023/05/14）体验一题多解的算法之美

本文已收录到 AndroidFamily，技术和职场问题，请关注公众号 [彭旭锐] 提问。往期回顾：LeetCode 双周赛第 104 场流水的动态规划，铁打的结构化思考周赛概览 T1. 找出转圈游戏输家（Easy） 标签&#xff…

阅读更多...

微信小程序入门02-安装mysql

微信小程序入门02-安装mysql

我们上一篇介绍的是微信开发者工具的安装，开发一个小程序肯定要有后端服务，有后端服务首先要可以存储和查询数据。数据库种类比较多，我们这里选择mysql，为啥选择这个呢，因为首先用的人多比较稳定，再一个免…

阅读更多...

MapReduce:Index索引案例

MapReduce:Index索引案例

案例需求 a.html hello world hello lucy hello jack hello liuyan b.html hello aaa aaa bbb bbb ccc hello liuyan liuyan tangyan c.html world hello liuyan tangyan tangyan aaa bbb ccc 计算每个单词在每个文件中出现的次数 aaa b.html-2 c.html-1 bbb b.h…

阅读更多...

文本三剑客awk

文本三剑客awk

awk 工作原理： 逐行读取文本，默认以空格或tab键为分隔符进行分隔，将分隔所得的各个字段保存到内建变量中，并按模式或者条件执行编辑命令。 sed命令常用于一整行的处理，而awk比较倾向于将一行分成多个“字段”然后再进…

阅读更多...

Visual Studio Code 插件的开发、调试及发布完整详细教程

Visual Studio Code 插件的开发、调试及发布完整详细教程

本篇文章主要讲解：Vscode的拓展插件，从环境安装到生成项目文件再到调试及部署发布的完整开发教程。日期：2023年5月10日 vscode 1.78.1 一、准备node环境及安装yo 项目初始化，优先安装yo、再通过yo创建code及插件项目。基础条件需要先安装node，且node环境已经正确安装…

阅读更多...

推荐文章

最新文章