【机器学习实战1】泰坦尼克号:灾难中的机器学习(一)数据预处理

【机器学习实战1】泰坦尼克号:灾难中的机器学习(一)数据预处理

news2026/2/14 4:14:01

🌸博主主页：@釉色清风
🌸文章专栏：机器学习实战
🌸今日语录：不要一直责怪过去的自己，她曾经站在雾里也很迷茫。

🌼实战项目简介

本次项目是kaggle上的一个入门比赛：Titanic——Machine Learning from Disaster(泰坦尼克号——灾难中的机器学习)，比赛选择了泰坦尼克号作为背景，并提供了样本数据以及测试数据，要求我们使用机器学习创建一个模型，预测哪些乘客在泰坦尼克号沉船中幸存下来。

🌼数据文件说明

🌻泰坦尼克号项目页面：Titanic——Machine Learning from Disaster

🌻可下载的Data页面：

可下载包括三个文件：

train.csv：训练数据
test.csv：测试数据
gender_submission.csv ：提交结果案例

🌻数据变量说明

下载好文件，可知，每个乘客有12个属性。

Passengerld ：乘客唯一识别ID
Survived：是否存活，0为否，1为是
Pclass ：客舱等级，分为1、2、3等级，与英国的阶级分层有关
Name：姓名
Sex：性别
Age：年龄
SibSp：泰坦尼克号上的兄弟姐妹/配偶数量(与该乘客一起旅行的)
Parch：泰坦尼克号上的父母/孩子数量(与该乘客一起旅行的)
Ticket：船票号
Fare：船票价格
Cabin：客舱编号
Embarked：上船的港口编号(S=Southampton,英国南安普顿[启航点]；C=Cherbourg,法国瑟堡市[途径点]；Q=Quenstown,爱尔兰昆市[途径点])

🌼数据预处理

数据的质量直接决定模型预测的结果。所以，在进行训练模型之前，我们必须要进行数据清洗。
接下来我们使用Jupyter Notebook来进行接下来的数据描述和预处理。

🌻读入数据

首先，我们导入pandas库，它是python中进行数据分析和处理的一个库。然后我们读入我们的训练数据集。

🌾导入数据

🌾打印数据的前几行

默认是打印前五行，如下：

🌻做简单的统计分析

统计特性如下：

统计有

count: 这一列的数量(只要不是缺失值就被统计)
mean:平均值
std : 方差
min：最小值
25%：下四分位数
50%：中位数
75%：上四分位数
max: 最大值

通过大致的浏览，我们可以看到，Age列含有缺失值。

🌻对[Age]列缺失值进行填充

一般对于缺失值的填充用到均值、中位数等。在这里，我们采用均值对Age列的缺失值进行填充。在填充缺失值这里我们用到了fillna函数。

🌾fillna函数

fillna是一个用于填充缺失值的函数，它是pandas库中的一个方法。
fillna函数的基本语法如下：
DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)

🌾对[Age]列的缺失值采用均值填充法填充

填充完之后，我们再次describe。

如下图：

🌻将字符型转化为数值型数据

我们知道，计算机是可以处理数字的，但是无法处理字符。为了方便统计，我们将性别[Sex]和上船港口编号[Embarked]这两列列进行处理。

🌾对[Age]列进行替换

我们在这里用到DataFrame的loc属性：

在Python中，loc是一个用于数据框(DataFrame)的属性，它用于选择满足特定条件的行。loc可以通过标签或布尔数组来选择行。
常见的用法有：
1. 使用标签选择行：
  df.loc[label]
  2.使用布尔数组选择行：
  df.loc[bool_array]
  3.使用标签和列选择行和列：
  df.loc[start_label:end_label, start_column:end_column]

这里我们则采用3进行替换：

🌾对[Embarked]列进行替换

替换：

然后我们进行统计新描述，发现中的数量889，存在从缺失值。

这时，我们对三个登船地点进行统计计数。发现0是最多的，即在S处登船的人最多。

所以对于缺失值，我们将用0进行填充。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1480272.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

QML中动态表格修改数据

QML中动态表格修改数据

1.qml文件中的实现代码 import QtQuick 2.15 import QtQuick.Window 2.15import QtQuick.Controls 2.0 import Qt.labs.qmlmodels 1.0 import QtQuick.Layouts 1.15Window {width: 640height: 480visible: truetitle: qsTr("Hello World")TableModel{id:table_model…

阅读更多...

Freesia项目目录结构

Freesia项目目录结构

目录结构前端目录： （目录结构来自layui-vue-admin） src文件下 api（前端请求后端服务的路由）assert（一些内置或必要的资源文件）layouts（全局框架样式组件）router&…

阅读更多...

Facebook的数字治理挑战：社交平台的未来模式

Facebook的数字治理挑战：社交平台的未来模式

在当今数字化时代，社交媒体平台已经成为人们日常生活的重要组成部分，而Facebook作为其中最具代表性的平台之一，其承载的社交功能和影响力已经不可小觑。然而，随着社交媒体的普及和发展，一系列数字治理挑战也随之而来&a…

阅读更多...

git项目推荐 maku-boot低代码开发项目推荐

git项目推荐 maku-boot低代码开发项目推荐

介绍项目项目仓库地址官方gitee,这是他的官网用于做二次开发的脚手架在合适不过后端框架采用 springboot3,security6,Mybatisplus2,jdk,各种oss的集合,判断ip地址等监控,用来作为源码学习和二次开发都是很好的教材代码基本都是mvc的二次封装,便于理解代码模块启…

阅读更多...

初学JavaWeb开发总结

初学JavaWeb开发总结

0 什么是Web开发 Web: 全球广域网，又称万维网(www World Wide Web)，能够通过浏览器访问的网站。 Web开发，就是开发网站的，如：淘宝、京东等等。 1 网站的工作流程流程： 浏览器先向前端服务器请求前端资…

阅读更多...

李修思将出席工业循环水节水减排提标降碳新技术推广及应用

李修思将出席工业循环水节水减排提标降碳新技术推广及应用

演讲嘉宾：李修思技术总监山东海能环境技术有限公司演讲题目：工业循环水节水减排提标降碳新技术推广及应用会议简介 “十四五”规划中提出，提高工业、能源领城智能化与信息化融合，明确“低碳经济”新的战略目标，…

阅读更多...

Axure导入使用ElementUI组件库

Axure导入使用ElementUI组件库

在使用Axure进行UI设计时，我们可能导入ElementUI组件库或者一些其他的元件库，其实非常简单，如果你还没有装好Axure可以先安装好AxureRP9汉化版，接下来，我们以AxureRP9汉化版来演示如何导入ElementUI组件库。第一步&a…

阅读更多...

搭建LNMP环境并搭建论坛和博客

搭建LNMP环境并搭建论坛和博客

目录一、LNMP架构原理二、编译安装Nginx 三、编译安装MySQL 四、编译安装PHP 五、配置Nginx支持PHP解析六、安装论坛七、安装博客一、LNMP架构原理 LNMP架构，是指在Linux平台下，由运行Nginx的web服务器，运行PHP的动态页面解析程序…

阅读更多...

光伏储能MPPT控制系统如何进行浪涌静电保护？

光伏储能MPPT控制系统如何进行浪涌静电保护？

MPPT（Maximum Power Point Tracking）是太阳能电池板光伏发电系统中重要的一种控制技术。MPPT控制器能够实时侦测太阳能板的发电电压，并追踪最高电压电流值（VI），使系统以最大功率输出对蓄电池充电&#xff0…

阅读更多...

Sophon AutoCV推动AI应用从模型生产到高效落地

Sophon AutoCV推动AI应用从模型生产到高效落地

随着技术市场和应用方向的逐渐成熟，人工智能与各行各业的结合和落地逐渐进入了深水区。虽然由于行业规模化和应用普及度的限制，人工智能在“传统”行业的落地不如消费互联网行业，但是借助人工智能为“传统”行业的发展注入新能量一直是相关…

阅读更多...

5_怎么看原理图之协议类接口之NAND Flash笔记

5_怎么看原理图之协议类接口之NAND Flash笔记

NAND Flash原理图： 由NAND Flash的原理图可以看出，做为一个存储芯片，只有I/O引脚，并没有地址引脚，怎么传地址？遵循一定的规范，先通过LDATA把地址传出去，再传数据。具体的需要查看芯片…

阅读更多...

Premiere Pro 2022

Premiere Pro 2022

Premiere Pro 2022是一款功能强大的视频编辑软件，适用于电影、电视和网络等各种类型的视频制作。它提供了丰富的剪辑、调色、音效和字幕等工具，帮助用户快速完成视频素材的剪辑和后期处理。同时，Premiere Pro 2022还支持多平台编辑和与其他Ad…

阅读更多...

#LLM入门|Prompt#2.2_ AI 应用开发的范式_Language_Models，the_Chat_Format_and_Tokens

#LLM入门|Prompt#2.2_ AI 应用开发的范式_Language_Models，the_Chat_Format_and_Tokens

在本章中，我们将和您分享大型语言模型（LLM）的工作原理、训练方式以及分词器（tokenizer）等细节对 LLM 输出的影响。我们还将介绍 LLM 的提问范式（chat format），这是一种指定系统消息…

阅读更多...

大象如何转身-苹果放弃10年领域

大象如何转身-苹果放弃10年领域

1.苹果放弃造车汽车作为普通家庭最贵的消费品之一，近些年很多手机厂商也纷纷下场造车，特别是去年华为、小米不约而同举行发布会。对于手机市场已经逐渐稳定了，这些手机大厂又开始瞄准汽车制造。加上之前燃油车厂商，汽车这个市场…

阅读更多...

（二十一）devops持续集成开发——使用jenkins的Docker Pipeline插件完成docker项目的pipeline流水线发布

（二十一）devops持续集成开发——使用jenkins的Docker Pipeline插件完成docker项目的pipeline流水线发布

前言本节内容会介绍如何使用Docker Pipeline插件实现docker项目的pipeline流水线项目的可持续化集成发布，在开始本节内容之前，我们要先搭建好docker环境，以及镜像本地存储仓库docker harbor，关于docker和docker harbor的安装，可查看作者往期博客内容。正文 ①安装Doc…

阅读更多...

【uniapp】小程序自定义一个通用的返回按钮组件

【uniapp】小程序自定义一个通用的返回按钮组件

左边箭头，右边文字可以自定义，但是不要太长，太长可以自己改 .back的width值，改宽一点。用这个组件的时候首先要在pages.json里把导航栏变成自定义的： ,{"path" : "pages/test/test","style&…

阅读更多...

力扣138.随机链表的复制

力扣138.随机链表的复制

给你一个长度为 n 的链表，每个节点包含一个额外增加的随机指针 random ，该指针可以指向链表中的任何节点或空节点。构造这个链表的深拷贝。深拷贝应该正好由 n 个全新节点组成，其中每个新节点的值都设为其对应的原节点的值。新节点的 n…

阅读更多...

刘志雄:新产品市场+新智造模式，构建“声音+”产业创新生态 | 演讲嘉宾公布

刘志雄:新产品市场+新智造模式，构建“声音+”产业创新生态 | 演讲嘉宾公布

随着科技的飞速发展，新技术、新的应用场景不断涌现，也影响着“声音”产业未来的发展方向。如何应对市场变化，满足市场的多样化需求？如何应用新产品市场、智造新模式去构造“声音”产业创新生态呢？请到GAS2024一探究竟。…

阅读更多...

阿里云突发：史上最大力度云服务器降价，优惠价格表来了

阿里云突发：史上最大力度云服务器降价，优惠价格表来了

2024年阿里云百款产品直降，平均降幅20%，不只是云服务器，也包括云数据库，云数据库涉及产品RDS（MySQL、PostgreSQL、MariaDB）、Redis社区版、MongoDB、ClickHouse社区兼容版。阿里云百科aliyunbaike.com分享阿…

阅读更多...

Python爬虫——Urllib库-1

Python爬虫——Urllib库-1

这几天都在为了蓝桥杯做准备，一直在刷算法题，确实刷算法题的过程是及其的枯燥且枯燥的。于是我还是决定给自己找点成就感出来，那么Python的爬虫就这样开始学习了。注：文章源于观看尚硅谷爬虫视频后笔记目录 Urllib库基本使…

阅读更多...

推荐文章

最新文章