【机器学习实战1】泰坦尼克号:灾难中的机器学习(一)数据预处理

news2024/9/21 15:20:15
  • 🌸博主主页:@釉色清风
  • 🌸文章专栏:机器学习实战
  • 🌸今日语录:不要一直责怪过去的自己,她曾经站在雾里也很迷茫。

🌼实战项目简介

本次项目是kaggle上的一个入门比赛 :Titanic——Machine Learning from Disaster(泰坦尼克号——灾难中的机器学习),比赛选择了泰坦尼克号作为背景,并提供了样本数据以及测试数据,要求我们使用机器学习创建一个模型,预测哪些乘客在泰坦尼克号沉船中幸存下来。

🌼数据文件说明

🌻泰坦尼克号项目页面:Titanic——Machine Learning from Disaster

🌻可下载的Data页面:


可下载包括三个文件:

  • train.csv:训练数据
  • test.csv:测试数据
  • gender_submission.csv :提交结果案例

🌻数据变量说明

下载好文件,可知,每个乘客有12个属性。

  • Passengerld :乘客唯一识别ID
  • Survived:是否存活,0为否,1为是
  • Pclass :客舱等级,分为1、2、3等级,与英国的阶级分层有关
  • Name:姓名
  • Sex:性别
  • Age:年龄
  • SibSp:泰坦尼克号上的兄弟姐妹/配偶数量(与该乘客一起旅行的)
  • Parch:泰坦尼克号上的父母/孩子数量(与该乘客一起旅行的)
  • Ticket:船票号
  • Fare:船票价格
  • Cabin:客舱编号
  • Embarked:上船的港口编号(S=Southampton,英国南安普顿[启航点];C=Cherbourg,法国瑟堡市[途径点];Q=Quenstown,爱尔兰昆市[途径点])

🌼数据预处理

数据的质量直接决定模型预测的结果。所以,在进行训练模型之前,我们必须要进行数据清洗。
接下来我们使用Jupyter Notebook来进行接下来的数据描述和预处理。

🌻读入数据

首先,我们导入pandas库,它是python中进行数据分析和处理的一个库。然后我们读入我们的训练数据集。

🌾导入数据

🌾打印数据的前几行


默认是打印前五行,如下:

🌻做简单的统计分析


统计特性如下:

统计有

  • count: 这一列的数量(只要不是缺失值就被统计)
  • mean:平均值
  • std : 方差
  • min:最小值
  • 25%:下四分位数
  • 50%:中位数
  • 75%:上四分位数
  • max: 最大值

通过大致的浏览,我们可以看到,Age列含有缺失值。

🌻对[Age]列缺失值进行填充

一般对于缺失值的填充用到均值、中位数等。在这里,我们采用均值对Age列的缺失值进行填充。在填充缺失值这里我们用到了fillna函数。

🌾fillna函数

  • fillna是一个用于填充缺失值的函数,它是pandas库中的一个方法。
  • fillna函数的基本语法如下:
  • DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)

🌾对[Age]列的缺失值采用均值填充法填充


填充完之后,我们再次describe。

如下图:

🌻将字符型转化为数值型数据


我们知道,计算机是可以处理数字的,但是无法处理字符。为了方便统计,我们将性别[Sex]和上船港口编号[Embarked]这两列列进行处理。

🌾对[Age]列进行替换


我们在这里用到DataFrame的loc属性:

  • 在Python中,loc是一个用于数据框(DataFrame)的属性,它用于选择满足特定条件的行。loc可以通过标签或布尔数组来选择行。
  • 常见的用法有:
    1. 使用标签选择行:
      df.loc[label]
      2.使用布尔数组选择行:
      df.loc[bool_array]
      3.使用标签和列选择行和列:
      df.loc[start_label:end_label, start_column:end_column]

这里我们则采用3进行替换:

🌾对[Embarked]列进行替换


替换:

然后我们进行统计新描述,发现中的数量889,存在从缺失值。

这时,我们对三个登船地点进行统计计数。发现0是最多的,即在S处登船的人最多。

所以对于缺失值,我们将用0进行填充。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1480272.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

QML中动态表格修改数据

1.qml文件中的实现代码 import QtQuick 2.15 import QtQuick.Window 2.15import QtQuick.Controls 2.0 import Qt.labs.qmlmodels 1.0 import QtQuick.Layouts 1.15Window {width: 640height: 480visible: truetitle: qsTr("Hello World")TableModel{id:table_model…

Freesia项目目录结构

目录结构 前端目录: (目录结构来自layui-vue-admin) src文件下 api(前端请求后端服务的路由)assert(一些内置或必要的资源文件)layouts(全局框架样式组件)router&…

Facebook的数字治理挑战:社交平台的未来模式

在当今数字化时代,社交媒体平台已经成为人们日常生活的重要组成部分,而Facebook作为其中最具代表性的平台之一,其承载的社交功能和影响力已经不可小觑。然而,随着社交媒体的普及和发展,一系列数字治理挑战也随之而来&a…

git项目推荐 maku-boot低代码开发项目推荐

介绍项目 项目仓库地址 官方gitee,这是他的官网 用于做二次开发的脚手架在合适不过 后端框架采用 springboot3,security6,Mybatisplus2,jdk,各种oss的集合,判断ip地址等监控,用来作为源码学习和二次开发都是很好的教材 代码基本都是mvc的二次封装,便于理解 代码模块 启…

初学JavaWeb开发总结

0 什么是Web开发 Web: 全球广域网,又称万维网(www World Wide Web),能够通过浏览器访问的网站。 Web开发,就是开发网站的,如:淘宝、京东等等。 1 网站的工作流程 流程: 浏览器先向前端服务器请求前端资…

李修思将出席工业循环水节水减排提标降碳新技术推广及应用

演讲嘉宾:李修思 技术总监 山东海能环境技术有限公司 演讲题目:工业循环水节水减排提标降碳新技术推广及应用 会议简介 “十四五”规划中提出,提高工业、能源领城智能化与信息化融合,明确“低碳经济”新的战略目标,…

Axure导入使用ElementUI组件库

在使用Axure进行UI设计时,我们可能导入ElementUI组件库或者一些其他的元件库,其实非常简单,如果你还没有装好Axure可以先安装好AxureRP9汉化版,接下来,我们以AxureRP9汉化版来演示如何导入ElementUI组件库。 第一步&a…

搭建LNMP环境并搭建论坛和博客

目录 一、LNMP架构原理 二、编译安装Nginx 三、编译安装MySQL 四、编译安装PHP 五、配置Nginx支持PHP解析 六、安装论坛 七、安装博客 一、LNMP架构原理 LNMP架构,是指在Linux平台下,由运行Nginx的web服务器,运行PHP的动态页面解析程序…

光伏储能MPPT控制系统如何进行浪涌静电保护?

MPPT(Maximum Power Point Tracking)是太阳能电池板光伏发电系统中重要的一种控制技术。MPPT控制器能够实时侦测太阳能板的发电电压,并追踪最高电压电流值(VI),使系统以最大功率输出对蓄电池充电&#xff0…

Sophon AutoCV推动AI应用从模型生产到高效落地

随着技术市场和应用方向的逐渐成熟,人工智能与各行各业的结合和落地逐渐进入了深水区。 虽然由于行业规模化和应用普及度的限制,人工智能在“传统”行业的落地不如消费互联网行业,但是借助人工智能为“传统”行业的发展注入新能量一直是相关…

5_怎么看原理图之协议类接口之NAND Flash笔记

NAND Flash原理图: 由NAND Flash的原理图可以看出,做为一个存储芯片,只有I/O引脚,并没有地址引脚,怎么传地址?遵循一定的规范,先通过LDATA把地址传出去,再传数据。具体的需要查看芯片…

Premiere Pro 2022

Premiere Pro 2022是一款功能强大的视频编辑软件,适用于电影、电视和网络等各种类型的视频制作。它提供了丰富的剪辑、调色、音效和字幕等工具,帮助用户快速完成视频素材的剪辑和后期处理。同时,Premiere Pro 2022还支持多平台编辑和与其他Ad…

#LLM入门|Prompt#2.2_ AI 应用开发的范式_Language_Models,the_Chat_Format_and_Tokens

在本章中,我们将和您分享大型语言模型(LLM)的工作原理、训练方式以及分词器(tokenizer)等细节对 LLM 输出的影响。 我们还将介绍 LLM 的提问范式(chat format),这是一种指定系统消息…

大象如何转身-苹果放弃10年领域

1.苹果放弃造车 汽车作为普通家庭最贵的消费品之一,近些年很多手机厂商也纷纷下场造车,特别是去年华为、小米不约而同举行发布会。对于手机市场已经逐渐稳定了,这些手机大厂又开始瞄准汽车制造。加上之前燃油车厂商,汽车这个市场…

(二十一)devops持续集成开发——使用jenkins的Docker Pipeline插件完成docker项目的pipeline流水线发布

前言 本节内容会介绍如何使用Docker Pipeline插件实现docker项目的pipeline流水线项目的可持续化集成发布,在开始本节内容之前,我们要先搭建好docker环境,以及镜像本地存储仓库docker harbor,关于docker和docker harbor的安装,可查看作者往期博客内容。 正文 ①安装Doc…

【uniapp】小程序自定义一个通用的返回按钮组件

左边箭头,右边文字可以自定义,但是不要太长,太长可以自己改 .back的width值,改宽一点。 用这个组件的时候首先要在pages.json里把导航栏变成自定义的: ,{"path" : "pages/test/test","style&…

力扣138.随机链表的复制

给你一个长度为 n 的链表,每个节点包含一个额外增加的随机指针 random ,该指针可以指向链表中的任何节点或空节点。 构造这个链表的 深拷贝。 深拷贝应该正好由 n 个 全新 节点组成,其中每个新节点的值都设为其对应的原节点的值。新节点的 n…

刘志雄:新产品市场+新智造模式,构建“声音+”产业创新生态 | 演讲嘉宾公布

随着科技的飞速发展,新技术、新的应用场景不断涌现,也影响着“声音”产业未来的发展方向。如何应对市场变化,满足市场的多样化需求?如何应用新产品市场、智造新模式去构造“声音”产业创新生态呢?请到GAS2024一探究竟。…

阿里云突发:史上最大力度云服务器降价,优惠价格表来了

2024年阿里云百款产品直降,平均降幅20%,不只是云服务器,也包括云数据库,云数据库涉及产品RDS(MySQL、PostgreSQL、MariaDB)、Redis社区版、MongoDB、ClickHouse社区兼容版。阿里云百科aliyunbaike.com分享阿…

Python爬虫——Urllib库-1

这几天都在为了蓝桥杯做准备,一直在刷算法题,确实刷算法题的过程是及其的枯燥且枯燥的。于是我还是决定给自己找点成就感出来,那么Python的爬虫就这样开始学习了。 注:文章源于观看尚硅谷爬虫视频后笔记 目录 Urllib库 基本使…