kaggle 泰坦尼克号1(根据男女性存活率)

news2024/11/30 0:30:06

kaggle竞赛 泰坦尼克号

流程

  1. 下载kaggle数据集
  2. 导入所要使用的包
  3. 引入kaggle的数据集csv文件
  4. 查看数据集的大小和长度
  5. 去除冗余数据
  6. 建立特征工程
  7. 导出结果csv文件

1.下载kaggle数据集

2.导入所要使用的包

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

3.引入kaggle的数据集csv文件

train=pd.read_csv('train.csv')
test=pd.read_csv('test.csv')

4.查看数据集大小和长度

train.shape

训练集的长宽(891, 12),891行,12列

查看train集合的前五列

train.head()

在这里插入图片描述

5.去除冗余的数据

由于特征中女性存活的概率比较大,所以计算一下女性的存活率

# 取出表格中的两列,性别和存活率构建一个新的数据集women
women = train.loc[train.Sex == 'female']["Survived"]

# 一共有314条女性记录,由于存活的情况是1,所以累加所有存活特征,就能得到存活数量
# 再用存活数量/女性总数得到女性存活率

rate_women = sum(women)/len(women)
print("% of women who survived:", rate_women)
# 获得女性的存活率

233
314
% of women who survived: 0.7420382165605095

获取男性的存活率

men = train.loc[train.Sex == 'male']["Survived"]
rate_men = sum(men)/len(men)

print("% of men who survived:", rate_men)

% of men who survived: 0.18890814558058924

6.建立特征工程

from sklearn.ensemble import RandomForestClassifier

y = train["Survived"]

features = ["Pclass", "Sex", "SibSp", "Parch"]
X = pd.get_dummies(train[features])
X_test = pd.get_dummies(test[features])

model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)
model.fit(X, y)
predictions = model.predict(X_test)

output = pd.DataFrame({'PassengerId': test.PassengerId, 'Survived': predictions})

7.将结果输出到csv文件中

output.to_csv('submission.csv', index=False)
print("Your submission was successfully saved!")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1586465.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2024.4.12蚂蚁庄园今日答案:豆腐在烹调时容易碎有什么办法可以避免?

原文来源:蚂蚁庄园今日答案 - 词令 蚂蚁庄园是一款爱心公益游戏,用户可以通过喂养小鸡,产生鸡蛋,并通过捐赠鸡蛋参与公益项目。用户每日完成答题就可以领取鸡饲料,使用鸡饲料喂鸡之后,会可以获得鸡蛋&…

构建高效网络:深入理解正向与反向代理的作用与配置

正向代理 如果把局域网外的互联网环境想象成一个巨大的资源库,则局域网中的客户端要访问互联网则需要通过代理服务器来访问,这种代理成为正向代理。 示例: 用户想要访问 https://chensir.ink (目标服务器)&#xff0…

vivado 在硬件中调试逻辑设计

在硬件中调试逻辑设计 设计中包含调试核后 , 您可使用运行时间逻辑分析器功能来对硬件中的设计进行调试。 使用 Vivado Logic Analyzer 进行设计调试 Vivado Logic Analyzer 功能可用于与设计中运行的新 ILA 、 VIO 和 JTAG-to-AXI Master 调试核进行交互。…

02 Windows操作系统密钥激活流程

Windows系统的激活流程通常包括以下步骤: AI步骤 1. 购买正版产品密钥:在正式激活Windows系统之前,你需要购买一个合法的产品密钥。你可以通过Microsoft官方网站或授权的零售商购买密钥。 2. 输入产品密钥:在购买后,你…

1.8V LDO电路 ➕1.2V bandgap电路

1.8V LDO电路 ➕1.2V bandgap电路(WX:didadidadidida313,加我备注:CSDN LDO,谢绝白嫖哈) 1.8V LDO电路 ➕1.2V bandgap电路,基于tsmc180nm工艺库 带设计仿真报告,非常适合新手入门! 本文采用…

【智能算法应用】灰狼算法求解TSP问题

目录 1.算法原理2.TSP数学模型3.结果展示4.参考文献 1.算法原理 【智能算法】灰狼算法(GWO)原理及实现 2.TSP数学模型 旅行商问题(TSP)是一种著名的组合优化问题,它涉及寻找给定一组城市及其之间的距离或成本&#…

室内定位中文综述阅读

1 室内高精度定位技术总结与展望 [4]柳景斌,赵智博,胡宁松等.室内高精度定位技术总结与展望[J].武汉大学学报(信息科学 版),2022,47(07):997-1008.DOI:10.13203/j.whugis20220029. 1.1.1 WiFi‐RTT定位 2016 年 12 月,随着新版 IEEE802.11 标准的公布&#xff0c…

逆向案例二十一——遇到混淆怎么办

开始新的板块尝试,混淆了怎么办 网址:极简壁纸_海量电脑桌面壁纸美图_4K超高清_最潮壁纸网站 抓包抓到,好久没做解密了,奥里给干他!: 搜索关键字,打上断点,点击第二页。 _0x10a345…

中国企业级存储市场:五年来首次负增长,第二曲线在哪里?

出人意料,中国企业级存储市场出现过去五年来的首次负增长。 IDC最新《中国企业级存储市场跟踪报告,2023》显示,2023年中国企业级存储市场规模达到66亿美元,同比下降0.6%。外部环境的动荡与不确定性的陡增,让中国不少行业用户受到…

深度学习每周学习总结P4(猴痘识别)

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 | 接辅导、项目定制 –来自百度网盘超级会员V5的分享 目录 0. 总结1. 数据导入部分2. 划分数据集3. 模型构建部分3.1 模型构建3.2 公式推导 4. 设置超参数5. …

关于AI Agent、RAG技术揭秘:如何让人工智能更懂你?

人工智能技术正以前所未有的速度改变着我们的世界。从深度学习算法的突破到自动化和机器学习技术的进步。在这个变革的时代,几种前沿技术尤其引人注目,其中包括RAG(Retrieval-Augmented Generation)、AI Agent以及多模态技术。 近…

python之文件操作与管理

1、文件操作 通过open()操作,来创建文件对象,下面是open()函数语法如下: open(file,mode r,buffering -1 , encoding None ,errors None , newline None,closefd True,opener …

2024年Flink CDC 实时同步数据(MySQL到MySQL)

#准备工作# 看到一下图片说明执行成功!!! 异常处理及分析: Could not execute SQL statement. Reason: org.apache.flink.sql.parser.impl.ParseException: Encountered "\connector\" at line 21, column 3. Was expec…

记录一次浅拷贝导致的缺陷

背景:假期表查询,表中存放的工作日信息是按照月份维度的,例如1月的假期表信息是NNNYYYYYNN.....一共31天,如果是工作日那么就是Y,如果非工作日那就是N。获取指定日期的下一个工作日,就会先查出这个月份的这…

Qt学习记录(C++)——Day 2

目录 一、作业 要求: 实现: 1.创建新的窗口类 2. 主窗口中实现 二、 窗口菜单设计 效果展示图 三、图片资源的导入 步骤: 举例: 四、 对话框 1.模拟对话框 2. 非模态对话框 3.错误对话框 4.信息对话框 5.提问对话…

边缘计算采集网关如何助力制造企业解决数采问题-天拓四方

一、企业背景 某大型制造企业,位于国内某经济发达的工业园区内,拥有多个生产线和智能化设备,致力于提高生产效率、降低运营成本。随着企业规模的扩大和生产自动化的推进,该企业面临着海量数据处理、实时响应和网络安全等多重挑战…

Linux下网络编程基础知识--协议

网络基础 这一个课程的笔记 相关文章 协议 Socket编程 高并发服务器实现 线程池 协议 一组规则, 数据传输和数据的解释的规则。 比如说依次发送文件的文件名, 文件的大小, 以及实际的文件, 这样规定发送一个文件的顺序以及发送的每一个部分的格式等可以算是一种协议 型协议 …

(学习日记)2024.04.12:UCOSIII第四十节:软件定时器函数接口讲解

写在前面: 由于时间的不足与学习的碎片化,写博客变得有些奢侈。 但是对于记录学习(忘了以后能快速复习)的渴望一天天变得强烈。 既然如此 不如以天为单位,以时间为顺序,仅仅将博客当做一个知识学习的目录&a…

CUDA 12.4文档1:使用GPU好处CUDA可扩展编程模型

本博客参考官方文档进行介绍,全网仅此一家进行中文翻译,走过路过不要错过。 官方网址:https://docs.nvidia.com/cuda/cuda-c-programming-guide/ 本文档分成多个博客进行介绍,在本人专栏中含有所有内容: https://bl…

Linux网卡:连接虚拟与现实的桥梁

在介绍Linux网卡之前,让我们先迈入时光机🕰️,回到1980年代末期,互联网正在逐步从一个科研网络向公众网络转变,Linux——一个自由和开源的操作系统诞生了🐧。Linux的出现,对于计算机科学领域来说…