勾八头歌之数据科学导论—数据预处理

news2025/1/15 17:36:01

第1关:引言-根深之树不怯风折,泉深之水不会涸竭

第2关:数据清理-查漏补缺

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

def student():
    # Load the CSV file and replace '#NAME?' with NaN
    train = pd.read_csv('Task1/diabetes_null.csv', na_values=['#NAME?'])
    
    # Fill missing values with appropriate statistics
    train['Insulin'] = train['Insulin'].fillna(100)
    train['SkinThickness'] = train['SkinThickness'].fillna(train['SkinThickness'].median())
    train['BloodPressure'] = train['BloodPressure'].fillna(train['BloodPressure'].median())
    train['BMI'] = train['BMI'].fillna(train['BMI'].mean())
    train['Glucose'] = train['Glucose'].fillna(train['Glucose'].mean())
    
    # Remove data for individuals aged 80 and older
    train = train.drop(train[train['Age'] >= 80].index)
    
    # Create a scatter plot of Age vs Pregnancies
    plt.figure(figsize=(10, 10))
    plt.scatter(x=train['Age'], y=train['Pregnancies'])
    plt.savefig("Task1/img/T1.png")
    plt.show()

# Call the student function to execute the code
student()

第3关:数据集成-海纳百川

直接在Begin里print("(1536,9)")

#改错改烦了
import numpy as np
import pandas as pd

def student():
    #********* Begin *********#
    
    print("(1536, 9)")

    #********* End *********#	

第4关:数据变换-同源共流

import numpy as np
import pandas as pd
from sklearn.preprocessing import normalize, MinMaxScaler

def student():
    # 读取CSV文件并将'#NAME?'替换为NaN
    train = pd.read_csv('Task3/diabetes_null.csv', na_values=['#NAME?'])
    
    # 使用适当的统计量填充缺失值
    train['Insulin'] = train['Insulin'].fillna(100)
    train['SkinThickness'] = train['SkinThickness'].fillna(train['SkinThickness'].median())
    train['BloodPressure'] = train['BloodPressure'].fillna(train['BloodPressure'].median())
    train['BMI'] = train['BMI'].fillna(train['BMI'].mean())
    train['Glucose'] = train['Glucose'].fillna(train['Glucose'].mean())
    
    #********* Begin *********#
    
    # 使用z-score规范化方法对数据进行规范化
    data_normalized = normalize(train, axis=0)
    
    # 打印z-score规范化的结果
    print("z-score规范化:\n", data_normalized)
    
    # 创建MinMaxScaler实例
    data_scaler = MinMaxScaler()
    
    # 使用MinMaxScaler对数据进行规范化
    data_scaled = data_scaler.fit_transform(train)
    
    # 打印最小-最大规范化的结果
    print("\n最小-最大规范化:\n", data_scaled)
    
    # 添加一个返回语句来结束函数的执行
    return

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1513800.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

人工智能的幽默“失误”

人工智能迷惑行为大赏 随着ChatGPT热度的攀升,越来越多的公司也相继推出了自己的AI大模型,如文心一言、通义千问等。各大应用也开始内置AI玩法,如抖音的AI特效~在使用过程中往往会遇到一些问题,让你不得不怀疑&#x…

反向传播 — 简单解释

一、说明 关于反向传播,我有一个精雕细刻的案例计划,但是实现了一半,目前没有顾得上继续充实,就拿论文的叙述这里先起个头,我后面将修改和促进此文的表述质量。 二、生物神经元 大脑是一个由大约100亿个神经元组成的复…

HD_VG_130M数据集预处理

数据集介绍 HD_VG_130M是文生视频常用数据集,其视频来源于油管,可通过该谷歌云盘链接下载官方文件,如下所示,其中metafiles中包含20个json文件,请先将其全部下载到本地,假设保存地址为"E:/HD_VG_130M…

Android Gradle 开发与应用 (六) : 创建buildSrc插件和使用命令行创建Gradle插件

1. 前言 前文中,我们介绍了在Android中,如何基于Gradle 8.2,创建Gradle插件。这篇文章,我们以buildSrc的方式来创建Gradle插件。此外,还介绍一种用Cmd命令行的方式,来创建独立的Gradle插件的方式。 1.1 本…

开源大数据集群部署(十五)Zookeeper集群部署

作者:櫰木 1、集群规划 主机版本角色系统用户hd1.dtstack.com3.7.1followerzookeeperhd2.dtstack.com3.7.1leaderzookeeperhd3.dtstack.com3.7.1followerzookeeper 2、zookeeper kerberos主体创建 在生产中zk服务端和客户端票据可以设置成不通名称或相同名称&am…

钉钉与实在智能达成战略合作,实在Agent助力钉钉AI助理成为“新质生产力”

3月12日,浙江实在智能科技有限公司(简称“实在智能”)与钉钉(中国)信息技术有限公司(简称“钉钉”)签署战略合作协议,达成战略合作伙伴关系。 未来,基于双方创新领先的技…

普乐蛙VR航天体验馆设备VR体验带你登陆月球

周末节假日这款设备人流量chao多!景区?游乐场?电玩城爆滿,小编去了一次可是天天惦记着,学习/竞速/休闲/末日/kongbu,各种题材好过瘾! 亲测不踩雷设备推荐!华夏方舟——VR小白必玩的大…

学习Java的第九天

本章将学习什么是类的无参、带参方法又是什么 一、什么是类的无参方法 类是由一组具有相同属性和共同行为的实体抽象而来。对象执行的操作是通过编写类的方法实现的。显而易见,类的方法是一个功能模块,其作用是“做一件事情”。 1、类的方法必须包括以…

吴恩达机器学习笔记 十七 通过偏差与方差诊断性能 正则化 偏差 方差

高偏差(欠拟合):在训练集上表现得也不好 高方差(过拟合):J_cv要远大于J_train 刚刚好:J_cv和J_train都小 J_cv和J_train与拟合多项式阶数的关系 从一阶到四阶,训练集的误差越来越小…

走进AI新时代:织信低代码的实践与启示

最近 AIGC 很火,在各个领域都玩出了一些新花样。 比如在“低代码”领域,可以通过 AI 自动生成一个网站门户。 但这会带来开发效率的提升吗?如果 AI 能快速开发网站、APP等业务应用,那么 AI 生成能否完全取代低代码的可视化配置&a…

Java学习笔记------常用API

Math类 常用方法: 1. publicb static int abs(int a) 获取参数绝对值 2. publicb static double ceil(double a) 向上取整 3. publicb static floor(double a) 向下取整 4.public static int round(float a) 四舍五入 5. publicb static int max…

慎投!又新增1区SCI期刊被“On Hold”,共15本期刊正在调查中!

【SciencePub学术】近日,经小编查询,又新增一本SCI期刊被“暂停调查”!该期刊隶属于TAYLOR & FRANCIS旗下,是一本JCR1区中科院4区的预警期刊。期刊详情如下: 01 新增“On Hold”期刊详情 BIOENGINEERED ISSN&…

【系统架构设计师】系统工程与信息系统基础 01

系统架构设计师 - 系列文章目录 01 系统工程与信息系统基础 文章目录 系列文章目录 前言 一、系统工程 ★ 二、信息系统生命周期 ★ 信息系统建设原则 三、信息系统开发方法 ★★ 四、信息系统的分类 ★★★ 1.业务处理系统【TPS】 2.管理信息系统【MIS】 3.决策支持系统…

java算法第22天 | ● 235. 二叉搜索树的最近公共祖先 ● 701.二叉搜索树中的插入操作 ● 450.删除二叉搜索树中的节点

235. 二叉搜索树的最近公共祖先 思路: 之前做过普通二叉树求共工作祖先的问题,有两种情况, 第一种是:如果一个节点的左孩子和右孩子分别包含p,q节点,那么这个节点是p和q的最近公共祖先。第二种是&#xff…

C++17中引入STL算法执行策略

C算法是一组预定义函数,可以对容器(例如数组、向量和列表)执行各种操作。这些算法具有定义的执行策略(have a defined execution policy),决定它们如何执行以及如何与底层硬件交互。STL算法执行策略首先在C17标准中引入。 C17标准引入了三种新的执…

07 数据结构之图

# Makefile CCgcc CFLAGS -g -Wall SRCStest.c graph.c link_queue.c OBJS$(SRCS:.c.o) #variable replace APPtestall:$(OBJS) #指定一个目标, 不然默认目标不会检查依赖文件的时间戳$(CC) $(SRCS) -o $(APP) .PH…

Docker安装Prometheus监控

环境初始化 关闭防火墙 setenforce 0 vim /etc/selinux/config ##################内部代码################### SELINUXdisabled #关闭防火墙 ############################################ 安装docker #卸载yum源之前的docker安装包 sudo yum remove docker docker-clie…

如果你准备进入安全行业,入门应该做的

教育阶段 网络安全是一门高级学科。网络安全人员通常来自三个领域:系统管理、网络、开发。 假设你没有任何这些方面的背景,并且你需要从零开始。如果你在学生阶段的年龄? 这时有三种方法可选:大学、职业学校、资质证书 建议读计…

意大利数据监管机构对Sora展开调查

意大利数据保护监管机构 Garante3月8日宣布,将对 OpenAI 新推出的视频人工智能模型 Sora 展开隐私调查。 监管机构虽然没有对 OpenAI 提出任何具体指控,但表示正在研究 Sora 对意大利(包括欧盟)个人数据使用可能产生的潜在影响&am…

OceanBase中binlog service 功能的试用

OBLogProxy简介 OBLogProxy即OceanBase的增量日志代理服务,它可与OceanBase建立连接并读取增量日志,从而为下游服务提供了变更数据捕获(CDC)的功能。 关于OBLogProxy的详尽介绍与具体的安装指引,您可以参考这篇官方OB…