【小行星数据预处理py-】

news2024/9/24 23:26:45
#数据的导入
import pandas as pd
import numpy as np


#导入EXCEL表格数据;na_values=''指定了将Excel文件中的空单元格转换为NaN
df_excel=pd.read_excel('C:/Users/galax/Desktop/MBA小行星数据/4000.xls',na_values=0)
#定义0为缺失值
see_data=df_excel
#统计每一列的缺失值个数
print(see_data.isnull().sum(axis=0))

结果发现Asterank一共4001颗小行星,就有3004颗没有利润值y,初步想法是直接删除3004个没有值的样本,剩下的缺失数据用KNN填补。

df = pd.DataFrame(see_data)
# #方法1:
# 删除 'Est. Profit ($)' 列中包含缺失值的行
df = df.dropna(subset=['Est. Profit ($)'])
df.to_excel('C:/Users/galax/Desktop/sub.xlsx', index=False)

4001个样本,删除缺失值后直接变成了997行

下一步就是对这997个样本进行脏数据整理: 

  • 处理>号
  • 处理单位并转换billion,million,trillion
  • 标准化归一化
#想要实现将Est.Profit列传入dataFrame-df,
#数据的导入
import pandas as pd
import numpy as np


#导入EXCEL表格数据;na_values=''指定了将Excel文件中的空单元格转换为NaN
df=pd.read_excel('C:/Users/galax/Desktop/sub.xls')

# 选择特定的列
df_selected = df['Profit']
# 显示加载后的DataFrame
#print(df_selected)

# 定义一个清洗和转换数据的函数
def clean_and_convert_value(s):
 if isinstance(s, str):

    # 移除大于符号
    if '>' in s:
        s = s.replace('>', '').strip()

    # 分割数值和单位
    if 'trillion' in s:
        number, unit = s.split('trillion')
        mult = 1e12  # 表示 trillion 单位的数值
    elif 'billion' in s:
        number, unit = s.split('billion')
        mult = 1e9  # 表示 billion 单位的数值
    elif 'million' in s:
        number, unit = s.split('million')
        mult = 1e6  # 表示 billion 单位的数值
    else:
        return s

    # 转换为浮点数,并进行单位统一(统一转为million)
    return float(number.strip()) * mult / 1e6
 elif isinstance(s, float):
     return s/1e6

# 应用这个函数到DataFrame的列
df['value_numeric'] =df['Profit'].apply(clean_and_convert_value)
print(df['value_numeric'])
df.to_excel('C:/Users/galax/Desktop/Profit_cleaned4.xlsx', index=False)

运行结果: 

下一步是对derta_V列中的缺失值进行KNN插补 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1644801.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

可代替IRS2003的半桥栅极驱动器KP85211A 225V耐压 1A/1.5A

KP85211A是一款 225V 耐压,具有 1A 拉电流和 1.5A 灌电流能力的半桥栅极驱动器,专用于驱动功率MOSFET或IGBT。采用高压器件工艺技术,具有良好的电流输出及出色的抗瞬态干扰能力。可保证开关节点 VS 瞬态 -7V 情况下系统正常工作。可支持开关节…

Leetcode—706. 设计哈希映射【简单】(constexpr)

2024每日刷题(127) Leetcode—706. 设计哈希映射 数组实现代码 class MyHashMap { public:MyHashMap() {memset(arr, -1, sizeof(arr));}void put(int key, int value) {arr[key] value;}int get(int key) {if(arr[key] -1) {return -1;} return arr…

基于openEuler22.03 LTS环境的docker容器基础

一、说明 本文配置环境为VMware虚拟机或华为云服务器(4核CPU,8 GB内存,40GB磁盘),OS为openEuler 22.03 LTS ,Linux服务器要求能联网。 二、安装docker 2.1 安装docker软件包 [rootnode01 ~]# dnf -y in…

leetcode尊享面试——二叉树(python)

250.统计同值子树 使用dfs深度搜索,同值子树,要满足三个条件: 对于当前节点node,他的左子树血脉纯净(为同值子树),右子树血脉纯净(为同值子树),node的值等于…

第27章-配置PPP

1. 概述 2. 工作机制 3. 验证 4. PPP-MP 1. 概述 1.1 背景引入 以太网使用双绞线,广域网使用光纤; ① 定义:PPP协议即点到点协议; ② 应用场景:在串行线路上运行;主要是广域网 ③ 特点: 支持…

PHP 框架安全:ThinkPHP 序列 漏洞测试.

什么是 ThinkPHP 框架. ThinkPHP 是一个流行的国内 PHP 框架,它提供了一套完整的安全措施来帮助开发者构建安全可靠的 web 应用程序。ThinkPHP 本身不断更新和改进,以应对新的安全威胁和漏洞。 ThinkPHP 框架的安全特性: (1) 输入过滤和验证…

既能自动仿写公众号爆文,还能批量帮你上架闲鱼商品,打造自己的数字员工,简直yyds

「想象一下,如果有一个机器人在你的计算机上24小时不间断地工作,会不会做梦都笑着」 一、RPA机器人是什么? RPA——机器人流程自动化,它可以帮助人们完成重复性的、繁琐的工作,比如数据输入、网页爬取、自动化流程等…

[JUCE]从一个有关右值引用的bug,探幽移动语义

一、问题 当我尝试在\JUCE\extras\WindowsDLL\Builds\VisualStudio2022目录下编译JUCE库的时候,提示报错如下: 报错提示如下: 这里涉及到两个问题 一、这个std::move是干嘛用的 二、为什么这里会报错? 另外,我在实…

OpenAI 也要做搜索?传 SearchGPT 将迎击谷歌核心业务!OpenAI 与金融时报新协议已定,将进行链接和引用

OpenAI也要杀入AI搜索领域分一杯羹?非常可能!毕竟连SearchGPT的入口已经准备好了! 图片 X平台上网友甚至还发现了SearchGPT的medo视频! OpenAI凭借自身的技术积累,如果真的进入搜索应用业务,必然…

震撼来袭!AI创新燃爆2024中关村论坛,唯迈医疗破解心脑血管“命门”危机

4月29日,备受瞩目的2024中关村论坛圆满闭幕。国内领先的介入诊疗全流程解决方案企业——唯迈医疗,携新一代Taikon太空 DSA和介入手术机器人惊艳亮相,以AI赋能介入诊疗,为心脑血管疾病治疗带来了革命性的突破,引发党央媒…

最新优质电商API接口,附带教程【多语言环境高并发】

给大家更新一波24年一月份的新接口吧。 01 接口信息 线路推荐: 多仓: 1.春盈: https://wds.ecsxs.com/230989.json 2.无意: http://www.wya6.cn/tv/yc.json 3.主流电商平台API数据采集 单仓: 1.饭太硬: http:/…

阿里实习生:面试阿里其实并没有那么难。

愉快的五一假期已经结束了, 又要投入到学习和工作当中了。 今天分享一位同学在阿里的Go后端实习面经详解, 希望对你有帮助。 Go里有哪些数据结构是并发安全的? 并发安全就是程序在并发的情况下执行的结果都是正确的; Go中数据类型分为两大类&#xff…

Altman确认:神秘Chatbot非GPT-4.5,OpenAI搜索引擎即将上线

🚀 Altman确认:神秘Chatbot非GPT-4.5,OpenAI搜索引擎即将上线 摘要:近日,Sam Altman在哈佛大学的演讲中确认,引发广泛猜测的gpt2-chatbot并非OpenAI即将发布的下一代模型GPT-4.5。与此同时,关于…

llama3 史上最强开源大模型,赶超GTP-4,逼宫OpenAI

2024年4月18日,Meta公司推出了开源大语言模型Llama系列的最新产品—Llama 3,包含了80亿参数的Llama 3 8B和700亿参数的Llama 3 70B两个版本。Meta称其为“迄今为止最强的开源大模型”。 怪兽级性能 LLaMA3 提供了不同参数规模的版本,以适应…

性能问题分析排查思路之机器(4)

前言 本文是性能问题分析排查思路的展开内容之一,主要分为日志1期,机器4期、环境2期共7篇系列文章,本期是第四篇,讲机器(硬件)的内存方面的分析排查方法与最佳实践。 在性能问题分析排查系列的位置如下图…

辐射传输基础理论详解与LST反演方法

地表温度LST(Land Surface Temperature)是区域和全球尺度上陆地表层系统过程的关键参数,它综合了地表与大气的相互作用以及大气和陆地之间能量交换的结果。地表温度作为众多基础学科和应用领域的一个关键参数,能 够提供地表能量平衡状态的时空变化信息&a…

C语言 | Leetcode C语言题解之第70题爬楼梯

题目: 题解: int climbStairs(int n) {double sqrt5 sqrt(5);double fibn pow((1 sqrt5) / 2, n 1) - pow((1 - sqrt5) / 2, n 1);return (int) round(fibn / sqrt5); }

8.11 矢量图层线要素单一符号使用一

文章目录 前言简单线(Simple line)符号的使用QGis中的使用二次开发代码实现 总结 前言 本章介绍矢量图层线要素单一符号中简单线(Simple line)的使用说明:文章中的示例代码均来自开源项目qgis_cpp_api_apps 简单线&a…

C++:map和set类

关联式容器 在初阶阶段,我们已经接触过STL中的部分容器,比如:vector、list、deque、 forward_list(C11)等,这些容器统称为序列式容器,因为其底层为线性序列的数据结构,里面 存储的是元素本身。那什么是关…

政安晨:【Keras机器学习示例演绎】(三十六)—— 用聚合注意力增强信念网络

目录 导言 设置和导入 超参数 加载 CIFAR10 数据集 增强层 卷积干 卷积主干 注意力汇集 Patch convnet 回调 学习率时间表 训练 推理 结论 政安晨的个人主页:政安晨 欢迎 👍点赞✍评论⭐收藏 收录专栏: TensorFlow与Keras机器学习实战 希望…