python随机选取数据算法

news2024/11/16 0:00:35

python随机选取数据算法:

  1. 使用sample方法
    pandas的sample方法是最常用的方法来随机选取DataFrame中的数据。可以通过设置frac参数来指定选取的比例。
    代码:
import pandas as pd

# 创建一个示例DataFrame
data = {
    'A': range(1, 101),
    'B': range(101, 201)
}
df = pd.DataFrame(data)

# 随机选取10%的数据
sampled_df = df.sample(frac=0.1, random_state=1)
print(sampled_df)

pandas.DataFrame.sample:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None, ignore_index=False)

  • random_state: int value or numpy.random.RandomState, optional. if set to a particular integer, will return same rows as sample in every iteration.可以使用参数random_state指定随机数。随机数是固定的,因此总是返回相同的行和列。
  • 如果参数replace设置为True,则允许重复的行/列。默认值为False。
    可以参考:
    https://blog.csdn.net/qq_40433737/article/details/107048681
    在这里插入图片描述
    图片来源:https://www.w3schools.com/python/pandas/ref_df_sample.asp

2、使用numpy的随机选择【可以生成随机索引,然后选择相应的行】
代码:

import numpy as np

# 计算要选取的行数
num_samples = int(len(df) * 0.1)

# 随机选择行索引
random_indices = np.random.choice(df.index, size=num_samples, replace=False)

# 根据随机索引选择数据
sampled_df = df.loc[random_indices]
print(sampled_df)

3、使用sklearn的train_test_split

from sklearn.model_selection import train_test_split

# 随机选取10%的数据
sampled_df, _ = train_test_split(df, test_size=0.9, random_state=1)
print(sampled_df)

4、使用random模块

import random

# 计算要选取的行数
num_samples = int(len(df) * 0.1)

# 随机选择行索引
random_indices = random.sample(range(len(df)), num_samples)

# 根据随机索引选择数据
sampled_df = df.iloc[random_indices]
print(sampled_df)

总结:
以上方法都可以有效地从DataFrame中随机选取数据。最常用的是pandas的sample方法,因为它简单直观,且功能强大。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1963771.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大厂linux面试题攻略四之Linux网络服务(一)

一、Linux网络服务-SSH服务 1.哪些设置能够提升SSH远程管理的安全等级? ssh的登录验证方式 ssh的登录端口和监听设置: 配置文件: /etc/ssh/sshd_config #Port 22 #ssh服务默认监听端口 #ListenAddress 0.0.0.0 #ssh服务…

配置静态IP,解决在虚拟机装Linux没有网络的问题

配置静态IP,解决在虚拟机装Linux没有网络的问题 问题 VMware中的虚拟机有时会随着外部宿主机的IP变化而变化,导致使用起来很麻烦。最直接的就是XShell连接不上,其次就是项目中的配置文件中写了关于虚拟机的ip地址,比如redis mys…

编程小白如何成为大神?大学新生的最佳入门攻略

📢博客主页:https://blog.csdn.net/2301_779549673 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正! 📢本文由 JohnKi 原创,首发于 CSDN🙉 📢未来很长&#…

【视频讲解】Python用LSTM、Wavenet神经网络、LightGBM预测股价

原文链接:https://tecdat.cn/?p37184 原文出处:拓端数据部落公众号 分析师:Yuyan Ye 在金融科技的浪潮中,量化投资方法以其数据驱动和模型导向的特性,日益成为资本市场分析的重要工具。 特别是,长短期…

2024最全的软件测试面试八股文【附答案+文档】

🍅 点击文末小卡片 ,免费获取软件测试全套资料,资料在手,涨薪更快 前言 最近有很多粉丝问我,有什么方法能够快速提升自己,通过阿里、腾讯、字节跳动、京东等互联网大厂的面试,我觉得短时间提升…

美容院会员管理系统|美业收银系统源码-已注册的客户,如何异店添加?

情景举例说明: 客户“张三”在A店已注册、消费,然后又到B店去消费。如何通过APP端和PAD端添加客户? ▶▶▶ • 在“客户管理”或“收银台”添加客户区域 • 搜索客户注册手机的完整手机号找到该客户 • 将其添加到本店即可

JavaScript 和 HTML5 Canvas实现图像绘制与处理

前言 JavaScript 和 HTML5 的 canvas 元素提供了强大的图形和图像处理功能,使得开发者能够在网页上创建动态和交互式的视觉体验。这里我们将探讨如何使用 canvas 和 JavaScript 来处理图像加载,并在其上进行图像绘制。我们将实现一个简单的示例&#xf…

揭秘住宅IP代理:原理、用途以及应用分析

在大数据时代,互联网成为我们生活与工作中不可或缺的一部分。然而,随着网络环境的日益复杂,隐私保护、网络访问限制等问题也逐渐凸显;以及跨境业务蓬勃发展。在这样的背景下,住宅IP代理作为一种技术解决方案&#xff0…

6、指针

6 指针 6.1 指针的本质(间接访问的原理) 指针:变量的地址 指针变量:用一个变量来存放另一个变量的地址,该变量即为指针变量 指针变量占内存大小,32位程序占4字节,64位占8字节 取地址操作符、取…

数据结构_study(三)

栈 先进后出,LIFO(last in first out),只能在表尾做插入删除操作的线性表 栈顶:允许插入和删除的一端 栈底:最先进栈 空栈:没有数据元素 压栈、入栈:插入操作 弹栈、出栈&#xf…

ubuntu20复现NBV探索

官网代码 后退地平线下一个最佳景观规划师 这个代码有些久远,issue里面有人已经在ubuntu20里面使用了3dmr,但是他那个代码我也运行不成功,docker网络一直也不佳,所以还是自己重新修改源码靠谱。 最终实现的代码等有时间上传到gi…

Day26 | 贪心算法 134. 加油站 135. 分发糖果 860.柠檬水找零 406.根据身高重建队列

语言 Java 134. 加油站 题目链接:加油站 题目 在一条环路上有 n 个加油站,其中第 i 个加油站有汽油 gas[i] 升。 你有一辆油箱容量无限的的汽车,从第 i 个加油站开往第 i1 个加油站需要消耗汽油 cost[i] 升。你从其中的一个加油站出发…

【每日一题】【map和set】RC-v7 熊猫血 C++

2024 睿抗机器人开发者大赛CAIP-编程技能赛-高职组(省赛) RC-v7 熊猫血 题目描述 在“一年一度喜剧大赛”上有一部作品《少爷和我》,讲的是霸道管家龙傲天和憨厚少爷刘波的故事。管家有着霸总文学主人公所有的毛病,包括会咳出熊…

服务运营 | NRL:疫苗供应链优化建模:综述与未来机遇(上)

编者按: 本次推文将解读近期发表在Naval Research Logistics中的Optimization modeling for pandemic vaccine supply chain management: A review and future research opportunities一文。这篇文章总结与反思了大流行时期的疫苗供应链管理,具体包括疫…

C#基于SkiaSharp实现印章管理(5)

印章中最常见的特殊形状通常是五角星,空心、实心的都可能存在,本文学习并实现在印章内部绘制五角星形状。   百度五角星的绘制方法,主要分为三种:   1)五角星各点坐标固定,直接调用编程语言的绘制线条或…

线性结构、线性表、顺序表、链表、头插法、尾插法、中间插入或删除一个节点

梳理几个名词: 逻辑地址:就是说是第几个元素。 物理地址:也就是存储地址,在计算机里具体存放的位置。 线性表的存储结构分为: (1)顺序存储结构:将数据依次存储在连续的整块物理空…

综合项目部署——eleme前端部署(eighteen day)

显示没有空格没有注释的内容: [rootstatic-server ~]# grep -Ev "#|^$" /usr/local/nginx/conf/nginx.conf 1、多虚拟主机的配置 [rootstatic-server ~]# vim /usr/local/nginx/conf/nginx.conf [rootstatic-server ~]# /usr/local/nginx/sbin/nginx #启…

如何破解绩效管理的难题?

绩效管理的核心问题 💼 在现代企业运营中,绩效管理一直被视为提升工作效率和实现公司战略目标的重要手段。然而,实际操作中,我们经常会遇到一系列棘手的问题,这些问题不仅影响了绩效管理的有效性,还常常让…

winform程序中拷贝文件夹最快速方法

1、先将一个项目的文件夹拷贝到另一个项目的目录下 下图将ParameterSetting文件夹拷贝到Datalib文件夹下 2、直接复制该文件,然后到vs界面去粘贴 复制ParameterSetting文件夹,然后在Datalib项目这里鼠标右键单击,然后点击“粘贴”&#xff0…

机器学习(五) -- 无监督学习(2) --降维2

系列文章目录及链接 上篇:机器学习(五) -- 无监督学习(2) --降维1 下篇: 前言 tips:标题前有“***”的内容为补充内容,是给好奇心重的宝宝看的,可自行跳过。文章内容被…