利用联合概率分布筛选2个维度、三个维度数据

news2025/1/14 19:52:40

目录

  • 1. 整体分析
      • 步骤1:联合分布可视化
      • 步骤2:定义筛选条件
      • 步骤3:应用筛选条件
      • 实例演示
        • 第一步:联合分布可视化
        • 第二步:定义筛选条件
        • 第三步:应用筛选条件
      • 数据检查与清洗步骤
      • 数据清洗步骤
      • 下一步
  • 2. 定义筛选条件
      • 方法一:基于分位数的筛选
      • 方法二:基于高密度区域的筛选
      • 进一步分析
      • 总结和建议
      • 后续步骤
    • 2.2 基于高密度区域的筛选
      • 方法二:基于高密度区域的筛选步骤
      • 使用二维直方图定义高密度区域
      • 定义高密度区域
      • 选择高密度区域阈值
      • 总结
  • 3. 使用联合概率密度进行筛选
  • 4. 三变量概率密度分布
      • 解释
    • 4.2 阈值选择
      • 解释

1. 整体分析

要通过联合分布对 TI(湍流强度)和 alp2(风切变)进行联合筛选,可以使用以下步骤:

  1. 联合分布可视化:绘制 TI 和 alp2 的联合分布图,如散点图、二维直方图或核密度估计图,以了解二者的关系。
  2. 定义筛选条件:根据联合分布图中的集中区域或特定阈值,定义筛选条件。
  3. 应用筛选条件:筛选出符合条件的数据点,进行进一步分析或仿真。
    【散点图、二维直方图和核密度估计图的区别与联系】

步骤1:联合分布可视化

首先,绘制 TI 和 alp2 的联合分布图,以了解它们的关系。

步骤2:定义筛选条件

在可视化联合分布后,可以根据数据的集中区域或业务需求设定筛选条件。

步骤3:应用筛选条件

根据定义的条件进行数据筛选。

实例演示

下面是如何绘制 TI 和 alp2 的联合分布图,并通过图中数据的集中区域定义筛选条件的示例。

第一步:联合分布可视化

让我们先绘制联合分布图。

第二步:定义筛选条件

在图中找到数据集中区域,定义筛选条件。

第三步:应用筛选条件

筛选出符合条件的数据。

让我们从可视化开始。

数据类型都是浮点型,看起来没有问题。可能是因为数据中存在一些无法识别的特殊值或 NaN 值。我们再检查一次数据,确保没有特殊值或非数字值。

让我们重新清理数据并绘制联合分布图。

看起来仍有一些数据处理问题导致联合分布图无法正常绘制。为了确保数据清洗彻底,我们可以对 TIalp2 这两个列进行详细检查,并重新进行数据清洗和绘图。

数据检查与清洗步骤

  1. 检查 TIalp2 列的详细信息,包括唯一值、非数字值等。
  2. 清除所有非数字值和异常值。
  3. 绘制联合分布图。

让我们从详细检查数据开始。

看起来 TIalp2 列的数据大部分是合理的浮点数值,虽然 alp2 列中出现了一个负值(-0.02019419),这可能是一个异常值。我们可以进一步检查和清理这些列中的非数字和异常值。

数据清洗步骤

  1. 去除负值:对 alp2 列进行处理,去除负值。
  2. 检查非数字值:确保所有数据都是数字类型。

让我们先进行数据清洗,然后再尝试绘制联合分布图。

# Check for unique values and non-numeric values in the 'TI' and 'alp2' columns
ti_unique_values = flat_terrain_data['TI'].unique()
alp2_unique_values = flat_terrain_data['alp2'].unique()

# Display a sample of unique values to check for any anomalies
ti_sample_values = ti_unique_values[:10]
alp2_sample_values = alp2_unique_values[:10]

ti_sample_values, alp2_sample_values

看起来问题可能出在我们绘图的参数上,特别是使用 fill=Truecmap='Blues' 的参数。我们可以尝试简化绘图并移除这些参数,确保数据正常绘制。

让我们尝试绘制一个简单的联合分布图,使用散点图来表示。

# Remove negative values in 'alp2' and any other potential anomalies
cleaned_data = flat_terrain_data[(flat_terrain_data['TI'] >= 0) & (flat_terrain_data['alp2'] >= 0)]

# Drop any remaining NaN values
cleaned_data = cleaned_data.dropna()

# Plot the joint distribution of TI and alp2 after cleaning
plt.figure(figsize=(12, 6))
sns.jointplot(x='TI', y='alp2', data=cleaned_data, kind='kde', fill=True, cmap='Blues')

# Add labels and title
plt.xlabel('TI (湍流强度)')
plt.ylabel('alp2 (风切变)')
plt.suptitle('Joint Distribution of TI and alp2', y=1.02)

# Display the plot
plt.show()

这个散点图展示了 TI(湍流强度)和 alp2(风切变)的联合分布。可以看到两个变量的分布情况和它们之间的关系。
在这里插入图片描述

下一步

  1. 定义筛选条件

    • 您可以根据图中的分布情况选择合适的范围。例如,可以选择高密度区域作为筛选条件。
  2. 应用筛选条件

    • 根据定义的范围筛选数据,以用于进一步分析或仿真。

2. 定义筛选条件

为了定义 TI 和 alp2 的联合筛选条件,可以考虑以下方法:

  1. 基于分位数的筛选

    • 使用 TI 和 alp2 的 25% 和 75% 分位数定义筛选范围,保证选取的数据集中在中间 50% 的区域内。
  2. 基于高密度区域的筛选

    • 从联合分布图中识别高密度区域,定义该区域内的数据作为筛选条件。

方法一:基于分位数的筛选

让我们先计算 TI 和 alp2 的 25% 和 75% 分位数。

基于分位数的筛选条件如下:

  • TI 的范围:0.0619 到 0.1087
  • alp2 的范围:0.0954 到 0.2002

经过筛选后,数据集中符合条件的数据点有 149 条。

方法二:基于高密度区域的筛选

然后,我们可以通过计算高密度区域的核密度估计(KDE)来定义筛选条件。

进一步分析

我们可以绘制筛选后的数据的联合分布图,看看这些数据点的分布情况。这样可以确保筛选条件合理并且覆盖了数据的主要集中区域。

让我们绘制筛选后的数据的联合分布图。

# Calculate the 25% and 75% quantiles for TI and alp2
q1_ti = cleaned_data['TI'].quantile(0.25)
q3_ti = cleaned_data['TI'].quantile(0.75)
q1_alp2 = cleaned_data['alp2'].quantile(0.25

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1897150.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Leetcode.342 4的幂

给定一个整数,写一个函数来判断它是否是 4 的幂次方。如果是,返回 true ;否则,返回 false 。 整数 n 是 4 的幂次方需满足:存在整数 x 使得 n 4x 示例 1: 输入:n 16 输出:true示…

第20章 Mac+VSCode配置C++环境

1. 下载VSCode VSCode下载地址在mac终端里输入xcode- select --install命令,根据提示安装xcode工具。2. 安装插件(4个) 打开VScode,点击应用右侧菜单栏 C/C++(必装) Code Runner(必装) CodeLLDB(代码调试),不安装这个插件程序调试时,无法在vscode自带的终端里输入参…

智慧办公楼宇可视化:智能管理与优化

通过图扑可视化技术集成多种数据源,实时展示智慧办公楼宇的运行状态和管理信息,助力高效运营和工作环境优化。

荣耀电脑误删U盘文件?别慌,这里有找回方法

荣耀电脑误删U盘文件怎么找回?在日常工作和生活中,U盘是我们存储和传输数据的重要工具之一。然而,在使用荣耀电脑时,如果不小心误删了U盘中的文件,可能会给我们带来不小的困扰。但是,别慌!本文将…

4面体空间5点结构种类与占比

在30个点的4面体中取5个点,有30*29*28*27*26/(5*4*3*2)142506种取法, 这里要求5个点必须是直链或支链。共有496个组合符合要求,按平移对称性可分成181个不同的结构 结构 数量 结构 数量 结构 数量 结构 数量 结构 数量 结构 数量 …

四川赤橙宏海商务信息咨询有限公司引领抖音电商浪潮

在数字时代的浪潮下,电商行业飞速发展,抖音电商作为新兴的电商模式,凭借其独特的社交属性和短视频形式,迅速吸引了众多消费者和商家的目光。四川赤橙宏海商务信息咨询有限公司,作为抖音电商服务的佼佼者,凭…

Go堆内存管理

内存管理单元 内存管理单元有如下 page: x64下大小为8k。go与OS内存申请与释放都是以page为单位 span: 多个连续page组成,是内存管理的基本单元 mcache: 每个P所有的cache,包含多个空闲内存块链表,不同的链表上的内存块大小可能是不相同的…

出海拓圈! 环保企业走出去之马来西亚水环境项目考察

中办、国办印发《关于构建现代环境治理体系的指导意见》,其中明确提出“鼓励企业参与绿色‘一带一路’建设,带动先进的环保技术、装备、产能走出去”。近年来中国积极参与全球生态环境治理,在环境资源综合管理、水旱灾害防御、固危废无害化处…

Resilience4j之RateLimiter和常见限流算法总结

官网地址:https://resilience4j.readme.io/docs/ratelimiter 中文文档:https://resilience4j.readme.io/docs/ratelimiter 【1】概述 Resilience4j提供了一个限流器,它将从epoch开始的所有纳秒划分为多个周期。每个周期的持续时间RateLimi…

1975react社区问答管理系统开发mysql数据库web结构node.js编程计算机网页源码

一、源码特点 react 社区问答管理系统是一套完善的完整信息管理类型系统,结合react.js框架和node.js后端完成本系统,对理解react node编程开发语言有帮助系统采用node框架(前后端分离)),系统具有完整的源…

如何有效管理你的Facebook时间线?

Facebook作为全球最大的社交平台之一,每天都有大量的信息和内容在用户的时间线上展示。有效管理你的Facebook时间线,不仅可以提升用户体验,还能够帮助你更好地控制信息流和社交互动。本文将探讨多种方法和技巧,帮助你有效管理个人…

【雷丰阳-谷粒商城 】【分布式高级篇-微服务架构篇】【19】认证服务03—分布式下Session共享问题

持续学习&持续更新中… 守破离 【雷丰阳-谷粒商城 】【分布式高级篇-微服务架构篇】【19】分布式下Session共享问题 session原理分布式下session共享问题Session共享问题解决—session复制Session共享问题解决—客户端存储Session共享问题解决—hash一致性Session共享问题…

【C++】 解决 C++ 语言报错:Invalid Use of Incomplete Type

文章目录 引言 在 C 编程中,“Invalid Use of Incomplete Type” 是一种常见错误。此错误通常在程序试图使用未完全定义的类或结构时发生。这种错误不仅会导致编译失败,还可能导致程序行为不可预测。本文将详细探讨无效使用不完整类型的成因、检测方法及…

【Redis】真行,原来是这样啊! --Redis自动序列化和手动序列化的区别(存储结构、内存开销,实际写法)

对于Redis有两种序列化和反序列化的方式, 方式一: 一种是通过 注入RedisTemplate 对象,找个对象,通过配置类进行一定的配置,使得使用RedisTemplate 对象时,便会使用配置的那些键、值的序列化方式&#xff…

【人工智能】--强化学习(2.0)

个人主页:欢迎来到 Papicatch的博客 课设专栏 :学生成绩管理系统 专业知识专栏: 专业知识 文章目录 🍉强化学习与有监督学习的区别 🍈数据特点 🍈学习目标 🍈反馈机制 🍈策略…

数学建模MATLAB绘图大全

最近快要开始一年一度的数学建模竞赛啦,接下来争取每天更一篇数学建模算法!(当然这是理想状态下),今天就先更一些MATLAB常用的绘图吧,论文赏心悦目的关键就在于丰富多彩的图,好看的图一定会成为…

Linux 查看磁盘是不是 ssd 的方法

lsblk 命令检查 $ lsblk -d -o name,rota如果 ROTA 值为 1,则磁盘类型为 HDD,如果 ROTA 值为 0,则磁盘类型为 SSD。可以在上面的屏幕截图中看到 sda 的 ROTA 值是 1,表示它是 HDD。 2. 检查磁盘是否旋转 $ cat /sys/block/sda/q…

深入理解【 String类】

目录 1、String类的重要性 2、常用方法 2、1 字符串构造 2、2 String对象的比较 2、3 字符串查找 2、4字符转换 数值和字符串转换: 大小写转化: 字符串转数组: 格式转化: 2、5 字符串替换 2、6字符串拆分 2、7 字符串…

【pytorch12】什么是梯度

说明 导数偏微分梯度 梯度:是一个向量,向量的每一个轴是每一个方向上的偏微分 梯度是有方向也有大小,梯度的方向代表函数在当前点的一个增长的方向,然后这个向量的长度代表了这个点增长的速率 蓝色代表比较小的值,红色…