数据分析(一) 理解数据

news2025/1/24 11:46:20

1. 描述性统计(summary)

对于一个新数据集,首先通过观察来熟悉它,可以打印数据相关信息来大致观察数据的常规特点,比如数据规模(行数列数)、数据类型、类别数量(变量数目、取值范围)、缺失值、异常值等等。然后通过描述性统计来了解数据的统计特性、属性间关联关系、属性与标签的关联关系等。

数据集一般是按照行列组织的,每行代表一个实例,每列代表一个属性。

import pandas as pd

import sys

import numpy as np

import pylab

import matplotlib.pyplot as plt

data = pd.read_csv(r"C:\work\PycharmProjects\machine_learning\filename.csv", index_col=0)

# summary

nrow, ncol = data.shape

print(f"行数:{nrow}, 列数:{ncol}")

summary = data.describe()

print(summary)

# 箱线图

data_array = data.iloc[:, :3].values

pylab.boxplot(data_array)

plt.xlabel("Attribute Index")

plt.ylabel(("Quartile Ranges"))

pylab.show()

# 标准化后的箱线图

dataNormalized = data.iloc[:, :3]

for i in range(2):

    mean = summary.iloc[1, i]

    sd = summary.iloc[2, i]

    dataNormalized.iloc[:, i:(i + 1)] = (dataNormalized.iloc[:, i:(i + 1)] - mean) / sd

    array3 = dataNormalized.values

pylab.boxplot(array3)

plt.xlabel("Attribute Index")

plt.ylabel(("Quartile Ranges - Normalized "))

pylab.show()

colArray = np.array(list(data.iloc[:, 0]))

colMean = np.mean(colArray)

colsd = np.std(colArray)

sys.stdout.write("Mean = " + '\t' + str(colMean) + '\t\t' +

                 "Standard Deviation = " + '\t ' + str(colsd) + "\n")

# calculate quantile boundaries(四分位数边界)

ntiles = 4

percentBdry = []

for i in range(ntiles + 1):

    percentBdry.append(np.percentile(colArray, i * (100) / ntiles))

sys.stdout.write("\nBoundaries for 4 Equal Percentiles \n")

print(percentBdry)

sys.stdout.write(" \n")

# run again with 10 equal intervals(十分位数边界)

ntiles = 10

percentBdry = []

for i in range(ntiles + 1):

    percentBdry.append(np.percentile(colArray, i * (100) / ntiles))

sys.stdout.write("Boundaries for 10 Equal Percentiles \n")

print(percentBdry)

sys.stdout.write(" \n")

# The last column contains categorical variables(标签变量)

colData = list(data.iloc[:, 1])

unique = set(colData)

sys.stdout.write("Unique Label Values \n")

print(unique)

# count up the number of elements having each value

catDict = dict(zip(list(unique), range(len(unique))))

catCount = [0] * 2

for elt in colData:

    catCount[catDict[elt]] += 1

sys.stdout.write("\nCounts for Each Value of Categorical Label \n")

print(list(unique))

print(catCount)

图中显示了一个小长方形,有一个红线穿过它。红线代表此列数据的中位数(第 50 百分位数),长方形的顶和底分别表示第 25 百分位数和第 75 百分位数(或者第一四分位数、第三四分位数)。在盒子的上方和下方有小的水平线,叫作盒须(whisker)。它们分别据盒子的上边和下边是四分位间距的 1.4 倍,四分位间距就是第 75 百分位数和第 25 百分位数之间的距离,也就是从盒子的顶边到盒子底边的距离。也就是说盒子上面的盒须到盒子顶边的距离是盒子高度的 1.4 倍。这个盒须的 1.4 倍距离是可以调整的(详见箱线图的相关文档)。在有些情况下,盒须要比 1.4 倍距离近,这说明数据的值并没有扩散到原定计算出来的盒须的位置。在这种情况下,盒须被放在最极端的点上。在另外一些情况下,数据扩散到远远超出计算出的盒须的位置(1.4 倍盒子高度的距离),这些点被认为是异常点。

2. 二阶统计信息(distribute,corr)

# 分位数图

import scipy.stats as stats

import pylab

stats.probplot(colArray, dist="norm", plot=pylab)

pylab.show()

如果此数据服从高斯分布,则画出来的点应该是接近一条直线。

# 属性间关系散点图

import matplotlib.pyplot as plt

data_row1 = data.iloc[0, :3]

data_row2 = data.iloc[1, :3]

plt.scatter(data_row1, data_row2)

plt.xlabel("1st Attribute")

plt.ylabel(("2nd Attribute"))

plt.show()

# 属性和标签相关性散点图

from random import uniform

target = []

for i in range(len(colData)):

    if colData[i] == 'R':  # R用1代表, M用0代表

        target.append(1)

    else:

        target.append(0)

plt.scatter(data_row1, target)

plt.xlabel("Attribute Value")

plt.ylabel("Target Value")

plt.show()

target = []

for i in range(len(colData)):

    if colData[i] == 'R':  # R用1代表, M用0代表

        target.append(1+uniform(-0.1, 0.1))

    else:

        target.append(0+uniform(-0.1, 0.1))

plt.scatter(data_row1, target, alpha=0.5, s=120)  # 透明度50%

plt.xlabel("Attribute Value")

plt.ylabel("Target Value")

plt.show()

第二个图绘制时取 alpha=0.5,这样这些点就是半透明的。那么在散点图中若多个点落在一个位置就会形成一个更黑的区域。

# 关系矩阵及其热图

corMat = pd.DataFrame(data.corr())

plt.pcolor(corMat)

plt.show()

属性之间如果完全相关(相关系数 =1)意味着数据可能有错误,如同样的数据录入两次。多个属性间的相关性很高(相关系数 >0.7),即多重共线性(multicollinearity),往往会导致预测结果不稳定。属性与标签的相关性则不同,如果属性和标签相关,则通常意味着两者之间具有可预测的关系

# 平行坐标图

minRings = summary.iloc[3, 2]  # summary第3行为min

maxRings = summary.iloc[7, 2]  # summary第7行为max

for i in range(nrow):

    # plot rows of data as if they were series data

    dataRow = data.iloc[i, :3]

    labelColor = (data.iloc[i, 2] - minRings) / (maxRings - minRings)

    dataRow.plot(color=plt.cm.RdYlBu(labelColor), alpha=0.5)

plt.xlabel("Attribute Index")

plt.ylabel(("Attribute Values"))

plt.show()

# 对数变换后平行坐标图

meanRings = summary.iloc[1, 2]

sdRings = summary.iloc[2, 2]

for i in range(nrow):

    dataRow = data.iloc[i, :3]

    normTarget = (data.iloc[i, 2] - meanRings) / sdRings

    labelColor = 1.0 / (1.0 + np.exp(-normTarget))

    dataRow.plot(color=plt.cm.RdYlBu(labelColor), alpha=0.5)

plt.xlabel("Attribute Index")

plt.ylabel(("Attribute Values"))

plt.show()

在属性值相近的地方,折线的颜色也比较接近,则会集中在一起。这些相关性都暗示可以构建相当准确的预测模型。相反,有些微弱的蓝色折线与深橘色的区域混合在一起,说明有些实例可能很难正确预测。

转换后可以更充分地利用颜色标尺中的各种颜色。注意到针对某些个属性,有些深蓝的线(对应年龄大的品种)混入了浅蓝线的区域,甚至是黄色、亮红的区域。这意味着,当该属性值较大时,仅仅这些属性不足以准确地预测出鲍鱼的年龄。好在其他属性可以很好地把深蓝线区分出来。这些观察都有助于分析预测错误的原因。

3. 完整代码(code)

import pandas as pd
import sys
import numpy as np
import pylab
import matplotlib.pyplot as plt

data = pd.read_csv(r"C:\work\PycharmProjects\machine_learning\filename.csv", index_col=0)

nrow, ncol = data.shape
print(f"行数:{nrow}, 列数:{ncol}")
summary = data.describe()
print(summary)

data_array = data.iloc[:, :3].values
pylab.boxplot(data_array)
plt.xlabel("Attribute Index")
plt.ylabel(("Quartile Ranges"))
pylab.show()

dataNormalized = data.iloc[:, :3]
for i in range(2):
    mean = summary.iloc[1, i]
    sd = summary.iloc[2, i]
    dataNormalized.iloc[:, i:(i + 1)] = (dataNormalized.iloc[:, i:(i + 1)] - mean) / sd
    array3 = dataNormalized.values
pylab.boxplot(array3)
plt.xlabel("Attribute Index")
plt.ylabel(("Quartile Ranges - Normalized "))
pylab.show()

colArray = np.array(list(data.iloc[:, 0]))
colMean = np.mean(colArray)
colsd = np.std(colArray)
sys.stdout.write("Mean = " + '\t' + str(colMean) + '\t\t' +
                 "Standard Deviation = " + '\t ' + str(colsd) + "\n")

# calculate quantile boundaries(四分位数边界)
ntiles = 4
percentBdry = []
for i in range(ntiles + 1):
    percentBdry.append(np.percentile(colArray, i * (100) / ntiles))

sys.stdout.write("\nBoundaries for 4 Equal Percentiles \n")
print(percentBdry)
sys.stdout.write(" \n")

# run again with 10 equal intervals(十分位数边界)
ntiles = 10
percentBdry = []
for i in range(ntiles + 1):
    percentBdry.append(np.percentile(colArray, i * (100) / ntiles))
sys.stdout.write("Boundaries for 10 Equal Percentiles \n")
print(percentBdry)
sys.stdout.write(" \n")

# The last column contains categorical variables(标签变量)
colData = list(data.iloc[:, 3])
unique = set(colData)
sys.stdout.write("Unique Label Values \n")
print(unique)

# count up the number of elements having each value
catDict = dict(zip(list(unique), range(len(unique))))
catCount = [0] * 2
for elt in colData:
    catCount[catDict[elt]] += 1
sys.stdout.write("\nCounts for Each Value of Categorical Label \n")
print(list(unique))
print(catCount)

# 分位数图
import scipy.stats as stats

stats.probplot(colArray, dist="norm", plot=pylab)
pylab.show()

# 属性间关系散点图
data_row1 = data.iloc[:, 0]
data_row2 = data.iloc[:, 1]
plt.scatter(data_row1, data_row2)
plt.xlabel("1st Attribute")
plt.ylabel(("2nd Attribute"))
plt.show()

# 属性和标签相关性散点图
from random import uniform

target = []
for i in range(len(colData)):
    if colData[i] == 'R':  # R用1代表, M用0代表
        target.append(1)
    else:
        target.append(0)
plt.scatter(data_row1, target)
plt.xlabel("Attribute Value")
plt.ylabel("Target Value")
plt.show()

target = []
for i in range(len(colData)):
    if colData[i] == 'R':  # R用1代表, M用0代表
        target.append(1 + uniform(-0.1, 0.1))
    else:
        target.append(0 + uniform(-0.1, 0.1))
plt.scatter(data_row1, target, alpha=0.5, s=120)  # 透明度50%
plt.xlabel("Attribute Value")
plt.ylabel("Target Value")
plt.show()

# 关系矩阵及其热图
corMat = pd.DataFrame(data.corr())
plt.pcolor(corMat)
plt.show()

# 平行坐标图
minRings = summary.iloc[3, 2]  # summary第3行为min
maxRings = summary.iloc[7, 2]  # summary第7行为max
for i in range(nrow):
    # plot rows of data as if they were series data
    dataRow = data.iloc[i, :3]
    labelColor = (data.iloc[i, 2] - minRings) / (maxRings - minRings)
    dataRow.plot(color=plt.cm.RdYlBu(labelColor), alpha=0.5)
plt.xlabel("Attribute Index")
plt.ylabel(("Attribute Values"))
plt.show()

meanRings = summary.iloc[1, 2]
sdRings = summary.iloc[2, 2]
for i in range(nrow):
    dataRow = data.iloc[i, :3]
    normTarget = (data.iloc[i, 2] - meanRings) / sdRings
    labelColor = 1.0 / (1.0 + np.exp(-normTarget))
    dataRow.plot(color=plt.cm.RdYlBu(labelColor), alpha=0.5)
plt.xlabel("Attribute Index")
plt.ylabel(("Attribute Values"))
plt.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1454373.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

文生图提示词:天气条件

天气和气候 --天气条件 Weather Conditions 涵盖了从基本的天气类型到复杂的气象现象,为描述不同的天气和气候条件提供了丰富的词汇。 Sunny 晴朗 Cloudy 多云 Overcast 阴天 Partly Cloudy 局部多云 Clear 清晰 Foggy 雾 Misty 薄雾 Hazy 朦胧 Rainy 下雨 Showers …

【Leetcode刷题笔记】27. 移除元素

原题链接 Leetcode 27. 移除元素 题目 给你一个数组 nums 和一个值 val,你需要原地移除所有数值等于 val 的元素,并返回移除后数组的新长度。不要使用额外的数组空间,你必须仅使用 O(1) 额外空间并原地修改输入数组。元素的顺序可以改变。…

js---webAPI

01 声明变量 js组成: DOM:操作网页内容的,开发页面内容特效和实现用户交互 BOM: DOM树:将 HTML 文档以树状结构直观的表现出来,我们称之为文档树或 DOM 树 文档树直观的体现了标签与标签之间的关系 CSS获取元素的方法 document.querySele…

stm32h750中文数据手册以及中文参考手册

stm32h750中文数据手册以及中文参考手册 🔧腾讯交互翻译:https://transmart.qq.com/zh-CN/file🔨PDF拆分合并工具集在线:https://www.ilovepdf.com/zh-cn ✨就目前来讲,stm32h750VB芯片价格,算是历史新低&a…

Mybatis-Plus常用技巧

一、官网网站: https://baomidou.com/pages/24112f/#%E7%89%B9%E6%80%A7 技巧和常用方法在官网使用 二、离线安装MybatisX插件-free 1、在idea官网下载插件的zip压缩包,上链接(https://plugins.jetbrains.com/) 2、在搜索框搜…

模型训练 —— AI算法初识

一、背景 AI算法中模型训练的主要目的是为了让机器学习算法从给定的标注数据中学习规律、特征和模式,并通过调整模型内部参数,使模型能够对未见过的数据进行准确预测或决策。具体来说: 1. **拟合数据**:模型通过训练来识别输入数…

Android下SF合成流程重学习之onMessageInvalidate

Android下SF合成流程重学习之onMessageInvalidate 引言 虽然看了很多关于Android Graphics图形栈的文章和博客,但是都没有形成自己的知识点。每次学习了,仅仅是学习了而已,没有形成自己的知识体系,这次趁着有时间,这次…

外汇天眼:8个平台被打击,有的因诈骗被处罚!

上周,澳大利亚证券和投资委员会(ASIC)取消了总部位于悉尼的Brava Capital的澳大利亚金融服务许可证(AFSL),意大利公司和交易委员会CONSOB则将6个非法投资平台网站列入黑名单。另外,Reiwa-Capita…

uni-app使用uView打开弹出层后输入框聚焦时placeholder错位问题

这里就不放效果了,大概意思就是在使用uView的popus时,在底部弹出后,如果弹窗中的输入框会造成一瞬间的placeholder文字错位,这个问题的主要是因为uView安全区适配导致 uView相关文档 https://www.uviewui.com/components/safeAr…

视频如何去除水印?这三个方法赶紧收藏

在数字化内容的海洋中,视频已成为我们日常生活中不可或缺的一部分。然而,很多时候,我们渴望观看的优质视频内容却被水印所困扰。因此我们就需要视频去水印工具来帮助我们解决这些困扰。 一、水印云 水印云的视频去水印功能采用了先进的 AI …

自己部署一个牛逼的开发备忘录系统

目录 效果 简介 安装 使用 效果 简介 为开发人员分享快速参考备忘清单【速查表】。这是英文版 Reference 的中文版本,目的是为了方便自己的技术栈查阅,如果您提供一个清单,我将抽空搬运,立即撸起来 :)。如果您发现此处的备忘单…

数字化转型导师坚鹏:BLM政府数字化转型战略

BLM政府数字化转型战略 ——以BLM模型为核心,实现知行果合一 课程背景: 很多政府存在以下问题: 不知道如何系统地制定政府数字化转型战略? 不清楚其它政府数字化转型战略是如何制定的? 不知道其它政府数字化转…

分享一下,程序员为什么不喜欢关电脑?(个人观点仅供娱乐哈哈哈)

你是否曾经疑惑,为何身边的程序员朋友总是让电脑保持开机状态,仿佛与它们有着不解之缘?别急着给他们贴上“电脑迷”的标签,背后其实隐藏着许多合理的原因。今天,就让我们一同走进程序员的世界,探究他们为何…

Windows Server系列的时钟同步

文章目录 前言一、设置时钟同步二、调整同步周期总结前言 在Windows Server系列操作系统上部署网站应用有时候需要考虑服务器之间的时钟同步问题。当存在不同服务器之间的通讯访问并且要求一定的安全限定时,时钟同步的需求尤其显得比较迫切。本文将以Windows2012server为例,…

WorkPlus构建安全高效的内网通信平台,助力企业内部协作

为何选择WorkPlus作为内网通信软件的首选?首先,WorkPlus提供全面的内网通信解决方案。不论是文字聊天、语音通话还是实时视频会议,WorkPlus都能提供稳定、高效的通信体验,确保团队成员能够及时分享信息、快速沟通和协作。通过Work…

Redis篇----第五篇

系列文章目录 文章目录 系列文章目录前言一、redis的过期策略以及内存淘汰机制二、Redis 常见性能问题和解决方案?三、为什么Redis的操作是原子性的,怎么保证原子性的?四、Redis事务前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家…

4核8G云服务器够用吗?支持多少人?

4核8G服务器支持多少人同时在线访问?阿腾云的4核8G服务器可以支持20个访客同时访问,关于4核8G服务器承载量并发数qps计算测评,云服务器上运行程序效率不同支持人数在线人数不同,公网带宽也是影响4核8G服务器并发数的一大因素&…

Google Gemini 1.5:引领跨模态AIGC信息分析理解与视频内容推理的新篇章,与 Open AI 决一高下!

Gemini 1.5具有100万token的上下文理解能力,是目前最强!具有跨模态理解和推理:能够对文本、代码、图像、音频和视频进行高度复杂的理解和推理。允许分析1小时视频、11小时音频、超过30,000行代码或超过700,000字的文本。不过谷歌这个Gemini 1…

java后端将非树型结构的机构数据转换为树形结构的机构数据示例

文章目录 前言一、非树型机构信息1.示例数据2.机构编码规则二、转换为树型机构1.转换逻辑2.具体实现2.1.将excel文件读取到程序中2.2.解析机构编码并获取所有的父级编码候选值2.3.设置所有节点的ParentCode2.4.查找机构的根节点2.5.通过ParentCode构建完整的树型结构2.6.将树形…

【算法】基础算法002之滑动窗口(一)

👀樊梓慕:个人主页 🎥个人专栏:《C语言》《数据结构》《蓝桥杯试题》《LeetCode刷题笔记》《实训项目》《C》《Linux》《算法》 🌝每一个不曾起舞的日子,都是对生命的辜负 目录 前言 1.长度最小的子数组…