python 数据分析

news2024/11/29 18:32:21

数据分析

数据分析是指用适当的方法对收集的数据进行分析,提取有用信息并且形成结论.

广义的数据分析包括狭义的数据分析和数据挖掘.狭义的数据分析是指根据目的,采用对比分析,分组分析,交叉分析,回归分析等分析方法,对数据进行分析和处理,得到特征统计量的过程.数据挖掘是指从大量的,不完全的,有噪声的,模糊的噪声中,通过应用聚类模型 分类模型  回归和关联规则等技术,挖掘潜在价值的过程.

数据预处理是指对数据进行数据合并、数据清洗、数据标准化、和数据变换。

数据合并是指将多张互相关的表格合并为一张。数据清洗是指去掉重复、缺失、异常的数据。数据标准化可以去除特征间的量纲差异。数据变换可以通过离散化、哑变量处理技术满足后期分析和建模的需求。

分析与建模是指通过对比分析、分组分析、交叉分析、回归分析等分析方法,以及聚类模型、分类模型、关联规则、智能推荐等模型与算法,发现数据中的有价值信息,并得出结论的过程。

模型评价。聚类模型评价指标有兰德系数、互信息。常用分类模型的评价指标有准确率、精确率、召回率、ROC和AUC。常用回归模型的评价指标有平均绝对误差、均方误差。

模型优化。模型达到性能之后,在实际的应用过程中,发现模型的性能并不理想,然后继续对模型进行重构和优化的过程。

数据分析应用

  • 客户分析。根据已有的数据来对客户进行特征分析,用以判断用户的忠诚度、喜好,使得运营策略达到最优,提升企业的整体效益
  • 社交媒体分析。通过不同社交媒体渠道生成的内容,分析客户的兴趣爱好、行为。
  • 网络安全。传统的网络安全依靠静态防御,在发现病毒威胁的时候做出反应。新型的病毒防御系统可使用数据分析技术,建立潜在攻击分析模型、检测网络活动数据和相应的访问行为。
  • 设备管理。通过物联网技术收集分析数据,包括连续用电、零部件温度、环境湿度和污染物颗粒等多种潜在特征,建立设备管理模型。
  • 交通物流分析。

Numpy数值计算基础

数组对象

数组属性

  • ndim。数组的维数
  • shape。数组的尺寸
  • size。数组元素的总数
  • dtype。数组元素类型
  • itemsize。每一个元素的大小(以字节为单位)
import numpy as np

array=np.array([1,2,3,4])
print(array.shape)
print(array.dtype)
print(array.itemsize)
print(array.size)
print(array.ndim)

numpy数组中所有元素必须都是同一类型的,这样可以更好确定数组所需要的存储空间。

生成随机数

import numpy as np

# 生成随机数
# 这里的随机数是伪随机数,随机数相关的函数都在random模块中,包括了生成多种概率分布的随机数的函数

a=np.random.random(10)
print(a)

# 生成均匀分布的随机数
b=np.random.rand(10)
print(b)
#生成正太分布
c=np.random.randn(10)
print(c)
# randint 生成给定范围的是随机数  randint(low,high,size,dtype)
d=np.random.randint(1,10,1)
print(d)
# permutation 返回一个序列的随机排列
e=np.arange(1,10,1)
print(e)
np.random.shuffle(e)
print(np.random.permutation(e))
print(e)
# beta分布
f=np.random.beta(1,10,1)
print(f)

矩阵和通用函数

矩阵是ndarray的子类。numpy提供了两个基本的对象,一个是N维数组,一个是通用的函数对象。矩阵是建立在一维数组之上的二维数组。 

import numpy as np

# matrix创建矩阵
a=np.matrix([[1,2,3],[4,5,6]])
print(a)
print(a.ndim)

#矩阵数乘
b=a*3
print(b)
# 矩阵相加
c=a+b
print(c)
# 矩阵相乘
d=a*c.T
print(d)

#矩阵对应元素相乘
f=np.multiply(a,b)
print(f)

#转置矩阵
print(a.T)
#逆矩阵
print(a.I)
# 共轭转置
print(a.H)

ufnc函数

ufunc函数是一种可以对数组中所有元素都进行操作的函数。

import numpy as np

# 常用的数组运算
x=np.array([1,2,3])
y=np.array([4,5,6])
print('数组相乘',x*y)  #对应元素相乘
print('数组相除',x/y)
print('数组幂运算',x**y)
# 比较运算
print('数组比较结果',x>y)
# 逻辑运算
print('逻辑运算',np.all(x==y))

numpy进行数据分析

读写文件

NumPy的文件读/写主要有二进制的文件读/写和文件列表形式的数据读/写两种形式。学会读/写文件是利用NumPy进行数据处理的基础

import numpy as np

x=np.arange(1,10,1)
print(x)
y=np.array([1,2,3])
# 保存数组
np.save('./save_arr.npy',x)

# 导入数组
b=np.load('./save_arr.npy')
print(b)

#保存多个数组
np.savez('./hh.npz',x,y)

# 导入数组
c=np.load('./hh.npz')
print(c['arr_0'])
print(c['arr_1'])
import numpy as np

# savetxt保持到txt文件中
a=np.arange(1,10,1).reshape(3,3)
print(a)
np.savetxt('./hh.txt',a,fmt='%d')

b=np.loadtxt('./hh.txt')
print(b)

统计分析

排序

import numpy as np

a=np.arange(1,10,1)
np.random.shuffle(a)
print(a)
# 排序
# 直接排序,直接对数值进行排序
b=np.sort(a,axis=0)
print('直接排序',b)
# 间接排序,根据一个值对数据集进行排序
c=np.argsort(a)  #返回重新排序值的下标
print('间接排序',c)
d=a[c]
print('排序后的结果',d)

 去重和重复数据

import numpy as np

names=np.array(['小黄','小白','小明','小白'])

# 去重
a=np.unique(names)
print('去重后的数组',a)

#重复
b=np.tile(names,3)
print('重复三次',b)

c=np.repeat(names,3,axis=0)
print(c)

常用的统计函数

import numpy as np

a=np.arange(20).reshape(4,5)
print(a)

# 计算数组的和
print(np.sum(a))
print(np.sum(a,axis=0))
print(np.sum(a,axis=1))

# 计算均值
print(np.mean(a))

# 计算标准差
print(np.std(a,axis=0))

# 计算方差
print(np.var(a))

# 计算最小元素索引
print(np.argmin(a))

参考:

Python数据分析与应用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1290882.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【LLM_05】使用fastgpt搭建本地离线大语言模型(Chatglm3)问答+知识库平台

1、FastGPT 的知识库逻辑1.1 基础概念1.2 FastGPT知识库的导入1.3 FastGPT新建应用(1)创建一个知识库助手(2)创建一个python开发小助手 2、词向量比较测试2.1 开启词向量模型2.2 词向量模型性能比较 3、配置好之后的运行3.1 运行大…

python二维数组创建赋值问题:更改单个值却更改了所有项的值

test_list [] dic1 {} test_list [dic1 for _ in range(3)] ll [1, 2, 3]for i in range(3):test_list[i][value] ll[i]print(test_list)运行结果:每次赋值都更改了所有项 原因:python的二位数据创建方式就是这样,官方文档中有描述Wha…

数据结构初阶之二叉树性质练习与代码练习

个人主页:点我进入主页 专栏分类:C语言初阶 C语言程序设计————KTV C语言小游戏 C语言进阶 C语言刷题 数据结构初阶 Linux 欢迎大家点赞,评论,收藏。 一起努力,共赴大厂。 目录 1.前言 2.性质练习 3…

嵌入式学习---ARM中断控制系统

目录 外部事件与CPU的交互方式查询方式中断方式 什么是中断源S3C2440支持60个中断源FIQ和IRQ 中断处理流程将外设中断通知给CPUSUBSRCPND寄存器INTSUBMSK寄存器SRCPND寄存器INTMSK寄存器INTMOD寄存器INTPND寄存器 硬件中断处理是实时系统设计的最重要、最关键的问题。 外部事件…

Ubuntu22.04通过Maas和Juju部署openstack charm

目录 官方文档材料准备软件硬件 模板机和虚拟网络安装MAAS官方文档MAAS节点配置安装MAAS浏览器登录MAAS进行配置 激活DHCP 官方文档 https://docs.openstack.org/project-deploy-guide/charm-deployment-guide/2023.1/ 这是一个通过Maas面板即可部署openstack的方式&#xff0…

CTF特训日记day7

复现华为杯研究生国赛的adv_lua题目 从题目描述来看,漏洞应该和bytearray相关 用IDA逆向一下然后直接字符串搜索bytearray 只有这里有bytearray字样,继续查找交叉引用: 可以看到一系列方法,显然都是为bytearray所注册的吗&am…

smarty模版 [BJDCTF2020]The mystery of ip 1

打开题目 点击flag给了我们一个ip 点击hint,查看源代码处告诉了我们要利用这个ip bp抓包,并添加X-Forward-For头 所以这道题是XFF可控 本来联想到XFF漏洞引起的sql注入,但是我们无论输入什么都会正常回显,就联想到ssti注入 我们…

区块链密码学:基础知识、应用与未来发展

一、引言 区块链技术,作为一种分布式、去中心化的数据管理方式,密码学在其安全性和可靠性方面发挥着至关重要的作用。本文将详细介绍区块链密码学的基础知识、应用以及未来发展趋势。 二、区块链密码学基础知识 区块链密码学是区块链技术的核心组成部分…

React面试题(1)

1、什么是React? React是一个用于构建用户界面的JavaScript库。 2、React的特点是什么? React的主要特点包括: 组件化虚拟DOM单向数据流JSX语法高效的性能生态系统丰富 3、什么是JSX? JSX是一种JavaScript的语法扩展&#x…

2023年12月实时获取地图边界数据方法,省市区县街道多级联动【附实时geoJson数据下载】

首先,来看下效果图 在线体验地址:https://geojson.hxkj.vip,并提供实时geoJson数据文件下载 可下载的数据包含省级geojson行政边界数据、市级geojson行政边界数据、区/县级geojson行政边界数据、省市区县街道行政编码四级联动数据&#xff0…

Linux shell编程学习笔记33:type 命令

目录 0 引言1 type 命令的功能和格式 1.1 type命令的功能1.2 type 命令的格式2 type命令用法实例 2.1用type命令查看shell内置命令(以echo命令为例)2.2 用type命令查看别名(以ls命令为例)2.3 用type命令同时查看shell内置命令和别…

Ros智行mini,opencv,Gmapping建图,自主导航auto_slam,人脸识别,语音控制

功能 一、Gmapping建图 二、自主导航 起始点 、终点 三、人脸识别 四、语音控制 完成任务: 机器人先建图 建完图后给出目标点,机器人就可以完成调用自主导航走到目标点,期间会调用激光雷达扫描局部环境来进行自主避障,到达终点后进行语音…

UVM建造测试用例

(1)加入base_test 在一个实际应用的UVM验证平台中,my_env并不是树根,通常来说,树根是一个基于uvm_test派生的类。真正的测试用例都是基于base_test派生的一个类。 class base_test extends uvm_test;my_env e…

rpm安装gitlab

1.rpm包下载 https://mirrors.tuna.tsinghua.edu.cn/gitlab-ce/yum/el7/ 2.进行安装 rpm -ivh gitlab-ce-15.9.7-ce.0.el7.x86_64.rpm --nodeps --force 3.配置访问地址 vim /etc/gitlab/gitlab.rb 4.重新加载配置以及重启服务 gitlab-ctl reconfiguregitlab-ctl resta…

指针(进阶)

指针进阶: 通过指针基础我们已经了解了指针,这篇文章我们会举大量的例子,使我们对指针透彻理解,我们下来看一段代码: int main() {char a[] "ab";char* pc a;printf("%c\n", *pc);printf("…

指定分隔符对字符串进行分割 numpy.char.split()

【小白从小学Python、C、Java】 【计算机等考500强证书考研】 【Python-数据分析】 指定分隔符对字符串进行分割 numpy.char.split() 选择题 请问下列程序运行的的结果是: import numpy as np print("【执行】np.char.split(I.Love.China, sep .)") p…

GNSEC 2022年第8届全球下一代软件工程线上峰会-核心PPT资料下载

一、峰会简介 新一代软件工程是指利用新的理论、方法和技术,在软件开发、部署、运维等过程中,实现软件的可控、可预测、可维护的软件生产方式。它涵盖了多个领域,如软件开发、测试、部署、运维等,旨在提高软件生产效率和质量。 …

13款趣味性不错(炫酷)的前端动画特效及源码(预览获取)分享(附源码)

文字激光打印特效 基于canvas实现的动画特效&#xff0c;你既可以设置初始的打印文字也可以在下方输入文字可实现激光字体打印&#xff0c;精简易用。 预览获取 核心代码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8&q…

Windows server 部署iSCSI共享磁盘搭建故障转移群集

在域环境下&#xff0c;在域控制器中配置iSCSI服务&#xff0c;配置共享网络磁盘&#xff0c;在节点服务器使用共享磁盘&#xff0c;并在节点服务器中搭建故障转移群集&#xff0c;实现故障转移 环境准备 准备3台服务器&#xff0c;配置都是8g2核&#xff0c;50g硬盘&#xf…

SpringBoot 属性配置解析

属性配置介绍 spring官方提供的17中属性配置的方式 Devtools全局配置测试环境TestPropertySource注解测试环境properties属性命令行参数SPRING_APPLICATION_JSON属性ServletConfig初始化参数ServletContext初始化参数JNDI属性JAVA系统属性操作系统环境变量RandomValueProperty…