Python做数据分析需要学什么?

news2024/12/28 3:30:13

下面分别从这四个方面来带大家学习数据分析:

  • 第一,做数据分析要精通Python吗?
  • 第二,数据分析流程是什么?学什么?
  • 第三,如何培养数据分析思维?
  • 第四,数据分析书籍推荐

一、数据分析要精通Python吗?

做数据分析不必精通Python,但至少要掌握Python基础内容。第一步是要了解一些Python的编程基础,知道Python的数据结构,什么是向量、列表、数组、字典等等;了解Python的各种函数及模块。

在这里插入图片描述

二、数据分析流程是什么?学什么?

一个完整的数据分析项目,大概可以分为这五个流程:数据获取——数据存储——数据清洗——数据分析——可视化分析,具体每部分都要掌握什么,下面给大家说清楚。

数据获取

数据获取是数据分析的第一步,关于一些内部数据大家可以找公司内部的人去要,其他外部数据如市场调研、竞品分析这些报告,大家可以在这些网站获取:

  • 艾瑞网-数据报告:https://report.iresearch.cn/
  • 易观分析-热门报告:https://www.analysys.cn/
  • 友盟+数据报告:https://www.umeng.com/reports.html?from=hp
  • 赛迪满天星行业报告:http://www.mtx.cn/#/
  • 世界经济论坛报告:https://www.weforum.org/reports
  • 普华永道行业报告:https://www.pwccn.com/zh/research-a

数据存储

企业常用的存储数据的数据库有哪些?不同数据库的存储区别又有哪些?下面跟我一起来了解常见数据库:

  • Access数据库: 是一个关系型数据库管理系统;本地桌面型数据库,存储的数据量较少,是小型的数据库;查询语句为SQL。
  • MYSQL数据库: 是一个关系型数据库管理系统;是开源的,总体拥有成本低;支持多种操作系统;
  • SQL Server 数据库: 是一个关系型数据库管理系统;是非开源的;中型的数据库;
  • Oracle数据库: 是一个关系型数据库管理系统;不是开源的;支持多种操作系统;
  • Hive 数据库: 是非关系型数据库管理系统;数据规模大;主要进行离线的大数据分析; 查询语句为HQL;

以上就是几种常见的数据库及介绍,方便大家在做数据分析的时候提取数据。

数据清洗

数据清洗是利用相关技术将“脏”数据转换为满足质量要求的数据。下面通过一张图描述数据清洗的原理。

在这里插入图片描述

从图中可以看出,同一值的不同表示、拼写错误、不同的命名习惯、不合法的值以及空值都会导致“脏”数据出现,通过定义好的数据清洗策略和清洗规则(即数理统计技术、数据挖掘技术等清洗策略)对“脏”数据进行清洗,得到满足数据质量要求的数据。

需要注意的是,数据清洗的目的是解决“脏”数据问题,即不是将“脏”数据洗掉,而是将“脏”数据洗干净。干净的数据指的是满足质量要求的数据。

数据分析与可视化分析

Python中常会用到一些专门的库,如NumPy、SciPy、Pandas和Matplotlib。数据处理常用到NumPy、SciPy和Pandas,数据分析常用到Pandas和Scikit-Learn,数据可视化常用到Matplotlib,而对大规模数据进行分布式挖掘时则可以使用Pyspark来调用Spark集群的资源。

  • NumPy官方文档:https://numpy.org/
  • SciPy官方文档:https://scipy.org/
  • Pandas官方文档:pandas documentation
  • Matplotlib官方文档:Matplotlib - Visualization with Python
  • Scikit-learn官方文档:scikit-learn: machine learning in Python
  • Keras官方文档:the Python deep learning API

三、如何培养数据分析思维?

数据分析属于分析思维的一个子类,有专门的数据方法论,只有养成正确的分析思维才能做好数据分析。什么是好的分析思维,网上有张图是这样的:

在这里插入图片描述

第一个分析思维是依赖经验和直觉的线性思维,第二个分析思维则注重逻辑推导,属于结构化的思维。这两种思维也往往会导致不同的结果。

除了Excel、Tableau、SQL、Python 等工具技能的学习,另一个关键点则是数据分析思维的培养。大家在做数据分析之前需要构建分析框架、理清思路、学会运用常见的分析方法等结合具体业务进行分析。

这需要我们去做案例+看书来不断积累经验,形成自己的数据分析思维。

关于Python学习指南

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

包括:Python激活码+安装包、Python web开发,Python爬虫,Python数据分析,人工智能、自动化办公等学习教程。带你从零基础系统性的学好Python!

👉Python所有方向的学习路线👈

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。(全套教程文末领取)

在这里插入图片描述

👉Python学习视频600合集👈

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

温馨提示:篇幅有限,已打包文件夹,获取方式在:文末

👉Python70个实战练手案例&源码👈

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉Python大厂面试资料👈

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

在这里插入图片描述

在这里插入图片描述

👉Python副业兼职路线&方法👈

学好 Python 不论是就业还是做副业赚钱都不错,但要学会兼职接单还是要有一个学习规划。

在这里插入图片描述

👉 这份完整版的Python全套学习资料已经上传,朋友们如果需要可以扫描下方CSDN官方认证二维码或者点击链接免费领取保证100%免费

点击免费领取《CSDN大礼包》:Python入门到进阶资料 & 实战源码 & 兼职接单方法 安全链接免费领取

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/652365.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

关于linux服务器上生成的图片中文字为的乱码问题

一、功能描述 linux服务器后端生成图表(使用了canvas和echarts),并将生成的图片发送到企业微信群里。 二、出现的问题 生成的图表中文展示不出来,是乱码。错误图表展示如下: 三、 文字乱码出现的原因 linux服务器没有…

git在windows及linux(源码编译)环境下安装

git在windows及linux(源码编译)环境下安装 环境信息: 系统版本:CentOS Linux release 7.9.2009 (Core) git指令安装: yum install -y git 一、git在windows下安装 下载地址:https://git-scm.com/ 默认安装即可 验证 git --version 二、git在linux下安装 下载地址…

电子标签服务器搭建说明文档

一、安装运行环境 1.安装jdk 运行JDK_1.8.0_64bit.exe程序,可自定义安装路径 ​ 2.配置环境变量 择计算机图标,鼠标右键选择属性 ​ 选择高级系统设置,在系统属性中找到环境变量 ​ 在系统变量中新建JAVA_HOME环境变量,变量值为jdk的安装路…

跨域请求!!!

1.见过的请求类型都有哪些 getpostputdeleteoptions 和跨域相关的请求头 2.什么是跨域 当主机、域名、端口有任何一个不一致的时候,会出现跨域 3.跨域只有在哪里会出现 浏览器里出现了,它是浏览器的一个行为 4.为什么有跨域 为了安全不同域名之间…

系统编程(3):进程

文章目录 一、概念1.1 什么是进程?1.2 进程ID1.3 进程间通信1.4 进程的三种态的转换 二、进程控制2.1 创建进程函数:fork函数2.1.1 获得pid函数写代码:方式一:最简单的方式二:加入while(1)死循环…

基于Arduino的LED显示屏驱动实现

基于Arduino的LED显示屏驱动实现可以通过使用Arduino板上的数字引脚和相关库来控制LED显示屏的亮灭和显示效果。LED显示屏加载不出图像怎么办? 下面是基于Arduino的LED显示屏驱动实现的详细介绍: 硬件准备: Arduino开发板:可以使用…

ROS中 mpc_local_planner 局部路径规划器参数配置文件中参数含义

mpc_local_planner与我们比较熟悉的teb_local_planner出自同一研究所(多特蒙德大学-控制理论与系统工程研究所),所以参数配置文件中的参数有很多相似之处,很多参数的含义也是相同的,所以熟悉teb_local_planner的参数含…

亚马逊认证考试系列 - 知识点 - 安全组介绍

AWS的安全组是一种虚拟防火墙,可以用于控制进入和离开AWS虚拟私有云(VPC)的流量。安全组是一种网络访问控制列表(NACL)的补充,因为安全组是在实例级别上进行管理的,而NACL是在子网级别上进行管理的。 AWS的安全组可以通过以下方式保护您的资源…

自然语言处理: 第一章N-Gram

一. 理论基础 定义: 语言模型在wiki的定义是统计式的语言模型是一个几率分布,给定一个长度为 m 的字词所组成的字串 W1 , W2 , ,Wn ,派几率的字符串P(S) P(W1 , W2 , ,Wn , )而其中由条件概率公式我们可以…

风景类Midjourney prompt提示词

稳定输出优美风景壁纸的Midjourney prompt提示词。 1\在夏夜,有淡蓝色的星空,海边,流星,烟花,海滩上全是蓝色的玫瑰和绿色的植物,由Ivan Aivazovsky和Dan Mumford,趋势在cgsociety,…

CAN转串口设备在使用时可能遇到的问题和解决方案

上位机软件通过232串口发送数据经过CAN转232设备转换成CAN数据发送到仪表中,仪表接收到指定的数据后,返回特定的CAN数据。 使用过程中可能遇到的问题 1、串口按照规则发送数据后,设备端没有数据返回 遇到这种情况,先检查发送的数…

STM32 Proteu直流电机正反转控制系统限位开关-0035

STM32 Proteu直流电机正反转控制系统限位开关-0035 Proteus仿真小实验: STM32 Proteu直流电机正反转控制系统限位开关-0035 功能: 硬件组成:STM32F103C6单片机 L298N电机控制电路直流电机3个按键(正转、反转、停止)L…

AM62X+FPGA+AD+vxworks实时操作系统数据采集处理解决方案

Specification Description 处理器 AM6231 at up to 1.2GHz 操作系统 VXWORKS 存储 DDR4,8GB EMMC 接口 •PrPMC接口 •1个USB2.0 •3路RMII •1路RS485 •1路IRIGB •1路RS232 调试接口 JTAG / COP debug port 工业环境监测设备: Specification Desc…

常见优化器详解

优化器 目前有两种主流优化器:随机梯度下降系(Stochastic Gradient Descent, SGD)和Adam系。 应该认识到的是,优化器并不是某类数学上的优化算法,而是梯度下降(一阶迭代法)的工程实现方案和包…

VALSE2023-内容总结(正在更新)

博文为精选内容,完整ppt请留言索取 一周内更新完毕,敬请期待 2023年度视觉与学习青年学者研讨会 (Vision And Learning SEminar, VALSE)于6月10日至12日在无锡太湖国际博览中心召开,由中国人工智能学会、中国图象图形学学会主办,…

Transformer与注意力机制

Transformer与注意力机制 1. RNN基础 循环神经网络(RNN)是专门用来处理自然语言、金融信息等时序数据的一种神经网络。它的结构和运作方式如下图所示,基于马尔可夫决策模型。 图1 循环神经网络的结构和运作方式 应该注意到以下几个性质&a…

周四见 | 物流人的一周资讯

菜鸟618推出“小件3元发全国”服务 6月12日消息,针对美妆商家618期间轻小件的发货需求,菜鸟推出“极致小件3元发全国”服务,利用全国6大基地,100%自营的仓配供应链能力,支持订单高爆发,并提供破损包赔、时…

开源、跨平台安卓摸鱼(投屏)软件 Scrcpy 中文使用指南

废话不说,先上链接:GitHub上的Scrcpy 介绍: Scrcpy 可以将手机画面投射到电脑上,让你可以在电脑上对手机进行操控。Scrcpy 通过 USB 或 Wi-Fi 与安卓手机相连,不需要在手机上安装任何 app,也不需要取得 R…

Vue-插件(plugin)

插件(plugin) 插件是vue中特别强大并且特别简单的一个东西,它可以帮助我们增强vue 插件本质来说就是一个对象,但是这个对象必须包含install(安装)方法,由vue帮助我们调用 只要插件写的足够的好,就可以帮助我们实现很多的功能&a…

一些常用linux命令

系列文章目录 文章目录 系列文章目录一、常用linux命令1. lsof介绍2.查看进程的几种命令3.查看inode号的几种命令4.查看Linux系统负载的命令一般常用的有4种:5.iostat 主要用于输出磁盘IO 和 CPU的统计信息。 总结 一、常用linux命令 1. lsof介绍 lsof可以查看你所打开的文件…