面向初学者的数据科学|要学习的内容概述

news2024/11/17 17:51:37

面向初学者的数据科学|要学习的内容概述

数据科学家是21世纪最性感的工作。每个人都想变得性感。该领域开始变得竞争激烈,提高了就业标准。

alt

因此,仅仅知道如何使用不同的工具是不够的,求职者需要能够抓住基本的概念和技术,然后应用它来创造价值,即使它的影响不大。

alt

讨论如何从数据科学开始,并重点介绍我认为最有效的学习技巧。

数据科学概念概述

组合:

数学

统计学

编程技能

->数学和统计学的基础将有助于理解数据科学概念。编程技能将有助于使用各种工具。

应用

最后,数据科学的目的是从数据中提取有意义的见解。

数据科学中一些最受欢迎的领域:自然语言处理、计算机视觉、机器学习、统计学、数学、编程、数据分析和商业智能。

数据科学在上述领域有许多重要的应用,例如 -

图像分类和对象检测

欺诈和异常检测

医疗保健管理

语言翻译和文本分析

遥感

三个重要作用:

数据分析师:分析数据以进行业务决策。

数据科学家:从大数据中获取有价值的信息。

数据工程:使用数据管道。

如何学习数据科学或其他任何东西。

您对数据科学了解得越多,它就越广泛。这可能会让你感到不知所措,因为有很多东西要学。从一些在线课程中学习或依赖一些在线证书不足以保持自己的动力。

因此,有一个好的策略以有效的方式学习是很重要的。

从个人经验来看,我正在使用的方法已被证明至少对我有效,它让我保持动力,使我能够应用以创造真正的价值。

学习方法 - “基于项目的学习”:

学习基本概念:您可以快速浏览文章、在线课程、阅读概述报告以获取工具或技术的基本概念(4-7 天)。

示例:如果您想学习 Python,请阅读有关此编程语言的概述文章,以了解基本语法、信息源、简单数据结构和基本应用程序。

从事项目: 选择一个适合你水平的简单项目,然后开始工作。

您可以在项目工作时不断更新您的知识。此过程可能需要更长的时间,因为您将不得不进行大量研究并观看多个教程2-4 周。

重复:重复步骤 1 和步骤 2,但这一次,学习更复杂的概念并选择更高级别的项目。此步骤将重复,具体取决于您想掌握多少技能。

请记住:

你永远不会到达一个你对某个主题或技能了如指掌的地方。

当你必须付出持续的努力来提高你的表现时,你将不得不经过刻意的练习。

做研究并确定目标(SMART标准),一心一意地瞄准它。

你必须告诉自己,你会毫无借口地以任何方式完成它。保持信念,无论结果如何,你都会在更好的地方。

在数据科学中学习什么

一开始,你应该选择数据科学中的一个领域(如上所述)并瞄准一个领域,这样你就不会被太多的选择所淹没。

基于多篇文章、研究、教程和个人经验,这是我个人对“在数据科学领域工作必须具备的概念”这个问题的回答:

基础知识

数学与统计学

使用数据库

Python 及其库

数据清理

探索性数据分析

可视化

  1. 基础知识

这包括技术方面以外的其他信息,但与现实世界的情况更相关。您应该知道的一些知识:数据科学定义、教育背景、工作特征、工作性质、薪水、全球趋势和个人意义。您需要阅读和更新新闻以不断更新此信息。

例如:即使你喜欢数据科学,但你没有任何与数学、编程或统计相关的学位,你将不得不接受这样一个事实,即你会发现很难与拥有这些学位的人竞争,因为他们有教育背景的优势(或多或少)。

  1. 数学与统计学

数学

线性代数:这个数学分支在机器学习中非常有用,因为大多数机器学习模型都可以以矩阵形式表示。数据集本身表示为矩阵。线性代数用于数据预处理、数据转换和模型评估。

概率:有助于预测任何事件的未知结果。这使数据科学家能够评估其工作结果的确定性。关键概念涉及概率分布、统计显著性、探索性数据分析、模式分析、假设检验和回归。

微积分:这个数学分支涉及基于无穷小差分之和的方法,以确定和描述函数的导数和积分。深度学习和机器学习都严重依赖于梯度下降的概念。只有那些对微积分有工作知识的人。

统计学

描述统计学: 了解位置估计值(平均值、中位数、模式、修剪统计数据和加权统计数据)以及用于描述数据的变异性。这是分析定量数据的初始阶段,可以使用图形和图表轻松可视化。

推论统计:涉及定义业务指标、A/B 测试、设计假设检验以及使用置信区间、p 值和 alpha 值分析收集的数据和实验结果。

  1. 使用数据库

本节将介绍数据科学家和数据工程师之间的重叠。开发和创建可以从多个源收集数据并将其整合到单个仓库中的管道。数据需要以高度可用的格式表示,以便进一步分析。

初学者可以从学习SQL语言开始,然后转向一个RDBMS,如MySQL,Oracle和一个NoSQL。此外,参加云技术和框架(如敏捷和Scrum)的初级课程也很重要。

  1. Python及其库

Python编程语言在科研小组中被广泛使用,因为它简单且语法简单。

此外,Python拥有大量的库,如NumPy,Pandas,Matplotlib和Scikit-learn,这使得数据科学家能够更有效地处理数据。

初学者应该从基本的Python开始,通过学习Udemy或Coursera的课程,一些关键语法是:列表,设置,元组,字典,函数,...(记得上面的应用学习方法)

  1. 数据清洗

大多数时候,数据科学家花时间清理数据,这是初学者的强制性工作。在分析未清理的数据集后,您根本无法获得无偏的结果。

数据清理是识别和修复错误数据的过程。以下是数据清理过程中的常见步骤:

删除不相关的数据

删除重复项

标准化大写

转换数据类型

处理异常值

修复错误

语言翻译

处理缺失值

我总是使用电子表格或Python(取决于数据量)开始该过程,因为它具有简单直接的方法。

  1. 探索性数据分析

这种分析只是意味着调查数据以发现未知模式,发现异常,在统计数据和图形可视化的帮助下测试假设。

作为初学者,python将是进行EDA的完美工具。

EDA 步骤:

数据收集:收集、测量和分析来自各种来源的准确数据以找到问题的答案的过程。

2.数据清洗:识别和修复不正确的数据(第5节)

  1. 单变量分析:仅分析一个变量的数据(无原因或关系)。该过程描述数据并查找其中存在的模式。常见的可视化技术:

箱形图:(晶须图)显示数据集的五个数字摘要:最小值、第一个四分位数、中位数、第三个四分位数和最大值。

alt

箱体图

直方图:用于发现和显示一组连续数据的基础频率分布(形状)的图。

alt

直方图

4.二元分析:此过程使用两个变量并进行比较。这使我们能够确定一个特征如何影响另一个特征,并开始进一步分析以找出原因。

散点图:二维数据可视化,使用点来表示为两个不同变量获得的值 - 一个沿 x 轴绘制,另一个沿 y 轴绘制。

alt

散点图示例

alt

条形图:表示分类数据,矩形条的长度与其表示的值成正比。

  1. 可视化

数据可视化是所有分析项目的支柱。它有助于深入了解数据集,也用于数据预处理。为不同的数据类型和业务场景提供正确的可视化效果集是有效传达结果的关键。

图表类型以及何时使用它

alt

推荐给初学者的强大可视化工具:

Tableau:使用最广泛的数据可视化工具。Tableau 以科学研究工作为基础,旨在使分析更快、更轻松、更直观。

Power BI:由微软开发的交互式数据可视化软件产品,主要关注商业智能。

谷歌图表:作为数据可视化市场领域的主要参与者之一,用SVG和HTML5编码的谷歌图表以其生成图形和图形数据可视化的能力而闻名。

JupiterR:基于Web的应用程序JupyteR是顶级数据可视化工具之一,使用户能够创建和共享包含可视化的文档

注意:

您可以选择一种工具并了解如何使用它。

学习使用可视化工具并不像能够使用正确的技术来布局你的论点那么重要。

当可视化可以为自己说话而不要求读者阅读解释时,它是好的。

可视化的主要目的是传输消息,而不是布局所有信息。

项目学习:什么是探索性数据分析

在数据挖掘中,探索性数据分析 EDA 是一种分析数据集以总结其主要特征的方法,通常使用可视化方法。

EDA 用于在建模任务之前查看数据可以告诉我们的内容。查看一列数字或整个电子表格并确定数据的重要特征并不容易。

通过查看普通数字来获得见解可能是乏味、无聊和/或压迫性的。在这种情况下,已经设计了探索性数据分析技术作为辅助手段。

探索性数据分析通常以两种方式交叉分类。首先,每种方法要么是非图形的,要么是图形的。其次,每种方法要么是单变量的,要么是多变量的(通常只是双变量的)。

使用Chartio进行探索性数据分析

我们将对虹膜数据集进行探索性数据分析,以熟悉EDA流程。让我们看几个示例数据点:

样本数据

该数据集包含四个特征 - 鸢尾花不同物种(花色,弗吉尼亚,塞托萨)的萼片长度,萼片宽度,花瓣长度和花瓣宽度。在数据集中,每个物种有 50 个实例(数据行),总共 150 个数据点。

单变量分析

单变量分析是最简单的数据分析形式,其中正在分析的数据仅包含一个变量。由于它是单个变量,因此不处理原因或关系。

单变量分析的主要目的是描述数据并查找其中存在的模式。让我们看一下用于执行单变量分析的几个可视化。

alt

箱形图

箱须图(也称为箱形图)显示一组数据的五个数字汇总。五个数字汇总是最小值、第一个四分位数、中位数、第三个四分位数和最大值。

一般箱体图

通用框

创建的箱形图为我们提供了数据集中四个数值特征的摘要。我们可以观察到,花瓣长度和宽度的分布更加分散,如盒子的更大尺寸所表明的那样。

然而,萼片的长度和宽度集中在它的中位数附近。此外,在萼片宽度箱图中,我们可以观察到一些异常值,如晶须上方和下方的点所示。

直方图

直方图是一种绘图,可用于发现并显示一组连续数据的基础频率分布(形状)。

这允许检查数据的基础分布(例如正态分布)、异常值、偏度等。

alt

图表中的直方图

上图显示了在Chartio中制作的萼片和花瓣宽度的直方图。从图表中可以观察到,萼片宽度遵循高斯分布。然而,花瓣宽度更偏向右侧,大多数花样的花瓣宽度小于0.4厘米。

多变量分析

多变量数据分析是指用于分析来自多个变量的数据的任何统计技术。这模拟了更真实的应用程序,其中每种情况、产品或决策都涉及多个变量。让我们看一下用于执行多变量分析的几个可视化效果。

散布图

alt

散点图是一种二维数据可视化,它使用点来表示为两个不同变量获得的值 - 一个沿 x 轴绘制,另一个沿 y 轴绘制。

散点图

以上是使用 Chartio 制作的两个散点图的示例。我们可以观察到花瓣长度和宽度之间存在线性关系。然而,随着萼片长度的增加,萼片宽度不会成比例地增加——因此它们没有线性关系。

在散点图中,如果对点进行颜色编码,则可以显示附加变量。例如,让我们通过根据花种对每个点进行颜色编码来创建下面的花瓣长度与宽度图表。

图表中的颜色编码散点图

我们可以观察到,“setosa”物种的花瓣长度和宽度最低,“virginica”的花瓣长度和宽度最高,“杂色”位于它们之间。通过绘制更多维度,可以从数据中得出更深入的见解。

条形图

alt

条形图表示分类数据,矩形条的长度与其表示的值成正比。例如,我们可以使用鸢尾数据集来观察所有不同物种的平均花瓣和萼片长度/宽度。

的条形图

观察条形图,我们可以得出结论,“弗吉尼亚”的花瓣长度、花瓣宽度和萼片长度最高,其次是“花色”和“塞托萨”。然而,萼片宽度偏离了这种趋势,其中“setosa”最高,其次是“弗吉尼亚”和“花色”。

alt

我们执行的探索性数据分析使我们能够很好地理解数据包含的内容。完成此阶段后,我们可以执行更复杂的建模任务,例如聚类和分类。

除了 EDA 示例中显示的图表外,我们还可以根据数据的特征使用各种其他图表:

显示随时间变化的折线图 饼图,用于显示零件与整体之间的关系 用于可视化位置数据的地图图表 结论 在深入研究机器学习或统计建模之前,EDA 是关键步骤,因为它提供了为手头问题开发适当模型并正确解释其结果所需的上下文。EDA 对于数据科学家来说很有价值,可以确保他们生成的结果有效、正确解释并适用于所需的业务环境。

资源 硅谷数据科学——探索性数据分析的价值 工程统计手册 – 什么是 EDA?

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/604696.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

VMware Cloud Foundation 5.0 发布 - 领先的多云平台

VMware Cloud Foundation 5.0 发布 - 领先的多云平台 高效管理虚拟机 (VM) 和容器工作负载。为本地部署的全栈超融合基础架构 (HCI) 提供云的优势。 请访问原文链接:https://sysin.org/blog/vmware-cloud-foundation-5/,查看最新版。原创作品&#xff…

DEMO:F4帮助 收藏夹功能

货铺QQ群号:834508274微信群不能扫码进了,可以加我微信SAPliumeng拉进群,申请时请提供您哪个模块顾问,否则是一律不通过的。进群统一修改群名片,例如BJ_ABAP_森林木。群内禁止发广告及其他一切无关链接,小程…

没有硬件资源?免费使用Colab搭建你自己的Stable Diffiusion在线模型!保姆级教程...

部署 Stable Diffusion 需要一定的硬件资源,具体取决于要处理的图像大小和处理速度等因素。一般来说,至少需要一台具有较高计算能力的服务器,而对 GPU 的高要求就限制了我们学习和使用SD来生成我们想要的图像。 GPU是深度学习开发的重要硬件条…

C++ 学习 ::【基础篇:16】:C++ 类的基本成员函数:拷贝构造函数(认识、特征、注意点及典型使用场景)及其基本写法与调用

本系列 C 相关文章 仅为笔者学习笔记记录,用自己的理解记录学习!C 学习系列将分为三个阶段:基础篇、STL 篇、高阶数据结构与算法篇,相关重点内容如下: 基础篇:类与对象(涉及C的三大特性等&#…

FastJSON autoType is not support问题解决

概述 产品在使用内部的后台管理系统时反馈的问题。 于是登录平台,发现如下报错详情: 排查 经过分析,不难得知,请求是从gateway网关转发到对应的统计服务 statistics,此服务有个接口/api/statistics/data/overview…

华为OD机试真题 Java 实现【支持优先级的队列】【2023 B卷 100分】

一、题目描述 实现一个支持优先级的队列,高优先级先出队列,同优先级时先进先出。 如果两个输入数据和优先级都相同,则后一个数据不入队列被丢弃。 队列存储的数据内容是一个整数。 二、输入描述 一组待存入队列的数据(包含内…

Java官方笔记4类和对象

创建类 定义类Bicycle: public class Bicycle {// the Bicycle class has// three fieldspublic int cadence;public int gear;public int speed;// the Bicycle class has// one constructorpublic Bicycle(int startCadence, int startSpeed, int startGear) {gea…

李沐动手学习深度学习 2023年Win10 下安装 CUDA 和 Pytorch 跑深度学习(最新)

目录 一、安装Anaconda 1.下载Anaconda 测试是否安装成功 二、安装pytorch 验证pytorch是否安装成功 4.测试 3.配置pycharm 一、安装Anaconda 1.下载Anaconda 可以在官网下载,但是速度较慢,这里我选择了清华镜像源的下载 https://mirrors.tuna.t…

Gradio的web界面演示与交互机器学习模型,Blocks的事件侦听《7》

在第一篇文章我们就熟悉了Blocks的用法,使用Blocks比Interface更加灵活,这节重点关注Blocks里面的相关操作。 1、Blocks标准例子 import gradio as grdef greet(name):return "你好 " name "!"with gr.Blocks() as demo:name g…

简单的汉诺塔,神奇的预言,竟然需要5849亿年???(52)

小朋友们好,大朋友们好! 我是猫妹,一名爱上Python编程的小学生。 和猫妹学Python,一起趣味学编程。 今日主题 汉诺塔 古印度大梵天传说 Python玩转汉诺塔 递归 汉诺塔 汉诺塔(Hanoi)是一个著名的益智游戏,也称…

规则引擎架构-基于aviator

目录 aviator使用场景ASM 字节码操控框架aviator 表达式例子debug表达式类生成过程b-ca生成的class文件 aviator使用场景 github地址:aviator 使用场景: 规则判断及规则引擎公式计算动态脚本控制集合数据 ELT 等 …… ASM 字节码操控框架 asm实现&a…

【Dubbo】Dubbo架构的演进过程分析

📫作者简介:小明java问道之路,2022年度博客之星全国TOP3,专注于后端、中间件、计算机底层、架构设计演进与稳定性建设优化,文章内容兼具广度、深度、大厂技术方案,对待技术喜欢推理加验证,就职于…

Go并发编程 Goroutine、Channel、Select、Mutex锁、sync、Atomic等

本文所有实例代码运行go版本:go version go1.18.10 windows/amd64 1 并发编程介绍 1.1 串行、并发、并行 串行:所有任务一件一件做,按照事先的顺序依次执行,没有被执行到的任务只能等待。最终执行完的时间等于各个子任务之和。…

效率神器!神级ChatGPT浏览器插件分享

大家好,我是卷了又没卷,薛定谔的卷的AI算法工程师「陈城南」~ 担任某大厂的算法工程师,带来最新的前沿AI知识和工具,欢迎大家交流~,后续我还会分享更多 AI 有趣工具和实用玩法,包括AI相关技术、ChatGPT、AI…

初识SpringBoot -- SpringBoot入门保姆级教程(一)

文章目录 前言一、初识SpringBoot1.SpringBoot简介2.用编译器IDEA创建SpringBoot项目3.在官网创建SpringBoot项目4.SpringBoot项目快速启动(前后端分离基本能力)5.了解SpringBoot起步依赖和启动类 总结 前言 为了巩固所学的知识,作者尝试着开…

RocketMQ消息消费

RocketMQ消息消费示例代码: public static void main(String[] args) throws InterruptedException, MQClientException {DefaultMQPushConsumer consumer new DefaultMQPushConsumer("please_rename_unique_group_name_4");consumer.setNamesrvAddr(&qu…

C++ 学习 ::【基础篇:15】:C++ 类的基本成员函数:析构顺序问题(全局/静态/局部量) 及 类类型(自定义类型)与析构函数

本系列 C 相关文章 仅为笔者学习笔记记录,用自己的理解记录学习!C 学习系列将分为三个阶段:基础篇、STL 篇、高阶数据结构与算法篇,相关重点内容如下: 基础篇:类与对象(涉及C的三大特性等&#…

Nginx配置块location及rewrite详解(遗憾)

文章目录 一、location配置块详解1.location 大致分为三类2.location 常用的匹配规则3.location 匹配的优先级4.location 匹配流程5.location 的实际使用(1)直接匹配网站根目录首页(2)处理静态文件请求(3)通…

函数式接口相关知识点

这里写目录标题 函数式接口简介以及注意点函数式接口作为方法的参数函数式接口作为方法参数常用的函数式接口Supplier简介具体代码操作 Consumer简介具体代码演示演示1演示2 Predicate接口简介以及接口中的方法text和negate方法and和or方法Function方法简介具体操作1具体操作2 …

SQL语句之DDL语言

说明:DDL(Data Definition Language,数据定义语言),用来定义数据库对象(数据库、表),包括了数据库和表的创建、查询、使用和删除操作。 一、数据库操作 新安装的数据库,默认有以下四个数据库&…