你该选择哪个职业呢?数据科学家、数据分析师和数据工程师

news2024/11/28 18:54:34

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

许多人,在技术行业内外,对不同的数据角色及其职责感到困惑。这可能会使得想要进入该领域的人难以知道哪份工作适合他们的技能,以及与他们想要做的事情是否一致。因此,在这篇文章中,我想详细解释数据科学家、分析师和工程师之间的区别。


下面的图表展示了公司内部的基本数据流。

这并不是普遍适用的,不同的组织之间可能会有所变化。

公司内部的数据流。作者绘制的图表。
让我们来详细分析这些步骤:

  • 收集 — 这主要是关于从你可能需要的来源收集数据。要获取数据,你需要从组织拥有的网站或产品中进行日志记录和API调用。
  • 存储 — 现在我们有了数据,需要存储它以便我们可以访问。数据可以存储在许多地方和形式中,如关系数据库、云基础设施(如S3桶),甚至是某个服务器上的普通旧CSV。为此,你需要构建健壮的数据管道。
  • 转换 — 尽管我们有了数据,但它可能不是在一个很好的格式中。所以,我们需要转换它来清理并创建有用的表格。
  • 分析 — 数据清理干净后,我们可以开始从中收集洞察,以帮助推动业务决策。
  • 优化 — 数据生命周期的最后顶点是使用洞察来优化公司内部的流程,通过预测分析、建模和测试来实现。

角色要求概览


公司内不同的数据角色将控制数据流的不同部分。通常,数据工程师将使用管道来收集和存储数据。收集步骤也可以与软件工程师协作完成。

转换阶段是由这三个角色以某种方式完成的,至少根据我的经验是这样。数据科学家需要转换数据以进行模型训练,分析师转换数据以收集洞察,工程师通过数据建模转换数据以创建更好的表格。

然后,数据分析通常由数据分析师完成。最后,数据科学家负责流程中的优化步骤。尽管如此,数据科学家可能会发现自己有时也在进行一些分析,反之亦然。

我想强调的是,根据我的经验,角色之间的界限并不是固定的,而是经常相当流动的。如果你是一名数据工程师,你可能会发现自己有时也在进行一些分析和预测建模。这取决于你的组织结构和你的角色需求。

在大公司,你的技能将会更加专业化。数据科学家只会做建模部分,工程师只会做收集和存储方面的工作。而在小公司,比如初创公司,你更有可能是全能选手。在申请工作时请记住这一点!

还有另一件事需要注意,那就是每家公司对数据角色的定义往往不同。一家公司的数据科学家可能在另一家公司是数据分析师。因此,在申请前仔细阅读职位描述非常重要。

无论如何,让我们分解这三个数据角色以及他们执行工作所需的技能和工具。

数据工程师


如上所述,数据工程师基本上是数据生态系统的基础,因为他们是获取和存储数据的人。他们的总体目标是构建健壮且可持续的数据管道和基础设施,以服务分析师、科学家和任何想要在公司内部使用数据的人。

以下是成为数据工程师所需的技能和工具:

  • 编码 — 作为工程师,你需要能够编码。你需要知道的主要语言是Python和SQL,但像NoSQL、R和Java这样的语言也很有用。
  • 数据库和存储 — 现在,关系型和非关系型数据库是存储数据的主要方式,因此了解它们的工作方式和功能非常重要。常见的学习对象包括MySQL和PostgreSQL。你还需要了解数据仓库和数据湖等内容。
  • 命令行和终端 — 像任何技术职业一样,使用命令行执行命令、编辑文件和运行脚本是很重要的。
  • ETL(提取、转换、加载) — 这些工具有助于构建数据管道,比如Apache Airflow。
  • 云计算 — 许多数据工作流程,以及一般的技术工作,都是通过云计算完成的。现在几乎是基本要求,要理解AWS、Azure和Google Cloud等平台。


这并不是一个详尽的列表,因为每个公司的数据工程师角色都不相同。

数据分析师


数据分析师的主要工作是从数据中提取有意义的洞察,以帮助业务。作为分析师,你通常比数据工程师更接近业务端,因此领域知识很重要。

以下是成为数据分析师所需的技能和工具:

  • 编码 — 一般来说,分析师主要需要了解SQL。Python对许多角色来说很有用,但不是必需的。
  • Excel — 对于任何行业的任何分析任务,Microsoft Excel都是黄金标准。作为分析师,你必须非常熟练地使用它。
  • 仪表板 — 你需要能够以清晰的方式将你的发现呈现给利益相关者。使用Power BI和Tableau等工具通过仪表板进行呈现是最佳方式。
  • 分析技能 — 分析师经常运行实验,如AB测试,因此擅长数学和统计学是必需的。
  • 沟通 — 如上所述,你经常需要向非技术利益相关者展示你的发现,因此能够以易于消化的方式传达你的结果至关重要。

像数据工程师一样,这个列表绝不是详尽的,某些公司可能还需要分析师具备其他技能。

数据科学家


作为数据科学家,你的主要目标是创建预测性和机器学习算法,以帮助业务做出决策和自动化流程。你可能会进行预测、优化,甚至是深度学习,这取决于你工作的行业和领域。

以下是成为数据科学家所需的技能和工具:

  • 编码 — Python和SQL是必须的。Python因为大多数机器学习包都是用这种语言编写的,SQL用于收集你的训练数据。
  • 机器学习 — 你需要对机器学习算法及其工作原理有良好的
  • 理解,因为这是你大部分时间都在做的事情!
  • 数学和统计学 — 要理解机器学习,你需要在线性代数、微积分和贝叶斯统计等领域精通数学和统计学。
  • 云计算 — 许多算法和数据科学产品都部署在云上,因此熟悉云系统是很好的。
  • 命令行和终端 — 数据科学家相当多的时间在生产代码中工作,因此精通Bash和Z-Shell脚本非常有用。
  • 沟通 — 你经常需要向非技术利益相关者展示你的发现和模型,因此能够以易于消化的方式传达你的结果至关重要。

该选择哪一个?


最终的问题是,你应该选择哪个数据角色?在我看来,这取决于你的技能集在哪里以及你对什么感兴趣。我认为成为分析师是最容易的,因为它的要求较少,所以你可以更快地获得第一份工作。它也是对任何关注业务的人来说最好的角色。数据科学家的工作主要针对喜欢数学和统计学的人,而数据工程师非常适合喜欢技术方面的人。无论你选择哪一个,记住,无论标题如何,各公司的角色和职责都会有所不同。因此,确保你仔细阅读职位描述,以准确了解你每天将要做的事情!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1556438.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AI论文速读 | 【综述】用于轨迹数据管理和挖掘的深度学习:综述与展望

论文标题:Deep Learning for Trajectory Data Management and Mining: A Survey and Beyond 作者:Wei Chen(陈伟), Yuxuan Liang(梁宇轩), Yuanshao Zhu, Yanchuan Chang, Kang Luo, Haomin Wen(温皓珉), Lei Li, Yanwei Yu(于彦伟), Qingsong Wen(文青…

mixly编译esp32程序缺失问题bits/c++config.h

错误信息: 编译中... 使用平台的 ‘esp32’ 开发板,在列出的文件夹中:D:\windowsoftInstalled\mixly\mixly2.0-win32-x64\arduino-cli\Arduino15\packages\esp32\hardware\esp32\2.0.7 使用平台的 ‘esp32’ 代码,在列出的文件夹…

hcip结课考题答案解析 鹏

考试涵盖了BGP的基本状态、路由请求处理、网络层协议、路由聚合、网络连接管理、链路状态维护、路由信息发布、虚拟IP地址处理、路由表建立、AS外部路由学习等多个方面。考试内容涵盖了BGP的初始状态、活跃状态、Established状态、对等体交换、网络层协议、路由请求处理、链路状…

暴雨服务器X7740赋能大模型训练

数字经济浪潮愈演愈烈,大模型训练对服务器的要求也越来越高。在此背景下,暴雨信息发布专门为大规模模型训练而设计的全新旗舰GPU服务器—X7740,以卓越的计算性能、高速网络通信能力以及创新的能效表现,有效赋能大模型训练。 X7740 搭载了暴雨信息最新一代的英特尔至强可扩展处理…

gpt 3d三角形 重心坐标填充 沿x轴炫赵师傅

go import pygame from pygame.locals import * import sys import math# 初始化Pygame pygame.init()# 设置窗口大小 width, height 800, 600 screen pygame.display.set_mode((width, height)) pygame.display.set_caption(3D Triangle Fill with Barycentric Coordinates)…

Modelsim手动仿真实例

目录 1. 软件链接 2. 为什么要使用Modelsim 3. Modelsim仿真工程由几部分组成? 4. 上手实例 4.1. 新建文件夹 4.2. 指定目录 4.3. 新建工程 4.4. 新建设计文件(Design Files) 4.5. 新建测试平台文件(Testbench Files&…

简单实现企业微信远程打卡教程(永不迟到)

最近玩手游时刚好用到了手机模拟器,就是在电脑上安装一个手机模拟器,然后用电脑来挂机手机游戏 今天我突然有了一个想法,既然这个模拟器就是相当于一个虚拟的手机,那么是不是可以给它装上企业微信,然后让它帮我远程打卡…

mysql进阶知识总结

1.存储引擎 1.1MySQL体系结构 1).连接层 最上层是一些客户端和链接服务,包含本地sock通信和大多数基于客户端/服务端工具实现的类似于TCP/IP的通信。主要完成一些类似于连接处理、授权认证、及相关的安全方案。在该层上引入了线程池的概念,为通过认证…

【IDEA】使用debug方式去运行java程序

什么是debug工具? 调试工具(debug工具)是一种用于帮助程序员识别和修复程序中的错误的工具。它们提供了一系列的功能,帮助程序员在代码执行的过程中跟踪和检测问题,例如查看变量的值、检查函数的调用栈、设置断点来停…

关于Oracle VM VirtualBox无法查询IP地址的原因

1.如下,输入ifconfig却没有显示我框住的显示IP。 2.原因有可能: (1)主机没连上网络。 (2)虚拟机网络设置不正确。

Linux项目自动化构建工具-make/ makefile及其应用:多文件编写第一个linux程序:进度条(懒人学习必备博文!!!)

目录 1.前言--make/makefile的引入 2.快速上手make/makefile---自动化构建 3.关于依赖关系和依赖方法 4.自动化清理 为什么我们执行编译的时候,make一下就好,清理却要使用make clean? 5. make/makefile是如何知道当前目录下可执行文件是否为最新 6.文件…

【文献分享】通过形态扫描仪阐明自组装肽聚集:蛋白质-肽结构表征的新工具

题目:Elucidating Self‐Assembling Peptide Aggregation via Morphoscanner: A New Tool for Protein‐Peptide Structural Characterization 通过形态扫描仪阐明自组装肽聚集:蛋白质-肽结构表征的新工具 自组装和分子折叠在自然界中无处不在&#xff…

Mistral 7B v0.2 基础模型开源,大模型微调实践来了

Mistral AI在3月24日突然发布并开源了 Mistral 7B v0.2模型,有如下几个特点: 和上一代Mistral v0.1版本相比,上下文窗口长度从8k提升到32k,上下文窗口(context window)是指语言模型在进行预测或生成文本时&…

【ensp实验】GRE和MGRE相关实验

要求: 1、R5为ISP,只能进行IP地址配置,其所有地址均配为公有IP地址; 2、R1和R5间使用PPP的PAP认证,R5为主认证方 R2与R5之间使用ppp的CHAP认证,R5为主认证方; R3与R5之间使用HDLC封装; 3、R1、R2、R3构建一个MGRE环境&#…

sheng的学习笔记-AI-人脸识别

目录:sheng的学习笔记-AI目录-CSDN博客 需要学习卷机神经网络等知识,见ai目录 目录 基础知识: 人脸验证(face verification) 人脸识别(face recognition) One-Shot学习(One-shot learning&…

脱壳之常用的加固样本特征

梆梆加固样本特征 清单文件入口 android:name“com.SecShell.SecShell.ApplicationWrapper” 特征 免费版 meta-data meta-data总结 assets/secData0.jar lib/armeabi/libSecShell.so lib/armeabi/libSecShell-x86.so 梆梆企业版 assets/classes0.jar lib/armeabi-v7a/libD…

Flutter开发之objectbox

Flutter开发之objectbox 在之前进行iOS开发的时候使用WCDB去进行管理数据库很方便,它支持ORM(Object-Relational Mapping,对象关系映射),用于实现面向对象编程语言里不同类型系统的数据之间的转换。 那么在Flutter开发…

【C++】const限定符|const引用

const的引用 说const引用之前需要说明,这是建立在引用的前提下,如果是普通的拷贝赋值就基本不需要使用到const(有关权限)。 1 权限不能放大(可平移、缩小) 如何解释权限不能放大? 阅读下面的代码 可以看到&#xff1a…

Taskflow:子流任务(Subflow Tasking)

创建Subflow DAG任务中,有一种常见的场景,一个任务可能在执行期间产生新的任务,然后紧接着执行新任务。 之前提到的静态图就没有办法实现这样一个功能了,所以Taskflow提供了另一种流的节点:Subflow,Subflo…

多张图片怎么合成一张gif?快来试试这个方法

将多张图片合成一张gif动图是现在常见的图像处理的方式,适合制作一些简单的动态图片。通过使用在线图片合成网站制作的gif动图不仅体积小画面丰富,画质还很清晰。不需要下载任何软件小白也能轻松上手,支持上传jpg、png以及gif格式图片&#x…