大数据技术闲侃之岗位选择解惑

news2025/1/4 19:29:34

前言

写下这篇文章是因为五一节前给群友的承诺,当然按照以往的惯例,也是我背后看到的这个现象,我发现大部分同学在投递岗位的时候都是投递数据分析岗位,其实背后并不是很清楚背后的岗位是做啥的,想想我自己的工作生涯,还是觉得可以写一写。

来自大数据专业课程的导向问题

我还特意找了同学问,现在作为大数据的专业都学哪些课程。这个答案下我了解到基本的大数据专业的构成。

大数据类的专业,了解比较多的还是会以数据内容分析为方向,从计算机的基础->大数据组件学习Hadooop/Spark之类的->再然后是一些Python加上数据挖掘机器学习这些,可能大数据专业比较新的专业,可以囊括到数据类分析比较前沿的岗位,至少看上去是这样子的,甚至有种专业对口的自信。反而一些非大数据专业的同学,还找工作比较顺利。其实大家稍微留意一下招聘内容就会发现,所有的面向数据相关的岗位都不会强调一定要大数据专业的,而且扩大到其他任何一个岗位,专业方向其实不会作为硬性要求,只不过是一定程度上是优势而已。这就是所谓专业带来的导向问题,大家一直以来的一大误区,需要强调的就是不管是不是大数据专业的,加强本身的技能掌握优势才是,专业不专业干系不会太大。
  这个问题我想再多说一点,和我沟通情况远远不局限岗位方向的问题。因为简历石沉大海,或者面试不顺利,大家在信心上有打击,重拾信心这个事情非常重要,之前专门写了文章聊这个问题,可以参考之前的文章: 大数据技术闲侃之-迈出校门,闲庭信步

大数据岗位的由来

最近啥事情都喜欢找ChatGPT来一下:大数据方向的岗位有哪些?


  我们整理一下,其实是有以下答案:数据分析师/数据科学家、数据工程师、数据架构师、大数据开发工程师、机器学习工程师、数据治理师数据可视化工程师。进一步系分的时候可以很明显的发现,有些岗位和所谓大数据并不是强绑定的,比如数据分析师,数据工程师这类在企业中很早的年代一直就有这类岗位,难道一定要大数据才做数据分析么?没有现在所谓的大数据岗位的时候一样是要做数据分析的呀。机器学习和可视化也是一样的道理,尤其是机器学习,其实几十年前这些就一直有的,但是大家看岗位的时候确实是这些,有必要了解这个过程了。我自己简单写了下面这个发展链路。大数据之路的发展其实就是技术的迭代,而且是不断迭代.


  数据库时代:
这个发展变迁发生在2003年开始一直到现在大家真实体会到的互联网行业高速发展的过程。企业级使用数据比较早期的时候都是以Oracle/Db2这类为准,尤其是财务这类的数据,当然是要花钱的,MYSQL的话是开源的,大家都知道,在和php+linux+mysql的组合上比较多。这个时候基于存储过程和SQL等一系列手段做数据分析,当然大家也知道,这个时候数据容量支撑比较有限,而且在数据集成的时候其实是比麻烦的,有一类中间的数据方案如GreenPlum。
  Hadoop1.x时代:数据量的扩大数据库肯定顶不住,主要是贵啊,GP也有致命弱点,那就是多个sql居然是串行的,这个时候上hadoop的方案是出来了,刚刚开始的时候主要是1.x的版本,比较早期的Hadoop,当然问题是比较多的,而jdk的版本还是1.6的呢,GC没有那么强悍的,其实在这个时候有了hive了,意味着sql可以转化为mapreduce 任务了,这个里程碑的变迁导致未来的走向都是以这套技术作为基础的迭代,尤其是写sql这个事情,就更多的人可以参与进来了。
  上Hadoop2.x时代:这个时候大数据其实是一个主流的状态,这个时候实现了在资源抽象,节点分配,以及多引擎的支持上进一步扩充,即使现在大家看到比较多的是Hadoop3.x,这个阶段可以用大数据生态圈来形容,Hive/Spark/Presto多引擎模式助力各类形态的业务。
  业务量的增加推动了技术系统的迭代进一步对人员要求的细化,主要有以下方面:
  传统数据分析人员的转变:hadoop1.x版本那段时间正是大量的传统bi的分析人员开始转向为从原有数仓中转化到Hive中来,这个时候因为底层有了整合来自多数据源的能力,基于数据的运营也是这个时候开始从简单的看看报表开始逐步决策了。
  数据成本激增:随着数据的规模进一步扩大,1.0时代面临一些瓶颈,一个是性能瓶颈,一个是成本,还有就是稳定性。这个时代其实对人员进行了进一步分工,比如大量的数据冗余,有专门的人就过来搞任务优化和存储治理了,这便开始有了治理工程师。
  大佬依旧是大佬:传统意义上针对Hadoop/Spark/Hive组件开发,以及对应调度平台引擎的开发人员,这类人员就是传统意义上的开发人员了,也就是我们平时最膜拜的大佬,这一类我们叫做大数据开发工程师。
  数据内容上的规范化建设:大数据对企业带来的价值不断扩大,对数据的内容质量要求变高,这个时候出现了对数据结构化、规范化、性能要求、质量保障个方面都有要求,前面的模式大部分是以满足取数目标进行数据逻辑开发,到了这个阶段,是要求从整个企业的角度去进行基础的数仓规范建设,这个时候变有了数据架构师、数据开发工程师、数据质量工程师诞生。
  数据安全隐私:数据泄露,保护不当会给企业和个人直接带来损失,这个相比很好理解,但是实际上不止如此,直接可以看下下面的图

2021年8月20日《中华人民共和国个人信息保护法》正式通过,换句话说,数据的问题到现在是有是有直接法律保护的,而且也可以看到是比较新的。简单来说就是企业对数据的加工使用,安全都需要依法保障,否则就是犯法。这个时候企业是一定要招聘数据安全相关的人员的,现在行业内还没有这种通用的叫法,大致就大数据隐私工程师,大数据安全工程师,需要注意的是,在安全这个领域上也有传统意义上的这里人员,但是数据规模上完全不一样哦。
  机器学习与算法工程师:这类岗位其实是来自算力和框架的升级,因为机器学习是需要大量的数据和迭代的,对算力要求极高,传统意义上做机器学习的方式其实是跑单机,机器性能可以很好,但是很多算法还不能分布式,效率很低的,也正式有了TensorFlow、Spark和Hadoop的结合之后,还加上对GPU的技术升级,算法带来的实际价值也是对企业极大,比如我们ChatGPT在技术的叫法其实就是叫做大模型技术。现在很多给行业带来兴奋的事情都是因为机器学习深度学习技术的发展带来的。这类岗位一般就是叫做算法工程师,机器学习工程师。

企业的人员的要求

有没有注意到,所谓各种岗位,其实都是因为某一项事情需要处理才有了这种岗位,因为这个事情足够严重了,企业就需要专门人处理了,对我们来说就是机会来了。
  我想解答最开始提到的问题,大数据专业课程导向的问题,其实在大数据专业的课程上覆盖了所有的大数据方向,然而这样另外一个问题是大部分同学对特定的技术能力其实是不精,有时想想其实是有点知识设计内容的问题,世间大才少通才。实际情况是每一个岗位,都是企业内部很多个部门一堆人去负责一个岗位,比如数据开发这种工作,本身就是需要对数据开发的方法论,模型规范,架构方式等专门去学习,然而实际情况只是了解,听说过而已,这便是最直接的原因啊。不过,从我的角度来说,都羡慕哭了好不,现在都有大数据的专业了,想当年我自己学习大数据的技术,真是一把鼻涕十把泪,为了编译一下源码,把自己关在出租屋两周完全不出门,各种手工模拟环境,而且那个时候是因为我本身会Java,不然的话现在是另外的故事了…
  
实际上我们需要理解一个逻辑,不管是未来的任何工作岗位都是一样,那就是说我遇到的这档子事情,你能不能搞定。这个意义上来说,比如数据分析的岗位,这类岗位本身的优势是来自于对数据进行分析,挖掘,从专业的视角捕捉到商业上的信息,再进行决策。招聘来说肯定是在做商业分析,数据挖掘等方面有优势的人,注意哦,这个时候的大数据能力其实不是最关键的,会基础的SQL和Python之类的只是技能上的要求,其实更大的是对业务组织分析框架的理解。再比如说大数据开发工程师,这类人员比较擅长组件开发,任务优化,这种时候其实要求的偏向计算机性能优化方面的技能,以及是否对组件有足够了解。这些都是所谓的大数据工程师,但是要求的方向偏差很大的。再比如做隐私的,估计会去找法律相关专业作为第一专业,会不会写SQL估计不是最关键的了,这还是所谓大数据的岗位。

让自己发光

面试的岗位竞争肯定是激烈的,总体下来,大家应该是可以感受到通才类的方式求职其实是不合适的。其实我很多次给大家强说过,每个生命都是第一无二的,作为现在的你首先需要找到自己最有优势的地方,然后去强化,变成你独一无二的优势。一般国内外好的企业招聘远远不会限制在精通几个技能,会几个SQL那么直接,更加会侧重你解决过往问题的方式方法。尤其是现在ChatGPT这类技术那么火,为什么有些人就焦虑会被取代,当然我和身边大部分人日常就会去使用,更多的看到很多让人兴奋的点,另外一个角度来说,我们把很多传统的工作用计算机处理,不也没有把自己做没么。这件事情其实是需要大家去想的那就是未来将会选择什么样的年轻人。五一的时候回老家,把家里的老三国拿了过来,被我搞得有点烂了。


找工作这个事情,三国里面一堆,真是完全可以学习,比如徐庶,主要是他前一回就遇英主,后一回就被曹老板用计离开了,这个体验卡太快了点。我们看看他找工作的方式


皇叔骑着的卢过了檀溪之后路过了司马徽的住处,后面就有徐庶在路上的自荐了,当然皇叔这时候本身求贤若渴,主要问题是刚好在路上遇到,还要唱歌,那岂不是皇叔不经过这里就白等白唱了,其实后面他走的时候才了解到,徐庶找了司马徽,看似缘分偶遇,实际都是刻意安排呀。这类情况就是对应猎头推荐,需要找一个和目标岗位比较熟悉的猎头推荐一吧。


后面的孔明出山,看起来确实是皇叔三顾茅庐,但是前面的事情是有徐庶推荐,司马徽给悬念也算是推荐,还有三顾的时候孔明身边的朋友都给大家营造一种高级人才的感觉,这样子其实是直接可以影响入职之后待遇的。还有就是最后一顾的时候那个精彩的隆中对,这不就是早就给领导准备好了PPT么,相当于入职第一天就直接没有任何的熟悉过程就直接上手,这妥妥的待遇再提升一个层次啊。可以说这个求职的方式实在是高明。这一类情况实际有很多呀,比如现在大家有github starts个数,行业内牛逼的论文,以及各大论坛曝光,这便是提前放出光芒,基本就是人肯定很喜欢,这个的目标是求一个好点的最后待遇。还有张辽、庞统、太史慈太多了,仔细看就发现这部分人清一色先散出自己的光芒,最后的时候就很顺利。

结尾

大数据工作看似很多岗位,实际只是一些岗位做了一层包装而已,需要看清岗位背后的要求,以及找到自己最有优势的地方,然后发起猛攻!!!有点长了,就这样!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/530360.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

用户/用户组管理

用户管理 * useradd 命令添加用户,会在/etc/passwd生成用户信息,信息分为7列,被6个冒号隔开 第一列 username (login name) 第二列 密码,但是该列已经被移除,用x表示,密码信息已经存放在了/etc/shadow文…

Android以aar包形式引入hunter-debug,Java(3)

Android以aar包形式引入hunter-debug,Java(3) (1)首先把hunter的master分支代码拉下来,在本地编译, https://github.com/Leaking/Hunterhttps://github.com/Leaking/Hunter此过程主要目的是获得…

理解学习曲线:芯片工作中的平台价值和个人价值

作为一名芯片工程师,从毕业出到步入公司的第一天开始,需要完成一次明显的转变,随着工作的日益开展和项目推进,个人能力的也得到了潜移默化的提升,当我们回看个人的知识/技能成长的曲线时,可能会发现很多的发…

CMake:递归检查并拷贝所有需要的DLL文件

文章目录 1. 目的2. 设计整体思路多层依赖的处理获取 DLL 所在目录探测剩余的 DLL 文件 3. 代码实现判断 stack 是否为空判断 stack 是否为空获取所有 target检测并拷贝 DLL 4. 使用 1. 目的 在基于 CMake 构建的 C/C 工程中,拷贝当前工程需要的每个DLL文件到 Visu…

将nacos从本地切换到远程服务器上时报错:客户端端未连接,Client not connected

报错信息: 09:34:38.438 [com.alibaba.nacos.client.Worker] ERROR com.alibaba.nacos.common.remote.client - Send request fail, request ConfigBatchListenRequest{headers{charsetUTF-8, Client-AppNameunknown, Client-RequestToken65c0fbf47282ae0a7b85178…

android点击事件,跳转界面

Android 事件处理 1&#xff0c;采用在Activity中创建一个内部类定义点击事件 主要xml代码 <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"xmlns:app"http:…

【SAP Abap】X-DOC:SE37 - ABAP 功能模块之更新模块(Function Module 之 Update module)

【SAP Abap】X-DOC&#xff1a;SE37 - ABAP 功能模块之更新模块&#xff08;Function Module 之 Update module&#xff09; 1、简介1.1、什么是更新函数1.2、更新函数的类型1.3、更新函数的参数要求1.4、更新函数的调用方式1.5、更新函数的调试方式1.6、更新任务的执行模式1.7…

C语言——控制语句

目录 1. 分支语句1.1 if语句1.1.1 基本结构1.1.2 分层结构1.1.3 嵌套结构 1.2 switch case 语句 2.循环语句2.1 for循环2.1.1 基本结构2.1.2 嵌套结构2.1.3 变形 2.2 while循环2.3 do while循环2.4 死循环2.5 循环控制语句 控制语句即用来实现对程序流程的选择、循环、转向和返…

Shiro框架漏洞分析与复现

Shiro简介 Apache Shiro是一款开源安全框架&#xff0c;提供身份验证、授权、密码学和会话管理。Shiro框架直观、易用&#xff0c;同时也能提供健壮的安全性&#xff0c;可以快速轻松地保护任何应用程序——从最小的移动应用程序到最大的 Web 和企业应用程序。 1、Shiro反序列…

Linux下的线程(线程的同步与互斥)

目录 Linux下线程创建函数pthread_ create() 线程的等待函数pthread_ join() 线程终止 函数pthread exit() 函数pthread_cancel() 分离线程pthread_detach() 线程间的互斥 线程间同步 死锁 进程和线程 线程和进程是一对有意义的概念&#xff0c;主要区别和联系如下&am…

【Linux】常见指令以及权限理解

&#x1f307;个人主页&#xff1a;平凡的小苏 &#x1f4da;学习格言&#xff1a;别人可以拷贝我的模式&#xff0c;但不能拷贝我不断往前的激情 &#x1f6f8;C专栏&#xff1a;Linux修炼内功基地 家人们更新不易&#xff0c;你们的&#x1f44d;点赞&#x1f44d;和⭐关注⭐…

Vue 中动态引入图片为什么要是 require

在vue中动态的引入图片为什么要使用require&#xff1f; 因为动态添加src被当做静态资源处理了&#xff0c;没有进行编译&#xff0c;所以要加上require&#xff0c; 我倒着都能背出来...... emmm... 乍一看好像说的很有道理啊&#xff0c;但是仔细一看&#xff0c;这句话说…

《设计模式》之单例模式

文章目录 1、定义2、动机2、类结构3、单例的表现形式4、总结4、代码实现(C) 1、定义 保证一个类仅有一个实例&#xff0c;并提供一个该实例的全局访问点。 2、动机 在软件系统中&#xff0c;经常有这样一些特殊的类&#xff0c;必须保证它们在系统中只存在一个实例&#xff…

可道云上传文件后报错: Call to undefined function shell_exec()

宝塔面板中直接一键部署的可道云&#xff0c;使用的是PHP8.0环境&#xff0c;上传文件或者点击我刚上传好的文件夹就会报错以下错误&#xff1a; 出错了! (warning!) Call to undefined function shell_exec() 系统错误 fileThumb/app.php[376] fileThumbPlugin->checkB…

UML时序图详解

上篇文章&#xff0c;介绍了UML状态图&#xff0c;并通过visio绘制一个全自动洗衣机的UML状态图实例进行讲解。 本篇&#xff0c;来继续介绍UML中的另一种图——时序图。 1 时序图简介 时序图(Sequence Diagram)&#xff0c;也叫顺序图&#xff0c;或序列图&#xff0c;是一…

基于SpringBoot的招聘信息管理系统设计与实现

前言 本次设计任务是要设计一个招聘信息管理系统&#xff0c;通过这个系统能够满足管理员&#xff0c;用户和企业的招聘信息管理功能。系统的主要功能包括首页、个人中心、用户管理、企业管理、工作类型管理、企业招聘管理、投简信息管理、面试邀请管理、求职信息管理、社区留…

银行数字化转型导师坚鹏:银行数字化转型的5大发展趋势

银行数字化转型的发展趋势主要包括以下5个方面&#xff1a; 从过去的局部数字化转型向全面数字化转型转变&#xff1a;2022年1月&#xff0c;中国银保监会发布《关于银行业保险业数字化转型的指导意见》&#xff0c;标志着中国银行业的数字化转型已经不是过去银行自己主导的局…

简单理解正向代理和反向代理

上一篇文章说到反向代理是用来做负载均衡的&#xff0c;同时我就想到了那么正向代理是不是也可以说一说&#xff0c;可能还是有很多人是弄不清他俩的区别是什么的吧&#xff1f; 那么本次文章就用借钱的例子来阐述一下什么是正向代理&#xff0c;什么是反向代理 正向代理 正…

Android系统的问题分析笔记(4) - Android设备硬件基础

问题 典型的Android手机/平板硬件架构是怎么样的&#xff1f; 1 典型Android手机/平板硬件架构图 2 基带处理器 (Baseband Processor) 市场上大多数的手机采用了相互独立的处理单元来分别处理用户界面软件和射频功能。即&#xff1a;应用处理器 (Application Processor&#…

5年积淀,Mapmost打造连接无限的数字孪生平台

数字孪生是充分利用物理模型、传感器更新、运行历史等数据&#xff0c;集成多学科、多物理量、多尺度、多概率的仿真过程&#xff0c;在虚拟空间中完成映射&#xff0c;从而反映相对应的实体装备的全生命周期过程。在“数字中国”、“实景中国”战略指导下&#xff0c;数字孪生…