前言
写下这篇文章是因为五一节前给群友的承诺,当然按照以往的惯例,也是我背后看到的这个现象,我发现大部分同学在投递岗位的时候都是投递数据分析岗位,其实背后并不是很清楚背后的岗位是做啥的,想想我自己的工作生涯,还是觉得可以写一写。
来自大数据专业课程的导向问题
我还特意找了同学问,现在作为大数据的专业都学哪些课程。这个答案下我了解到基本的大数据专业的构成。
大数据类的专业,了解比较多的还是会以数据内容分析为方向,从计算机的基础->大数据组件学习Hadooop/Spark之类的->再然后是一些Python加上数据挖掘机器学习这些,可能大数据专业比较新的专业,可以囊括到数据类分析比较前沿的岗位,至少看上去是这样子的,甚至有种专业对口的自信。反而一些非大数据专业的同学,还找工作比较顺利。其实大家稍微留意一下招聘内容就会发现,所有的面向数据相关的岗位都不会强调一定要大数据专业的,而且扩大到其他任何一个岗位,专业方向其实不会作为硬性要求,只不过是一定程度上是优势而已。这就是所谓专业带来的导向问题,大家一直以来的一大误区,需要强调的就是不管是不是大数据专业的,加强本身的技能掌握优势才是,专业不专业干系不会太大。
这个问题我想再多说一点,和我沟通情况远远不局限岗位方向的问题。因为简历石沉大海,或者面试不顺利,大家在信心上有打击,重拾信心这个事情非常重要,之前专门写了文章聊这个问题,可以参考之前的文章: 大数据技术闲侃之-迈出校门,闲庭信步
大数据岗位的由来
最近啥事情都喜欢找ChatGPT来一下:大数据方向的岗位有哪些?
我们整理一下,其实是有以下答案:数据分析师/数据科学家、数据工程师、数据架构师、大数据开发工程师、机器学习工程师、数据治理师数据可视化工程师。进一步系分的时候可以很明显的发现,有些岗位和所谓大数据并不是强绑定的,比如数据分析师,数据工程师这类在企业中很早的年代一直就有这类岗位,难道一定要大数据才做数据分析么?没有现在所谓的大数据岗位的时候一样是要做数据分析的呀。机器学习和可视化也是一样的道理,尤其是机器学习,其实几十年前这些就一直有的,但是大家看岗位的时候确实是这些,有必要了解这个过程了。我自己简单写了下面这个发展链路。大数据之路的发展其实就是技术的迭代,而且是不断迭代.
数据库时代:
这个发展变迁发生在2003年开始一直到现在大家真实体会到的互联网行业高速发展的过程。企业级使用数据比较早期的时候都是以Oracle/Db2这类为准,尤其是财务这类的数据,当然是要花钱的,MYSQL的话是开源的,大家都知道,在和php+linux+mysql的组合上比较多。这个时候基于存储过程和SQL等一系列手段做数据分析,当然大家也知道,这个时候数据容量支撑比较有限,而且在数据集成的时候其实是比麻烦的,有一类中间的数据方案如GreenPlum。
Hadoop1.x时代:数据量的扩大数据库肯定顶不住,主要是贵啊,GP也有致命弱点,那就是多个sql居然是串行的,这个时候上hadoop的方案是出来了,刚刚开始的时候主要是1.x的版本,比较早期的Hadoop,当然问题是比较多的,而jdk的版本还是1.6的呢,GC没有那么强悍的,其实在这个时候有了hive了,意味着sql可以转化为mapreduce 任务了,这个里程碑的变迁导致未来的走向都是以这套技术作为基础的迭代,尤其是写sql这个事情,就更多的人可以参与进来了。
上Hadoop2.x时代:这个时候大数据其实是一个主流的状态,这个时候实现了在资源抽象,节点分配,以及多引擎的支持上进一步扩充,即使现在大家看到比较多的是Hadoop3.x,这个阶段可以用大数据生态圈来形容,Hive/Spark/Presto多引擎模式助力各类形态的业务。
业务量的增加推动了技术系统的迭代进一步对人员要求的细化,主要有以下方面:
传统数据分析人员的转变:hadoop1.x版本那段时间正是大量的传统bi的分析人员开始转向为从原有数仓中转化到Hive中来,这个时候因为底层有了整合来自多数据源的能力,基于数据的运营也是这个时候开始从简单的看看报表开始逐步决策了。
数据成本激增:随着数据的规模进一步扩大,1.0时代面临一些瓶颈,一个是性能瓶颈,一个是成本,还有就是稳定性。这个时代其实对人员进行了进一步分工,比如大量的数据冗余,有专门的人就过来搞任务优化和存储治理了,这便开始有了治理工程师。
大佬依旧是大佬:传统意义上针对Hadoop/Spark/Hive组件开发,以及对应调度平台引擎的开发人员,这类人员就是传统意义上的开发人员了,也就是我们平时最膜拜的大佬,这一类我们叫做大数据开发工程师。
数据内容上的规范化建设:大数据对企业带来的价值不断扩大,对数据的内容质量要求变高,这个时候出现了对数据结构化、规范化、性能要求、质量保障个方面都有要求,前面的模式大部分是以满足取数目标进行数据逻辑开发,到了这个阶段,是要求从整个企业的角度去进行基础的数仓规范建设,这个时候变有了数据架构师、数据开发工程师、数据质量工程师诞生。
数据安全隐私:数据泄露,保护不当会给企业和个人直接带来损失,这个相比很好理解,但是实际上不止如此,直接可以看下下面的图
2021年8月20日《中华人民共和国个人信息保护法》正式通过,换句话说,数据的问题到现在是有是有直接法律保护的,而且也可以看到是比较新的。简单来说就是企业对数据的加工使用,安全都需要依法保障,否则就是犯法。这个时候企业是一定要招聘数据安全相关的人员的,现在行业内还没有这种通用的叫法,大致就大数据隐私工程师,大数据安全工程师,需要注意的是,在安全这个领域上也有传统意义上的这里人员,但是数据规模上完全不一样哦。
机器学习与算法工程师:这类岗位其实是来自算力和框架的升级,因为机器学习是需要大量的数据和迭代的,对算力要求极高,传统意义上做机器学习的方式其实是跑单机,机器性能可以很好,但是很多算法还不能分布式,效率很低的,也正式有了TensorFlow、Spark和Hadoop的结合之后,还加上对GPU的技术升级,算法带来的实际价值也是对企业极大,比如我们ChatGPT在技术的叫法其实就是叫做大模型技术。现在很多给行业带来兴奋的事情都是因为机器学习深度学习技术的发展带来的。这类岗位一般就是叫做算法工程师,机器学习工程师。
企业的人员的要求
有没有注意到,所谓各种岗位,其实都是因为某一项事情需要处理才有了这种岗位,因为这个事情足够严重了,企业就需要专门人处理了,对我们来说就是机会来了。
我想解答最开始提到的问题,大数据专业课程导向的问题,其实在大数据专业的课程上覆盖了所有的大数据方向,然而这样另外一个问题是大部分同学对特定的技术能力其实是不精,有时想想其实是有点知识设计内容的问题,世间大才少通才。实际情况是每一个岗位,都是企业内部很多个部门一堆人去负责一个岗位,比如数据开发这种工作,本身就是需要对数据开发的方法论,模型规范,架构方式等专门去学习,然而实际情况只是了解,听说过而已,这便是最直接的原因啊。不过,从我的角度来说,都羡慕哭了好不,现在都有大数据的专业了,想当年我自己学习大数据的技术,真是一把鼻涕十把泪,为了编译一下源码,把自己关在出租屋两周完全不出门,各种手工模拟环境,而且那个时候是因为我本身会Java,不然的话现在是另外的故事了…
实际上我们需要理解一个逻辑,不管是未来的任何工作岗位都是一样,那就是说我遇到的这档子事情,你能不能搞定。这个意义上来说,比如数据分析的岗位,这类岗位本身的优势是来自于对数据进行分析,挖掘,从专业的视角捕捉到商业上的信息,再进行决策。招聘来说肯定是在做商业分析,数据挖掘等方面有优势的人,注意哦,这个时候的大数据能力其实不是最关键的,会基础的SQL和Python之类的只是技能上的要求,其实更大的是对业务组织分析框架的理解。再比如说大数据开发工程师,这类人员比较擅长组件开发,任务优化,这种时候其实要求的偏向计算机性能优化方面的技能,以及是否对组件有足够了解。这些都是所谓的大数据工程师,但是要求的方向偏差很大的。再比如做隐私的,估计会去找法律相关专业作为第一专业,会不会写SQL估计不是最关键的了,这还是所谓大数据的岗位。
让自己发光
面试的岗位竞争肯定是激烈的,总体下来,大家应该是可以感受到通才类的方式求职其实是不合适的。其实我很多次给大家强说过,每个生命都是第一无二的,作为现在的你首先需要找到自己最有优势的地方,然后去强化,变成你独一无二的优势。一般国内外好的企业招聘远远不会限制在精通几个技能,会几个SQL那么直接,更加会侧重你解决过往问题的方式方法。尤其是现在ChatGPT这类技术那么火,为什么有些人就焦虑会被取代,当然我和身边大部分人日常就会去使用,更多的看到很多让人兴奋的点,另外一个角度来说,我们把很多传统的工作用计算机处理,不也没有把自己做没么。这件事情其实是需要大家去想的那就是未来将会选择什么样的年轻人。五一的时候回老家,把家里的老三国拿了过来,被我搞得有点烂了。
找工作这个事情,三国里面一堆,真是完全可以学习,比如徐庶,主要是他前一回就遇英主,后一回就被曹老板用计离开了,这个体验卡太快了点。我们看看他找工作的方式
皇叔骑着的卢过了檀溪之后路过了司马徽的住处,后面就有徐庶在路上的自荐了,当然皇叔这时候本身求贤若渴,主要问题是刚好在路上遇到,还要唱歌,那岂不是皇叔不经过这里就白等白唱了,其实后面他走的时候才了解到,徐庶找了司马徽,看似缘分偶遇,实际都是刻意安排呀。这类情况就是对应猎头推荐,需要找一个和目标岗位比较熟悉的猎头推荐一吧。
后面的孔明出山,看起来确实是皇叔三顾茅庐,但是前面的事情是有徐庶推荐,司马徽给悬念也算是推荐,还有三顾的时候孔明身边的朋友都给大家营造一种高级人才的感觉,这样子其实是直接可以影响入职之后待遇的。还有就是最后一顾的时候那个精彩的隆中对,这不就是早就给领导准备好了PPT么,相当于入职第一天就直接没有任何的熟悉过程就直接上手,这妥妥的待遇再提升一个层次啊。可以说这个求职的方式实在是高明。这一类情况实际有很多呀,比如现在大家有github starts个数,行业内牛逼的论文,以及各大论坛曝光,这便是提前放出光芒,基本就是人肯定很喜欢,这个的目标是求一个好点的最后待遇。还有张辽、庞统、太史慈太多了,仔细看就发现这部分人清一色先散出自己的光芒,最后的时候就很顺利。
结尾
大数据工作看似很多岗位,实际只是一些岗位做了一层包装而已,需要看清岗位背后的要求,以及找到自己最有优势的地方,然后发起猛攻!!!有点长了,就这样!!