大数据路线

news2024/11/18 22:48:05

一、概念部分

1.1 大数据、数仓、数据湖、中台的概念
区别数仓数据湖
使用场景批处理,BI,数据可视化机器学习、预测分析、数据分析
Schema写入型读取型
数据源类型OLTP为主的结构化数据loT,日志,各个端等结构非结构均可
性价比需要快速查询,高优化存储需要高成本查询实时性要求地,可使用低成本存储套件
数据质量高,需要高度监管一般,部分数据无监管
面对用户业务分析和决策数据开发,数据科学家和业务分析

部分参考资料:

数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体-阿里云开发者社区

数据湖是什么_数据湖和数据仓库的差别_数据湖架构-AWS云服务

1.2 数仓分层理论
  1. 为什么要分层?
  2. 如何分层?
1.3 数据模型之建模理论
1.4 数据治理:结合项目来沟通
  1. 数据资源管理:包括但不限于元数据,血缘,共享渠道,权限管控
  2. 数据质量管控:如何考核质量,如何动态获取,如何处置问题数据
  3. 数据安全把控:哪些问题需要关注,具体的管控方法如数据分级管理,审计和脱敏等
  4. SLA:如何高效运维,无法达成的SLA除了技术层面的优化如何通过沟通和任务分级来解决等
  5. 数据服务输出:API网关,表共享管理,标签/算法等如何更便捷的使用数据

二、技术框架部分

重点考核部分。请各位ETL工程师补充完善。

2.1 Hadoop生态
  1. yarn的基本理念和底层架构
  2. hdfs的读写基本流程,数据如何分片,多副本写入算法等
  3. mr的原理描述
  4. 目前hadoop的局限不足,有那些优化空间如namenode的瓶颈问题等
2.2 其他大数据技术
  1. Kafka等消息队列:为什么能做到高吞吐,高性能,one copy原理等
  2. Flink等实时流处理:双流join,断流监控处理等
  3. 运维调度工具
2.3 传统数据库的技术问题
  1. OLAP/OLTP区别
  2. 传统数据库索引,如mysql的B+树原理解析
2.4 数仓建设的lambda架构
  1. 实时数仓和离线数仓共存的架构解析
2.5 性能优化相关
  1. 如果高效使用索引
  2. 大数据中的数据倾斜及解决方案
  3. 小文件问题
  4. 数据建模前的模型设计考量
  5. 上线后的任务监控和优化
  6. 服务器资源的监控和调试

三、代码能力

3.1 SQL
  1. 常用窗口函数考察
  2. Join相关
  3. 复制查询如子查询,行转列,排序分组等

在这里插入图片描述

3.2 数据结构和算法

目前该部分不做强制要求,是否需要考察需要看候选人背景,有开发背景的可以适当考核。

  1. 常见数据结构的实现和基本操作:基本的链表(反转,是否有环),二叉树(BFS/DFS,高度等),大小堆(如何创建),hash表(原理和冲突解决),树(BFS/DFS,是否有环)等结构
  2. 常见的数组操作:几种排序和查找的考察(二分查找及其优化的空间,各种排序原理如选排,插排,冒泡,快排等和时间复杂度),一些简答的如topN大的数查询,寻找重复数字,矩阵转置等
  3. 常见算法思路:分治,贪心,动规(背包问题),递归回溯(8皇后)原理等
  4. 综合编码能力考察:java/python任选实现以上问题

四、开放问题

以下问题并没有标准答案,需要去考量解决问题的思路,考察综合能力,如沟通,管理和应急处置等。

4.1 项目中遇到的技术问题
  1. 项目使用的架构和数据流解析
  2. 从0搭建的过程中的问题
  3. 硬件配置如何考量
  4. 软件如何选型
4.2 项目中遇到的沟通问题
  1. 项目技术落地推动问题
  2. 升级沟通
  3. 交付延期
  4. 和售前的gap
  5. 开发团队之间技术gap
4.3 项目中遇到的管理问题
  1. 人月不足
  2. 团队流动快
  3. 人员技术层次不一致
  4. 日常管理方法
4.4 业务能力考察
  1. 项目中解决的业务问题:沟通为主
4.5 自我提升
  1. 如何快速学习新技术
  2. 项目中完全没遇到过的问题的解决思路

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/11321.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

牛客刷题总结——Python入门08:面向对象、正则表达式

🤵‍♂️ 个人主页: 北极的三哈 个人主页 👨‍💻 作者简介:Python领域优质创作者。 📒 系列专栏:《牛客题库-Python篇》 🌐推荐《牛客网》——找工作神器|笔试题库|面试经验|实习经验内推&am…

Design A Youtube

title: Notes of System Design No.05 — Design a Youtube description: ‘Design a Youtube’ date: 2022-05-14 13:45:37 tags: 系统设计 categories: 系统设计 01. Funtional Requirements 02. Non Functional Requirements 03.Assumption 04 API 05 High Level Design 上…

05 MSYS2中安装树莓派32位和64位ARM交叉编译工具

作者将狼才鲸创建日期2022-11-14 Gitee源码和工程地址:才鲸嵌入式 / 开源安防摄像机(嵌入式软件)CSDN文章地址:项目介绍:开源安防摄像机(嵌入式软件) 4.3 MSYS2中安装32位和64位ARM交叉编译工具…

1524_AURIX TC275存储分布_下

全部学习汇总: GreyZhang/g_TC275: happy hacking for TC275! (github.com) 继续前面的学习,这一次把这个小章节的剩余信息看完。 这一部分是外设相关的寄存器地址区间描述,看起来一个模块的地址空间占用基本都是256个字节。具体包括什么暂时…

Unity技术手册-UGUI零基础详细教程-Graphic Raycaster 射线检测和Canvas Group

往期文章分享点击跳转>《导航贴》- Unity手册,系统实战学习点击跳转>《导航贴》- Android手册,重温移动开发 本文约3千字,新手阅读需要6分钟,复习需要2分钟 【收藏随时查阅不再迷路】 👉关于作者 众所周知&#…

outsystems合集系列(三)

outsystemsModeling DataDatabase Entities的介绍如何创建Database Entities如何用excel快速导入真实数据到entity?如何用excel快速创建entity并导入真实数据?Static Entities的介绍Modeling Data 这一节我将介绍在outsystems中建模数据(model data)的一些思路。注意在这里我…

shellcode 中 null byte 的成因和避免方式总结

背景 shellcode 中要避免 null byte(\x00)这个是个通用的概念(windows,linux 都是一样),因为栈溢出的数据作为字符串写入到栈上,\x00 会作为字符串终止符,毁掉整个 shellcode。 这…

HTML+CSS个人静态网页设计

🎉精彩专栏推荐👇🏻👇🏻👇🏻 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业…

【AGC】安全规则resource.data获取不到字段

问题背景 在表结构里有但resource.data获取不到uid字段 解决该问题 request变量是指请求,request.resource.data是请求数据的所有字段和值的映射;resource变量是指所请求的数据在数据库中保存的状态,resource.data是数据库中保存数据的所有…

教师工作量管理系统思路(链表应用)

教师工作量管理系统思路(链表应用) 文章目录教师工作量管理系统思路(链表应用)题目描述:初始信息菜单部分数据结构功能实现查询历史信息从键盘录入信息信息删除和修改工作量计算如何存储到工作量信息链表中&#xff1f…

Bootstrap响应式轮播效果网页(1+X Web前端开发中级 例题)

文章目录 📄题目要求 🧩说明 🧩效果图 💻HTML代码 🎯实现效果 📰完整答案 📄题目要求 阅读下列说明、效果图和HTML代码,进行静态网页开发,填写(1&…

springboot12总结篇(9 10 11)

1.视图解析 以重定向为例 如果返回字符串 则会调用视图解析器thymeleafResolver判断返回值为普通字符串,返回thymeleafView调用其render方法,拼接直接访问 2.异常处理 404 ControllerAdvie 处理异常类 ExceptionHandler ControllerAdvie 处理异常类…

适配器模式

思考适配器模式 适配器模式通过转换已有的接口,达成目标需要的接口 适配器模式还可以将多种差异化接口适配成同一接口做统一输出 1.适配器模式的本质 适配器模式的本质是:转换匹配,复用功能。 适配器通过转换调用已有的实现,从而能把已有的实现匹配成需要…

【Spring】——4、使用@Scope注解设置组件的作用域

📫作者简介:zhz小白 公众号:小白的Java进阶之路 专业技能: 1、Java基础,并精通多线程的开发,熟悉JVM原理 2、熟悉Java基础,并精通多线程的开发,熟悉JVM原理,具备⼀定的线…

VCED:学习Jina的简单操作

文章目录VCED:学习Jina的简单操作在pycharm里连接docker环境几个简单的jina demoimagetextvideoVCED:学习Jina的简单操作 在pycharm里连接docker环境 在pycharm里找到docker环境 New一个环境 在docker里进入terminal,找到python 位置 成功得到decker环境 运行jina…

004_步进电机实验

步进电机是将电脉冲信号转变为角位移或线位移的开环控制元件。本章主要从步进电机的结构、工作原理、电机参数分别介绍,最后通过实验来实现步进电机运动的简单控制。本章所要实现的功能是:通过 ULN2003 驱动模块控制 28BYJ48 步进电机运行方向及速度&…

bugku-web-社工-初步收集

题目首页 社工又有杂项的存在 打开题目 小时候可能特感兴趣的网站 目录扫描一下 dirsearch 得到一个管理员后台登录网站 但是需要密码 再回到起始页面 存在一个下载点 可以操作 下载得到一个压缩包 解压打开 是一个小插件 尝试登录 同时 打开wireshark进行流量截取…

Nacos安装指南

Nacos安装指南 1.Windows安装 开发阶段采用单机安装即可。 1.1.下载安装包 在Nacos的GitHub页面,提供有下载链接,可以下载编译好的Nacos服务端或者源代码: GitHub主页:https://github.com/alibaba/nacos GitHub的Release下载…

Monaco Editor教程(十六):缩略图minimap的配置详解

背景 缩略图 (Minimap) 是一种常见的用于快速预览和探索的工具,可作为导航辅助用户探索大规模图。 在大文件的阅读和编辑中,能够起到很好的导航作用,并且缩略图能够显示文件结构的大致轮廓,使开发人员能够快速知道对应的编辑位置…

WordPress重新安装的几种方法(2022年新版教程)

我们在建网站的过程中,可能出于某些原因会把网站重装,例如网站中病毒了、网站做的不满意,重头开始。本文会给大家分享一下2022年可行的重装WordPress网站方法。 1 重装WordPress的方法 方法一:重置数据库 方法二:宝塔面…