技术云图:大数据新手的云端征途

news2025/1/18 6:23:29

前段时间的一次面试中,在面试快要结束的时候,我问了面试官一个我认为对大数据开发岗位很重要的问题:

我作为一个大数据开发岗位的新人,大数据方向要学习的知识和技术实在太多了,想请问:您认为大数据开发岗位最重要需要学习哪些知识和技术呢?
面试官给我的回答是这样的:现在云技术发展的越来越好,肯定是要去多多了解使用并掌握云数据仓库,这样才能更好的去使用新技术拥抱新技术,但是这是基于大数据基础的扎实的前提下。

然后,前两天和一位在某中大厂公司做数据仓库实习的师兄聊了一下。我向师兄吐槽现在找实习太难了,师兄向我吐槽公司太压榨,晚上回学校都十点了,需求一直做不完。还说自己一个实习生上周被自己的leader要求做一个需求,直接飙到700多行sql(我汗流浃背🚀)。
我问师兄,公司里面用什么技术,和我们准备面试学的那些数据仓库项目区别大嘛?

根本不是一个级别的,学习的项目真的太小儿科了,只能说基本的需求包括了,但是业务、数据量什么的根本达不到,用的技术、软件也很落后,现在公司都是用一些云厂商的云数据仓库,他们全部都包装好了,只需要你一键写sql就行了,谁还需要一个环境搭两周啊。师妹啊,既然实习找不到,还是先写论文吧。

005A55AB.jpg
(不行的,找工作是短期目标,写论文是长期战斗🤣)
既然大家都在强调,公司也在用,那我先尝试了解一下云数据仓库总是好的吧。
了解了一下互联网的行业大趋势,现在主要是面向多云、数据安全和人工智能领域,所以云数据仓库越来越火,越来越被企业所青睐也不无道理。

  1. 多云策略: 企业越来越倾向于采用多云策略,以避免依赖单一供应商,并利用不同云平台的优势。跨云数据仓库解决方案,如Google的BigQuery Omni(2020年推出),正在变得越来越流行。
  2. 数据治理和安全: 随着数据隐私法规的增加,云数据仓库提供了更强大的数据治理和安全功能,以确保数据的合规性和安全性。例如,Azure Purview(2020年推出)提供了全面的数据治理解决方案,帮助企业管理和保护数据。
  3. 人工智能和机器学习集成: 云数据仓库正越来越多地集成AI和机器学习工具,以支持高级数据分析和预测。Databricks Lakehouse(2020年推出)和Snowflake等平台提供了丰富的ML支持,简化了模型开发、训练和部署的流程。

(最近很火的不是:抓住人工智能的风口,你就是第二个马云😂)
006E30DC.jpg
现在云数据仓库技术做的比较好的,主要有下面几家:

  1. Amazon Redshift (Amazon Web Services)
    • RA3 Nodes(2020年推出):RA3节点提供了分离存储和计算的能力,允许用户根据需要独立扩展存储和计算资源,优化成本和性能。
    • Redshift Spectrum(2017年推出):允许直接查询存储在Amazon S3中的数据,而无需将数据加载到Redshift集群中,从而实现更灵活的分析。
  2. Google BigQuery (Google Cloud)
    • BigQuery Omni(2020年推出):支持跨云查询,允许用户在Google Cloud、AWS和Azure上进行无缝数据分析,提供更灵活的多云解决方案。
    • BigQuery BI Engine(2019年推出):内存分析服务,提升BI工具(如Google Data Studio)的查询性能,使分析更快更直观。
  3. Microsoft Azure Synapse Analytics (Microsoft Azure)
    • Azure Synapse(2019年推出):结合了数据整合、大数据和数据仓库功能,提供端到端的分析解决方案。支持无服务器计算和按需扩展。
    • Synapse Studio(2020年推出):集成开发环境,简化了数据工程、数据探索、数据准备、数据管理和大数据处理任务。

我也是去多了解一下Google的 BigQuery 这个完全托管的企业级数据仓库。 BigQuery的描述是其无服务架构允许使用SQL查询来回答组织中的重大问题,而无需管理任何基础设施。(这不更是一个sql girl了嘛🤣)
自己不太好使用,一个是没有使用场景;二是太贵辣(主要原因)。
但是我查询了一些资料,大概知道该怎么用了。

设置项目:
  登录到Google Cloud Console。
  创建一个新项目或选择一个现有的项目。
  确保BigQuery API已启用。
加载数据:
  可以通过多种方式将数据加载到BigQuery中,例如从本地文件上传、从Google Cloud Storage导入或通过流式传输。
  在BigQuery UI中,点击“创建数据集”,然后选择“创建表”,并指定数据来源和表结构。
查询数据:
  使用BigQuery的Web UI、命令行工具bq或客户端库来执行SQL查询。
  BigQuery支持标准SQL,您可以编写查询来分析数据。
  例如,一个简单的查询可能看起来像这样:
  SELECT name, age
  FROM `project.dataset.table`
  WHERE age >= 30
  LIMIT 10;
管理数据:
  可以在BigQuery UI中查看查询历史、监控资源使用情况,并管理数据集和表。
  BigQuery还提供了数据转移服务,可以定期从外部数据源自动导入数据。
优化和成本管理:
  为了控制成本,您可以监控查询成本,并使用分区表和集群来优化查询。
  BigQuery提供了详细的成本控制工具,如设置预算和警报。

不过自己之后去公司,然后对着Google BigQuery的文档,应该也很容易学会吧,毕竟人家都给你做好了,你只需要会写sql就行。
00850FF7.jpg
关于大数据开发的未来发展方向,查阅了一些资料,毕竟自己之后可能从事这个行业,还是要知己知彼,才能百战不殆嘛,多了解一点总是好的嘛,说不定可以为以后自己提供一些可以抓住的机会。

  1. 人工智能和机器学习的深度融合:大数据和人工智能的结合将变得更加紧密。自动化数据处理、智能数据分析和预测性分析将成为大数据平台的重要功能,推动各行业的数字化转型。
  2. 数据治理和隐私保护:着数据隐私法规的增加,数据治理和隐私保护将成为大数据开发的关键。企业将更多地投资于数据治理工具和技术,以确保数据的合规性和安全性。
  3. 多云和混合云架构:云和混合云架构将继续普及,企业将利用多种云平台的优势,避免单一供应商锁定。这将推动跨云数据管理和分析工具的发展。

在这个数据驱动的时代,大数据开发岗位要求我们不断学习和适应新技术。云数据仓库技术的兴起,正在重新定义我们如何存储、管理和分析数据。虽然这意味着我们必须放弃旧的工作方式,但它也为我们打开了新的可能性🌟

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1720056.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Java】刚刚!突然!紧急通知!垃圾回收!

【Java】刚刚!突然!紧急通知!垃圾回收! 文章目录 【Java】刚刚!突然!紧急通知!垃圾回收!从C语言的内存管理引入:手动回收Java的垃圾回收机制引用计数器循环引用问题 可达…

Kubernetes 系统监控Metrics Server、HorizontalPodAutoscaler、Prometheus

Metrics Server Linux 系统命令 top 能够实时显示当前系统的 CPU 和内存利用率,它是性能分析和调优的基本工具。 Kubernetes 也提供了类似的命令,就是 kubectl top,不过默认情况下这个命令不会生效,必须要安装一个插件 Metrics …

基于模板匹配的信用卡数字识别

文章目录 一、项目介绍二、模板匹配的原理三、模板匹配的步骤模板图片处理信用卡图片处理进行模板匹配 一、项目介绍 模板识别(Template Matching)是一种基于图像匹配的技术,用于在较大图像中识别和定位小图像(模板)。…

深入理解Qt计算器应用的构建过程

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一、数字按钮的信号与槽函数连接 二、运算符按钮的信号与槽函数连接 三、特殊按钮的信号与…

20 厂商文档学习资料查询

01 厂商介绍 新华三(H3C) 新华三是一家专注于IT基础设施产品和解决方案的公司,提供从网络设备到数据中心解决方案的全套服务。它是中国领先的网络解决方案供应商之一,业务涵盖企业网、数据中心、云计算等多个领域。 华为&#x…

音视频开发—视频相关概念:YUV与RGB

文章目录 YUV相关概念组成部分优点常见的 YUV 格式数据量的计算YUV4:2:0 存储格式平面模式(planar):打包模式(packed) RGB 和 YUV 的定义关系与转换RGB 到 YUV 的转换YUV 到 RGB 的转换 使用场景优缺点 YUV相关概念 YUV 是一种颜色编码格式&…

3389,为了保障3389端口的安全,我们可以采取的措施

3389端口,作为远程桌面协议(RDP)的默认端口,广泛应用于Windows操作系统中,以实现远程管理和控制功能。然而,正因为其广泛使用,3389端口也成为许多潜在安全威胁的入口。因此,确保3389…

笔记:Context

Context 是上下文对象,是 Android 常用类 Activity、Service 和 Application 都间接继承 Context ,Context 是一个抽象类,内部定义了很多方法和静态常量,具体实现类是 ContextImpl ContextImpl 和 ContextWrapper 继承子 Context…

用Python代码删除Word文档空白行

Word文档内容的整洁性与易读性是体现文档水平的关键因素之一。许多错误或不合理的内容,如多余的空白行,往往会影响阅读流畅度,或是干扰自动化数据处理的准确性。特别是在进行数据分析、报告生成及长文档编辑时,多余的空白行可能导…

赚钱其实没有秘密,多琢磨一下不丢人

为什么学了很多知识还是挣不到钱? 挣不到钱,是因为你不够稀缺;挣钱太少,是因为你不懂杠杆,用杠杆撬动稀缺,个人价值自然水涨船高。 学富五车,为何财库依旧空空?怎样才能提高挣钱的…

SpringBoot启动流程分析之设置系统属性spring.beaninfo.ignore、自定义banner图(五)

SpringBoot启动流程分析之设置系统属性spring.beaninfo.ignore、自定义banner图(五) 参考 目录 文章目录 SpringBoot启动流程分析之设置系统属性spring.beaninfo.ignore、自定义banner图(五)1、设置sping.beaninfo.ignore属性2、…

Python自动化办公2.0 即将发布

第一节课:数据整理与清洗 第二节课:数据筛选、过滤与排序 第三节课:高级数据处理技巧 第四节课:数据可视化与实践案例 第五节课:统计分析与报表 第六节:常见的Excel报表 与下方的课程形成知识体系&…

『ZJUBCA MeetUP』 5月25日线下活动——Aptos 链的动态与应用

2024 求是创新 ZJUBCA Sponsored by the ALCOVE Community TIME:2024/05/25 ADD:浙江大学紫金港校区 --- Alcove 是 Aptos 公链与 Alibaba Cloud 共同打造的亚洲首个 Move 开发者社区,致力于支持开发者使用 Move 语言构建下一代 Web3 应用&am…

探索 Ollama: 你的本地 AI 助手

本期推荐的开源项目是 Ollama,它是一款本地大模型运行工具,可以帮助用户轻松下载和运行各种大型语言模型(LLM),而无需将数据上传到云端。以下是关于 Ollama 的介绍以及安装和使用教程: Ollama 是什么&#…

springboot结合mybatis使用多数据源的方式

背景 最近有一个需求,有两个库需要做同步数据,一个Doris库,一个mysql库,两边的表结构一致,这里不能使用navicat等工具提供的数据传输之类的功能,只能使用代码做同步,springboot配置多数据…

公众号爆文全攻略:最新推荐机制与实战干货分享

期待已久的公众号爆文直播来了!老规矩,免费,只讲干货!全程不废话! 本次直播你将收获: 深度拆解公众号最新推荐机制:掌握公众号运营的核心规则,精准把握推荐逻辑,让你的内…

云动态摘要 2024-05-31

给您带来云厂商的最新动态,最新产品资讯和最新优惠更新。 最新优惠与活动 [1.5折起]年中盛惠--AI分会场 腾讯云 2024-05-30 人脸核身、语音识别、文字识别、数智人、腾讯混元等热门AI产品特惠,1.5折起 云服务器ECS试用产品续用 阿里云 2024-04-14 云…

手写HTML字符串解析成对应的 AST语法树

先看效果 展示如下: HTML模版 转成ast语法树后 在学习之前,我们需要了解这么一个问题,为什么要将HTML字符串解析成对应的 AST语法树。 为什么? 语法分析:HTML字符串是一种标记语言,其中包含了大量的标签…

掀桌子、降价、免费...之后,国内大模型应用进入高速时代

5月15日,字节跳动打响大模型市场价格战第一枪;5月21日阿里云更狠,价格降了97%,比字节还便宜37.5%同日,百度更为激进,直接宣布其两款主力模型ENIRE Speed和ENIRE Lite全面免费;5月22号&#xff0…

Windows10专业版系统安装Hyper-V虚拟机软件

Windows10专业版系统安装Hyper-V虚拟机软件 适用于在Windows10专业版系统安装Hyper-v虚拟机软件。 1. 安装准备 1.1 安装平台 Windows 10 1.2. 软件信息 软件名称软件版本安装路径windowswindows 10 专业版Hyper-vHyper-v 2. Hyper-v搭建 2.1打开cmd软件 2.2打开控制面…