从入门到进阶!当下火爆的大数据技术及算法怎么还能不知道 一起来学习互联网巨头的大数据架构实践!

news2024/10/5 16:27:02

大数据被称为新时代的黄金和石油,相关技术发展迅猛,所应用的行业也非常广泛,从传统行业如医疗、教育、金融、旅游,到新兴产业如电商、计算广告、可穿戴设备、机器人等。大数据技术更是国家科技发展和智慧城市建设的基础。

当前“互联网+”新业态的发展,其核心也是大数据的采集、分析、价值挖潜和应用。当今全球大数据的竞争及战略布局,突出体现在大数据的技术创新和人才培养方面。技术创新能够保障在大数据发展的浪潮中始终处于引领地位,而大数据人才体系则是能最终实现技术创新和实践的根本。

大数据领域每年都会涌现出大量新的技术,成为大数据获取、存储、处理分析或可视化的有效手段。大数据技术能够将大规模数据中隐藏的信息和知识挖掘出来,为人类社会经济活动提供依据,提高各个领域的运行效率,甚至整个社会经济的集约化程度。

本篇从大数据架构的角度全面解析大数据技术及算法,探讨大数据的发展和趋势,全面介绍大数据的相关技术、算法和一些应用场景,培养大数据的技术选型和系统架构能力。

文档不仅对大数据相关技术及算法做了系统性的分析和描述,梳理了大数据的技术分类,如基础架构支持、大数据采集、大数据存储、大数据处理、大数据展示及交互,还融合了大数据行业的最新技术进展和大型互联网公司的大数据架构实践,努力为读者提供一个大数据的全景画卷。

主要内容:

  1. 大数据技术综述及发展历程:对大数据技术的起源以及近些年的发展趋势做了详细介绍。
  2. 大数据的技术分类:包括基础架构支持,大数据采集,大数据存储,大数据处理,大数据展示及交互。
  3. 大数据行业的最新技术进展:如Google新三驾马车,Spark统- 计算平台,深度学习,可穿戴计算等。
  4. 大数据的发展趋势:朝着实时化、泛在化、智能化的方向发展。
  5. 大型互联网公司的大数据架构实践:包括腾讯、淘宝、Facebook、 Twitter等。

目录为大家简单介绍一下:

大数据的行业价值

大数据在过去几年得到了全社会的关注和快速的发展,几乎在每个行业都可以见到大数据应用的影子。大数据的应用范围越来越广,应用的行业也越来越多,我们几乎每天都可以看到大数据的- -些新奇应用,大数据的价值也已经体现在方方面面。大数据目前较多的应用领域主要有互联网、金融、医疗、教育、政府等行业,应用的环境也不尽相同,下面介绍几种大数据的典型应用场景。

1.分析用户行为,建立数据模型,并进行预测

2.提升企业的资产管理,优化企业的业务流程

3.大数据服务智慧城市、智慧交通

总共8大典型应用场景,上面为大家展示了3大应用场景。

大数据基础支撑——数据中心及云计算

大数据技术正在改变目前计算机的运行模式,正在改变着这个世界。它能处理几乎各种类型的海量数据,无论是微博、文章、电子邮件、文档、音频、视频,还是其他形态的数据。它工作的速度非常快,可以达到实时。而为大数据提供核心基础支撑的是数据中心的大规模计算、存储及网络资源,以及负责管理、调度、监控这些资源的云计算平台。云计算让用户能够按照他们的业务需求获取相应的计算力、存储空间和信息服务,将计算任务分布到大量服务器构成的资源池上。云计算及其技术给了人们廉价获取巨量计算和存储的能力,云计算分布式架构则能够很好地支持大数据存储和处理需求。这样的低成本硬件+低成本软件+低成本运维,更加经济和实用,为大数据处理和利用提供强力支撑。

在本章中,我们将重点介绍数据中心和云计算的概念、大数据和云计算的关系、云资源调度与管理、开放云计算平台OpenStack 等内容。

云存储系统

云存储不是一个设备,而是- - .种服务,具体来说,它是把数据存储和访问作为一种服务,并通过网络提供给用户。云计算是提供计算能力,相应地,云存储是提供存储能力。

云存储专注于向用户提供以网络为基础的在线存储服务,通过规模化来降低用户使用存储的成本。用户无须考虑存储容量、存储设备的类型、数据存储的位置以及数据完整性保护和容灾备份等烦琐的底层技术细节,按需付费就可以从云存储供应商那里获得近乎无限大的存储空间和企业级的服务质量。本章主要介绍云存储系统,从云存储的基础概念出发,介绍云存储涉及的关键技术,并对云存储系统按分类进行描述。

Hadoop与MapReduce

本章将简要介绍Hadoop分布式生态系统的各组成部分,首先从Hadoop的底层文件系统HDFS开始,接着介绍了Hadoop的结构化存储系统HBase,重点讲解Hadoop的任务调度框架MapReduce的原理,并给出了一个具体的编程实例,对MapReduce 2.0做简单的介绍和对比。由于篇幅有限,在6.3节简要介绍Hadoop生态圈的几个重要组成部分的功能。

最后介绍Hadoop平台的应用案例。

Storm流计算系统

Hadoop等大数据解决方案解决了当今大部分对于海量数据的处理需求,如网页检索、机器翻译、分布式计算、广告投放等;但对于某些实时性要求很高的数据处理系统,Hadoop则无能为力。对实时交互处理的需求催生了一大批实时计算系统,根据其数据流的特点,我们可以称之为流计算系统。本节主要介绍流计算的基本概念,以典型的流计算系统Storm为例深入分析流计算系统的特性。

SQL、NoSQL .与NewSQL

一直以来数据是基础也是核心,存储数据是前提,处理好数据是基础。之前企业一直用传统关系型数据库来存储数据,随着大数据时代的来临,需要存储的数据的量和数据的结构和种类都发生了很大的变化,人们已经不满足于传统关系型数据库带来的稳定性,对数据库支持的数据种类、伸缩性、可扩展性的需求越来越高,随着数据库技术的发展,NoSQL应运而生,发展的时间虽然不长,但已经成为大数据技术生态圈里不可或缺的- -员, NoSQL的广泛应用也带动了新型数据库技术-一NewSQL 的发展。本章由传统SQL数据库引出NoSQL,重点介绍NoSQL的基本原理及其应用,最后概要介绍NewSQL。

子商務与社会化网络大数据分析

本章内容比较多,而且和当前互联网最赚钱的行业关系密切。无论是电子商务、计算广告还是社会化网络都是很复杂的。针对每个领域,本章主要介绍如下内容:

①介绍在该领域做得比较好的互联网公司,以及这些公司的哪些产品中使用了与大数据相关的技术。②介绍相关的算法。③介绍应用实例。

针对电子商务这一部分, 将介绍常用的推荐算法并模拟一些测试数据。关于计算广告部分,将介绍目前的主流RTB ( Real Time Bidding), RTB即实时竞价,是目前主流的广告交易模式,国内外做得比较好的有百度、阿里妈妈、Google 等;此外还将介绍需求方平台(Demand-Side Platform, DSP),通过模拟RTB程序让读者知道实时竞价相关的流程,并重点讲解广告排序相关的技术点。最后关于社交网络,将主要介绍关系挖掘,比如二度人脉的挖掘、语言流行度等。

大数据展示与交互术

一幅图胜过千言万语。人类从外界获得的信息约有80%以上来自视觉系统。当大数据以直观的可视化的图形形式展示在分析者面前时,分析者往往能够-一眼洞悉数据背后隐藏的信息并将其转化为知识以及智慧。所以说,在大数据技术体系中,数据展示与交互虽不.是核心,但也至关重要。数据处理的最终目的是使人们更好地利用数据,选择恰当的、生动直观的展示方式能够帮助人们更好地理解数据的内涵和关联关系,也能够更有效地解释和运用数据,从而为生产、运营、规划提供决策支持,发挥出大数据的作用。随着技术的发展,大数据的展现方式也发生了巨大变化,除了传统的报表、图形之外,结合现代化的可视化工具及人机交互手段,智能化、实时化、多维度的数据展示与交互时代已经来临。

腾讯背景介绍

腾讯是目前中国最大的互联网综合服务提供商之一,也是中国服务用户最多的互联网企业之- -。首先,即时通信软件QQ,最高同时在线账户数达到2.06亿,月活跃账户数更是高达8.29亿,QQ智能终端月活跃账户数达到5.21亿。其次,“微信和WeChat”合并月活跃账户数达到4.38亿,QQ空间月活跃账户数达到6.45亿,QQ空间智能终端月活跃账户数达到4.97亿。从这些数据可以看到,腾讯每天的数据量是异常庞大的,目前最高日接入消息数为10000 亿条,日接入数据量为200TB,并发分拣业务接口为10000个。

腾讯在设计架构时主要考虑了3个主要的需求。

①数据开放:使得公司数据集中形成数据开放,在保障数据安全性的前提下,提供自助化服务平台,满足快速增长的需求。

②专业化:从提供大量独立的系统/工具转变为提供集成、一体化、自动化数据开发平台服务。对来源于各个业务块的数据进行整合和深入挖掘产生用户画像,为业务提供有价值的服务,并且快速孵化更多的数据应用。

③成本与性能:优化平台存储和计算方案,优化数据模型和算法,去除重复计算和存储:通过建设大规模集群,形成规模效应,提升平台能力并降低成本;随着平台上的数据量、用户数、任务数不断增长,每个新用户/新任务带来的新增成本不断降低,成本优势可以不断放大。

整体架构

从图可以看出,腾讯大数据平台主要由4个核心模块构成: TDW、TRC、TDBank和Gaia。从下至上,Gaia负责腾讯大数据平台.上所有集群资源的调度和管理工作,为上层的业务和数据服务提供必要的计算资源。构建于Gaia之上的两个部分TDW和TRC分别负责批量的离线计算和流式的实时计算。TDBank 则作为统一-的数据采集入口。

腾讯大数据平台的整体架构

淘宝背景介绍

淘宝网( taobao.com)目前拥有近5亿的注册用户数,每天有超过6000万名的固定访客,同时每天的在线商品数已经超过了8亿件,平均每分钟售出4.8 万件商品。截至2011年年底,淘宝网单日交易额峰值达到43.8亿元,创造了270.8 万个直接且充分的就业机会。随着淘宝网规模的扩大和用户数量的增加,淘宝也从单一的C2C网络集市变成了包括C2C、团购、分销、拍卖等多种电子商务模式在内的综合性零售商圈。目前它已经成为世界范围的电子商务交易平台之一,因此在其架构中面临着大量高性能问题。

整体架构

淘宝数据平台架构图如图所示。

基于云梯的淘宝数据平台架构图

**后面还有Facebook、Twitter、Netflix等企业的大数据架构,由于篇幅过长小编这里就不一一为大家介绍了。

能成功的人一定不是偶然的,当你成功的时候就会有许多同阶层的人跟你打交道,打交道的人多了之后,你的知识面也会越来越广了。

不要为了读书而读书,要细嚼慢咽,体会知识带来的乐趣。

你还可以更成功!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/37652.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

骨传导耳机是怎么传声的?骨传导耳机会伤害耳朵吗?

作为一个耳机发烧友,平时最喜欢的就是捣鼓耳机。这几年入手了几十款耳机,头戴式、入耳式、半入耳、有线无线都会接触一些来玩,其中还有骨传导耳机这个相对小众的款类。 说到骨传导耳机,我应该算是最早一批的用户了,很…

web网页设计—— 指环王:护戒使者(13页) 电影网页设计 在线电影制作 个人设计web前端大作业

HTML实例网页代码, 本实例适合于初学HTML的同学。该实例里面有设置了css的样式设置,有div的样式格局,这个实例比较全面,有助于同学的学习,本文将介绍如何通过从头开始设计个人网站并将其转换为代码的过程来实践设计。 文章目录一、网页介绍一…

数据结构-ArrayList解析和实现代码

arrayList结构的实现是数组结构,数组没有扩容机制,arrayList的扩容机制采用的是复制数组,了解你会发现ArrayList虽然实现比较简单,但是设计还是很巧妙的。咱们先来简单实现下.. 咱们看下定义的全局变量 1.默认初始化空间为10&am…

docker 安装 Jenkins

一、Jenkins 安装 增加挂载目录和权限 # 增加挂载目录和权限mkdir /workspace/jenkins_homechown -R 1000:1000 /workspace/jenkins_home/创建容器 docker run --name jenkins -d \ -p 9999:8080 \ -p 8888:8888 \ -p 50000:50000 \ -v /workspace/jenkins_home:/var/jenkins…

[附源码]java毕业设计智慧教室预约

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

java检验mp4文件完整性的一个方法:使用ffmpeg

问题引入 最近笔者在写一个多线程下载视频文件的程序,打算让这个程序在我的空闲服务器上运行,但是几轮测试之后发现,有时候会存在下载的视频文件不完整的情况,这就导致了有些文件无法正常播放 问题排查 经过一周的排查后&#…

小白学流程引擎-FLowable(一) —FLowable是什么

小白学流程引擎-FLowable(一) | FLowable是什么 一、什么是流程引擎? 通俗的说,流程引擎就是多种业务对象在一起合作完成某件事情的步骤,把步骤变成计算机能理解的形式就是流程引擎。 流程引擎,用来驱动业务按照设定的固定流程…

《Kafka 源码实战》看完面试不慌!

Kafka 一开始是 LinkedIn 公司开发的消息队列,随着 Kafka 代码被贡献给 Apache 软件基金会后,就成功孵化成 Apache 顶级项目,世界上有越来越多的公司和个人开始使用 Kafka,所以 Kafka 使用的范围是很普遍的。 同时,值得…

vue实现文件上传压缩优化处理

vue js实现文件上传压缩优化处理 两种方法 : 第1种是借助canvas的封装的文件压缩上传第2种(扩展方法)使用compressorjs第三方插件实现 目录 vue js实现文件上传压缩优化处理 借助canvas的封装的文件压缩上传 1.新建imgUpload.js 2.全局引…

grafana变量使用

注:基于Grafana v8.3.6编写 1 添加变量 在dashboard界面点击setting,就能进入设置页面, 再点击Variables tab,就可以添加变量 比如我们添加一个系统架构的变量,用于区分Linux和Windows系统,通过node_una…

这可能是2022年把微服务讲的最全了:SpringBoot+Cloud+Docker

前言 最近几年,微服务可谓是大行其道。在业务模型不完善,超大规模流量的冲击的情况下,许多企业纷纷抛弃了传统的单体架构,拥抱微服务。这种模式具备独立开发、独立部署、可扩展性、可重用性的优点的同时,也带来这样一…

【云原生】K8S master节点更换IP以及master高可用故障模拟测试

文章目录一、前言二、配置 多个master 节点1)节点信息1)安装docker或containerd2)安装kubeadm,kubelet和kubectl1、配置k8s yum源2、修改sandbox_image 镜像源3、配置containerd cgroup 驱动程序systemd4、开始安装kubeadm&#x…

SpringBoot SpringBoot 原理篇 1 自动配置 1.7 bean 的加载方式【五】

SpringBoot 【黑马程序员SpringBoot2全套视频教程,springboot零基础到项目实战(spring boot2完整版)】 SpringBoot 原理篇 文章目录SpringBootSpringBoot 原理篇1 自动配置1.7 bean 的加载方式【五】1.7.1 register1 自动配置 1.7 bean 的…

FAIRNESS IN MACHINE LEARNING: A SURVEY 阅读笔记

论文链接 刚读完一篇关于机器学习领域研究公平性的综述,这篇综述想必与其有许多共通之处,重合部分不再整理笔记,可详见上一篇论文的笔记: A Survey on Bias and Fairness in Machine Learning 阅读笔记_Catherine_he_ye的博客 S…

红队隧道加密之MSF流量加密(二)

前言 如今大多数企业的内网都部署了流量审计服务, 用来专门分析流量特征, 比如后门特征和行为特征 若直接使用Metasploit对内网进行横向渗透, 其产生的流量会很容易被内网防护工具检测出来, 因此需对流量进行加密来绕过检测 这里介绍使用OpenSSL对MSF流量进行加密 演示步骤 …

这么高颜值的Kubernetes管理工具Lens,难道还不能C位出道吗

一直使用官方的Kubernetes Dashboard来管理k8s,也算很友好的一款UI工具,但显示的资源不全、查看日志有限、时间久了要重要登陆,所以找了一款外观漂亮,用户体验很好的管理平台Lens。 2 特性与安装 2.1 特性 Lens的优势主要有&…

齐聚绿城 | 锦江都城酒店聚焦中高端酒店投资新方向

提起广西,不少人能想到 “桂林山水甲天下”的桂林,亦或因一碗螺蛳粉闻名全国的柳州。又或荣登《国家地理》的涠洲岛。但在你不知晓的时候,南宁这座城在静静的等你发掘。南宁——南疆安宁,是山环水绕的“绿城”,也是北回…

windows系统cmake生成动态库无lib文件解决方法

作为cmake初学者,在windows系统下使用cmake生成c动态库时出现了下图所示问题,是关于lib文件。找了一圈,也没发现生成有lib文件。 在google上查,才发现windows系统下动态库生成lib文件,还需要添加以下命令: …

java 同步锁synchronized 解决线程共享数据重复操作问题

我们先来写一个买票程序 我们先创建一个包 在包下创建两个类 customException 线程类 负责编写抢票的主要逻辑 参考代码如下 public class customException implements Runnable {private int tickets 100;public void run () {while (tickets > 0){if(tickets > 0) {…

【语音增强】多维谱自适应小波语音信号去噪【含Matlab源码 1972期】

⛄一、自适应小波语音信号去噪 1 引言 语音信号在传输过程中,容易受到环境噪声和其他语音的干扰,降低了语音通信质量,影响了语音处理系统工作。所以,语音的净化处理技术,在现代语音通信和数字音频广播系统中起到愈来愈…