大数据_数据中台_数据汇聚联通

news2025/1/2 0:26:43

目录

一、数据采集、汇聚的方法和工具

1、线上行为采集

2、线下行为采集

3、互联网数据采集

4、内部数据汇聚

二、数据交换产品

1、数据源管理

2、离线数据交换

3、实时数据交换

三、数据存储的选择

1、在线与离线

2、OLTP与OLAP

3、存储技术


        构建企业级的数据中台第一步就是要实现各个业务系统的数据的互联互通,从物理上打破数据孤岛。主要通过数据汇聚和交换的能力来实现。在面对不同场景,根据数据类型、数据存储要求等进行不同方案的选择。

一、数据采集、汇聚的方法和工具

1、线上行为采集

客户端埋点

全埋点:在终端设备上记录用户所有的操作行为,一般在内嵌SDK做一些初始化配置就可以实现全部收集行为的目的。也叫无痕埋点、无埋点等。优点:不用频繁升级,可获取全量数据 缺点:存储、传输成本高

可视化埋点:在终端设备上记录用户的一部分操作,一般通过服务端配置的方式有选择性的记录与保存。优点:不用频繁发布,成本比全埋点低,比较灵活;缺点:可能未收集到想要的数据,需要重新配置等

代码埋点:根据需求定制每次的手机内容,需要对相应终端模块进行升级。优点:灵活性强、可以单独设计方案,对对存储、带宽等可以做较多优化;缺点:成本高,维护难度大,升级周期长。

服务端埋点

服务端埋点常见的形态有HTTP服务器中的access_log,即所有web服务的日志数据。优点:降低客户端的复杂度、提高信息安全;缺点:无法采集客户端不与服务端交互的信息。

2、线下行为采集

线下数据一般通过硬件采集,如Wifi探测针、摄像头、传感器等。

3、互联网数据采集

这种数据采集方式一般采用网络爬虫,使用一种按照既定规则自动抓取互联网信息的程序或脚本,常用来做网站的自动化测试和行为模拟。常见的网络爬虫框架:Apache Nutch 2、WebMagic、Scrapy、PhpCrawl等,互联网数据采集要遵守相应的安全规范、协议等

4、内部数据汇聚

数据组织形式分类

结构化数据:规则、完整,能够用二维表来表现的数据,常见数据库、excel中的数据。

半机构化数据:数据规则、完整,但不能通过二维表来表现的数据,比如JSON、XML等复杂结构

非机构化数据:数据不规则、不完整,也不能通过二维表来表现,需要复杂的逻辑才能从中提取,如图片、图像、音频等。

   ②数据时效和应用场景分

离线:主要用于用户大批量数据的周期性迁移,对时效性要求不高,一般采用分布式批量数据同步的方式,通过连接读取数据,读取数据过程中可以有全量、增量的方式,通过统一处理后写入到目标存储。

实时:主要面向低延时的数据应用场景,一般通过增量日志或通知消息的方式实现,业界有canal,flink等方式来实现。

③ETLELT

ETLExtract-Transform-Load,抽取-转换-存储),抽取过程中加工,优点:节省存储,简化后续处理  缺点:数据不全或丢失,处理效率低

ELTExtract-Load-Transform,抽取-存储-转换),抽取完成后进行加工,优点:数据齐全,利用大数据等分布式后期处理效果更高  缺点:存储占用较大,无用数据太多可能会造成效率低

常见数据汇聚工具

Canal:一种通过伪装自己为Mysql等slave,通过监控日志变动的数据推动工具。常作为mysql数据变动的数据收集工具,但其不适合多消费和数据分发场景。

Sqoop:通用的大数据解决方案,在结构化数据和HDFS之间进行数据迁移的工具,基于Hadoop的MapReduce实现。优势:特定场景,数据交换效率高。缺点:定制程度高,不易操作,并且依赖MapReduce,功能扩展性方面受到约束和限制。

DataX:阿里的一套插件式离线数据交换工具,它是基于进程内读写直连的方式。

二、数据交换产品

前面介绍的工具一般都只能满足一些单一的场景或者过程。为了满足复杂的企业数据交换场景,我们需要一个完整的数据交换产品,包含数据源管理、离线数据处理、实时数据处理等等。

1、数据源管理

数据源的管理主要是管理数据所用的存储,用于平台在做数据交换时,可以方便地对外部存储进行相应的管理。

数据源的分类:

关系型数据库:如Oracle、Mysql、SQL Server、Creenplum等

NoSQL存储:如HBase、Redis、Elasticsearch、Cassandra、MongoDB、Neo4j等

网络及MQ:如Kafka、HTTP等

文件系统:如HDFS、FTP、OSS、CSV、TXT、EXCEL等。

大数据相关:如HIVE、Impala、Kudu、MaxCompute等

2、离线数据交换

离线数据交换时针对数据时效要求低、吞吐量大的场景,解决大规模数据的批量迁移问题。

离线数据同步技术的亮点:

①前置稽核

②数据转换

③跨集群数据同步

④全量同步

⑤增量同步

3、实时数据交换

实时数据交换主要负责把数据库、日志爬虫等数据实时接入Kafka、Hive、Oracle等存储中。其两个核心服务为:数据订阅服务(Client Server)、数据消费服务(Consumer Server)。

实时交换架构图示例

三、数据存储的选择

数据的存储我们一般要考虑数据的规模、数据生产方式以及数据的应用方式,通过方面综合考虑。

1、在线与离线

在线存储是指存储设备和所存储的数据时刻保持“在线状态”,可供用户随意读取,满足计算平台对数据访问的速度要求。在线存储一般为磁盘、磁盘阵列、云存储等。

离线存储是为了对在线存储的数据进行备份,已防可能发生的数据灾难。离线存储的数据不会经常被调用。常见的典型产品是硬盘、磁带和光盘等。

2OLTPOLAP

OLTP和OLAP他们并不是竞争或互斥关系,而是相互协作,合作共赢。

OLTP

OLAP

用户

面向操作人员,支持日常操作

面向决策人员,支持管理需求

功能

日常操作处理

面向分析

DB设计

面向应用,事务驱动

面向主题,分析驱动

数据

当前的、最新的、细节的、二维的、分立的

历史的、聚集的、多维的、集成的、统一的

存取

可更新,读/写数十条记录

不可更新的,但周期性刷新,读上百万条记录

工作单位

简单的事务

复杂的查询

DB大小

100MB到GB级

100GB到TB级别

3、存储技术

1、分布式系统

分布式系统常见包括分布式文件系统(存储系统需要多种技术的协同工作,其中文件系统为其提供最底层存储能力的支持)和分布式键值系统(用户存储关系简单的半结构化数据)

2NoSQL数据库

NoSQL的优势,可以支持超大规模数据存储,灵活的数据模型很好支持web2.0应用,具有强大的横向扩展能力等,典型的有:键值数据库、列族数据库、文档数据库和图数据库等,如:HBASE、MongoDB等。

3、云数据库

云数据库是基于云计算技术的一种共享基础架构方法,是部署和虚拟化在云计算环境中的数据库。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/63697.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java swing(GUI) mysql实现的仓库进销存管理系统源码+运行教程

今天给大家介绍下由Java swing mysql实现的一款仓库库存管理系统,该系统实现了基本的仓库进退货管理、用户管理等操作,主要涉及的知识点有:Java swing awt界面编程、数据库的基本操作(增删改查),多线程等&a…

第十二章:synchronized与锁升级

相关面试题锁优化背景Synchronized 锁性能变化jdk5 以前复习:为什么任意一个对象都能成为锁?jdk6 之后synchronized的种类以及锁升级流程锁升级流程无锁偏向锁是什么作用小总结偏向锁的持有偏向锁 JVM 参数说明多线程环境下总结轻量级锁轻量级锁的获取代…

Java成员方法的声明和调用

声明成员方法可以定义类的行为,行为表示一个对象能够做的事情或者能够从一个对象取得的信息。类的各种功能操作都是用方法来实现的,属性只不过提供了相应的数据。 一个完整的方法通常包括方法名称、方法主体、方法参数和方法返回值类型,其结…

6-脱氧-β- L -半乳吡喃糖基鸟苷 5′-二磷酸,Guanosine 5‘-diphospho-fucose,GDP-BETA-L-FUCOSE

产品名称:6-脱氧-β- L -半乳吡喃糖基鸟苷 5′-二磷酸,GDP-L-岩藻糖,GDP-L-FUCOSE二钠盐 英文名称:Guanosine 5-diphospho-fucose,GDP-BETA-L-FUCOSE,GDP-L-Fuc.2Na CAS号:148296-47-3 英文同义词:Guanos…

【深度学习】常用算法生成对抗网络、自编码网络、多层感知机、反向传播等讲解(图文解释 超详细)

觉得有帮助请点赞关注收藏~~~ 一、生成对抗网络GAN Generative Adversarial Network 两个组件组成:一个生成器,用于生成虚拟数据,另一个是鉴别器,用于(GAN)生成式深度学习算法,可创建类似于训练数据的新数据实例。 G…

2022-kaggle-nlp赛事:Feedback Prize - English Language Learning

文章目录零、比赛介绍0.1 比赛目标0.2 数据集0.3 注意事项一、设置1.1 导入相关库1.2 设置超参数和随机种子1.3 启动wandb二、 数据预处理2.1 定义前处理函数,tokenizer文本2.2 定义Dataset,并将数据装入DataLoader三、辅助函数四、池化五、模型六、定义…

jmeter-事务控制器与并发控制器与if控制器项目实践

前言 在做性能压测的时候,除了做单接口这种基准压测,我们还需要多接口串联的混合场景,比如打开小程序展示的首页,购物下单时的结算页。如果这些接口都是串行的,那就非常简单了,仅仅只需要创建事务控制器&a…

【GD32F427开发板试用】+rtt-thread nano+finsh极简开发

本篇文章来自极术社区与兆易创新组织的GD32F427开发板评测活动,更多开发板试用活动请关注极术社区网站。作者:理想三旬 引言 在工作闲暇之际,逛逛论坛,无意间看到GD的试用活动,一如既往的积极,在官方还没发…

Linux 驱动的内核适配 - 方法

原生与野生 Linux 的驱动代码大致可分为两种:一种是已经进入 mainline 的,当内核 API 变化时,会被同步地修改;还有一种是 out-of-tree 的,需要用一套驱动代码去适配不同版本的内核。由于内核 API 持续变动的特性&…

带你实现react源码的核心功能

React 的几种组件以及首次渲染实现React 更新机制的实现以及 React diff 算法 React 的代码还是非常复杂的,虽然这里是一个简化版本。但是还是需要有不错的面向对象思维的。React 的核心主要有一下几点。 虚拟 dom 对象(Virtual DOM)虚拟 d…

RabbitMQ_消息确认机制

消息确认机制分为消息发送确认机制与消息消费确认机制 消息发送确认机制 消息发送确认机制:消息由producer发送后,确认其是否到达broker,又是否被exchange转发至对应queue的机制 该机制分为两部分:producer---broker&#xff0c…

Android 性能优化之内存优化——重识内存

我们知道,手机的内存是有限的,如果应用内存占用过大,轻则引起卡顿,重则导致应用崩溃或被系统强制杀掉,更严重的情况下会影响应用的留存率。因此,内存优化是性能优化中非常重要的一部分。但是,很…

66-86-javajvm-堆

66-javajvm-堆: 堆的核心概述 堆与进程、线程 一个进程对应一个JVM实例一个JVM实例对应一个堆空间进程包含多个线程,所以线程之间共享同一个堆空间 对堆的认识 一个JVM实例只存在一个堆内存,堆也是Java内存管理的核心区域。Java堆区在JVM启动…

HashMap原理

在Java编程语言中,最基本的结构就是两种,一种是数组,一种是模拟指针(引用),所有的数据结构都可以用这两个基本结构构造,HashMap也一样。当程序试图将多个 key-value 放入 HashMap 中时,以如下代码片段为例:…

P1182 数列分段 Section II——二分答案

数列分段 Section II 题目描述 对于给定的一个长度为N的正整数数列 A1∼NA_{1\sim N}A1∼N​,现要将其分成 MMM(M≤NM\leq NM≤N)段,并要求每段连续,且每段和的最大值最小。 关于最大值最小: 例如一数列…

NCTF web总结与复现

前言 打完NCTF休息了一下,总体感觉还行,学到了很多。 calc 这一题也卡了我很久,因为复现过DASCTF三月赛,一直在想着有没有可以替代反引号或绕过的方法,搞了好久都没出,在学长的提示下学到了一个方法&…

最新出炉的阿里巴巴面试题及答案汇总(513页)

前言 秋招已经结束了,不知道各位有没有拿到自己心仪的offer?最近有不少粉丝去阿里巴巴面试了,回来之后我整理成了一份手册java面试时常用到的面试题(附答案)那么今天分享给大家,祝愿大家都能找到满意的工作…

HTML期末作业课程设计期末大作业——我的美丽家乡湛江 海鲜之都HTML+CSS+JavaScript

家乡旅游景点网页作业制作 网页代码运用了DIV盒子的使用方法,如盒子的嵌套、浮动、margin、border、background等属性的使用,外部大盒子设定居中,内部左中右布局,下方横向浮动排列,大学学习的前端知识点和布局方式都有…

python爬虫实战之逆向分析酷狗音乐

文章目录前言一、请求分析二、逆向思路三、全部代码总结前言 声明:本文章只是用于学习逆向知识,仅供学习,未经作者同意禁止转载 对于爬虫而言,不管是什么类型的都会遵循这几个步骤 获取目标url分析请求数据逆向解密数据伪造请求清…

算法日常训练12.5

首先有个很大的进步,看见困难题我没选择做逃兵跑路,这点起码是进步了,虽然算法能力还是那么拉,但是起码敢不自量力地分析一下。。。还能看题解理解下。 先找题解中最简单地一种超时方法开始理解,使用动态规划&#xff…