大数据的整体见解

news2024/11/15 10:51:08

如何建设高效的数据模型体系,使数据易用,避免重复建设和数据不一致性,保证数据的规范性;如何提供高效易用的数据开发工具;如何做好数据质量保障;如何有效管理和控制日益增长的存储和计算消耗;如何保证数据服务的稳定,保证其性能;如何设计有效的数据产品高效赋能于外部客户和内部员工;这些都对大数据提出了更多复杂要求。
大数据的服务的服务体系主要分为数据采集,数据计算,数据服务和数据应用四大层次。
在这里插入图片描述

一个大数据交付项目的链路:
售前捕获商机,签订合同
业务分析师进行需求分析,业务分析
架构师进行架构,建模
高级数据标签开发,算法及pyspark
数据开发进行盘点,指标开发
业务分析或数开进行数据可视化
售后提供支持
运维及治理

数据采集
数据采集有埋点(其中埋点可分为埋点采集和无埋点采集),无埋点,爬虫(python,java)获得或者从业务库拉取。
pv:页面浏览量; uv:独立访客数
spu: 一类型商品 sku:最细商品
埋点的话就是借助埋点采集数据,在需要检测用户行为的地方加上一段代码,我们可以称之为capture模式,通过在客户端/服务端埋下确定的点采集数据上云,这种方式准确性与稳定性高,适合监控和分析,一般埋点往往有很多业务属性,方便对事件上进行业务属性拆解和下钻分析,可以较好从业务逻辑切入行为分析,帮助理解业务思路。
缺点:埋点缺点是跨部门的协作沟通;埋点不能回溯历史数据;埋点数量有限,许多用户行为数据可能缺失影响数据分析效率。
埋点适用场景:核心数据;需要长期监控和存储;业务属性丰富;数据稳定准确
一个完整的埋点方案需要具备四个要素:确定事件与变量;明确事件触发时机,规范命名,明确优先级。

无埋点不是不需要打代码,而是前端自动采集全部事件并上报所有的数据,无埋点使用record模式,只需要首次使用时加载一段SDK代码,即可全量实时的采集数据。埋点使用capture模式。
缺点:无埋点的缺点是部分业务维度无法采集;无法实现滑动;数据准确性受到开发框架,开发规范等影响。
无埋点适用场景:业务属性弱,交互属性强;数据使用周期短不需要长期监控;突发问题快速及时分析

数据计算
数据计算有阿里的dataworks,dataphin,华为云,腾讯云及自研计算平台进行数据计算。在其中进行计算(hive,spark,shell,pyspark)和数据整合管理(onedata)
加工链路(数据矩阵)
ods->stg->std->dim->dwd->dws->ads->mysql
然后进行可视化(帆软,tableau,datav,quickbi,python或自研可视化工具),用户画像,推荐系统,人群圈选,机器学习

数据服务
数据终点站mysql或宽表(Hbase,mogodb),也可将其放入云数据库(RDS)探后通过接口对外提供查询服务。

数据应用
搜索,推荐,广告,政企,金融,文娱,电商,保险,地产及工业信息化等等

数据同步
数据同步是采集后的数据进行上云,也叫数据集成,数据源来自不同系统库,可能有mysql,oracle,db2.sftp,ftp.等
ODBC/JDBC 等规定了统一规范的标准接口,不同的数据库基于这套标准接口提供规范的驱动,支持完全相同的函数调用和 SQL 实现或者封装实现。
同步包括全量同步(数据量较少),增量同步(数据量大),新增及变化同步(原来同步数据会发生变化)

数据建模
传统关系型数据库是ER模型,关系模型即范式
大数据要求维度建模,防止冗余
传统OLTP,大数据OLAP

面对爆炸式增长的数据,如何建设高效的数据模型和体系,避免重复建设和数据不一致性,保证数据的规范性, 一直是大数据系统建设不断追求的方向。OneData 即进行数据整合及管理的方法体系和工具。在这一体系下,构建统一 、规范、可共享的全域数据体系,避免数据的冗余和重复建设,规避数据烟囱和不一致性,充分发挥在大数据海量、多样性方面的独特优势。借助统一化数据整合及管理的方法体系,构建数据公共层,可以帮助相似的大数据项目快速落地实现。

数据仓库定义:数据仓库是一个面向主题的,集成的,非易失的且随时间变化的集合。
数据仓库是一个中央存储库,里面集中存储了某一个专一主题或功能区域的数据。
数据仓库不是数据的终点而是做准备,包括清洗,转义,重组,合并,拆分,统计
数据仓库-》数据中台-》数据湖(湖仓一体)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/171390.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

文件下载 response响应ContentType与a标签download属性

参考资料 MediaType介绍了解HTML/HTML5中的download属性header中Content-Disposition的作用 目录一. ContentType二. a标签download属性2.1 下载同源静态资源文件2.2 后台可省略Content-Disposition一. ContentType 我们在进行文件下载的时候,后端往往需要通过如下…

CSRF(跨站请求伪造)

一、csrf是什么CSRF(Cross Site Request Forgery,跨站请求伪造)。是一种对网站的恶意利用,通过伪装来自受信任用户的请求来利用受信任的网站。原理是攻击者构造网站后台某个功能接口的请求地址,诱导用户去点击或者用特…

uni-app 中实现文件和图片的上传-H5

之前写过一篇上传的文章📕,但是那篇文章仅仅只能实现上传图片的功能,而且代码写的比较乱,看起来很繁杂,最近有幸又遇到了上传图片和文件的需求,在完成这个功能后,整理一下,希望能给需…

第十四届蓝桥杯单片机组学习笔记(2):按键

第十四届蓝桥杯单片机组学习笔记(2):按键前言区分高低电平驱动按键消抖软件消抖触发处理的方式矩阵键盘最简单常用的人机交互手段——按键 前言 实现按键检测需要解决的问题: 按键是低电平按下还是高电平按下;按键消…

(1分钟速览)KBM-SLAM 论文阅读笔记

编辑切换为居中添加图片注释,不超过 140 字(可选)这篇博客记录了上面这篇论文的学习笔记。编辑切换为居中添加图片注释,不超过 140 字(可选)这个是本文的摘要,一眼开过去就是单目slam当今所遇到…

机器学习(一):人工智能概述

文章目录 人工智能概述 一、人工智能应用场景 二、人工智能小案例 三、人工智能发展必备三要素 四、人工智能、机器学习和深度学习 人工智能概述 一、人工智能应用场景 二、人工智能小案例 案例一 学习链接:https://quickdraw.withgoogle.com 案例二 学习链…

老杨说运维 | 2023,浅谈智能运维趋势(三)

文末附有视频回顾 前言: 在回顾(一)中,老杨提到的智能运维发展趋势中,面对国际化形势不确定的情况,信创部分的比例要求正在递增。作为国家经济发展的新动能,信创发展已步入深水区,智…

cv2.imread()、cv2.putText、cv2.imwrite()、cv2.waitKey()

cv2cv2.imread()cv2.putText()cv2.imwrite()cv2.waitKey()cv2.imread() 用于读取图像数据案例演示: import cv2# ouput img properties img_pathC:/Users/WHY/Pictures/Saved Pictures/OIP-C (1).jfif def funOutput…

安卓手机使用Linux Deploy安装CentOS

目录 前言 准备工作 实践 busybox安装 安装并配置Linux Deploy 局域网使用ssh连接服务器 公网使用ssh连接服务器 环境安装 写在最后 前言 最近沉迷于服务器搭建,书接上文,在安卓高版本中成功安装了服务器,但是安卓低版本的却一言难尽…

2023CUPT第七题 法拉第波 思路和解法

本文未完原题A droplet of less viscous liquid floating in a bath of a more viscous liquid develops surprising wave- like patterns when the entire system is set into vertical oscillation. Investigate this phenomenon and the parameters relevant to the product…

Webpack学习笔记

Webpack学习笔记1.引言2.Webpack相关的基础性问题3.Webpack的使用4.Webpack与代码规范和兼容性5.优化Html入口文件的处理6.实现webpack热更新7.生产模式与开发模式分析8.优化css配置,避免闪频现象9.代码压缩1.引言 最近想来自己对于前端的学习还是有很多的不足&…

毕业论文查重

每当毕业季论文编写都是一件大事,论文查重又是最让人头痛的事情,这里总结一些简单论文查重方法,希望对你有帮助。 首先通过一下系统查询重复比例,之后对照重复比例进行修改,如下图通过PaperPass论文检测进行查询生成的…

Linux安装JDK

创建develop目录 mkdir /usr/local/develop/ 我这边是直接将包拖进来了 创建jdk目录 mkdir /usr/local/develop/jdk/ 解压安装包 并且将安装文件放到 jdk目录里 tar -zxvf /usr/local/develop/jdk-8u191-linux-x64.tar.gz -C /usr/local/develop/jdk/ 或 tar -xvf /usr/l…

【信息系统项目管理师】论文写作心得整理篇

【信息系统项目管理师】论文写作心得整理篇 【信息系统项目管理师】论文写作心得整理篇【信息系统项目管理师】论文写作心得整理篇一.摘要二.论文评分标准1.切合题意2.应用深度和水平3.实践性4.表达能力5.综合能力和分析能力扣分项目加分项目不及格项目格式要求摘要的组成三.论…

Unity 工具 之 报错 Jenkins 执行/调用 Python 脚本,报错提示 ‘python‘ 不是内部或外部命令,也不是可运行的程序或批处理文件

Unity 工具 之 报错 Jenkins 执行/调用 Python 脚本,报错提示 python 不是内部或外部命令,也不是可运行的程序或批处理文件 目录 Unity 工具 之 Jenkins 执行/调用 Python 脚本,报错提示 python 不是内部或外部命令,也不是可运行…

MyBatis -- 动态 SQL

MyBatis -- 动态 SQL动态 SQL 使用1. <if> 标签2. <trim> 标签3. <where> 标签4. <set> 标签5. <foreach> 标签动态 SQL 使用 动态 sql 是 Mybatis 的强大特性之⼀&#xff0c;能够完成不同条件下不同的 sql 拼接。 可以参考官方文档&#xff…

SNARK原理示例

1. 引言 前序博客有&#xff1a; SNARK DesignRollup项目的SNARK景观 SNARK方案由 Polynomial IOP ➕多项式承诺方案 组成。 当前的Polynomial IOP主要分为三大类&#xff1a; 1&#xff09;基于interactive proofs&#xff08;IPs&#xff09;的Polynomial IOP&#xff1…

【10】C语言_for循环 | 初识 | 入门 |

目录 1、引出for循环 2、for循环语法 例题&#xff1a; 1、引出for循环 因为while的三个条件&#xff0c;如果代码写的多的时候&#xff0c;以下的三个条件离得远不好&#xff0c;所以引出三个条件在一起的for循环 int main() { int i 1; //初始化while(i < 10)…

Java基本数据类型及其包装类

内置数据类型 Java语言提供了八种基本类型。六种数字类型&#xff08;四个整数型&#xff0c;两个浮点型&#xff09;&#xff0c;一种字符类型&#xff0c;还有一种布尔型。 byte&#xff1a; byte 数据类型是8位、有符号的&#xff0c;以二进制补码表示的整数&#xff1b;…

Prometheus-Exporter详解

一、Exporter是什么 广义上讲所有可以向Prometheus提供监控样本数据的程序都可以被称为一个Exporter。而Exporter的一个实例称为target&#xff0c;如下所示&#xff0c;Prometheus通过轮询的方式定期从这些target中获取样本数据: 二、Exporter的来源 从Exporter的来源上来…