15(第十四章,大数据和数据科学)

news2025/1/15 23:01:18

目录

概述

基本概念

数据仓库/传统商务智能与数据科学的比较

数据科学的过程

大数据

大数据来源

数据湖

机器学习

监督学习

无监督学习

强化学习

扩展

1、数据仓库(Data Warehouse)

2、数据湖(Data Lake)

3、大数据平台1.0

4、数据中台

5、数据底座

6、湖仓一体化大数据平台(Data Lakehouse)

7、数据仓库、数据湖和湖仓一体的差异


概述

传统的商务智能(BI)提供“后视镜”式的报告,通过分析结构化的数据展示过去的趋势。

信息收敛三角:

数据科学将数据挖掘、统计分析、机器学习与数据集成整合,结合数据建模能力,去构建预测模型、探索数据内容模式。因为数据分析师或数据科学家会使用一些科学的方法来开发和评估模型,所有开发预测模型有时被称为数据科学。

基本概念

数据仓库/传统商务智能与数据科学的比较

数据仓库/传统商务智能数据科学
描述性分析预测性分析规范性分析
事后结论洞察预见

基于历史:

过去发生了什么?

为什么发生?

基于预测模型:

未来可能会发生什么?

基于场景:

我们该做什么才能保证事情发生?

数据科学的过程

  1. 定义大数据战略和需求
  2. 选择数据源
  3. 获得和接收数据源
  4. 制定数据假设和方法
  5. 集成和调整进行数据分析
  6. 使用模型探索数据
  7. 部署和监控

大数据

早期通过3V来定义大数据的特征:数据量大(Volume)、数据更新快(Velocity)、数据类型多样/可变(Variety)

后来V列表有了更多的扩展:

  1. 数据量大 (Volume)。大数据通常拥有上千个实体或数十亿个记录中的元素。
  2. 数据更新快 (Velocity)。指数据被捕获、生成或共享的速度。大数据通常实时地生成、分发及进行分析。
  3. 数据类型多样/可变(Variety/Variability)。指抓取或传递数据的形式。大数据需要多种格式储存。通常,数据集内或跨数据集的数据结构是不一致的。
  4. 数据黏度大(Viscosity)。指数据使用或集成的难度比较高
  5. 数据波动性大 (Volatility)。指数据更改的频率,以及由此导致的数据有效时间短
  6. 数据准确性低 (Veracity)。指数据的可靠度不高。

大数据来源

来源于结构化数据和非结构化数据。

从上图其实我们能看出来:

数据仓库是面向BI的;

数据科学是面向AI的。

数据湖

数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据的环境,可供多种场景使用。例如,它可以提供:

  1. 数据科学家可以挖掘和分析数据的环境。
  2. 原始数据的集中存储区域,只需很少量的转换 (如果需要的话)。
  3. 数据仓库明细历史数据的备用存储区域。
  4. 信息记录的在线归档。
  5. 可以通过自动化的模型识别提取流数据的环境。

数据湖的风险在于,它可能很快会变成数据沼泽一一杂乱、不干净、不一致。为了建立数据湖中的内容清单,在数据被摄取时对元数据进行管理至关重要。

机器学习

预测分析是有监督学习的子领域,规范分析比预测分析更进一步。

监督学习

基于通用规则,例如将SPAM邮件与非SPAM邮件区分开,这种结果是有限制的,刚刚那个例子,结果就是“是”或“否”。

无监督学习

基于找到的哪些隐藏的规律(数据挖掘),结果是无限的,例如让他去预测明年的销售业绩是多少这种。

强化学习

基于目标的实现,例如让他在国际象棋中击败对手。

扩展

我们凑这篇文章,介绍下数据仓库、大数据平台、数据湖、数据中台、数据底座、湖仓一体化大数据平台的差异。

1、数据仓库(Data Warehouse)

听过很多次了,数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库是数据库的一种概念上的升级,可以说是为满足新需求而设计的一种新数据库,能容纳更加庞大的数据集

2、数据湖(Data Lake)

数据湖是将来自不同数据源、不同数据类型(结构化、半结构化、非结构化)的数据,以原始格式存储进行存储的系统,并按原样存储数据,而无需事先对数据进行结构化处理。是各种原始数据的集合(不产生数据),原则上不对数据进行清洗、整合(不能对业务数据进行修改),入湖数据需要进行注册(经过流程制度的处理,如确定数据Owner,满足要求)。

3、大数据平台1.0

个性化、多样化数据,以处理海量数据存储、计算及流数据实时计算等场景为主的一套基础设施,以 Hadoop、Spark、Hive 等作为大数据基础能力层,在大数据组件上搭建包括数据分析、机器学习程序等 ETL 流水线,另外可以包括数据仓库系统等核心功能。

4、数据中台

阿里提出的中国本地的一个概念,数据中台是企业级数据能力共享平台,提供企业级数据服务,实现数据共享。数据通过分层与水平解耦,经过汇聚、存储、整合、分析、加工,沉淀公共的数据能力,再经过服务封装,形成通用的调用接口,为前端应用提供数据服务调用,支撑前端应用敏捷迭代和快速构建。数据直接用于业务链路和交易场景, 服务更多业务。数据中台不是一个标准化的产品,是一整套策略和解决方案的集合。

5、数据底座

数据底座是企业统一的数据平台,是数据的逻辑集合,由数据湖和数据主题联接两层构成,集成公司内部各个业务系统数据及外部数据,为业务可视、分析、决策等数据消费提供数据服务。数据底座由数据湖和数据主题联接构成。

6、湖仓一体化大数据平台(Data Lakehouse)

是新兴起的一种数据架构,它同时吸收了数据仓库和数据湖的优势,数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它也能为公司进行数据治理带来更多的便利性。就是把面向企业的数据仓库技术与数据湖存储技术相结合,为企业提供一个统一的、可共享的数据底座。

大数据平台1.0+数据中台的功能+数据运营的功能=大数据平台2.0=湖仓一体化大数据平台(简称大数据平台)

7、数据仓库、数据湖和湖仓一体的差异

数据仓库、数据湖和湖仓一体之间的差异主要体现在以下几点。

  • (1)数据类型:数据仓库内部高度结构化且多为关系型数据库,一般只支持在入仓前完成处理工作的结构化数据存储;数据湖可包容开放的数据类型,但其主要存储原始格式的数据,数据加工处理属于额外工作;湖仓一体存储所有类型的已处理和原格式数据。 
  • (2)采集过程:数据仓库的写时模式需在数据入仓前预先建模,并按照既定的ETL模式,以专属格式导入;数据湖的读时模式在数据入湖后按需定义架构,湖中数据以开放格式存在以适应多变的业务需求,ELT;湖仓一体同时支持预定义数据和开放数据导入以及需求导向的数据加工转换。 
  • (3)访问方式:数据仓库内的数据访问以SQL(Structured Query Language)为主,用户可以获取具有专属格式的数据;数据湖和湖仓一体配置大量开放API,可支持对数据的直接读取,读取方式包括SQL、 R、Python等语言,湖仓一体同时支持原格式和处理后数据的访问。 
  • (4)可靠性和安全性:数据仓库发展较为成熟,基于其高度结构化的管理能力,可实现高质量和安全性的数据存储;数据湖内部数据具有多源异构性,尚未形成有效治理策略,易导致数据沼泽,这也是其当前面临的最大挑战;湖仓一体在湖存储机制上添加数据仓库管理功能和数据安全保障机制,可显著提高数据可靠性和安全性。
  • (5)适用场景:数据仓库适用于BI(Business Intelligence)、SQL应用和报告等;数据湖适用于数据科学和机器学习,二者仅支持有限应用场景;湖仓一体可同时满足SQL分析需求和数据科学、机器学习等高级分析需求,且支持直接在原始数据上应用各类分析工具,以及对流数据的持续处理和实时分析。
数据类型采集过程访问方式可靠性和安全性使用场景
数据仓库结构化、已处理数据写时模式SQL为主,支持API数据质量高、安全性高BI
数据湖结构化、半结构化、非结构化原始数据读时模式开放API数据质量低、安全性低、易形成数据沼泽AI
数仓一体结构化、半结构化、非结构化原始数据写时模式、读时模式开放API数据质量高、安全性高丰富场景

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1628661.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Visual Studio中怎样更改Nuget程序包源

场景 Visual Studio 2019 在使用NuGet添加依赖包时,在预览中搜索不到程序包。 排查下NuGet的程序包源为本地。 将程序包源修改下。 实现 在解决方案上右击选择管理解决方案中的NuGet程序包(在 Visual Studio 中打开“工具”>“选项”>“NuGet 包管理器”…

vim 插件01:插件管理神器pathogen

1、pathogen简介 Vim 插件 pathogen 是一款历史比较悠久的 Vim 插件管理器。Pathogen 的主要功能是提供一种模块化的方式来管理和加载 Vim 插件。说人话:vim是一款管理各类插件的插卡,使用它会让插件的安装和使用非常方便。 以下是 Pathogen 的主要特点…

高级STM32应用开发:使用HAL库和RTOS

引言 STM32系列微控制器以其高性能、丰富的外设支持和低功耗特性,在工业、汽车及消费电子市场中占有显著地位。 下面我们旨在探讨STM32的高级开发技术,包括硬件抽象层(HAL)库的使用和实时操作系统(RTOS)的…

python之excel加工处理小案例一则

一、工具用途 工作中,需要对各类excel进行加工处理,当表和字段比较多时,关联条件又有多个,每次通过execl的vlookup之类的关联公式手工可以解决工作需求,但一般耗时较长,且人工统计匹配也存在出错的情况。 …

Kafka学习笔记01【2024最新版】

一、Kafka-课程介绍 官网地址:Apache KafkaApache Kafka: A Distributed Streaming Platform.https://kafka.apache.org/ kafka 3.6.1版本,作为经典分布式订阅、发布的消息传输中间件,kafka在实时数据处理、消息队列、流处理等领域具有广泛…

利用yakit实现csrf (lucy争夺最帅男银的csrf之旅)

前言 欢迎来到我的博客 个人主页:北岭敲键盘的荒漠猫-CSDN博客 csrf原理:【web安全】CSRF漏洞攻击与防御-CSDN博客 文章主要内容提炼 本文主要讲利用yakit实现csrf的过程。 用pikachu靶场和内网环境做案例。 如需漏洞原理请点击上面原理的导航。 (因为我觉得yak…

RFID技术引领3C手机镜头模组产线智能化转型

RFID技术引领3C手机镜头模组产线智能化转型 应用背景 随着智能手机市场的快速发展与技术创新,手机镜头模组作为影像功能的核心组件,其生产精度、效率及供应链管理的重要性日益凸显。面对复杂多变的市场需求、严格的品质要求以及激烈的市场竞争&#xf…

01.JAVAEE初阶之计算机如何工作

1.一台机器如何组成 冯诺依曼体系 CPU 中央处理器: 进行算术运算和逻辑判断.存储器: 分为外存和内存, 用于存储数据(使用二进制方式存储)输入设备: 用户给计算机发号施令的设备.输出设备: 计算机个用户汇报结果的设备. 针对存储空间 硬盘 > 内存 >> CPU针对数据访问…

NodeJs[黑马笔记简洁版]

是什么 怎么用 模块 模块化标准 CommonJs(标准语法)默认 ECMAscript 内置模块 fs模块 path模块 http模块 自定义模块 第三方包 包概念 npm 包管理器 总结

Vue 使用Canvas画布手写电子版签名 保存 上传服务端

电子版签名效果 定义画布 <canvas width"500"height"250"ref"cn"mousedown"cnMouseDown"mousemove"cnMouseMove"mouseup"cnMouseUp"style"width:500px;height: 250px;background-color:snow;padding: 10p…

Nginx:高性能Web服务器与反向代理的卓越之选

目录 一、Nginx概述 二、Nginx的特点 三、Nginx架构图 四、Nginx优势 五、正向代理与反向代理 正向代理&#xff1a; 反向代理&#xff1a; 一、Nginx概述 Nginx&#xff08;engine x&#xff09;是一个由俄罗斯人Igor Sysoev开发的高性能HTTP和反向代理服务器。其历史背…

MySQL 数据库远程访问问题

在默认的情况下&#xff0c;MySQL 是不能远程访问的&#xff0c;当我们修改了用户名可以接受远程访问后&#xff0c;还是没有办法接受远程访问。 还有一个配置的地方需要验证。 mysqld.cnf 配置文件 mysqld.cnf 配置文件对访问的地址可能会有限制。 配置文件的地址为&#…

YoloV9改进策略:注意力改进、Neck层改进_自研全新的Mamba注意力_即插即用,简单易懂_附结构图_检测、分割、关键点均适用(独家原创,全世界首发)

摘要 无Mamba不狂欢,本文打造基于Mamba的注意力机制。全世界首发基于Mamba的注意力啊!对Mamba感兴趣的朋友一定不要错过啊! 基于Mamba的高效注意力代码和结构图 import torch import torch.nn as nn # 导入自定义的Mamba模块 from mamba_ssm import Mamba class Eff…

AI大模型系列:自然语言处理,从规则到统计的演变

自然语言处理&#xff0c;从规则到统计的演变 自然语言处理&#xff08;Natural Language Processing&#xff0c;NLP&#xff09;是人工智能的一个重要分支&#xff0c;主要研究如何让计算机理解、解释和生成人类语言。从自然语言处理的字面上来看&#xff0c;最重要的是“语言…

css 文字左右抖动效果

<template><div class"box"><div class"shake shape">抖动特效交字11</div></div> </template><script setup></script><style scope> .shape {margin: 50px;width: 200px;height: 50px;line-heigh…

腾讯混元,「出招」SaaS

透过这次升级动作&#xff0c;也同样对应的一个明显的信号是&#xff1a;腾讯在数字化时代的To B底层能力&#xff0c;也更在一步步AI化。 作者|皮爷 出品|产业家 “大模型如今走到哪了&#xff1f;”在越来越多的场合和分享上&#xff0c;这个问题开始成为必谈的话题之一…

计算机存储原理.2

1.主存储器与CPU之间的连接 2.存储器芯片的输入输出信号 3.增加主存的存储字长 3.1位扩展 数据总线的利用成分是不充分的(单块只能读写一位)&#xff0c;为了解决这个问题所以引出了位扩展。 使用多块存储芯片解决这个问题。 3.2字扩展 因为存储器买的是8k*8位的&am…

朴素贝叶斯算法分类

def loadDataSet():postingList[[my, dog, has, flea, problems, help, please], #切分的词条[maybe, not, take, him, to, dog, park, stupid],[my, dalmation, is, so, cute, I, love, him],[stop, posting, stupid, worthless, garbage],[mr, licks, ate, my, steak, …

Steam家庭组功能出现问题,组建家庭可能受限

Steam家庭组功能出现问题&#xff01;组建家庭可能受限 最近Steam家庭功能出现了问题&#xff0c;导致组建家庭可能会受到限制。一些玩家在邀请家庭成员加入时遇到了接受邀请失败的情况&#xff0c;提示他们不具有资格加入家庭。经过测试发现&#xff0c;即使是同一地区的账号…

单一职责原则介绍

单一职责原则&#xff08;Single Responsibility Principle&#xff0c;简称SRP&#xff09;是面向对象设计中的一个重要原则&#xff0c;它指出一个类应该只有一个引起变化的原因。换句话说&#xff0c;每个类都应该有一个明确的任务&#xff0c;只做一件事&#xff0c;并做好…