1.1 理解大数据(2)

news2024/10/6 8:29:18

小肥柴的Hadoop之旅 1.1 理解大数据(2)

  • 目录
    • 1.1 理解大数据
      • 1.1.3 大数据概述
      • 1.1.4 更多思考
    • 参考文献和资料

目录

1.1 理解大数据

1.1.3 大数据概述

step_0 大数据定义

【《大数据算法设计分析》】:
通常来讲大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

对这段定义的理解重点在加粗的两处:
(1)“一定时间范围内”:这半句话其实揭示了一个事实,即很多大数据问题不是无法求解,而是无法在有限时间内高效的求解! ==> 若非要上升到理论视角,那就是NP问题的讨论。
(2)“信息资产”:之所以那么多公司、机构和研究者投入精力去做大数据方向的理论研究和工程实践,不就是因为需要熔炼这些数据去获取价值嘛?说白了还是太史公的那句话:“天下熙熙皆为利来…”,因此大家在学习大数据相关知识和技术的时候,有必要多问自己一句:“这个技术/工具/知识能够帮助我在处理大数据的时候产生价值吗?”,方便及时止损。

step_1 大数据特性(4V),老生常谈的话题,有兴趣的话自己可以去翻看一下相关文献资料。
<1> Volume(大量)
<2> Velocity(高速)
<3> Variety(多样)
<4> Value(低价值密度)

step_2 几个需要提前理解概念(与数据库相关)
<1> 联机事务处理OLTP(On-Line Transaction Processing)
<2> 联机分析处理OLAP(On-Line Analytical Processing)
<3> 数据仓库DW(Data Warehouse)
<4> ETL(Extral——抽取,Transform——清洗转换,Load——加载)

此处我们给出几个学习链接([1]~[7])供大家自学,仅需要记住:
(1)OLTP 是传统的关系型数据库的主要应用,事务处理,效率优先。
(2)OLAP 主要针对于数据的分析汇总操作,是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
(3)数据仓库 是为数据分析准备的“预制菜”存放地,为更高层次的数据分析提供原料。
(4)数据仓库的主要工作可以简单概括为:针对具体业务的建模和对应模型的ETL实现。
(5)以上概念的提出和对应业务的软件实现其实是业务需要的结果,是一个逐渐演进的过程。

【注】建议大家去看看微信公众号“特大号”对数据仓库的理解,通俗易懂的漫画,我比较喜欢里面的猫猫,我们借用一下人家描述ETL的图,侵删。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.1.4 更多思考

最后有问题需要大家自己去寻找答案:
【Q1】数据仓库、数据湖、湖仓一体,究竟有什么区别?
【Q2】在《Hadoop权威指南》的P5(第一章 初识Hadoop)有一个观点 “大数据胜于好算法”
在这里插入图片描述
但是后来“吴恩达表示AI要转向小数据”,2023年大模型概念又出现了…请问咱们应该如何看待以上观点?
【浅显回答】大数据本身的价值含量不高,所以在使用前需要“提纯”,而高质量的数据集才是真正对分析和预测有益的。

【Q3】大数据计算的挑战和研究的问题有哪些?(偏理论向的问题,摘自《大数据算法设计分析》)
【A3】大数据计算面临的4个子问题:
(1)具有求解给定问题的高可用数据吗?
(2)若高可用数据存在,给定问题是可以计算的吗?
(3)若给定问题可以计算,那此问题的计算难吗?即:需要判定是否能在期望时间内求出问题的解?
(4)以上条件满足时,应该如何求解问题?即:合理设计求解给定问题的算法?

这些子问题的对应回答如下:

(1)大数据计算和应用亟需建立大数据可用性理论和相关算法。

(2)传统计算复杂性理论不适用于大数据计算。
<1> 计算模型是大数据计算复杂性理论的基础,现有传统模型不能基准刻画大数据计算:
i) 无法描述亚时间线性算法。
ii) 不能描述I/O复杂性和通信复杂性。
<2> 大量大数据问的计算复杂性问题未能有效解决。
i) 如何判定计算问题的难易?
ii) 如何判定难解问题是否可近似求解?
iii) 如何判断问题是否可并行求解?
iv) 问题的复杂性分类?空间计算复杂性? …

(3)传统的多项式时间算法不适于求解大数据计算问题。
<1>多项式算法执行时间长。
<2>数据密集型计算问题(e.g. 数据查询/挖掘/分析)具有多项式时间或者更高的计算复杂性。

(4)传统计算技术难以满足大数据计算需求:
<1> 传统高性能计算机系统是基于计算密集型计算需求设计的,不适用于分布式计算(不好蹭并行计算)。
<2> 云计算系统存在网络通信瓶颈(包括有线和无线的计算机网络和通信网络)。
<3> 需要面向大数据计算提供合适的计算软件框架。 ==> 这点工业界远远走在学术界前面。

综合以上描述,给出大数据研究的科学问题:
(1)建立能够准确描述大数据的计算模型。
(2)分析大数据计算问题空间的计算复杂性结构。
(3)确定大数据计算问题的固有复杂性。
(4)探索求解大数据计算问题的算法设计方法学。
(5)设计与分析求解大数据计算问题的高效算法。 => 有限资源做更多的事情,小马拉大车
(6)探索面向应用的大数据计算理论与方法。 => 交叉领域的应用
(7)探索大数据获取的理论与技术。 => 无价值数据最小化和有价值数据最大化,获取高可用数据
(8)探索大数据存储的理论与方法。 => 分布式存储,分布式数据库(体量/效率/安全/性能/能耗)
(9)探索大数据可用性的理论和方法。 => 评估、自动修复、近似计算
(10)研究支持大数据计算的计算机软硬件系统。 => 各种框架、生态和工具软件

参考文献和资料

[1] OLTP、OLAP介绍
[2] OLAP和OLTP的区别是什么?
[3] 数据库 与 数据仓库的本质区别是什么?(一)
[4] 数据库 与 数据仓库的本质区别是什么?(二)
[5] 秒懂数仓的前世今生:DBMS、DW、OLTP、OLAP到底是啥?(上篇)
[6] 秒懂数仓的前世今生:DBMS、DW、OLTP、OLAP到底是啥?(下篇)
[7] 数据仓库、数据湖、湖仓一体,究竟有什么区别?
[8] Small Data Challenges in Big Data Era: A Survey of Recent Progress on Unsupervised and Semi-Supervised Methods, Guo-Jun Qi, Senior Member, IEEE, and Jiebo Luo, Fellow, IEEE.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1357426.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux操作系统】探秘Linux奥秘:Linux 操作系统的解密与实战

&#x1f308;个人主页&#xff1a;Sarapines Programmer&#x1f525; 系列专栏&#xff1a;《操作系统实验室》&#x1f516;诗赋清音&#xff1a;柳垂轻絮拂人衣&#xff0c;心随风舞梦飞。 山川湖海皆可涉&#xff0c;勇者征途逐星辉。 目录 &#x1fa90;1 初识Linux OS …

目标跟踪算法中的卡尔曼滤波学习

在使用多目标跟踪算法时&#xff0c;接触到卡尔曼滤波&#xff0c;一直没时间总结下&#xff0c;现在来填坑。 1. 背景知识 在理解卡尔曼滤波前&#xff0c;有几个概念值得考虑下&#xff1a;时序序列模型&#xff0c;滤波&#xff0c;线性动态系统 1. 时间序列模型 时间序…

Elasticsearch:Serarch tutorial - 使用 Python 进行搜索 (一)

本实践教程将教你如何使用 Elasticsearch 构建完整的搜索解决方案。 在本教程中你将学习&#xff1a; 如何对数据集执行全文关键字搜索&#xff08;可选使用过滤器&#xff09;如何使用机器学习模型生成、存储和搜索密集向量嵌入如何使用 ELSER 模型生成和搜索稀疏向量如何使用…

【KingbaseES】实现MySql函数Field

CREATE OR REPLACE FUNCTION field(value TEXT, VARIADIC arr TEXT[]) RETURNS INT AS $$ DECLAREi INT; BEGINFOR i IN 1 .. array_length(arr, 1) LOOPIF arr[i] value THENRETURN i;END IF;END LOOP;RETURN 0; END; $$ LANGUAGE plpgsql IMMUTABLE;

【Mac】Mac新机配置前端环境教程

1、先安装谷歌浏览器&#xff0c;稳定版 作为一名前端程序员&#xff0c;和浏览器打交道肯定是必不可少的。Chrome&#xff0c;Edge 都有着丰富的扩展资源。你可以下载插件帮助你更好的在工作中调试代码。 React Developer Tools Vue.js devtools GraphQL developer tools 如…

信号量原理及其应用

一、信号量定义 信号量是一种用于保护临界资源的同步机制。它可以用来控制对共享资源的访问&#xff0c;以避免并发访问导致的数据不一致或竞争条件。信号量的PV操作是原子操作&#xff0c;即不可被中断的操作。 在信号量的操作中&#xff0c;P操作&#xff08;也称为wait操作…

imgaug库指南(四):从入门到精通的【图像增强】之旅

引言 在深度学习和计算机视觉的世界里&#xff0c;数据是模型训练的基石&#xff0c;其质量与数量直接影响着模型的性能。然而&#xff0c;获取大量高质量的标注数据往往需要耗费大量的时间和资源。正因如此&#xff0c;数据增强技术应运而生&#xff0c;成为了解决这一问题的…

AIGC实战——自回归模型(Autoregressive Model)

AIGC实战——自回归模型 0. 前言1. 长短期记忆网络基本原理2. Recipes 数据集3. 处理文本数据3.1 文本与图像数据处理的差异3.2 文本数据处理步骤 4. 构建 LSTM 模型4.1 模型架构4.2 LSTM 计算流程4.3 训练 LSTM 5. LSTM 模型分析小结系列链接 0. 前言 自回归模型 (Autoregres…

基于gamma矫正的照片亮度调整(python和opencv实现)

import cv2 import numpy as npdef adjust_gamma(image, gamma1.0):invGamma 1.0 / gammatable np.array([((i / 255.0) ** invGamma) * 255 for i in np.arange(0, 256)]).astype("uint8")return cv2.LUT(image, table)# 读取图像 original cv2.imread("tes…

使用 SpringSecurity 发送POST请求出现 403

问题场景 在使用 SpringSecurity 时对一些访问权限进行了设置, 在用户请求资源时出现了403错误 , 通过检查代码发现请求权限是开放的, 并且切换成 GET 请求也是可以通过, 换成POST 请求就无法通过。 解决方法 在 SpringSecurity 中关闭 CSRF 因为 前端向后台发送 post 请求…

文章解读与仿真程序复现思路——电力系统自动化EI\CSCD\北大核心《考虑分布式资源交易的气电综合能源配网系统出清模型》

本专栏栏目提供文章与程序复现思路&#xff0c;具体已有的论文与论文源程序可翻阅本博主的免费专栏栏目《论文与完整程序》 这个标题涉及到气电综合能源配网系统的出清模型&#xff0c;特别强调了对分布式资源交易的考虑。以下是对标题中关键术语的解读&#xff1a; 气电综合能…

java SSM体育器材租借管理系统myeclipse开发mysql数据库springMVC模式java编程计算机网页设计

一、源码特点 java SSM体育器材租借管理系统是一套完善的web设计系统&#xff08;系统采用SSM框架进行设计开发&#xff0c;springspringMVCmybatis&#xff09;&#xff0c;对理解JSP java编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要…

Ubuntu不能挂载移动硬盘

我有一个2T 的移动硬盘&#xff0c;分了两个区 不知道为啥突然之间一个分区老无法挂载&#xff0c;万能的重启也无法解决。 经查资料&#xff0c;这种情况一般是在使用时&#xff08;如看电影或者拷贝文件过程中&#xff09;将移动硬盘异常拔出再插入时&#xff0c;就提示不能…

MySQL:约束主键唯一键

表的约束&#xff1a;表中一定有约束&#xff0c;通过约束让插入表中的数据是符号预期的 约束的本质是通过技术手段&#xff0c;倒逼程序员插入正确的数据 Null约束 这里的Null表示在插入的时候&#xff0c;该属性能否为空&#xff0c;如果是NO&#xff0c;则插入时候必须有数…

广义双曲分布、KS检验与抄底沪指

上一篇笔记我们抛出一个问题&#xff0c;沪指大跌 4%时&#xff0c;能不能抄底&#xff1f;今天的笔记&#xff0c;我们就通过 KS 检验&#xff0c;找出沪指的概率分布&#xff0c;进而回答这个问题。在后面的笔记中&#xff0c;我们还将换一个方法继续回答这个问题。 K-S 检验…

Xshell 上传文件到服务器

Liunx 上传文件 rz //回车&#xff0c;从本地选择文件上传 ll //查看文件 pwd //查看当前目录 mkdir filename //创建文件如果遇到错误信息“bash: rz: command not found” 安装 lrzsz sudo yum install lrzsz操作 mv //移动文件或目录 tar //解压文件vim //文本编辑器&am…

【技巧】一招让雷电模拟器快如闪电!

转载请注明出处&#xff1a;小锋学长生活大爆炸[xfxuezhang.cn] 本教程默认你已经开启了Hyper-V功能了。如果没开启&#xff0c;那卡顿很正常。 1、打开雷电多开器 2、点击左下角设置 3、勾选这几项后保存 该配置只需设置一次&#xff0c;下次自动生效。 4、重新启动模拟器 5、…

Python-CSV文件的存储

CSV文件存储 CSV其文件以纯文本形式存储表格数据。CSV文件是一个字符序列&#xff0c;可以由任意数目的记录组成&#xff0c;各种记录由某种换行符分隔开。它比Excel文件更加简洁&#xff0c;XLS文本是电子表格&#xff0c;包含文本、数值、公式和格式等内容&#xff0c;CSV中则…

Qt中图片旋转缩放操作

在我们开发过程中&#xff0c;难免会遇到加载图片的问题&#xff0c;在上一个开发项目里我就遇到了图片缩放的问题&#xff0c;所以&#xff0c;我决定将这一部分好好研究&#xff0c;记录下来&#xff0c;希望对大家有帮助哟~ 在讲解之前&#xff0c;我们先看一看具体的展示效…

docker 部署来自Hugging Face下机器翻译模型

机器翻译模型(Hugging Face官网) 模型翻译api服务代码 # 离线翻译服务代码 # -*-coding:utf-8-*-import os import json import logging from logging.handlers import RotatingFileHandler from datetime import datetime from flask import Flask, request,jsonify from geve…