【大数据技术】大数据技术概念及概述

news2025/3/31 17:16:29

1. 大数据概念

数据

  • 是实时或观察的结果
  • 是对客观事务的逻辑归纳
  • 是用于表示客观事物的未经加工的原始素材

数据的产生

  • 对客观事务的计量和记录尝试的数据
单位换算
1 byte8 bit
1 k1024 byte
1 mb1024 k
1 g1024 m
1 t1024 g
1 p1024 t
1 e1024 p
1 z1024 e
1 y1024 z
1 b1024 y
1 n1024 b
1 d1024 n

1.1 大数据的特点(5V 特征)

在这里插入图片描述

1.2 大数据应用场景

  1. 电商领域

    • 精准广告位
    • 个性化推荐
    • 大数据杀熟
  2. 传媒领域

    • 精准营销
    • 猜你喜欢
    • 交互推荐
  3. 金融领域

    • 信用评估
    • 风险管控
    • 客户细分
    • 精细化营销
  4. 交通领域

    • 拥堵预测
    • 智能红绿灯
    • 导航最优规划
  5. 电信领域

    • 基站选址优化
    • 舆情监控
    • 客户用户画像
  6. 安防领域

    • 犯罪预防
    • 天网监控
  7. 医疗领域

    • 智慧医疗
    • 疾病预防
    • 病原追踪

1.3 流程

在这里插入图片描述

1.3.1 明确分析目的和思路

  1. 目的是整个分析流程的七点:

    为数据的收集、处理及分析提供清晰的指引方向

  2. 思路是使分析框架体系化:

    先分析什么,后分析什么,使各分析点质检具有逻辑联系

    保证分析维度的完整性,分析结果的有效性以及正确性

  3. 数据分析方法论:营销管理相关理论

    用户行为理论、PEST分析法、5W2H分析法等

数据分析方法论主要用来知道数据分析师进行一次完整的数据分析,它更多的是指数据分析思路

数据分析法则是指具体的分析方法,例如:对比分析、交叉分析、相关分析、回归分析、聚类分析等

用户行为理论

在这里插入图片描述

1.3.2 数据收集

  1. 数据从无到有的过程

    如:传感器收集气象数据、埋点收集用户行为数据

  2. 数据传输搬运的过程

    如:采集数据库数据到数据分析平台

在这里插入图片描述

1.3.3 数据处理

  1. 收集到的数据进行加工整理,形成适合数据分析的样式

    主要包括数据清洗、数据转化、数据提取、数据计算

  2. 保证数据的一致性和可靠性

1.3.4 数据分析

  1. 用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程

    需要掌握各种数据分析方法,还要熟悉数据分析软件的曹祖

  2. 数据挖掘本质是一种高级的数据分析方法

    数据挖掘侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式和规律

1.3.5 数据展现

  1. 数据通过表格和图形的方式来呈现

1.3.6 报告撰写

  1. 数据分析报告是对整个数据分析过程的一个总结与呈现
  2. 把数据分析的起因、过程、结果及建议完整的呈现出来,供决策者参考
  3. 需要有明确的结论,最好有建议或解决方案

1.4 大数据部门组织架构

在这里插入图片描述

2. 分布式技术

2.1 为什么需要分布式技术

  • 科学技术的发展推动下

    应用和系统架构的变迁:单机单一架构迈向多机分布式架构

    • 单一架构

    在这里插入图片描述

    • 分布式架构

      在这里插入图片描述

  • 数据大爆炸,海量数据处理场景面临问题

    1. 如何存储?

      多台集齐分布式存储

    2. 如何计算?

      多台集齐分布式计算

2.2 分布式系统概述

  • 分布式系统是一个硬件或软件组件分布在不同的网络计算机上

  • 彼此质检仅仅通过消息传递进行通信和协调的系统

  • 一群互相独立计算机集合共同对外提供服务

  • 对于系统的用户来说,就像是一台计算机在提供服务一样

在这里插入图片描述

2.3 分布式(Distributed)与集群(Cluster)

  • 分布式与集群式两种概念

分布式:

  • 多台机器
  • 每台机器上部署不同组件

集群:

  • 多台集齐
  • 每台集群部署相同组件

2.4 负载均衡(Load Balance)

  • 将负载(工作任务)进行平衡、分摊到多个操作单元上进行运行
  • 解决了单个无法处理所有任务,多个一起处理的问题

在这里插入图片描述

2.5 故障转移

  • 当活动的服务或应用意外终止时,快速启用冗余或备用的服务器、系统、硬件或者网络接替它们的工作
  • 故障转移系统也称之为容错系统,所谓容错指的是可以容忍错误的发生
  • 故障转移的核心是设置备份 出现故障时,主备切换
  • 主备切换的前提是数据状态保持一致

在这里插入图片描述

2.6 伸缩性(Scalability)

  • 伸缩性也叫做弹性,可扩展性

  • 指系统可以根据需求动态的扩容、缩容

    比如双十一业务高峰期间,增加服务器;业务低峰期,减少服务器

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2324422.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python库()

1.概念 Matplotlib 库:是一款用于数据可视化的 Python 软件包,支持跨平台运行,它能够根据 NumPy ndarray 数组来绘制 2D 图像,它使用简单、代码清晰易懂 Matplotlib 图形组成: Figure:指整个图形&#xf…

AI知识补全(八):多模态大模型是什么?

名人说:人生如逆旅,我亦是行人。 ——苏轼《临江仙送钱穆父》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 上一篇:AI知识补全(七):AI Agent 智能…

Docker-MySQL安装-命令解读-常见命令-数据卷挂载-本地目录挂载-自定义镜像-网络-前端部署-DockerCompose

目录 Docker: 安装MySQL: 镜像容器: 镜像仓库: ​编辑命令解读: 镜像命名规范: docker run中常见参数: Docker常见命令: ​编辑数据卷: ​编辑数据卷-操作命令&…

Docker 安装部署Harbor 私有仓库

Docker 安装部署Harbor 私有仓库 系统环境:redhat x86_64 一、首先部署docker 环境 定制软件源 wget https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo -O /etc/yum.repos.d/docker-ce.repoyum install -y yum-utils device-mapper-persistent-data lvm2…

StarRocks 存算分离在京东物流的落地实践

康琪:京东物流高级技术专家、StarRocks & Apache Flink Contributor 导读:本文整理自京东物流高级技术专家在 StarRocks 年度峰会上的分享,UData 平台从存算一体到存算分离架构演进后,查询性能得到提升。Cache hit 时&#xf…

英伟达GB300新宠:新型LPDDR5X SOCAMM内存

随着人工智能(AI)、机器学习(ML)和高性能计算(HPC)应用的快速发展,对于高效能、大容量且低延迟内存的需求日益增长。NVIDIA在其GB系列GPU中引入了不同的内存模块设计,以满足这些严格…

具身智能 - Diffusion Policy:技术解析与应用实践

具身智能之 Diffusion Policy:技术解析与应用实践 一、Diffusion Policy 的核心概念 Diffusion Policy 是一种基于扩散模型(Diffusion Models)的决策生成框架,专为具身智能(Embodied Intelligence)设计。其核心思想是通过逐步去噪的过程,在复杂环境中生成鲁棒的动作序列…

[C++] 智能指针 进阶

标题:[C] 智能指针 进阶 水墨不写bug 在很久之前我们探讨了智能指针的浅显认识,接下来会更加深入,从源码角度认识智能指针,从而了解智能指针的设计原理,并应用到以后的工作项目中。 本文将会按照C智能指针的发展历史&…

kubernetes》》k8s》》 kubeadm、kubectl、kubelet

kubeadm 、kubectl 、kubelet kubeadm、kubectl和kubelet是Kubernetes中不可或缺的三个组件。kubeadm负责集群的快速构建和初始化,为后续的容器部署和管理提供基础;kubectl作为命令行工具,提供了与Kubernetes集群交互的便捷方式;而…

C++中的new、malloc、realloc、calloc——特点?函数原型?释放方式?区别?校招面试常问内容?

作者:求一个demo 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处 内容通俗易懂,没有废话,文章最后是面试常问内容(建议通过标题目录学习) 废话不多…

27_promise

插入一下前端助手测试&#xff0c;顺手可以用来做安全 promise promise 是一个es6新增的语法 汉语&#xff1a;承诺的意思 作用:是专门用来解决回调地狱!!!! 什么是回调函数&#xff1f; <script>// 回调函数 callback回调// 就是把函数A当作参数传递到函数B中// 在函…

leetcode刷题日记——跳跃游戏 II

[ 题目描述 ]&#xff1a; [ 思路 ]&#xff1a; 题目要求在一个一定能达到数组末尾的跳跃数组中(见55题 跳跃游戏)&#xff0c;找出能够跳到末尾的最小次数要求次数最少&#xff0c;那肯定是选取能选步数中最大的数。也就是在当前能够达到的距离中&#xff0c;选择能够达到的…

无人机进行航空数据收集对于分析道路状况非常有用-使用无人机勘测高速公路而不阻碍交通-

无人机进行航空数据收集对于分析道路状况非常有用-使用无人机勘测高速公路而不阻碍交通- 瑞士拥有1,400 多公里长的高速公路网络。这些公路将人和货物从山谷高原运送到阿尔卑斯山的最高山口。维护这些高速公路使国家得以顺利运转。高速公路维护的重要性显而易见&#xff0c;但在…

注意力蒸馏技术

文章目录 摘要abstract论文摘要简介方法预备知识注意力蒸馏损失注意力引导采样 实验结论总结参考文献 摘要 本周阅读了一篇25年二月份发表于CVPR 的论文《Attention Distillation: A Unified Approach to Visual Characteristics Transfer》,论文开发了Attention Distillation…

PERL开发环境搭建>>Windows,Linux,Mac OS

特点 简单 快速 perl解释器直接对源代码程序解释执行,是一个解释性的语言, 不需要编译器和链接器来运行代码>>速度快 灵活 借鉴了C/C, Basic, Pascal, awk, sed等多种语言, 定位于实用性语言,既具备了脚本语言的所有功能,也添加了高级语言功能 开源.免费 没有&qu…

鸿蒙项目源码-记账本app个人财物管理-原创!原创!原创!

鸿蒙记账项目源码个人财务管理含文档包运行成功ArkTS语言。 我一个月写的原创作品&#xff0c;请尊重原创。 原创作品&#xff0c;盗版必究&#xff01;&#xff01;&#xff01; api12 SDK5.0.0仅适用于最新的2024版本DevEco studio 共9个页面&#xff1a;广告倒计时页、登录、…

Ovito的python脚本

在 OVITO 里,Python 对象是构建脚本化操作的基础。下面为你详细介绍 OVITO 中 Python 对象的基本概念: 1. 数据管道(Pipeline) 数据管道是 OVITO 里最核心的对象之一。它就像一个流水线,把数据输入进来,经过一系列处理步骤,最后输出处理好的数据。 创建管道:借助 imp…

【免费】2007-2019年各省地方财政文化体育与传媒支出数据

2007-2019年各省地方财政文化体育与传媒支出数据 1、时间&#xff1a;2007-2019年 2、来源&#xff1a;国家统计局、统计年鉴 3、指标&#xff1a;行政区划代码、地区、年份、地方财政文化体育与传媒支出 4、范围&#xff1a;31省 5、指标说明&#xff1a;地方财政在文化、…

NOIP2007提高组.矩阵取数游戏

题目 492. 矩阵取数游戏 思路 不难发现, 每一行之间是独立的, 因此可以求出每一行的最大值, 然后行与行之间最大值相加, 就是总的最大值 对于行内来说, 每次可以选取左边或者右边, 可以使用区间 d p dp dp求解, 时间复杂度 O ( n 3 ) O(n ^ 3) O(n3), 因为列的最大值是 80 …