大数据概述

news2024/11/27 10:35:06

一、大数据时代

  1. 大数据时代
    1. 三次信息化浪潮:个人计算机80年-互联网95年-物联网、云计算和大数据(2010年)
      发展时间较短,大数据人才缺失
    2. 大数据人才
      1. 培训出来的:Java-》大数据
        优点:对于大数据技术的细节会比较清楚
        缺点:缺乏业务,即数据建模能力的缺失(难点:数据模型&数据建模,要求对业务比较了解)
      2. 转型:Java-大数据》
        优点:业务强,对业务熟悉,对数据熟悉;熟悉公司或者业务运转大数据的架构、框架。
        缺点:一般不会一些很细的技术
    3. 大数据技术发展的技术支持:
      1. 总的来说:存储、计算、网络
      2. 存储设备的容量不断增加
      3. CPU处理能力大幅提升
      4. 网络带宽不断增加
        10:2G->3G
        10-11:光进铜退
    4. 大数据时代来临
      1. 业务数据(数据库)-》用户原创内容(智能手机)-》物联网(感知式系统)
      2. 谷歌公司03年发布的三篇文章GFS、MapReduce和BigTable成为后来云计算和Hadoop项目的重要基石
      3. 手机自带的应用:每一个应用后面都有一个大数据方案解决平台->(作用)数据驱动决策

二、大数据的特性(4V)

  1. 大量化(数据量大)、快速化(处理速度非常快)、多样化(非结构化数据)、价值化(价值密度低)【5V:Veracity 真实】
    1. 海量数据规模
      1. 分布式存储
        关系型数据库->结构化数据,但大数据还包括非结构化数据,所以会有分布式文件存储
    2. 大部分是非结构化数据(图像、视频等)
    3. 处理的速度需要非常快
    4. 数据流转极快(数据不断变化: 时效性)
      批处理:如每隔一段时间处理
      流处理:实时处理 
    5. 价值密度低(大数据的数据量大但有价值的信息极少->)
      1. 数据挖掘
      2. 数据分析
      3. how:大数据模型、建模
        业界标杆:阿里

三、大数据的影响

  1. 科学研究
    实验->理论(定律...)->计算时代(计算机)->数据驱动(大数据时代完全由数据驱动发现问题)

  2. 颠覆传统思维方式
    全样而非抽样(对全部的数据进行分析而不是像以前一样做抽样)
    效率而非精确(因为全样,所以不用担心误差被放大,所以更追求时效性)
    相关而非因果(不在乎为什么,只在乎实际表达出来的因果)

  3. 大数据决策
    促进了信息技术与行业的 深度融合

  4. 就业

  5. 人才培养

  6. 应用
    谷歌浏览预测

四、大数据应用

  1. 《纸牌屋》的拍摄
    互联网数据分析得出报告->时下最强的演员+时下最好的导演+时下最火的小说->投资拍摄获利
  2. 谷歌预测流感
  3. 大数据关键技术(离线&实时)——以Google技术为例
    离线大数据框架
    1. 数据采集
      数据源(web、移动端、物联网)
    2. 数据存储和管理
      数据仓库
      分布式文件系统
  4. 数据可视化
    1. 数据处理和分析(四层数据模型)
      数据挖掘:上述步骤的转换
      1. ODS:原始数据
        ->数据挖掘->
      2. DWD:经过初步汇总、数据清洗等处理的数据
        ->使用MapReduce或者Hive(开发存储过程程&自定义函数)->
      3. DWS:根据业务初级汇总的数据
      4. ADS:业务数据
    2. 数据隐私和安全
      1. 数据治理
        1. 监控(文件,批处理任务)
        2. 数据画像(数据的流动过程)
        3. 元数据管理
  5. 实时大数据框架
    数据源-》消息处理队列-》流计算(内存运算)-》业务数据存储
  6. 两大核心技术
    分布式存储
    分布式处理
    1. 批处理(不满足时效性)
      MapReduce
      Spark(比起MP可以高效迭代)
    2. 流计算(实时)
      代表产品:S4+Strom+Flume
    3. 图计算(高效处理图)
    4. 查询分析(交互式查询分析)

五、云计算与物联网

  1. 云计算
    通过网络以服务的方式为用户提供非常廉价的IT资源。
    1. 特征(4关键技术)
      解决海量数据的 分布式存储 + 分布式计算 问题
      虚拟化、多租户
      数据中心——承载数据的温床
    2. 云的种类
      公有云:如百度云
      私有云:企业内部的云
      混合云:half
    3. 云计算层次模型 
      Infrastructure as a Service——面向网络架构师
      Platform as a Service————面向应用开发者
      Software as a Service————面向用户
  2. 物联网IOT
    The Internet of Things 互连网把人、物联系在一起
    1. 感知层
      传感器、摄像头、读写器...
    2. 网络层
      电信网、互联网、电网、专用网...
    3. 处理层
      网络管理平台、信息处理平台、服务支撑平台、业务支撑平台...
    4. 应用层
      智能交通、智能工业、智能家居...
    5. 关键技术
      识别和感知技术(二维码、条形码...)
      嵌入式(芯片RFID...)
    6. 应用
      智能交通、智能工业、智能农业...
  3. 大数据、云计算和物联网的关系
    * 云计算提供分布式计算能力(存储&管理)
    * 大数据解决方案平台(数据挖掘)
    * 物联网(产生数据)
    1. 传感器-》嵌入式-》网络通信-》服务端(数据爆炸增长)-》数据库

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/331828.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

为什么Redis集群的最大槽数是16384个?

对于客户端请求的key,根据公式HASH_SLOTCRC16(key) mod 16384,计算出映射到哪个分片上,然后Redis会去相应的节点进行操作! 为什么有16384个槽? Redis集群并没有使用一致性hash而是引入了哈希槽的概念。Redis 集群有16…

金仓数据库事务日志与检查点

事务日志与检查点 WAL文件,在金仓数据库中,事务日志文件称为Write Ahead Log(预写式日志,简称WAL)。 WAL存储了数据库系统中所有更改和操作的历史,相当于Oracle的REDO。 WAL机制是在这个写数据的过程中加…

[Android开发基础4] 意图与意图过滤器

文章目录 意图(Intent) 简介 显式意图 隐式意图 意图过滤器(IntentFiler) action data category 意图(Intent) 简介 Intent被称为意图,是程序中各组件进行交互的一种重要方式&#xff0c…

第四章.误差反向传播法—简单层的实现(加法层(AddLayer)+乘法层(MulLayer))

第四章.误差反向传播法 4.1 简单层的实现 本章主要讲述的是加法层(AddLayer)和乘法层(MulLayer)的实现过程。 1.加法层(AddLayer) 从正向传播和反向传播两个层面进行分析。 1).示例: 以zxy为对象,观察它的传播。zxy的导数:∂z/∂x1,∂z/∂…

从CNN到Transformer:基于PyTorch的遥感影像、无人机影像的地物分类、目标检测、语义分割和点云分类

我国高分辨率对地观测系统重大专项已全面启动,高空间、高光谱、高时间分辨率和宽地面覆盖于一体的全球天空地一体化立体对地观测网逐步形成,将成为保障国家安全的基础性和战略性资源。随着小卫星星座的普及,对地观测已具备多次以上的全球覆盖…

DVWA靶场通关和源码分析

文章目录一、Brute Force1.low2、medium3、High4、Impossible二、Command Injection1、Low2、Medium3、High三、CSRF1、Low2、Medium3、High4、Impossible四、File Inclusion1、Low2、Medium3、High五、File Upload1、Low2、Medium3、High4、Impossible六、 SQL注入1、Low2、Me…

关于catkin的一些笔记以及资料连接

大佬们早就不用catkin_make编译节点了,快来瞅瞅他们使用的啥 https://zhuanlan.zhihu.com/p/399753815 https://catkin-tools.readthedocs.io/en/latest/index.html# ROS 编译系统 catkin 详解 https://www.jianshu.com/p/7fccfe18d7d3 ROS学习笔记(六…

【20230206-0209】哈希表小结

哈希表一般哈希表都是用来快速判断一个元素是否出现在集合里。哈希函数哈希碰撞--解决方法:拉链法和线性探测法。拉链法:冲突的元素都被存储在链表中线性探测法:一定要保证tableSize大于dataSize,利用哈希表中的空位解决碰撞问题。…

linux性能优化-内存buffer/cache区分

# 注意不同版本的free输出可能会有所不同 $ freetotal used free shared buff/cache available Mem: 8169348 263524 6875352 668 1030472 7611064 Swap: 0 0 0本文目的用来区分free中…

linux——守护进程守护刷抖音程序不被意外退出

先搞清楚几个概念:udev:设备管理工具,以守护进程的方式工作。位于应用层,主要用于监听内核硬件状态,它能够根据系统中的硬件设备的状态动态更新设备文件,包括设备文件的创建,删除等守护进程:守护…

vue 最详细教学篇(三)

文章目录vue2-cli 项目文件分析示例项目解析router-linkrouterrouter-viewmain.jspackage.jsonvue2-cli 项目 vue-cli>> 文件分析 从上图分析项目文件 1. node_modules // npm 所有下载文件包都在里面 2. public // 根目录文件, 存放index.html和一些脚本文件 3. sr…

CSDN每日一练:小桥流水人家

题目名称:小桥流水人家 时间限制:1000ms内存限制:256M 题目描述 在n*m的地图上,存在一个喷水点(x,y). 如果相邻的位置低于有水的地方,水就能流到相邻的某位置。 已知各个地方的海拔高度,求水的最大覆盖个格…

[js基础]ECMAScript2015(ES6)精要知识点(下)

模块化模块就是在单个文件中声明的JavaScript代码。我们可以用JS代码直接从其他文件中导入函数、变量和类。在NodeJS之前,由于没有过于复杂的开发场景,前端是不存在模块化的,后端才有模块化。NodeJS诞生之后,它使用CommonJS的模块…

filebrowser logo和样式自定义及免密访问

这两天接到项目一个需求,客户需要文件管理存储服务,看了下大概的功能,计划用源码开发的,但是看后期这块调整也不大,就采用开源的项目进行即可,开源项目对比后,发现filebrowser比较适合我&#x…

Spring如何解决循环依赖

今天面试了同程旅行,面试官问到了这个问题,所以今天来总结学习一下 Spring是如何解决循环依赖问题? 前言 Spring的依赖注入分为 setter注入和 构造器注入 这里说的解决循环依赖主要指的是:单例模式下的setter循环依赖 如果是&a…

ThreadLocal使用与原理

目录一、ThreadLocal1.ThreadLocal简介1.1 是什么2.能干嘛1.3 api介绍1.4 实战1.5 通过上面代码总结2.从阿里ThreadLocal规范开始3.ThreadLocal源码分析3.1 Thread,ThreadLocal,ThreadLocalMap 关系3.2 总结4.ThreadLocal内存泄露问题4.1 什么是内存泄漏…

PCIE 学习笔记(入门简介)

PCIE 学习笔记书到用时方恨少啊,一年前学PCIE的笔记,再拿出来瞅瞅。发到博客上,方便看。PCIE基础PCIE和PCI的不同PCIE采用差分信号传输,并且是dual-simplex传输——每条lane上有TX通道和RX通道,所以每条lane上的信号是…

DBeaver连接达梦数据库

1、下载Dbeaver安装包 1、官网下载:Download | DBeaver Community 2、下载完成后双击运行.exe文件,进行安装 2、配置达梦数据库驱动 1、达梦数据库驱动下载:Mybatis 框架 | 达梦技术文档 2、为DBeaver添加驱动 3、自定义DM驱动管理器的相关配…

购买低代码平台,要考量哪些指标?

近些年来,低代码平台的热度在逐渐上升,可以看出企业数字化转型得速度也在逐渐加快。企业的数字开发需求越来越强,市场之间的竞争也愈演愈烈。特别是对于中小型企业,既要考虑到产品功能需求,又要考虑成本压力&#xff0…

安卓小游戏:飞机大战

安卓小游戏:飞机大战 前言 前面写了十二篇自定义view的博客,说实话写的还是有点无聊了,最近调整了一下,觉得还是要对开发有热情,就写了点小游戏,现在抽时间把博客也写一写,希望读者喜欢。 需…