大数据简介

news2024/12/23 19:45:20

大数据简介

什么是大数据

​ 最近几年,IT行业最火的名词中,少不了"大数据"、"人工智能"、"云计算"、"物联网"、"区块链"等等这些名词。针对于"大数据"这个名词,现在更是全国老百姓,老少皆知的一个词语。但是什么是大数据,除了IT行业的专业人士外,其他人乃至其他行业的人,除了能说出"数据量大"之外,好像真的不能再更深层次的解释了。那么我们来看看下面几个权威机构给出的解释:

**维基百科: **数据规模巨大到无法通过人工在合理的时间内达到截取,管理,处理并整理成为人类所解读的信息。

**麦肯锡全球研究所: **一种规模大到在获取、存储、管理、分析方面都大大超出了传统数据库软件工具能力范围的数据集合。

**高德纳: **需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

不同的权威机构给出了不同的概念定义,但是这些概念是大同小异的。我们提炼出来这些机构给出的定义中的共同点,总结如下:

海量数据,具有高增长率、数据类型多样化、一定时间内无法使用常规软件工具进行捕捉、管理和处理的数据集合。

大数据的特征

​ 早在1980年,著名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为“第三次浪潮的华彩乐章”。《自然》杂志在2008年9月推出了名为“大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中的热门词汇。最早应用“大数据”的是世界著名的管理咨询公司麦肯锡公司,它看到了各种网络平台记录的个人海量信息具备潜在的商业价值,于是投入大量人力物力进行调研, 对“大数据”进行收集和分析的设想,在2011年6月发布了关于“大数据”的报告,该报告对“大数据”的影响、关键技术和应用领域等都进行了详尽的分析。麦肯锡的报告得到了金融界的高度重视,而后逐渐受到了各行各业关注。 那么大数据到底有什么特征呢?我们怎么去理解大数据呢?有专业人士总结了4V说法,也有相关机构总结了5V说法,甚至6V说法。不管哪种说法,下面四个特征,是大家普遍认可的。

  • Volume: 数据量非常庞大

  • Variety: 数据类型多样化,组成庞大的数据集的数据,有结构化的、半结构化的和非结构化的数据

  • Velocity: 数据增长的速度非常快

  • Value: 数据的价值密度低

大数据的应用场景

​ 时至今日,大数据已经在生活的各行各业中都有应用了,在各个领域中影响着我们的生活。这里列举了一些常见的场景:

  • OFO故障报警

    • 星期天,我扫一UFO,刚扫完.....
    • 一黄框蹦跶出来,温馨提示:"编号***车16人已上报维修,左侧脚踏板可能已坏,建议您换一辆,以免影响您行程"
    • 差点影响俺见富婆的速度,点赞赞赞
  • 杀熟外卖会员

    -《我被美团会员割了韭菜》爆料称,在美团上的同一家店铺,统一配送地址,同一时间点单,会员配送费仍为6元,而非会员账号仅为2元。此外不仅是一家店有这种情况,一部开通美团会员的手机,附近几乎所有外卖商户的配送费都要超出非会员配送0.5-1倍。

    • 你被某团会员割韭菜了吗?
    • 外卖时,什么都相同,会员比非会员配送费贵3倍。有你吗?
    • 你开通某外卖会员的手机,附近几乎所有外卖商户配送费贵了几块呢?
  • 苹果打车比安卓贵吗

    • 约车,你被舒适了吗?
    • 假期,孙教授带一帮弟兄,去北、上、深、成和重5座城市,以不同距离、工作日早晚高峰、日间非高峰和晚间非高峰4个时间段进行了分层抽样调查。
    • 一共采样821个样本。其中,苹果手机样本占比1/3,安卓手机占比2/3,和现实生活中苹果、安卓手机的占比基本一致。
    • 最后选取233个样本进行调查,结果发现苹果手机“被舒适”的比例比非苹果手机高,高出3倍。
    • 苹果手机支付时平均获取2.07优惠,非苹果手机用户平均优惠是4.12元。优惠折扣低了1半
  • 啤酒和尿不湿的故事

    • 周末,已婚小明来到全球零售巨头沃尔玛,溜达溜达,买打啤酒
    • 咦,还有尿不湿,顺便给娃带包尿不湿
    • 强大数据分析发现,买啤酒的很多还买尿不湿。从此,啤酒+尿不湿组合卖,销量果真与日俱增
    • 这就是啤酒+尿不湿的故事
    • 由于受启发,于是有了红酒+??
  • 猜你喜欢

    • 又是无聊一天,小A和小B又开始冲浪......
    • 小A:打开百度浏览器,随意搜索,左右、上下都是千锋大数据、好程序员大数据等小广告
    • 小B:打开,随意搜索,居然满屏的亚洲、欧美、一堆羞羞
    • 小A说我喜欢大数据,我喜欢千锋,我信
    • 小B说我喜欢大数据,我喜欢千锋,我信。他说他不喜欢日本片、不喜欢欧美片,你们信吗?我信你个鬼
  • 贷款要看大数据

    • 专员:个人征信好么?
    • 我:这是征信
    • 专员:还行 或者 (拖二连三贷不了)
    • 专员:个人大数据咋样呀?
    • 大数据是指您个人的生活,工作,消费习惯,网贷,网购,网上搜索内容等等,覆盖到您的方方面面。
    • 专员:比如信用百分百查大数据征信-108项深度检测,信用风险早预防
    • 专员:主要是怕还款不稳定,怕坏账

大数据的发展前景

​ 大数据技术目前正处在落地应用的初期,从大数据自身发展和行业发展的趋势来看,大数据未来的前景还是不错的,具体原因有以下几点:

  • 大数据本身的价值体现

    本身的数据价值化就会开辟出很大的市场空间。目前在互联网领域,大数据技术已经得到了较为广泛的应用。 大数据造就了新兴行业。

  • 大数据推动了科技领域的发展

    不仅体现在互联网领域,还体现在金融、教育、医疗等诸多领域,尤其是现在的人工智能。

  • 大数据产业链的形成

    经过近些年的发展,大数据已经初步形成了一个较为完整的产业链,包括数据采集、整理、传输、存储、分析、呈现和应用,众多企业开始参与到大数据产业链中,并形成了一定的产业规模,相信随着大数据的不断发展,相关产业规模会进一步扩大。

  • 国家大力扶持大数据行业的发展

  • 高校大数据专业井喷发展

企业大数据的一般处理流程

数据源

数据的来源有如下内容:

  • 关系型数据库
    • 各种关系表,如订单表、账号表、基本信息表
  • 日志文件
    • 用户行为数据
    • 浏览了哪些页面(网页、App、电视机顶盒),导航栏上的哪些选项等等
  • 三方数据
    • 第三方的接口提供数据
    • 爬虫等

数据采集或者同步

常用数据采集导入框架:

  • sqoop:
    用于RDBMS与HDFS之间数据导入与导出
  • flume:
    采集日志文件数据,动态采集日志文件,数据流
    flume采集到的数据,一份给HDFS,用于做离线分析;一份给Kafka,实时处理
  • kafka:
    主要用于实时的数据流处理

flume与kafka都有类似消息队列的机制,来缓存大数据环境处理不了的数据

数据存储

常用数据存储框架

  • HDFS、 HBase、ES

数据清洗

即对数据进行过滤,得到具有一定格式的数据源

常用框架(工具):MapReduce、Hive(ETL)、SparkCore、sparksql等

数据分析

对经过数据清洗后的数据进行分析,得到某个指标

常用框架(工具):MapReduce、Hive、SparkSQL、impala(impa:le)、kylin

数据展示

即将数据分析后的结果展示出来,也可以理解为数据的可视化、以图或者表具体的形式展示出来

常用工具:
metastore、Javaweb、hcharts、echarts

数据部门的组织架构

云计算的概念

概念

云计算是以虚拟技术为核心,进行统一管理硬件设施,平台,软件等;它通过网络提供了可伸缩的、廉价的分布式计算能力;它用出租的方式提供给用户,用户只要花低价,在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源;类似于国家统一管理水,电,煤气等等。

云计算的种类

  • 公有云:公有云面向所有用户提供服务,只要是注册付费的用户都可以使用
  • 私有云:私有云只为特定用户提供服务
  • 混合云:混合云综合了公有云和私有云的特点

服务的种类

云计算的关键技术

-1. IaaS(基础设施即服务):IaaS将基础设施(计算资源和存储)作为服务出租。

在这种服务模型中,普通用户不用自己构建一个数据中心等硬件设施,而是通过租用的方式,利用 Internet从IaaS服务提供商获得计算机基础设施服务,包括服务器、存储和网络等服务。

举个例子:假如你现在要做一个网站,你肯定要有一台服务器或者虚拟机,要么自己搭建,要么买服务器运营商的。说白了,IaaS就是解决企业硬件问题的,包括服务器、存储设备、网络设备等基础设施。基础设施有了,你就可以搭建环境了。

-2. PaaS(平台即服务):PaaS把平台作为服务出租

举个例子:假如你现在要做一个网站,你不想自己买服务器搭环境,你就直接购买别人的PaaS服务。PaaS一般会为企业解决硬件的租赁问题,以及操作系统的选装,开发测试环境的搭建,及各种编程语言的选装等,提供一个运行的直接用的软件平台。有了PaaS你就可以在上面做开发工作了,当然,一些别的程序及软件还得你自己安装配置。

-3. SaaS(软件即服务)。SaaS把软件作为服务出租。

举个例子:你现在想做一个网站,你不会做,你只要购买别人的成熟软件,配置几下就能使用了。说白了就是卖软件的,你不用租用服务器,开发软件等费时间的工作,你直接购买别人的软件通过互联网就能使用,也不需要本地安装,也就是软件即服务的意思,你出钱,别人出软件服务。-1. 虚拟化

云计算的核心技术之一就是虚拟化技术。所谓虚拟化,是指通过-1. IaaS(基础设施即服务):IaaS将基础设施(计算资源和存储)作为服务出租。

在这种服务模型中,普通用户不用自己构建一个数据中心等硬件设施,而是通过租用的方式,利用 Internet从IaaS服务提供商获得计算机基础设施服务,包括服务器、存储和网络等服务。

举个例子:假如你现在要做一个网站,你肯定要有一台服务器或者虚拟机,要么自己搭建,要么买服务器运营商的。说白了,IaaS就是解决企业硬件问题的,包括服务器、存储设备、网络设备等基础设施。基础设施有了,你就可以搭建环境了。

-2. PaaS(平台即服务):PaaS把平台作为服务出租

举个例子:假如你现在要做一个网站,你不想自己买服务器搭环境,你就直接购买别人的PaaS服务。PaaS一般会为企业解决硬件的租赁问题,以及操作系统的选装,开发测试环境的搭建,及各种编程语言的选装等,提供一个运行的直接用的软件平台。有了PaaS你就可以在上面做开发工作了,当然,一些别的程序及软件还得你自己安装配置。

-3. SaaS(软件即服务)。SaaS把软件作为服务出租。

举个例子:你现在想做一个网站,你不会做,你只要购买别人的成熟软件,配置几下就能使用了。说白了就是卖软件的,你不用租用服务器,开发软件等费时间的工作,你直接购买别人的软件通过互联网就能使用,也不需要本地安装,也就是软件即服务的意思,你出钱,别人出软件服务。虚拟化技术将一台计算机虚拟为多台逻辑计算机。在一台计算机上同时运行多个逻辑计算机,每个逻辑计算机可运行不同的操作系统,并且应用程序都可以在相互独立的空间内运行而互不影响,从而显著提高计算机的工作效率。

虚拟化的核心软件VMM,是一种运行在物理服务器和操作系统之间的中间层软件。VMM是一种在虚拟环境中的“元”操作系统。他们可以访问服务器上包括CPU、内存、磁盘、网卡在内的所有物理设备。VMM不但协调着这些硬件资源的访问,也同时在各个虚拟机之间施加防护。当服务器启动并执行VMM时,它会加载所有虚拟机客户端的操作系统同时会分配给每一台虚拟机适量的内存,CPU,网络和磁盘。

-2. 分布式存储

云计算的另一大优势就是能够快速、高效地处理海量数据。在数据爆炸的今天,这一点至关重要。为了保证数据的高可靠性,云计算通常会采用分布式存储技术,将数据存储在不同的物理设备中。这种模式不仅摆脱了硬件设备的限制,同时扩展性更好,能够快速响应用户需求的变化。

分布式存储与传统的网络存储并不完全一样,传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。

在当前的云计算领域,Google的GFS和Hadoop开发的开源系统HDFS是比较流行的两种云计算分布式存储系统。

GFS(GoogleFileSystem)技术:谷歌的非开源的GFS(GoogleFileSystem)云计算平台满足大量用户的需求,并行地为大量用户提供服务。使得云计算的数据存储技术具有了高吞吐率和高传输率的特点。

HDFS(HadoopDistributedFileSystem)技术:大部分ICT厂商,包括Yahoo、Intel的“云”计划采用的都是HDFS的数据存储技术。未来的发展将集中在超大规模的数据存储、数据加密和安全性保证、以及继续提高I/O速率等方面
-3. 分布式计算
问题分解为若干小问题,分配给各个计算机再综合起来
-4. 多租户

物联网的概念

概念

物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、
人员和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。物联网关键技术

物联网是物与物相连的网络,通过为物体加装二维码、RFID标签、传感器等,就可以实现物体身份唯一标识和各
种信息的采集,再结合各种类型网络连接,就可以实现人和物、物和物之间的信息交换。因此,物联网中的关键
技术包括识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合

扩展 

射频识别(RFID)是 Radio Frequency Identification 的缩写。
其原理为阅读器与标签之间进行非接触式的数据通信,达到识别目标的目的。RFID 的应用非常广泛,典型应用有动物晶片、汽车晶片防盗器、门禁管制、停车场管制、生产线自动化、物料管理。

大数据与云计算、物联网的概念

​ 云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者既有区别又有联系。从云计算和大数据概念的诞生到现在,二者之间的关系非常微妙,既密不可分,又千差万别。因此,我们不能把云计算和大数据割裂开来作为截然不同的两类技术来看待。此外,物联网也是和云计算、大数据相伴相生的技术。

大数据、云计算和物联网的区别

  • 大数据侧重于对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;
  • 云计算本质上旨在整合和优化各种IT资源并通过网络以服务的方式,廉价地提供给用户;
  • 物联网的发展目标是实现物物相连,应用创新是物联网发展的核心。

大数据、云计算和物联网的联系

从整体上看,大数据、云计算和物联网这三者是相辅相成的。

物联网的传感器源源不断产生的大量数据,构成了大数据的重要数据来源,没有物联网的飞速发展,就不会带来数据产生方式的变革,即由人工产生阶段转向自动产生阶段,大数据时代也不会这么快就到来。同时,物联网需要借助于云计算和大数据技术,实现物联网大数据的存储、分析和处理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/584341.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

嵌入式软件测试笔记2 |TEmb方法概述

2 |TEmb方法概述 1 TEmb简介2 TEmb工作原理3 系统特性4 TEmb通用元素4.1 生命周期4.2 技术4.3 基础设施4.3.1 测试环境4.3.2 工具和测试自动化4.3.3 办公环境 4.4 组织 5 组合专用测试方法的机制5.1 常用系统特性5.2 特定方法5.3 LITO矩阵 1 TEmb简介 TEmb是一种方法&#xff…

如何加快和自动化企业的招标过程?

材料和劳动力成本已经上升到了过去40年的比较高水平,而建筑业是竞争较激烈、较复杂的行业之一,分析供应链报价的需求也在增加。数字平台如何支持这个行业? 市场上有各种各样的管理系统,如何才能选择尤为适合企业的需求呢&#xf…

安卓应用实现自动升级

应用发布后,要实现灰度升级控制,如果只依赖各家应用市场是不够的,需要自己在应用中控制升级逻辑。并且每家应用市场上架审核也是一件很麻烦的事情,尤其像至简网格这样的应用,没在应用市场上架,更不可能依赖…

Unity WebGl和前端(Angular)相互调用(含跨域问题)

在Unity官方文档中就已经介绍了Unity和JS相互调用的问题,但是我们实际的应用中往往是使用iframe来展示WebGL。这样不但是webgl和js相互调用的问题,还包含了iframe跨域的问题。 我们的项目中前端使用的是angular框架,就以angular为基础来说一…

关于谷歌云计算进行Python yolov5的使用操作(简略版)

关于谷歌云计算的使用操作(简略版) 谷歌云盘:https://drive.google.com/ 翻墙订阅:链接 谷歌云盘创建操作: 1 2 3.添加Colaboratory关联 设置免费的GPU 它是很容易更换默认的硬件(None,GPU,TPU&#xff…

群智能算法-粒子群1

一.基本理念 粒子群算法(PSO),最早由两位外国科学家在1995年提出,该算法源自对鸟类捕食问题的研究。 我们将鸟类补食性原则分为一下三个基数,每组基数对应一个粒子,而每组粒子我们将其称之为种群。所以我们将其在细分具体,基数一&…

C++核心编程—类和对象,类的三大特性——封装、继承、多态

纵有疾风起,人生不言弃。本文篇幅较长,如有错误请不吝赐教,感谢支持。 💬文章目录 一.类和对象的概念①什么是对象?②抽象和类1.类的基本概念2.类的声明与定义:3.对象的创建与使用 二.类的封装①为什么有封…

阿里云国际站代理商:阿里云支持哪些大数据方案和应用?如何使用和操作?

阿里云国际站代理商:阿里云支持哪些大数据方案和应用?如何使用和操作? [本文由阿里云代理商聚搜云撰写] 大数据时代已经来临,如何处理并分析这些海量的数据成了企业迫切需要解决的问题。作为一家国内领先的云计算提供商&#xff0…

传地址给组件并让该组件用到地址在背景图片中的方法

问题 这是我在开发中遇到的问题。在网站的分页面中,背景图片的格式几乎一模一样。只是上面的文字和图片不一样而已。 所以我希望写一个组件,然后页面只需要传入背景图片地址和标题就可以显示出相关内容。 于是我动手写了,大致思路是一个盒…

Win11的两个实用技巧系列之读取硬盘很卡的解决办法、添加防火墙信任项方法

win11读取机械硬盘速度慢? win11读取硬盘很卡的解决办法 win11读取机械硬盘速度慢?win11系统硬盘读取速度太慢了,该怎么解决呢?下面我们就来看看win11读取硬盘很卡的解决办法 不少win11用户都遇到了读取硬盘很卡的情况,导致等待…

2023年铜川宜宾半程马拉松赛-人生首次半马比赛

1、赛事背景 2023年5月21日,我参加了2023年铜川宜宾半程马拉松赛,也是人生首次半马比赛。。很久之前的天气预报就是说要下雨,有的时候更是预报中大雨,所以很担心半马会不会延期举办,还好如期举行了。 2023宜君“药谷飘…

盐城北大青鸟东台基地IT精英挑战赛作品展示

北大青鸟IT精英挑战赛作品展示 ——《波比》 这是我们21级老生们的作品,主要的创作灵感来自于,可爱的小青蛙和王子小时候结合而成的IP形象,同时也是漫展的追随者。 设计团队21级计算机2班:王丽娜 陈美玲 陆梅莹

深度学习实战——模型推理优化(模型压缩与加速)

忆如完整项目/代码详见github:https://github.com/yiru1225(转载标明出处 勿白嫖 star for projects thanks) 目录 系列文章目录 一、实验思路综述 1.实验工具及内容 2.实验数据 3.实验目标 4.实验步骤 二、模型压缩与加速综述 1.模…

C++中的高阶函数:以std::function优雅地实现回调

C中的高阶函数:以std::function优雅地实现回调 1. 简介1.1 C高阶函数的概念1.2 C的std::function的功能及其重要性 2. std::function的使用2.1 std::function的定义和基本使用2.1.1 std::function的定义2.1.2 std::function的基本使用 2.2 std::function接受普通函数…

安吉尔航天净水新品发布,净水行业已进入新赛点?

作为具有较强线下依赖性的家电细分市场,净水器行业受到外部因素的扰动较大,2020年,经济下行趋势明显,这一年也成为国内净水器市场的拐点,不少业内人士认为多年的行业扩张期已在此结束。 但进入2023年,随着…

【收藏】麻省理工:如何选择和设计论文的Figure?

论文中的图表以独有的方式组织信息,更好地传递作者思想。那么,如何选择和设计合适的Figure? MIT Communication Lab(麻省理工学院通信实验室)为作者提供了有效的建议,我们来学习一下 ~ 01 数据图 在制作数…

使用 LSSVM 的 Matlab 演示求解反常微分方程问题(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

Qt Quick系列(3)—组件component

🚀作者:CAccept 🎂专栏:Qt Quick 文章目录 概念相关知识点代码示例总结 概念 在Qt Quick中,组件(Component)是一种可重用的元素,可以包含其他子组件或属性。它们可以用来创建自定…

PIC adc模块的配置

PIC adc模块的配置有如下要点: 1. adc模块本身: 注意,Auto-conversion Trigger和ADC的clock是两个概念。 auto-conversion Trigger的频率不得超过ADC采样一次的总时长。而真正的采样率是auto-conversion Trigger的頻率。 采样的过程中&…

2023音视频开发程序员未来10年路线选择

2023音视频开发程序员未来10年路线选择: 音视频领域,其实你可以分三个部分来看, 第一是音视频本身,第二是网络通讯,第三是图像处理。 音视频本身涉及到音视频视频编解码啊,各种视频容器啊等等协议规范。 网…