大数据简介
什么是大数据
最近几年,IT行业最火的名词中,少不了"大数据"、"人工智能"、"云计算"、"物联网"、"区块链"等等这些名词。针对于"大数据"这个名词,现在更是全国老百姓,老少皆知的一个词语。但是什么是大数据,除了IT行业的专业人士外,其他人乃至其他行业的人,除了能说出"数据量大"之外,好像真的不能再更深层次的解释了。那么我们来看看下面几个权威机构给出的解释:
**维基百科: **数据规模巨大到无法通过人工在合理的时间内达到截取,管理,处理并整理成为人类所解读的信息。
**麦肯锡全球研究所: **一种规模大到在获取、存储、管理、分析方面都大大超出了传统数据库软件工具能力范围的数据集合。
**高德纳: **需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
不同的权威机构给出了不同的概念定义,但是这些概念是大同小异的。我们提炼出来这些机构给出的定义中的共同点,总结如下:
海量数据,具有高增长率、数据类型多样化、一定时间内无法使用常规软件工具进行捕捉、管理和处理的数据集合。
大数据的特征
早在1980年,著名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为“第三次浪潮的华彩乐章”。《自然》杂志在2008年9月推出了名为“大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中的热门词汇。最早应用“大数据”的是世界著名的管理咨询公司麦肯锡公司,它看到了各种网络平台记录的个人海量信息具备潜在的商业价值,于是投入大量人力物力进行调研, 对“大数据”进行收集和分析的设想,在2011年6月发布了关于“大数据”的报告,该报告对“大数据”的影响、关键技术和应用领域等都进行了详尽的分析。麦肯锡的报告得到了金融界的高度重视,而后逐渐受到了各行各业关注。 那么大数据到底有什么特征呢?我们怎么去理解大数据呢?有专业人士总结了4V说法,也有相关机构总结了5V说法,甚至6V说法。不管哪种说法,下面四个特征,是大家普遍认可的。
-
Volume: 数据量非常庞大
-
Variety: 数据类型多样化,组成庞大的数据集的数据,有结构化的、半结构化的和非结构化的数据
-
Velocity: 数据增长的速度非常快
-
Value: 数据的价值密度低
大数据的应用场景
时至今日,大数据已经在生活的各行各业中都有应用了,在各个领域中影响着我们的生活。这里列举了一些常见的场景:
-
OFO故障报警
- 星期天,我扫一UFO,刚扫完.....
- 一黄框蹦跶出来,温馨提示:"编号***车16人已上报维修,左侧脚踏板可能已坏,建议您换一辆,以免影响您行程"
- 差点影响俺见富婆的速度,点赞赞赞
-
杀熟外卖会员
-《我被美团会员割了韭菜》爆料称,在美团上的同一家店铺,统一配送地址,同一时间点单,会员配送费仍为6元,而非会员账号仅为2元。此外不仅是一家店有这种情况,一部开通美团会员的手机,附近几乎所有外卖商户的配送费都要超出非会员配送0.5-1倍。
- 你被某团会员割韭菜了吗?
- 外卖时,什么都相同,会员比非会员配送费贵3倍。有你吗?
- 你开通某外卖会员的手机,附近几乎所有外卖商户配送费贵了几块呢?
-
苹果打车比安卓贵吗
- 约车,你被舒适了吗?
- 假期,孙教授带一帮弟兄,去北、上、深、成和重5座城市,以不同距离、工作日早晚高峰、日间非高峰和晚间非高峰4个时间段进行了分层抽样调查。
- 一共采样821个样本。其中,苹果手机样本占比1/3,安卓手机占比2/3,和现实生活中苹果、安卓手机的占比基本一致。
- 最后选取233个样本进行调查,结果发现苹果手机“被舒适”的比例比非苹果手机高,高出3倍。
- 苹果手机支付时平均获取2.07优惠,非苹果手机用户平均优惠是4.12元。优惠折扣低了1半
-
啤酒和尿不湿的故事
- 周末,已婚小明来到全球零售巨头沃尔玛,溜达溜达,买打啤酒
- 咦,还有尿不湿,顺便给娃带包尿不湿
- 强大数据分析发现,买啤酒的很多还买尿不湿。从此,啤酒+尿不湿组合卖,销量果真与日俱增
- 这就是啤酒+尿不湿的故事
- 由于受启发,于是有了红酒+??
-
猜你喜欢
- 又是无聊一天,小A和小B又开始冲浪......
- 小A:打开百度浏览器,随意搜索,左右、上下都是千锋大数据、好程序员大数据等小广告
- 小B:打开,随意搜索,居然满屏的亚洲、欧美、一堆羞羞
- 小A说我喜欢大数据,我喜欢千锋,我信
- 小B说我喜欢大数据,我喜欢千锋,我信。他说他不喜欢日本片、不喜欢欧美片,你们信吗?我信你个鬼
-
贷款要看大数据
- 专员:个人征信好么?
- 我:这是征信
- 专员:还行 或者 (拖二连三贷不了)
- 专员:个人大数据咋样呀?
- 大数据是指您个人的生活,工作,消费习惯,网贷,网购,网上搜索内容等等,覆盖到您的方方面面。
- 专员:比如信用百分百查大数据征信-108项深度检测,信用风险早预防
- 专员:主要是怕还款不稳定,怕坏账
大数据的发展前景
大数据技术目前正处在落地应用的初期,从大数据自身发展和行业发展的趋势来看,大数据未来的前景还是不错的,具体原因有以下几点:
-
大数据本身的价值体现
本身的数据价值化就会开辟出很大的市场空间。目前在互联网领域,大数据技术已经得到了较为广泛的应用。 大数据造就了新兴行业。
-
大数据推动了科技领域的发展
不仅体现在互联网领域,还体现在金融、教育、医疗等诸多领域,尤其是现在的人工智能。
-
大数据产业链的形成
经过近些年的发展,大数据已经初步形成了一个较为完整的产业链,包括数据采集、整理、传输、存储、分析、呈现和应用,众多企业开始参与到大数据产业链中,并形成了一定的产业规模,相信随着大数据的不断发展,相关产业规模会进一步扩大。
-
国家大力扶持大数据行业的发展
-
高校大数据专业井喷发展
企业大数据的一般处理流程
数据源
数据的来源有如下内容:
- 关系型数据库
- 各种关系表,如订单表、账号表、基本信息表
- 日志文件
- 用户行为数据
- 浏览了哪些页面(网页、App、电视机顶盒),导航栏上的哪些选项等等
- 三方数据
- 第三方的接口提供数据
- 爬虫等
数据采集或者同步
常用数据采集导入框架:
- sqoop:
用于RDBMS与HDFS之间数据导入与导出- flume:
采集日志文件数据,动态采集日志文件,数据流
flume采集到的数据,一份给HDFS,用于做离线分析;一份给Kafka,实时处理- kafka:
主要用于实时的数据流处理flume与kafka都有类似消息队列的机制,来缓存大数据环境处理不了的数据
数据存储
常用数据存储框架
- HDFS、 HBase、ES
数据清洗
即对数据进行过滤,得到具有一定格式的数据源
常用框架(工具):MapReduce、Hive(ETL)、SparkCore、sparksql等
数据分析
对经过数据清洗后的数据进行分析,得到某个指标
常用框架(工具):MapReduce、Hive、SparkSQL、impala(impa:le)、kylin
数据展示
即将数据分析后的结果展示出来,也可以理解为数据的可视化、以图或者表具体的形式展示出来
常用工具:
metastore、Javaweb、hcharts、echarts
数据部门的组织架构
云计算的概念
概念
云计算是以虚拟技术为核心,进行统一管理硬件设施,平台,软件等;它通过网络提供了可伸缩的、廉价的分布式计算能力;它用出租的方式提供给用户,用户只要花低价,在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源;类似于国家统一管理水,电,煤气等等。
云计算的种类
- 公有云:公有云面向所有用户提供服务,只要是注册付费的用户都可以使用
- 私有云:私有云只为特定用户提供服务
- 混合云:混合云综合了公有云和私有云的特点
服务的种类
云计算的关键技术
-1. IaaS(基础设施即服务):IaaS将基础设施(计算资源和存储)作为服务出租。
在这种服务模型中,普通用户不用自己构建一个数据中心等硬件设施,而是通过租用的方式,利用 Internet从IaaS服务提供商获得计算机基础设施服务,包括服务器、存储和网络等服务。
举个例子:假如你现在要做一个网站,你肯定要有一台服务器或者虚拟机,要么自己搭建,要么买服务器运营商的。说白了,IaaS就是解决企业硬件问题的,包括服务器、存储设备、网络设备等基础设施。基础设施有了,你就可以搭建环境了。
-2. PaaS(平台即服务):PaaS把平台作为服务出租
举个例子:假如你现在要做一个网站,你不想自己买服务器搭环境,你就直接购买别人的PaaS服务。PaaS一般会为企业解决硬件的租赁问题,以及操作系统的选装,开发测试环境的搭建,及各种编程语言的选装等,提供一个运行的直接用的软件平台。有了PaaS你就可以在上面做开发工作了,当然,一些别的程序及软件还得你自己安装配置。
-3. SaaS(软件即服务)。SaaS把软件作为服务出租。
举个例子:你现在想做一个网站,你不会做,你只要购买别人的成熟软件,配置几下就能使用了。说白了就是卖软件的,你不用租用服务器,开发软件等费时间的工作,你直接购买别人的软件通过互联网就能使用,也不需要本地安装,也就是软件即服务的意思,你出钱,别人出软件服务。-1. 虚拟化
云计算的核心技术之一就是虚拟化技术。所谓虚拟化,是指通过-1. IaaS(基础设施即服务):IaaS将基础设施(计算资源和存储)作为服务出租。
在这种服务模型中,普通用户不用自己构建一个数据中心等硬件设施,而是通过租用的方式,利用 Internet从IaaS服务提供商获得计算机基础设施服务,包括服务器、存储和网络等服务。
举个例子:假如你现在要做一个网站,你肯定要有一台服务器或者虚拟机,要么自己搭建,要么买服务器运营商的。说白了,IaaS就是解决企业硬件问题的,包括服务器、存储设备、网络设备等基础设施。基础设施有了,你就可以搭建环境了。
-2. PaaS(平台即服务):PaaS把平台作为服务出租
举个例子:假如你现在要做一个网站,你不想自己买服务器搭环境,你就直接购买别人的PaaS服务。PaaS一般会为企业解决硬件的租赁问题,以及操作系统的选装,开发测试环境的搭建,及各种编程语言的选装等,提供一个运行的直接用的软件平台。有了PaaS你就可以在上面做开发工作了,当然,一些别的程序及软件还得你自己安装配置。
-3. SaaS(软件即服务)。SaaS把软件作为服务出租。
举个例子:你现在想做一个网站,你不会做,你只要购买别人的成熟软件,配置几下就能使用了。说白了就是卖软件的,你不用租用服务器,开发软件等费时间的工作,你直接购买别人的软件通过互联网就能使用,也不需要本地安装,也就是软件即服务的意思,你出钱,别人出软件服务。虚拟化技术将一台计算机虚拟为多台逻辑计算机。在一台计算机上同时运行多个逻辑计算机,每个逻辑计算机可运行不同的操作系统,并且应用程序都可以在相互独立的空间内运行而互不影响,从而显著提高计算机的工作效率。
虚拟化的核心软件VMM,是一种运行在物理服务器和操作系统之间的中间层软件。VMM是一种在虚拟环境中的“元”操作系统。他们可以访问服务器上包括CPU、内存、磁盘、网卡在内的所有物理设备。VMM不但协调着这些硬件资源的访问,也同时在各个虚拟机之间施加防护。当服务器启动并执行VMM时,它会加载所有虚拟机客户端的操作系统同时会分配给每一台虚拟机适量的内存,CPU,网络和磁盘。
-2. 分布式存储
云计算的另一大优势就是能够快速、高效地处理海量数据。在数据爆炸的今天,这一点至关重要。为了保证数据的高可靠性,云计算通常会采用分布式存储技术,将数据存储在不同的物理设备中。这种模式不仅摆脱了硬件设备的限制,同时扩展性更好,能够快速响应用户需求的变化。
分布式存储与传统的网络存储并不完全一样,传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
在当前的云计算领域,Google的GFS和Hadoop开发的开源系统HDFS是比较流行的两种云计算分布式存储系统。
GFS(GoogleFileSystem)技术:谷歌的非开源的GFS(GoogleFileSystem)云计算平台满足大量用户的需求,并行地为大量用户提供服务。使得云计算的数据存储技术具有了高吞吐率和高传输率的特点。
HDFS(HadoopDistributedFileSystem)技术:大部分ICT厂商,包括Yahoo、Intel的“云”计划采用的都是HDFS的数据存储技术。未来的发展将集中在超大规模的数据存储、数据加密和安全性保证、以及继续提高I/O速率等方面
-3. 分布式计算
问题分解为若干小问题,分配给各个计算机再综合起来
-4. 多租户
物联网的概念
概念
物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、
人员和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。物联网关键技术物联网是物与物相连的网络,通过为物体加装二维码、RFID标签、传感器等,就可以实现物体身份唯一标识和各
种信息的采集,再结合各种类型网络连接,就可以实现人和物、物和物之间的信息交换。因此,物联网中的关键
技术包括识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合
扩展
射频识别(RFID)是 Radio Frequency Identification 的缩写。
其原理为阅读器与标签之间进行非接触式的数据通信,达到识别目标的目的。RFID 的应用非常广泛,典型应用有动物晶片、汽车晶片防盗器、门禁管制、停车场管制、生产线自动化、物料管理。
大数据与云计算、物联网的概念
云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者既有区别又有联系。从云计算和大数据概念的诞生到现在,二者之间的关系非常微妙,既密不可分,又千差万别。因此,我们不能把云计算和大数据割裂开来作为截然不同的两类技术来看待。此外,物联网也是和云计算、大数据相伴相生的技术。
大数据、云计算和物联网的区别
- 大数据侧重于对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;
- 云计算本质上旨在整合和优化各种IT资源并通过网络以服务的方式,廉价地提供给用户;
- 物联网的发展目标是实现物物相连,应用创新是物联网发展的核心。
大数据、云计算和物联网的联系
从整体上看,大数据、云计算和物联网这三者是相辅相成的。
物联网的传感器源源不断产生的大量数据,构成了大数据的重要数据来源,没有物联网的飞速发展,就不会带来数据产生方式的变革,即由人工产生阶段转向自动产生阶段,大数据时代也不会这么快就到来。同时,物联网需要借助于云计算和大数据技术,实现物联网大数据的存储、分析和处理。