一本书读懂大数据 读书笔记(1)

news2024/10/8 22:51:07

集。谷歌的MapReduce和GoogleFileSystem(GFS)发布了之后,大数据的定义中除了

涵盖大量数据之外,还包括数据处理的速度

网络搜索索引,批量处理和分析大量数据集,数据处理的速度

研究机构Gartner曾给大数据(Big

data)下过

这样的定义:大数据是一种基于新的处理模式而产

生的具有强大的决策力、洞察力以及流程优化能力

的多样性的、海量的且增长率高的信息资产。

大数据通常指的是大小规格超越传统数据库软

件工具抓取、存储、管理和分析能力的数据群。

IBM公司概括大数据时有三个V,也就是大量化(Volume),多样化(Variety)和快速化(Velocity),此外它们还针对客户有了"大数据解决方案”的服务。

Hadoop也是可伸缩的,PB级的数据它也可

以处理。另外,Hadoop因为依赖于社区服务器

大数据中,"大”和“数据”都不重要。

其中最重

要的是企业该如何去驾驭这些大数据。对大数据进

行分析,以及在此基础上采取的业务改进才是最为

关键的。

大数据庞大的规模并非人们所关注的,包括它

们能带来巨大的内在价值也非关注的事实。最大的

价值还在于分析的方式,以及采用什么样的方式来

改进自己的业务。

第一个特征是大数据的来源往往是机器自动的

结果。

第二个特征是大数据作为一个全新的数据源,

不仅仅是已有数据的收集扩展

 

第三个特征是大数据中的大多数设计并非友

好。

 

 

消费者会觉得大数据和云计算很无聊,可是对

于Delphix来说却是一座宝藏,因为它正在利用这

种技术进行敏捷数据管理

 

 

任何一家企业要做的工作都是市场营销。近几

年社会化媒体的兴起,让营销业者的注意力都集中

在了数字营销之上,不过对于这个领域营销人员还

欠缺有效的分析。

 

(其实我觉得是国情不一样,因为在中国本来就是人情社会,

营销的部分其实不太需要,而且也很可能会出现暗箱操作,中国的社会是一潭水,而欧美是一捆柴,

柴与柴之间需要市场营销的人员来连接,但是水潭上的波纹就不太需要,源于联系起来更加方便,

靠着不断地波及就可以搭上联系,但是国外就不行,需要专人来打破。这好比中国的大家是在同一维度,但是欧美

就很不一样,很多人是不同维度的,大家都在各自的平行宇宙生活,如果你要打破,就需要超能力者前来疏通。)

 

一个很老的拇指法则指出,分析数据的工作的

时间中有70%~80%都花在了收集和整理之上,剩

下的20%~30%的时间才是真正的分析。

(重要的是分析的方式和方法,这样对于数据分析结果来说,很关键。)

(大和数据都没有用企业该如何去驾驭这些大数据

 

一开始分析专家会用95%左右的时间来处理数

据,甚至有时还会达到100%,接下来才会思考这

些数据如何用来做更为深层次的分析。

(其实跟当时数学建模的时候特别相似)

 

大数据庞大的规模并非人们所关注的,包括它

们能带来巨大的内在价值也非关注的事实。最大的

价值还在于分析的方式,以及采用什么样的方式来

改进自己的业务。

因为数据的分析和研究让人们发现了从前没发

现的联系

如今不再需要一系列因果关

系来验证各种设想了,这种传统研究模式早已被无

理论指导的纯粹相关关系研究所代替。

(其实我也觉得,很多科学方法都是先假设,之后再验证,但是我觉得在大数据的时代下,这是没有必要的,我们可以直接通过海量的数据分析,直接用事实得出结论,没有必要先做假设,再分析,可以直接做分析,得出结果,没有必要假设。)

他提到了谷歌设计

的搜索引擎和基因排序工作,他认为:“海量数据

时代,所有其他的学科已经为应用学科所取代。只

要是有足够的数据问题就可以说明清楚。假设有一

拍字节的数据,并了解数据之间的相互关系,那问题就可以得以解决

(对的,跟我的想法完全契合,直接去用实际去看,会有什么结果呗,用事实得到结论。)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/14691.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

照片一键换天空怎么弄?不妨试试这三个照片一键换天空方法

小伙伴们有没有遇到过这样的情况,好不容易遇到假期,约了朋友一起外出游玩,想要拍一些好看的照片,奈何天空阴沉沉的,导致拍出的照片不太理想,又不想放弃这个难得的假期,有没有什么方法可以换照片…

数据包取证分析笔记

地址扫描 地址扫描探测是指利用ARP、ICMP请求目标网段,如果目标网段没有过滤规则,则可以通过回应消息获取目标网段中存活机器的IP地址和MAC地址,进而掌握拓扑结构。 端口扫描 全连接扫描 TCP扫描 全连接扫描调用操作系统提供的connect()函…

Sentinel源码剖析之常用限流算法原理实现

1、限流算法简介 限流顾名思义,就是对请求或并发数进行限制;通过对一个时间窗口内的请求量进行限制来保障系统的正常运行。如果我们的服务资源有限、处理能力有限,就需要对调用我们服务的上游请求进行限制,以防止自身服务由于资源…

Profinet现场总线耦合器模拟量扩展IO

1.1概述 该系列 I/O 模块是分布式 I/O 系统中的必备组件,需要与合适的耦合器(例如 BL200 系 列)组合才能将现场设备或过程连接起来,实现对现场数据采集、监视和控制。 该系统需要使用电源模块提供 24VDC 系统电压和 24VDC 现场…

递归经典例题 --- 汉诺塔(图文详解)

目录 一、介绍 二、游戏规则 三、玩法简介 四、算法分析 五、代码解析 六、源码 七、递归过程详解 一、介绍 汉诺塔(Tower of Hanoi),又称河内塔,是一个源于印度古老传说的益智玩具。大梵天创造世界的时候做了三根金刚石柱…

为什么面试官狂问八股文?我已经被三家公司问到哑口无言……

秋招刚过去,整体的感受是:面试难度和拿 offer 的难度比往年难多了,而且互联网还有较大的裁员风险,网上各种消息不断,有时候真是焦虑到不行。 大家还是要早做准备,多面试积累经验,有些人总想准备…

蓝牙技术|蓝牙标准将迈向 6GHz 频段,蓝牙技术迈向新台阶

蓝牙特别兴趣小组(SIG)今天宣布了新的规范开发项目,以定义蓝牙低功耗(LE)在额外的非授权中频段的操作,包括 6GHz 的频段。蓝牙技术是世界上部署最广泛的无线标准,每年有超过 50 亿件产品出货。其…

实验五可编程并行接口8255

目录一、实验目的二、实验内容三、实验报告四、运行结果一、实验目的 通过实验,掌握8255工作方式的设定及并行口输入输出的方法。 二、实验内容 电路连接: C口(PC0~PC7)⟺⟺逻辑电平开关(K0~K7) PC0⟺K0…

HTML5响应式网页设计——核心技能考核示例(用于2022年11月H5考核)

目录 基础Base.css引入(5分) Base.css编码 项目关键词注释:(5分) 网页框架:(30分) 框架编码: 文字填充:(20分) 文字编码: banner部分(10分) banner编码: 列表部分(20分) 列表编码: …

单商户商城系统功能拆解31—营销中心—幸运抽奖

单商户商城系统,也称为B2C自营电商模式单店商城系统。可以快速帮助个人、机构和企业搭建自己的私域交易线上商城。 单商户商城系统完美契合私域流量变现闭环交易使用。通常拥有丰富的营销玩法,例如拼团,秒杀,砍价,包邮…

替换NAS,这5个理由就够了

全球数据量爆炸性增长,企业对于大容量、易扩展、低成本的存储设备产生了强烈的需求,起初很多企业选择NAS,但随着企业使用场景多样性,对于存储设备上不再局限于存储,更强调安全和协作能力。 NAS相当于私有云部署的个人…

SAP AIF BTI750

第一章 AIF(Application Interface Framework)简介 AIF是什么?做什么用的? 功能简介 这样图很清楚的说明了AIF是什么,它是一个技术框架,它可以实施接口并且监控接口,以及解决消息处理期间出…

Java 垃圾收集器

堆内存示意图 垃圾收集算法 1.标记-清除算法 算法分为标记和清除两个阶段。标记出所有需要回收的对象,在标记完成后,统一回收。 缺点: 执行效率不稳定,若堆中有大量对象要被回收,这是必须进行大量标记和清除动作&a…

Push-Relabel算法相关阅读

Push-Relabel算法相关阅读1.Push-Relabel算法思想2.Push-Relabel算法原理示意图3.Push-Relabel算法具体实例4. 网络流各类算法简单总结与比较5. Push-Relabel 预流推进算法6. Push-Relabel算法(最大流)1.Push-Relabel算法思想 对于一个网络流图: 该算法直观可以这样理解&#…

java乱码问题一次性解决

在我们编码生活中,最常见的就是乱码,我也是遇到好几次,现在我整理一下所有乱码的解决方式,可治99%乱码问题 设置文件编码属性 修改当前 Web 项目 Tomcat Server 的虚拟机输出选项 -Dfile.encodingUTF-8 IntelliJ IDEA 中自定义…

AntDB入选《2022爱分析·信创厂商全景报告》

近日,AntDB数据库成功入选《2022爱分析信创厂商全景报告》信创数据库全景地图。报告综合考虑企业关注度、行业落地进展等因素,遴选出在信创市场中具备成熟解决方案和落地能力的厂商。 图1 AntDB数据库入选证书 报告指出,数据库作为企业存储、…

​力扣解法汇总790. 多米诺和托米诺平铺

目录链接: 力扣编程题-解法汇总_分享记录-CSDN博客 GitHub同步刷题项目: https://github.com/September26/java-algorithms 原题链接:力扣 描述: 有两种形状的瓷砖:一种是 2 x 1 的多米诺形,另一种是形如…

dubbo:docker安装dubbo-admin、zookeeper

0.引言 我们在搭建dubbo框架时,需要安装一个dubbo-admin来管理服务已经配置文件,今天我们来看看如何通过docker快速搭建一个dobbo-admin 1. 安装 1、首先到dockerhub上搜索dubbo-admin的镜像源 2、可以看到两个引用较高的镜像源,第一个是a…

了解区块链延迟和吞吐量

大家鲜少提到如何正确地测量一个(区块链)系统,但它却是系统设计和评估过程中最重要的步骤。系统中有许多共识协议、各种性能的变量和对可扩展性的权衡。 然而,直到目前都没有一种所有人都认同的可靠方法,能够让人进行…

Java#11(字符串练习)

目录 一.遍历字符串 1.public char charAt(int index): 根据索引返回字符 2.public int length(): 返回此字符串的长度 3.数组的长度:数组名.length 4.字符串的长度: 字符串对象.length() 二.统计字符个数 前提基础了解: 三.反转字符串 如何思路清晰的定义方法? 一.遍…