一本书读懂大数据读书笔记（1）

news2025/2/28 23:05:22

集。谷歌的MapReduce和GoogleFileSystem(GFS)发布了之后，大数据的定义中除了

涵盖大量数据之外，还包括数据处理的速度。

网络搜索索引，批量处理和分析大量数据集，数据处理的速度

研究机构Gartner曾给大数据（Big

data)下过

这样的定义：大数据是一种基于新的处理模式而产

生的具有强大的决策力、洞察力以及流程优化能力

的多样性的、海量的且增长率高的信息资产。

大数据通常指的是大小规格超越传统数据库软

件工具抓取、存储、管理和分析能力的数据群。

IBM公司概括大数据时有三个V,也就是大量化(Volume),多样化(Variety)和快速化(Velocity),此外它们还针对客户有了"大数据解决方案”的服务。

Hadoop也是可伸缩的，PB级的数据它也可

以处理。另外，Hadoop因为依赖于社区服务器

大数据中，"大”和“数据”都不重要。

其中最重

要的是企业该如何去驾驭这些大数据。对大数据进

行分析，以及在此基础上采取的业务改进才是最为

关键的。

大数据庞大的规模并非人们所关注的，包括它

们能带来巨大的内在价值也非关注的事实。最大的

价值还在于分析的方式，以及采用什么样的方式来

改进自己的业务。

第一个特征是大数据的来源往往是机器自动的

结果。

第二个特征是大数据作为一个全新的数据源，

不仅仅是已有数据的收集扩展

第三个特征是大数据中的大多数设计并非友

好。

消费者会觉得大数据和云计算很无聊，可是对

于Delphix来说却是一座宝藏，因为它正在利用这

种技术进行敏捷数据管理

任何一家企业要做的工作都是市场营销。近几

年社会化媒体的兴起，让营销业者的注意力都集中

在了数字营销之上，不过对于这个领域营销人员还

欠缺有效的分析。

（其实我觉得是国情不一样，因为在中国本来就是人情社会，

营销的部分其实不太需要，而且也很可能会出现暗箱操作，中国的社会是一潭水，而欧美是一捆柴，

柴与柴之间需要市场营销的人员来连接，但是水潭上的波纹就不太需要，源于联系起来更加方便，

靠着不断地波及就可以搭上联系，但是国外就不行，需要专人来打破。这好比中国的大家是在同一维度，但是欧美

就很不一样，很多人是不同维度的，大家都在各自的平行宇宙生活，如果你要打破，就需要超能力者前来疏通。）

一个很老的拇指法则指出，分析数据的工作的

时间中有70%~80%都花在了收集和整理之上，剩

下的20%~30%的时间才是真正的分析。

(重要的是分析的方式和方法，这样对于数据分析结果来说，很关键。)

（大和数据都没有用企业该如何去驾驭这些大数据）

一开始分析专家会用95%左右的时间来处理数

据，甚至有时还会达到100%，接下来才会思考这

些数据如何用来做更为深层次的分析。

（其实跟当时数学建模的时候特别相似）

大数据庞大的规模并非人们所关注的，包括它

们能带来巨大的内在价值也非关注的事实。最大的

价值还在于分析的方式，以及采用什么样的方式来

改进自己的业务。

因为数据的分析和研究让人们发现了从前没发

现的联系

如今不再需要一系列因果关

系来验证各种设想了，这种传统研究模式早已被无

理论指导的纯粹相关关系研究所代替。

（其实我也觉得，很多科学方法都是先假设，之后再验证，但是我觉得在大数据的时代下，这是没有必要的，我们可以直接通过海量的数据分析，直接用事实得出结论，没有必要先做假设，再分析，可以直接做分析，得出结果，没有必要假设。）

他提到了谷歌设计

的搜索引擎和基因排序工作，他认为：“海量数据

时代，所有其他的学科已经为应用学科所取代。只

要是有足够的数据问题就可以说明清楚。假设有一

拍字节的数据，并了解数据之间的相互关系，那问题就可以得以解决

（对的，跟我的想法完全契合，直接去用实际去看，会有什么结果呗，用事实得到结论。）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/14691.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

一本书读懂大数据读书笔记（1）

相关文章

照片一键换天空怎么弄？不妨试试这三个照片一键换天空方法

数据包取证分析笔记

Sentinel源码剖析之常用限流算法原理实现

Profinet现场总线耦合器模拟量扩展IO

递归经典例题 --- 汉诺塔（图文详解）

为什么面试官狂问八股文？我已经被三家公司问到哑口无言……

蓝牙技术|蓝牙标准将迈向 6GHz 频段，蓝牙技术迈向新台阶

实验五可编程并行接口8255

HTML5响应式网页设计——核心技能考核示例(用于2022年11月H5考核)

单商户商城系统功能拆解31—营销中心—幸运抽奖

替换NAS，这5个理由就够了

SAP AIF BTI750

Java 垃圾收集器

Push-Relabel算法相关阅读

java乱码问题一次性解决

AntDB入选《2022爱分析·信创厂商全景报告》

力扣解法汇总790. 多米诺和托米诺平铺

dubbo：docker安装dubbo-admin、zookeeper

了解区块链延迟和吞吐量

Java#11(字符串练习)

一本书读懂大数据 读书笔记（1）

相关文章

一本书读懂大数据读书笔记（1）