集。谷歌的MapReduce和GoogleFileSystem(GFS)发布了之后,大数据的定义中除了
涵盖大量数据之外,还包括数据处理的速度。
网络搜索索引,批量处理和分析大量数据集,数据处理的速度
研究机构Gartner曾给大数据(Big
data)下过
这样的定义:大数据是一种基于新的处理模式而产
生的具有强大的决策力、洞察力以及流程优化能力
的多样性的、海量的且增长率高的信息资产。
大数据通常指的是大小规格超越传统数据库软
件工具抓取、存储、管理和分析能力的数据群。
IBM公司概括大数据时有三个V,也就是大量化(Volume),多样化(Variety)和快速化(Velocity),此外它们还针对客户有了"大数据解决方案”的服务。
Hadoop也是可伸缩的,PB级的数据它也可
以处理。另外,Hadoop因为依赖于社区服务器
大数据中,"大”和“数据”都不重要。
其中最重
要的是企业该如何去驾驭这些大数据。对大数据进
行分析,以及在此基础上采取的业务改进才是最为
关键的。
大数据庞大的规模并非人们所关注的,包括它
们能带来巨大的内在价值也非关注的事实。最大的
价值还在于分析的方式,以及采用什么样的方式来
改进自己的业务。
第一个特征是大数据的来源往往是机器自动的
结果。
第二个特征是大数据作为一个全新的数据源,
不仅仅是已有数据的收集扩展
第三个特征是大数据中的大多数设计并非友
好。
消费者会觉得大数据和云计算很无聊,可是对
于Delphix来说却是一座宝藏,因为它正在利用这
种技术进行敏捷数据管理
任何一家企业要做的工作都是市场营销。近几
年社会化媒体的兴起,让营销业者的注意力都集中
在了数字营销之上,不过对于这个领域营销人员还
欠缺有效的分析。
(其实我觉得是国情不一样,因为在中国本来就是人情社会,
营销的部分其实不太需要,而且也很可能会出现暗箱操作,中国的社会是一潭水,而欧美是一捆柴,
柴与柴之间需要市场营销的人员来连接,但是水潭上的波纹就不太需要,源于联系起来更加方便,
靠着不断地波及就可以搭上联系,但是国外就不行,需要专人来打破。这好比中国的大家是在同一维度,但是欧美
就很不一样,很多人是不同维度的,大家都在各自的平行宇宙生活,如果你要打破,就需要超能力者前来疏通。)
一个很老的拇指法则指出,分析数据的工作的
时间中有70%~80%都花在了收集和整理之上,剩
下的20%~30%的时间才是真正的分析。
(重要的是分析的方式和方法,这样对于数据分析结果来说,很关键。)
(大和数据都没有用企业该如何去驾驭这些大数据)
一开始分析专家会用95%左右的时间来处理数
据,甚至有时还会达到100%,接下来才会思考这
些数据如何用来做更为深层次的分析。
(其实跟当时数学建模的时候特别相似)
大数据庞大的规模并非人们所关注的,包括它
们能带来巨大的内在价值也非关注的事实。最大的
价值还在于分析的方式,以及采用什么样的方式来
改进自己的业务。
因为数据的分析和研究让人们发现了从前没发
现的联系
如今不再需要一系列因果关
系来验证各种设想了,这种传统研究模式早已被无
理论指导的纯粹相关关系研究所代替。
(其实我也觉得,很多科学方法都是先假设,之后再验证,但是我觉得在大数据的时代下,这是没有必要的,我们可以直接通过海量的数据分析,直接用事实得出结论,没有必要先做假设,再分析,可以直接做分析,得出结果,没有必要假设。)
他提到了谷歌设计
的搜索引擎和基因排序工作,他认为:“海量数据
时代,所有其他的学科已经为应用学科所取代。只
要是有足够的数据问题就可以说明清楚。假设有一
拍字节的数据,并了解数据之间的相互关系,那问题就可以得以解决
(对的,跟我的想法完全契合,直接去用实际去看,会有什么结果呗,用事实得到结论。)