我们搞大数据的,每天都在说“数据”这个词。但是数据究竟是什么?其准确的定义是什么?可能大多数人都没有思考过这个问题。
首先,我们来考察下数据这个词的起源。数据这个词在古汉语中是不存在的,而是近代以来,对英文“data”一词的翻译。而data,是“datum”这个词的复数形式。根据google的解释,英文的“数据”,也就是datum一词出现于18世纪中期,最初起源于拉丁文。datum既有数据的输入功能(something given),翻译过来就是“被给予的事物”,这个翻译非常生涩,也包含有推理假设 (inference, hypothesis )的含义。根据这个定义,数据(datum)和数值(number)显然是不同的,后者只是前者的一部分。
接下来,我们再来看看百度百科对“数据”的解释。在百度百科上搜索“数据”一词,有两个义项,即两类不同的解释。
第一类是汉语词语。其表述为:
数据就是数值,也就是我们通过观察、实验或计算得出的结果。数据有很多种,最简单的就是数字。数据也可以是文字、图像、声音等。数据可以用于科学研究、设计、查证、数学等。
第二类是计算机术语。其表述为:
数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。数据可以是连续的值,比如声音、图像,称为模拟数据;也可以是离散的,如符号、文字,称为数字数据。在计算机系统中,数据以二进制信息单元0、1的形式表示。
计算机术语中对数据的定义为:
数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。
它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。例如,“0、1、2…”、“阴、雨、下降、气温”、“学生的档案记录、货物的运输情况”等都是数据。数据经过加工后就成为信息。
在计算机科学中,数据是所有能输入计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。计算机存储和处理的对象十分广泛,表示这些对象的数据也随之变得越来越复杂。
再来看看国际数据管理协会(Data Asset Management Association,简称DAMA)对数据的定义。DAMA是数据管理领域的国际权威组织,其出版的《DMBOK》中对数据的定义为:
数据既是对其所代表对象的解释,也是必须解释的对象,这些解释数据通常记录在一种特殊类型的数据——元数据中。
从这个定义出发,DAMA描述了数据的一系列特征,如:数据是无形的,价值随时间而变化;难以设定数据的货币价值;数据是组织了解其自身的手段,等等。并定义了数据的生命周期,包括:计划、设计、创建或获取、存储与维护、使用、增强、处置等环节。
以上三种“数据”的定义,有异曲同工之妙。但难免比较学术化。如果回归生活常识,当我们谈起“数据”这个词,我们究竟在表达什么意思?比方说,我今天下午逛了一趟超市,买了纸巾、洗发水、薯片、可乐、橙子、鸡腿肉,一共花了153.58元,结账后,收银员给了我一张有商品明细和价格的小票。这就是一份完整的数据。当我爱人问我把钱花到什么地方去了,我就可以把这张小票拿给她看,对她说“给你看看数据”。那么,在这里,数据是什么意思?回归到现实生活中,作者更愿意把“数据”拆分成“数”和“据”两个字,分别探索其含义,再组成数据这个词完整的含义。
作者看来,“数”有两层含义:第一个层面,是用数字来记录事实,如一个人的身高、年龄,一棵树的高度,一片土地的面积,一件商品的价格,等等;第二个层面是用数学的方法来进行统计最终得到记录结果,如一个班级所有同学的平均年龄,一家公司某个年度的营业收入等,一次购物的总价,都是统计的结果。
再看“据”,作者将据理解为事件发生过程中产生的票据,也就是证明,换言之,票据证明发生过这件事实,是时间的一个切面,比如说超市的购物小票,因此「据」代表的是事实。
那么综合“数”和“据”,我们可以得出一个结论:所谓数据,就是事实的数字化凭据。这是一个简洁、有力的定义。从这个意义上说,中文的“数据”一词,远比英文的data更加形象,这也是一个非常传神,非常经典的翻译,展示了中文的博大精深。
既然数据是事实的数字化凭据,那么这个凭据本身就必须是可信赖,可追溯的,这就引出了数据为什么需要被良好地管理起来。这是后话。
另外一个需要说明的是数据、信息、知识、智慧之间的关系。很多人喜欢把这四者之间的关系用一张DIKM(Data,Information,Knowledge,Wisdom)模型图来表示。如下图所示:
在这张图中,数据、信息、知识、智慧是彼此区隔,逐层递进的。数据被加工成信息,信息被提炼成知识,知识运用成智慧。在实践中,有时候这个模型对我们的思考和工作相当有帮助,比如我们可以用它来思考应该如何向领导或客户汇报。最低的层次,汇报数据,发生了什么,比如这个月的销售额是多少;再上一层,汇报信息,这个月的销售额与上个月相比,增加或减少了多少;再往上一层,汇报知识,分析数据变化的原因;最优秀的员工输出智慧,不仅有数据,有对比,有分析,更有未来的预测和建议的措施。
但值得警惕的是,数据、信息、知识、智慧的这种金字塔模型,是一种高度抽象的模型,高度抽象也就意味着部分失真。实际上,DAMA也已经意识到这个问题。在DMBOK知识体系中,对于DIKW模型,特别强调了以下几点:
基于数据是简单存在的假设。但数据并不是简单存在,而是要被创造出来的。
人们数据到知识描述为一个自下而上的逐级序列,但未认识到创建数据首先需要知识。
金字塔模型意味着数据和信息是分开的,但事实上这两个概念是相互交织并相互依赖的。数据是信息的一种形式,信息也是数据的一种形式。
总结一下,我们搞大数据的,总得知道数据一词的含义究竟是什么。本节从词源、百度百科、DAMA组织、生活常识四个角度,解释了“数据”一词的不同定义。作者更喜欢的一个定义是最简洁的那个:数据是事实的数字化凭据。
最后,我们辨析了数据、信息、知识、智慧组成的DIKW模型。作者支持DAMA对使用这个模型的提醒,它们之间并不是泾渭分明的,而是互有包含。
作者信息:
蒋珍波,大数据咨询专家,擅长为客户提供科学合理的大数据解决方案,尤其擅长数据治理、数据中台解决方案。曾先后供职于东南融通、普元信息、数澜科技、数梦工场等公司,负责过数据仓库、大数据平台、数据中台、数据治理等售前咨询工作,有政府、大中型企业等多个行业经验。著有专业书籍《数据中台》、《一本书讲透IT售前》。
欢迎同仁们商榷,加入知识星球“IT售前大本营”,共同探讨售前、大数据、数据治理、数据中台等相关领域的问题。
————————————————
版权声明:本文为CSDN博主「蒋珍波」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/jiangzhenbo/article/details/102759705