数据究竟是什么?

news2024/11/15 23:56:29

我们搞大数据的,每天都在说“数据”这个词。但是数据究竟是什么?其准确的定义是什么?可能大多数人都没有思考过这个问题。

首先,我们来考察下数据这个词的起源。数据这个词在古汉语中是不存在的,而是近代以来,对英文“data”一词的翻译。而data,是“datum”这个词的复数形式。根据google的解释,英文的“数据”,也就是datum一词出现于18世纪中期,最初起源于拉丁文。datum既有数据的输入功能(something given),翻译过来就是“被给予的事物”,这个翻译非常生涩,也包含有推理假设 (inference, hypothesis )的含义。根据这个定义,数据(datum)和数值(number)显然是不同的,后者只是前者的一部分。

接下来,我们再来看看百度百科对“数据”的解释。在百度百科上搜索“数据”一词,有两个义项,即两类不同的解释。

第一类是汉语词语。其表述为:

数据就是数值,也就是我们通过观察、实验或计算得出的结果。数据有很多种,最简单的就是数字。数据也可以是文字、图像、声音等。数据可以用于科学研究、设计、查证、数学等。

第二类是计算机术语。其表述为:

数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。数据可以是连续的值,比如声音、图像,称为模拟数据;也可以是离散的,如符号、文字,称为数字数据。在计算机系统中,数据以二进制信息单元0、1的形式表示。

计算机术语中对数据的定义为:

数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。

它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。例如,“0、1、2…”、“阴、雨、下降、气温”、“学生的档案记录、货物的运输情况”等都是数据。数据经过加工后就成为信息

在计算机科学中,数据是所有能输入计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。计算机存储和处理的对象十分广泛,表示这些对象的数据也随之变得越来越复杂。

再来看看国际数据管理协会(Data Asset Management Association,简称DAMA)对数据的定义。DAMA是数据管理领域的国际权威组织,其出版的《DMBOK》中对数据的定义为:

数据既是对其所代表对象的解释,也是必须解释的对象,这些解释数据通常记录在一种特殊类型的数据——元数据中。

从这个定义出发,DAMA描述了数据的一系列特征,如:数据是无形的,价值随时间而变化;难以设定数据的货币价值;数据是组织了解其自身的手段,等等。并定义了数据的生命周期,包括:计划、设计、创建或获取、存储与维护、使用、增强、处置等环节。

以上三种“数据”的定义,有异曲同工之妙。但难免比较学术化。如果回归生活常识,当我们谈起“数据”这个词,我们究竟在表达什么意思?比方说,我今天下午逛了一趟超市,买了纸巾、洗发水、薯片、可乐、橙子、鸡腿肉,一共花了153.58元,结账后,收银员给了我一张有商品明细和价格的小票。这就是一份完整的数据。当我爱人问我把钱花到什么地方去了,我就可以把这张小票拿给她看,对她说“给你看看数据”。那么,在这里,数据是什么意思?回归到现实生活中,作者更愿意把“数据”拆分成“数”和“据”两个字,分别探索其含义,再组成数据这个词完整的含义。

作者看来,“数”有两层含义:第一个层面,是用数字来记录事实,如一个人的身高、年龄,一棵树的高度,一片土地的面积,一件商品的价格,等等;第二个层面是用数学的方法来进行统计最终得到记录结果,如一个班级所有同学的平均年龄,一家公司某个年度的营业收入等,一次购物的总价,都是统计的结果。

再看“据”,作者将据理解为事件发生过程中产生的票据,也就是证明,换言之,票据证明发生过这件事实,是时间的一个切面,比如说超市的购物小票,因此「据」代表的是事实。

那么综合“数”和“据”,我们可以得出一个结论:所谓数据,就是事实的数字化凭据。这是一个简洁、有力的定义。从这个意义上说,中文的“数据”一词,远比英文的data更加形象,这也是一个非常传神,非常经典的翻译,展示了中文的博大精深。

既然数据是事实的数字化凭据,那么这个凭据本身就必须是可信赖,可追溯的,这就引出了数据为什么需要被良好地管理起来。这是后话。

另外一个需要说明的是数据、信息、知识、智慧之间的关系。很多人喜欢把这四者之间的关系用一张DIKM(Data,Information,Knowledge,Wisdom)模型图来表示。如下图所示:

在这张图中,数据、信息、知识、智慧是彼此区隔,逐层递进的。数据被加工成信息,信息被提炼成知识,知识运用成智慧。在实践中,有时候这个模型对我们的思考和工作相当有帮助,比如我们可以用它来思考应该如何向领导或客户汇报。最低的层次,汇报数据,发生了什么,比如这个月的销售额是多少;再上一层,汇报信息,这个月的销售额与上个月相比,增加或减少了多少;再往上一层,汇报知识,分析数据变化的原因;最优秀的员工输出智慧,不仅有数据,有对比,有分析,更有未来的预测和建议的措施。

但值得警惕的是,数据、信息、知识、智慧的这种金字塔模型,是一种高度抽象的模型,高度抽象也就意味着部分失真。实际上,DAMA也已经意识到这个问题。在DMBOK知识体系中,对于DIKW模型,特别强调了以下几点:

  • 基于数据是简单存在的假设。但数据并不是简单存在,而是要被创造出来的。

  • 人们数据到知识描述为一个自下而上的逐级序列,但未认识到创建数据首先需要知识。

  • 金字塔模型意味着数据和信息是分开的,但事实上这两个概念是相互交织并相互依赖的。数据是信息的一种形式,信息也是数据的一种形式。

总结一下,我们搞大数据的,总得知道数据一词的含义究竟是什么。本节从词源、百度百科、DAMA组织、生活常识四个角度,解释了“数据”一词的不同定义。作者更喜欢的一个定义是最简洁的那个:数据是事实的数字化凭据。

最后,我们辨析了数据、信息、知识、智慧组成的DIKW模型。作者支持DAMA对使用这个模型的提醒,它们之间并不是泾渭分明的,而是互有包含。

作者信息:

蒋珍波,大数据咨询专家,擅长为客户提供科学合理的大数据解决方案,尤其擅长数据治理、数据中台解决方案。曾先后供职于东南融通、普元信息、数澜科技、数梦工场等公司,负责过数据仓库、大数据平台、数据中台、数据治理等售前咨询工作,有政府、大中型企业等多个行业经验。著有专业书籍《数据中台》、《一本书讲透IT售前》。

欢迎同仁们商榷,加入知识星球“IT售前大本营”,共同探讨售前、大数据、数据治理、数据中台等相关领域的问题。

————————————————

版权声明:本文为CSDN博主「蒋珍波」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/jiangzhenbo/article/details/102759705

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/187358.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在ObjectARX(VC)中使用MFC-可停靠窗体

目录 前言 一、使用CAD的CAcUiDockControlBar类 二、在入口程序中注册命令 三、窗口实现 四、目录结构 五、注意事项 六、效果展示 前言 CAD中经常会看到这样的窗口,下面就看看是如何实现的。 提示:以下是本篇文章正文内容,下面案例可…

ESP-IDF:传统链表测试

ESP-IDF:传统链表测试 在ESP-IDF环境下简单地写个传统链表 /--------------Test 传统链表-------------/ //链表结点 typedef struct LINKNODE11 { void * data; LINKNODE11 * next; }linknode11; //链表头 typedef struct LINKLIST11 { linknode11 * head; int size; }linkli…

SpringBoot快速搭建WebSocket并测试

目录简介Pom文件服务端Service代码服务端配置代码服务端Controller:发送消息给客户端测试开启ws服务端简介 WebSocket协议通过在客户端和服务端之间提供全双工通信来进行Web和服务器的交互功能。 在ws应用程序中,服务器发布websocket端点。 一个ws连接的…

通用`Query`解决方案

文章目录通用Query解决方案简介什么是QueryQuery类别Query基本使用SQL Query基本使用自定义Query基本使用现状方案通过Json数据或方法动态生成Query 通过Select Sql语句动态生成Query通过Query生成动态Query支持传统的Query并通过参数形式生成Query列定义通用Query,…

nacos区分权限

背景 nacos的默认是不进行分配权限的,那么这样就带来了一个问题,如果多项目共同使用一个nacos,可以带了一个情况是开发人员误操作,把其他项目的nacos配置文件更改或者删除。那么如何解决这个问题呢?就是把nacos进行分…

TF-A源码移植

1.对tf-a源码进行解压$> tar xfz tf-a-stm32mp-2.2.r2-r0.tar.gz 2.打补丁进入/home/ubuntu/FSMP1A/tf-a-stm32mp-2.2.r2-r0/tf-a-stm32mp-2.2.r2-r0/tf-a-stm32mp-2.2.r2目录执行for p in ls -1 ../../*.patch; do patch -p1 < $p; done3.配置工具链1)进入/home/ubuntu/…

GJB 5000B二级-ESM外部供方管理

一、主要变化情况 新增3项(红色)、删除1项(黄色)、合并2项(绿色)、修订4项(蓝色) 将原标准过程域名称“供方协议管理”改为“外部供方管理”,其适应范围包括所以形式的外部提供过程、产品和服务协议,同时增加对外部供方按协议提供过程、产品和服务能力评价的内容,…

小偷和抢劫是被怎么遏制的?

小偷和抢劫是怎么被消灭的&#xff1f; 是被摄像头消灭的&#xff01; 一切土地和实物都会被安装传感设备监控 农业生产用地也会被物联检测 趣讲大白话&#xff1a;万物互联时代稳步实现 *********** 全国有5000万亩茶园 20年内一定会被物联网化 进入精耕农业时代 20年后&…

一篇文章带你了解自动化测试开发

都讲自动化测试开发&#xff0c;当然要把开发自动化测试框架也当做一个项目来做。这时候&#xff0c;就需要考虑应该选择何种类型的自动化测试框架&#xff1a;数据驱动、关键字驱动、还是Junit ,TestNG ? 抑或直接利用现有的开源自动化测试框架&#xff0c;如Robot Framework…

Mysql内核查询成本计算实战(一)

目录 Mysql内核查询成本计算实战&#xff08;一&#xff09; Optimizer Trace 什么是成本 I/O成本 CPU成本 单表查询的成本 MySQL查询成本计算实战 1.根据搜索条件&#xff0c;找出所有可能使用的索引 2. 计算全表扫描的代价 3. 计算使用不同索引执行查询的代价 4. 对…

CAD中怎么局部升降桥架?CAD局部升降操作技巧

在使用浩辰CAD电气软件绘制电气图纸的时候&#xff0c;常常会用到三维桥架中的一些功能来进行桥架的CAD设计工作&#xff0c;为了让大家对此有更深入的了解&#xff0c;接下来的CAD设计教程就和小编一起来看看正版CAD软件——浩辰CAD电气软件的三维桥架中局部升降功能的相关使用…

Magisk模块开发指南

BusyBox Magisk整合了功能完整的BusyBox二进制文件(包括对SELinux的完整支持)。执行文件位于/data/adb/magisk/busybox。Magisk的BusyBox支持运行时可切换的“ASH Standalone Shell Mode(ASH独立Shell模式)”。这种独立模式的意思是,在ashshell的中的BusyBox运行时,无论PATH…

MySQL核心参数优化文件my.ini详解

一.数据库服务器配置 CPU&#xff1a;48C 内存&#xff1a;128G DISK&#xff1a;3.2TSSD 二.CPU的优化 innodb_thread_concurrency32 表示SQL经过解析后&#xff0c;允许同时有32个线程去innodb引擎取数据&#xff0c;如果超过32个&#xff0c;则需要排队&#xff1b; 值太…

spring系列 SpringMVC-拦截器

拦截器&#xff08;Interceptor&#xff09;是在SpringMVC中动态拦截控制器方法的执行。 拦截器执行流程&#xff1a; 拦截器与过滤器区别 归属不同&#xff1a;Filter属于Servlet技术&#xff0c;Interceptor属于SpringMVC技术 拦截内容不同&#xff1a;Filter对所有访问进…

【Mysql第二期 MySQL环境搭建】

文章目录01.为什么要安装新版本&#xff1f;02.官网下载mysql03.安装配置初始化mysql04.查看 MySQL服务05.验证是否安装成功06.修改root密码07.如果有navicat工具可以在测试一下&#xff1a;01.为什么要安装新版本&#xff1f; mysql8.x版本和msyql5.x版本zip安装的方式大同小…

证券交易金融知识学习(1)

学习目标&#xff1a; 需要做一些关于投资交易软件的测试&#xff0c;需要了解操作背后的交易意义&#xff0c;需要学习一些金融基础知识。本人是金融证券交易的小白&#xff0c;从0开始学习。故记录一些金融知识学习的笔记&#xff0c;比较零散&#xff0c;目的是为了让自己复…

Spring-DI相关内容

Spring-DI相关内容 5&#xff0c;DI相关内容 前面我们已经完成了bean相关操作的讲解&#xff0c;接下来就进入第二个大的模块DI依赖注入&#xff0c;首先来介绍下Spring中有哪些注入方式? 我们先来思考 向一个类中传递数据的方式有几种? 普通方法(set方法)构造方法 依赖注…

【数据结构】8.4 选择排序

文章目录1. 简单选择排序简单选择排序算法简单排序算法分析2. 堆排序堆的定义堆的调整堆的建立堆排序算法堆排序算法分析1. 简单选择排序 基本思想 在待排序的数据中选出最大&#xff08;小&#xff09;的元素放在其最终的位置。 基本操作 首先通过 n - 1 次关键字比较&…

计算机SCI期刊能一稿多投吗? - 易智编译EaseEditing

首先建议不要一稿多投&#xff0c;投稿前要对目标期刊了解清楚&#xff0c;是什么方向&#xff0c;什么水平的。 可以看看期刊近期发表的文章&#xff0c;是什么方向的&#xff0c;这样会更精准。 一稿多投就是广撒网嘛&#xff0c;还不如做好功课&#xff0c;找到对应期刊&a…

网络知识详解之:HTTPS通信原理剖析(对称、非对称加密、数字签名、数字证书)

网络知识详解之&#xff1a;HTTPS通信原理剖析&#xff08;对称、非对称加密、数字签名、数字证书&#xff09; 计算机网络相关知识体系详解 网络知识详解之&#xff1a;TCP连接原理详解网络知识详解之&#xff1a;HTTP协议基础网络知识详解之&#xff1a;HTTPS通信原理剖析&…