【AI底层逻辑】——篇章3(上):数据、信息与知识香农信息论信息熵

news2024/12/26 9:24:19

目录

引入

一、数据、信息、知识

二、“用信息丈量世界”

1、香农信息三定律

2、一条信息的价值

3、信息的熵

总结


引入

AI是一种处理信息的模型,我们把信息当作一种内容的载体,计算机发明以前很少有人思考它的本质是什么。随着通信技术的发展,很多关于信息处理的问题接踵而至,如不知如何把信息有效地编码成通信信号、如何在不可靠的网络环境下传输信息等。

人们发现,信息本身很难被定性或定量地描述清楚,它是一种逻辑概念,如果要通过计算机这样的物理装置准确传递出去,就必须对信息有一种全新的解读。中间有许多技术难点,关键一点是必须把信息处理转换成数学模型,另外一旦涉及通信问题,干扰信息的噪声就会无处不在,必须有方法处理它们。

一、数据、信息、知识

关于信息处理的理论称为信息论,专门研究有关信息处理和可靠传输的一般规律,它对于计算机技术的发展具有重大意义。为了阐释此理论,先简单介绍数据、信息、知识3个概念:

以一个实例引入:如随意给3个数字99、39、132,这三个数字仅仅是数据,现在给它们一些说明如鞋子价格99元,今天气温39℃,我的体重132斤,此时这些数据有了明确含义就成了信息。再加入一些判断,如鞋子不算特别贵,今天北京真是热死了,我的体重与身高匹配十分正常等,做出这些判断依赖于平时的经验和常识,即知识。

①数据是一组有意义的符号

如果只把数字、字符、字母这些的集合当作数据,是不准确的,在如今的“大数据”语境中,数据是可以被记录和识别的一组有意义符号,一般可通过原始观察和度量得到。数据是对客观事物的逻辑归纳,可以用来表示一个事实、一种状态、一个实体特征、一个观察结果,有的用于描述某个对象的事实性数据,有些则是通过观察、分析、归纳得到的总结性数据。

数据可以是连续的如无线电通信时在空气中传输的电磁波,属于模拟数据;也可以是离散的,如计算机中存储的文档和照片,属于数字数据。承载数据形式很多,不仅包括文字、数字、符号、图像、语音、视频等,也可以是对某个事物属性、数量、位置、关系的抽象表示。

②信息用来消除不确定性

数据是信息的载体,信息则是需要依托数据来表达。两者既有联系又有区别,是形与质的关系。如甲骨文上记载的仅仅是数据,要读懂这些数据就必须了解数据背后表达的含义,一旦对数据做出解释,就能得到甲骨文的信息。

1928年哈特莱在《信息传输》中首次提出将信息定量化的设想;1948年信息论创始人香农在《关于通信的数学原理》指出——“信息是用来消除随机不确定性的东西”。在他看来,一旦我们想要对信息进行量化和比较,就不要去关注这些信息到底承载了什么内容,而是要看这条信息出现后,是否改变了某些不确定性事件的概率

③知识是对信息的总结和提炼

知识从实践、经验中得到,它由数据记录,从信息中提炼。知识是高度概括的信息,如果说信息可以回答一些简单的问题,比如“谁”“在哪里”“做什么”,那么知识可以回答一些更具深刻认知的问题,比如“怎样”“为何”。人在日常生活中有很多常识,很多都是从生活实践中总结的,如火可伤人、火可熟食、热油不能遇水等。对于AI要解决的核心问题是让计算机具有常识,很多常识实际上背后有着复杂的知识体系,机器必须真正“理解”知识,而不是“记忆”它们。如计算机知道人有2只眼睛,但它无法判断这个世界是否存在1只/3只眼睛的人,如今的AI只能从数据中学习到数据之间的联系,还不能很好的处理有关常识的问题,这方面的研究之路还很长。

计算机要处理的知识与人脑里的是不同的,本质上计算机只是通过特定方法模仿人类的知识表达,并没有真正掌握这些“知识”,这个特定方法是基于图技术。图是一种表示知识的工具,是描述知识的状态、关系、路径距离等相关要素的最自然的数学表达,擅长存储和处理复杂的网状关系,所以在知识图谱、社交网络、用户关系分析等领域有着广泛的应用

近年来,基于图技术的知识图谱是十分热门的研究领域,如维基百科就是一个典型的应用案例。知识图谱可用来描述各种实体以及它们之间的关系,是一个庞大的图形网络知识库基本组成“实体-关系-实体”的三元组,每个节点是一个实体,如人名、地名、事件、活动,任意两个节点之间的边表示它们之间的存在关系。知识图谱不仅能把与关键词有关的知识系统化地展示给用户,也可以基于知识进行推演如从<东方明珠,坐落在,浦东>和<浦东,属于,上海>两个组合中推测出<东方明珠,位于,上海>。它还会不断更新迭代,用户搜索次数越多范围越广,这个知识库就能获取越多的信息和内容。

二、“用信息丈量世界”

对于计算机而言,无论是数据、信息还是知识都是逻辑运算的对象,不知道它们是什么,只要能完成相应的存储、计算和表达即可,但是有个前提条件——度量/量化它们!度量数据最简单,在计算机中表现为一个二进制数,它的存储量需求最大;信息比数据抽象一点,要用概率来描述、消除不确定性;知识的概念最为抽象,直到今天也很难度量。

1、香农信息三定律

1948年,香农发表了他在二战前后对通信和密码学的研究成果,系统论述了信息的定义、如何量化信息、如何更好地对信息编码。他用热力学中“熵”的概念描述信息的不确定性,并把通信和密码学的所有问题都看成数学问题,让信息变得可测。在“信息论”中香农提出了三个著名定律:

①香农第一定律——无失真信源编码定律。给出了有效编码信息的方法,告诉我们如何让通信信号携带尽可能大的信息量,提高信息存储和传输效率。例如,摩斯电码使用长音和短音信号组合表示不同的数字和字母,有效降低整体编码的长度。

②香农第二定律定量地描述了一个信道中的极限信息传输率和带宽的关系,它主要用来保证信息在通信和传输过程中不出错,数学表达式如下:

$C=B log_2(1+S/N)$

其中,C是信道容量,B是信道带宽,S是信号功率,N是噪声功率。根据公式,如果要增加信道容量C(即增加信息最大传输速率),最好的方法是增加带宽B(频率范围)或增加信噪比S/N

举个例子:5G网络技术的传输速率比4G块几十倍甚至上百倍,这是因为5G使用的是毫米波(对应波长只有1mm到10mm),它的通信带宽在30GHz至300GHz比只有100MHz频段的4G要宽的多。根据香农第二定律,在信噪比一定的条件下,信道越宽,传输速度越大,这也是5G比4G传输速度大幅提高的原因

 ③香农第三定律指出信息传输率无法超过信道容量,一旦超过便无法保证可靠传输比如听广播时,两个电台频率很接近就会产生干扰,因为一旦频率范围确定信道容量就被固定在一个有限的范围。假设两个电台的总宽带很窄(频率范围很窄),无法承载单位时间内要传输的语音信息,即信道容量小于实际要传输信息的速率,电台内容就会听不清。此时只能让两个电台的频率间隔变大,增加总带宽而不是把收音机的频率调准。

起初科学家很难理解香农的理论,因为通过描述不确定性的概率方法解释信息,有悖于直觉上的理解。但如今,这一理论已经成为现代通信的基础框架,在科学、数学、工程等方面有着举足轻重的作用。

2、一条信息的价值

信息具有价值,但不同信息的价值程度不同,那么该如何衡量一条信息的价值呢?1948年,香农在《关于通信的数学原理》中提出了一种方法真正解决了信息的度量问题——他认为信息是用来消除不确定性的,哪条信息能够消除的不确定性大,哪条信息的信息量就大也就是说量化信息不是看信息的重要性,也不管其含义和数量,而只关注它可消除多大的不确定性。关于信息量的数学模型至少应该体现一下几点:

①要能反映信息大小和事件概率之间的关系。简单说,事件发生的概率越小,信息量就越大,如果事件概率接近0,信息量就应该近似无限大;反之若事件概率为1,则信息量为0。

②多个事件发生的概率和信息量能相互联系起来。对于概率,如果两个事件同时发生,则可以把两者的概率相乘;对于信息量,它更可能是两个信息量的和。

综上,关于概率信息量的数学函数呼之欲出,若用数学函数图像表示为:

香农都是这样定义信息量的:H(x)=-log_2P(x),其中P(x)代表了事件发生的概率。该公式告诉我们:小概率事件一旦发生,就会引起人们的关注,也就是说极少见的事件会带来极大的信息量。信息量的多少与事件发生的频繁程度(即概率大小)恰好相反。注意不是反比关系。

当信息量公式的对数计算以2为底数时,它的计算结果的单位是bit(比特)。通信领域的带宽的单位就是bit/s,计算机系统中数据存储的最小单位是bit。如抛一枚硬币出现正反面的概率都是0.5,所以硬币正面朝上的信息量是-log_20.5=1bit

重复的信息没有价值。以数据分析为例,对于数据分析人员面对海量的数据,通常需要建立一个基于数据训练出的数据模型,如果训练时一开始就把所有数据输入模型去训练,那么之后无论再训练多少次,模型都不会有明显改善,因为从信息论的角度,用同样的数据重复训练模型无意义(重复训练给模型的信息量是0)。那么我们应该如何训练模型——通常情况下,在模型训练前可以把数据分成多份,比如按3:1:1的比例分成用于模型训练的训练集数据、用于模型效果验证的验证集数据(记录下模型预测的准确率,确定效果最佳的模型)和用于模型最终测试的测试集数据(评估模型性能和分类能力)。——可形象为课本、作业、考卷三部分。

3、信息的熵

信息量度量的是一个具体事件所携带的信息,这个事件是已知的。不过有时,我们会面对一个充满不确定性的复杂系统,要度量其信息状况,就要计算各种可能发生的事件所带来的信息量的期望,此时可使用信息熵。信息熵是对信息的杂乱程度的量化描述:

H(x)=-\sum_{i=1}^{n}P(x_i)log_2P(x_i),其中i=1,2,...,n

信息熵代表了每个事件发生的概率乘以这些事件发生时的信息量的总和。公式中对数的底数也可以是其他数,但是要明白计算信息熵的目的是量化和比较,所以应该保证底数相同

本质:信息熵是在结果出来之前对可能产生的信息量的期望,它考虑随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。概括说,信息越确定、越单一,信息熵就越小;信息越不确定、越混乱,信息熵就越大。

应用:AI领域很多主流的机器学习算法都会运用信息熵决策树算法,是一种高效的分类算法。在构建该决策树模型时,算法会计算和比较不同特征划分后的信息熵。如果说某个特征可以让无序数据变得更加有序,也就是信息熵的变化更大(减小的更多),这个特征就具备更强的分类能力,找到这些特征是构建决策树的关键。

拓:“熵”由热力学中的概念而来,在希腊中的含义是“变化”或“进化”,中文译名“火”字旁代表能量和温度,“商”表示数学运算的除法。熵关注的是物体不对外做功时内部的能量情况,等温条件下一个物体增加的熵等于它的吸热量与温度的比值,即热能相对温度的变化率。


总结

以上讨论了数据、信息、知识的概念;香农信息三定律;信息价值的度量;信息熵的概念。随后我们还将讨论信息的交换、信息的加密和信息中的噪声等内容!

往期精彩:

【机器学习】——卷积神经网络

【AI底层逻辑】——篇章1&2:统计学与概率论&数据“陷阱”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/682957.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C++从入门到放弃】模板进阶——非类型模板参数、类模板的特化、模板的分离编译

&#x1f9d1;‍&#x1f4bb;作者&#xff1a; 情话0.0 &#x1f4dd;专栏&#xff1a;《C从入门到放弃》 &#x1f466;个人简介&#xff1a;一名双非编程菜鸟&#xff0c;在这里分享自己的编程学习笔记&#xff0c;欢迎大家的指正与点赞&#xff0c;谢谢&#xff01; 模板进…

行业报告 | 人工智能现状报告(中)

原创 | 文 BFT 机器人 03 行业 与NVIDIA的GPU相比&#xff0c;后起之秀的AL芯片公司还有机会吗? NVIDIA公司的FY2021数据中心收入为106亿美元。在2021年4月&#xff0c;他们确认了32.6亿美元&#xff0c;按年度计算&#xff0c;这比排名前二的人工智能半导体初创公司的估值总和…

Android 14 新功能:区域偏好 Regional Preferences

翻译自 https://alexzh.com/regional-preferences-in-android-14/ [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9YLBwPZs-1687502002096)(/Users/ellisonchan/Nutstore Files/ellison-wiki/docs/文章输出/原创/locale/android14-base-locale.png)]…

微信管理系统太多?该如何选择

“您的手机号就是您的微信号吗&#xff1f;我可以加您微信&#xff0c;然后给您发送我们的产品资料和报价。” 毕竟微信是一个月活跃用户超过10亿的应用&#xff0c;成为企业员工&#xff0c;尤其是销售人员沟通联络的首要选择&#xff0c;即使有其他专用办公工具&#xff0c;…

idea中使用java断言——java笔记

在 Java 中&#xff0c;断言是一种用于检查代码中是否满足特定条件的机制。它可以用来确保程序在开发和测试阶段的正确性&#xff0c;并且可以在出现错误时提供有用的错误信息。 断言在 Java 中由关键字 assert 表示&#xff0c;其语法为&#xff1a; assert condition;或者 …

6.Java的JDBC编程

文章目录 &#x1f306;1. 数据库编程&#x1f306;&#x1f3ef;1.1数据库编程的必备条件&#x1f3ef;&#x1f3f0;1.2下载驱动包&#x1f3f0;⛺️1.3导入驱动包&#xff1a;⛺️&#x1f3ed;1.4编写JDBC代码&#x1f3ed;&#x1f5fc;1.4.1数据库插入操作(在idea中用Jav…

《Opencv3编程入门》学习笔记—第七章

《Opencv3编程入门》学习笔记 记录一下在学习《Opencv3编程入门》这本书时遇到的问题或重要的知识点。 第七章 图像变换 图像变换&#xff1a;即将一幅图像转变成图像数据的另一种表现形式。 一、基于OpenCV的边缘检测 OpenCV中边缘检测的各种算子和滤波器&#xff1a;Can…

【雕爷学编程】Arduino动手做(125)---WT588D语音模块

37款传感器与执行器的提法&#xff0c;在网络上广泛流传&#xff0c;其实Arduino能够兼容的传感器模块肯定是不止这37种的。鉴于本人手头积累了一些传感器和执行器模块&#xff0c;依照实践出真知&#xff08;一定要动手做&#xff09;的理念&#xff0c;以学习和交流为目的&am…

Linux缓冲区续集——手撕fopen、fwrite、fflush、fclose等C库函数

目录 头文件&#xff1a; 接下来就是设计这四个函数&#xff1a;Mystdio.c 重点讲一讲_fflush函数的底层实现原理&#xff1a; 所以数据内容的经过如下&#xff1a; 总结&#xff1a; 执行——测试写好的这4个函数&#xff1a; 运行结果: 修改测试代码&#xff…

ASEMI快恢复二极管MUR80100PT功能和应用实用指南

编辑-Z MUR80100PT是一种高性能、超快恢复二极管&#xff0c;设计用于各种应用&#xff0c;包括电源、逆变器和电机控制系统。本文将提供一个全面的指南&#xff0c;以了解MUR80100PT的特点和应用&#xff0c;以及它在提高电子设备的效率和可靠性方面的重要性。 MUR80100PT的特…

使用vite创建vue3、react项目

一、使用vite需要的环境 node: 14.18 , 16 vite官网&#xff1a;https://cn.vitejs.dev/guide/ 如上图、官网上明确给出了提醒&#xff0c;要使用vite搭建项目&#xff0c;需要node版本在14.18 二、使用vite创建vue3项目 1. 使用命令启动vite创建项目 使用 NPM: $ npm cr…

开始使用Dotnetty高性能网络库进行网络通讯

&#x1f4e2;欢迎点赞 &#xff1a;&#x1f44d; 收藏 ⭐留言 &#x1f4dd; 如有错误敬请指正&#xff0c;赐人玫瑰&#xff0c;手留余香&#xff01;&#x1f4e2;本文作者&#xff1a;由webmote 原创&#x1f4e2;作者格言&#xff1a;新的征程&#xff0c;我们面对的不是…

深度:激光和光纤诞生记

光子盒研究院出品 导读&#xff1a;20世纪50年代以来&#xff0c;科技领域掀起了一场光学革命&#xff0c;激光和光纤的诞生&#xff0c;带来了革命性突破。事实上&#xff0c;激光和光纤的诞生也是第一次量子革命的范畴&#xff0c;因为这些技术的发展是基于对量子规律的观测和…

Java集合之LinkedList详解

Java集合之LinkedList 一、LinkedList类的继承关系1. 基类功能说明1.1. Iterator&#xff1a;提供了一种方便、安全、高效的遍历方式。1.2. Collection&#xff1a;为了使ArrayList具有集合的基本特性和操作。1.3. Queue: LinkedList是一种队列&#xff08;Queue&#xff09;数…

I/O error on POST request for “...“ PKIX path building failed的解决办法

异常&#xff1a; 项目中需要用RestTemplate调三方接口&#xff0c;url是https开头加密的。postman可以调通&#xff0c;代码提示没有证书&#xff0c;具体如下&#xff1a; [ERROR][2023-06-25 10:41:16,574][com.peraglobal.restInterface.controller.PLMController]I/O err…

MySQL如何在Centos7环境安装:简易指南

目录 前言 一、卸载不要的环境 1.检查本地MySQL是否正在运行 2.停止正在运行的MySQL 二、检查系统安装包 三、卸载这些默认安装包 1.手动一个一个卸载 2.自动卸载全部 四、获取mysql官方yum源 五、安装mysql yum源&#xff0c;对比前后yum源 1.安装前 2.安装中 3.…

MySQL进阶SQL语句之函数运用

目录 1.select&#xff08;显示表格中一个或数个字段的所有数据记录&#xff09; 2.distinct&#xff08;不显示重复的数据记录&#xff09; 3.where&#xff08;有条件查询&#xff09; 4.and 、or&#xff08;且、或&#xff09; 5. in&#xff08;显示已知的值的数据记…

浅谈单线程和多线程的异同

前两天有个面试&#xff0c;面试官问了我一个单线程和多线程的问题&#xff0c;情境如下&#xff1a; 面试官&#xff1a;你对单线程和多线程有什么看法&#xff1f; 我&#xff1a; 面试官&#xff1a; 我&#xff1a; 面试官&#xff1a; 我 现在先让我们来了解一下进程…

WS协议—介绍及原理

举例来说&#xff0c;我们想了解今天的天气&#xff0c;只能是客户端向服务器发出请求&#xff0c;服务器返回查询结果。HTTP 协议做不到服务器主动向客户端推送信息。 WebSocket 协议在2008年诞生&#xff0c;2011年成为国际标准。所有浏览器都已经支持了。它的最大特点就是&…

ms17_010(永恒之蓝)漏洞复现详细教程

如题&#xff0c;这是个漏洞复现的详细教程&#xff0c;本教程针对的系统是Windows7操作系统&#xff0c;其他系统请自行测试。 备注&#xff1a;教程会很详细&#xff0c;讲解会很明白&#xff0c;一文可以解决你的常见困难。 测试环境 kalilinux 192.168.1.109 &#xff08;…