软件设计师笔记-多媒体基础知识

媒体

感觉媒体（使人产生感觉的媒体）
表示媒体（传输感觉媒体的中介媒体）
表现媒体（进行信息输入和输出的媒体）
存储媒体（用于存储表示媒体的物理介质）
传输媒体（传输表示媒体的物理介质）

多媒体的特性

多样性
集成性
交互性
非线性
实时性
信息使用的方便性
信息结构的动态性

虚拟现实

运用计算机对现实世界进行全面仿真，创建与现实社会类似的环境，通过多种传感设备使用户“投入到该环境中”，实现用户与该环境直接进行自然交互。

虚拟现实技术的特征

多感知（听觉感知、力觉感知、触觉感知、运动感知、味觉感知、
嗅觉感知）
沉浸（用户感受到的模拟环境的真实程度）
交互（用户对模拟环境内物体的可操作程度和从环境得到反馈的自然程度）

虚拟现实的分类

桌面虚拟现实
完全沉浸的虚拟现实
增强现实性的虚拟现实
分布式虚拟现实

声音感觉的三个指标

声音的三个主要感觉指标是音量（响度）、音调和音色，它们共同构成了我们对声音的整体感知。

音量（响度，Loudness）

定义：音量又称响度或音强，是指人耳对所听到的声音大小强弱的主观感受。其客观评价尺度是声音的振幅大小，这种感受源自物体振动时所产生的压力，即声压。
影响因素：音量的大小由振幅和人离声源的距离决定。振幅越大，响度越大；人和声源的距离越小，响度也越大。此外，声压级（以分贝dB为单位）也常被用来量化表示声音的强弱。
特性：响度与声强密切相关，但并非简单的线性关系，而是接近于对数关系。同时，当声音的频率、声波的波形改变时，人对响度大小的感觉也会发生变化。

音调（Pitch）

定义：音调是指声音的高低，由声音的频率决定。频率越高，音调越高；频率越低，音调越低。人耳能听到的声音频率范围大致在20Hz到20000Hz之间，超出这个范围的声音分别被称为次声波和超声波。
影响因素：音调不仅由频率决定，还与声音强度有关。对于一定强度的纯音，音调随频率的升降而升降；而对于一定频率的纯音，低频纯音的音调随声强增加而下降，高频纯音的音调却随强度增加而上升。
特性：音调是声音的一个重要属性，它决定了声音听起来是“高亢”还是“低沉”。不同的乐器和声音源发出的声音往往具有不同的音调特性。

音色（Timbre）

定义：音色是指不同声音在波形方面表现出的独特特性。不同的物体振动方式不同，因此产生的声音波形也不同，从而形成了各自独特的音色。
影响因素：音色受多种因素影响，包括声音的频率分布、波形形状、持续时间以及声音中的谐波成分等。这些因素共同作用，使得我们能够区分出不同乐器、不同人声以及不同环境下的声音。
特性：音色是声音的一个重要特征，它使得我们能够识别出不同的声音源。例如，钢琴和小提琴即使演奏相同的音符和节奏，由于它们的音色不同，我们也能轻易地分辨出它们。

声音信号的数字化

声音信号的数字化是将连续的模拟声音信号转换为离散的数字信号的过程，这一过程主要包括采样、量化和编码三个步骤。

采样

定义：采样是在时间轴上对模拟信号进行数字化的过程。具体方法是在某些特定的时刻对模拟信号进行测量，每隔相等或不相等的一小段时间采样一次。

均匀采样：相隔时间相等的采样称为均匀采样，也称为线性采样。
非均匀采样：相隔时间不相等的采样称为非均匀采样，也称为非线性采样。

采样率：或称为取样频率，是每秒钟进行采样的次数，单位为赫兹（Hz）。采样率越高，单位时间的采样点越多，就能越好地表示原波形。

量化

定义：量化是在幅度轴上对模拟信号进行数字化的过程。具体方法是将信号的强度分成许多小段，每个小段对应一个量化值。

线性量化：如果分成小段的幅度相等，则称为线性量化。
非线性量化：如果分成的小段不相等，则称为非线性量化。

量化精度：通常用位深（bit depth）来描述，即每个采样点用多少位二进制数来表示。位深越大，量化的精度越高，表示的信号越准确。

编码

定义：编码是将量化后的整数值用二进制数来表示，形成最终的数字信号。编码后的数据可以按照特定的格式进行存储或传输。

编码方式：编码方式多种多样，常见的有PCM（脉冲编码调制）、DPCM（差分脉冲编码调制）、ADPCM（自适应差分脉冲编码调制）等。这些编码方式各有特点，适用于不同的应用场景。

数字语音的数据压缩方法

数字语音的数据压缩方法主要包括波形编码、参数编码和混合编码三种，每种方法都有其独特的特点和适用场景。

波形编码

定义与原理：
波形编码是指不利用生成音频信号的任何参数，直接将时间域信号变换为数字代码，使重构的语音波形尽可能地与原始语音信号的波形形状保持一致。其基本原理是在时间轴上对模拟语音信号按一定的速率抽样，然后将幅度样本分层量化，并用代码表示。

特点：

高质量：波形编码的话音质量高，但编码速率也很高。
高编码速率：通常在16 kbit/s以上，质量相当高。但编码速率低于16 kbit/s时，音质会急剧下降。
技术成熟：波形编码方法简单、易于实现、适应能力强。

常见方法：

脉冲编码调制（PCM）：只对语音信号进行采样和量化处理，编码方法简单，延迟时间短，音质高，但编码速率较高（64 kbit/s）。
增量调制编码（DM）、差值脉冲编码调制（DPCM）、自适应差分脉冲编码调制（ADPCM）、**子带编码（SBC）和矢量量化编码（VQ）**等也是常见的波形压缩编码方法。

参数编码

定义与原理：
参数编码是从语音波形信号中提取生成语音的参数，使用这些参数通过语音生成模型重构出语音，使重构的语音信号尽可能地保持原始语音信号的语意。也就是说，参数编码是把语音信号产生的数字模型作为基础，然后求出数字模型的模型参数，再按照这些参数还原数字模型，进而合成语音。

特点：

低编码速率：参数编码的编码速率很低，可以达到2.4 kbit/s。
音质不高：产生的合成语音的音质不高，重构的语音信号波形与原始语音信号的波形可能会存在较大的区别、失真会比较大。
保密性好：因为受到语音生成模型的限制，增加数据速率也无法提高合成语音的质量，但保密性很好，一直被应用在军事上。

常见方法：

**线性预测编码（LPC）**是典型的参数编码方法。

混合编码

定义与原理：
混合编码是指同时使用两种或两种以上的编码方法进行编码。这种编码方法克服了波形编码和参数编码的弱点，并结合了波形编码高质量和参数编码的低编码速率，能够取得比较好的效果。

特点：

综合优势：编码速率和音质介于波形编码和参数编码之间，能够同时满足对音质和编码速率的需求。

应用场景：

在需要高质量语音传输且对编码速率有一定要求的场合，混合编码是一种理想的选择。

声音合成

语音合成（发音参数合成、声道模型参数合成、波形编辑合成）
音乐合成

MIDI（乐器数字接口）

用于将计算机与乐器、舞台灯光和其他时间型媒体相互连接的标准协议。

色彩三要素

又称为色彩三属性，即色别（色相）、明度、饱和度（纯度）。

色别
色别也就是摄影中所说的色相，是指不同颜色之间的差别，即不同颜色的表象和名称，如红、橙、黄、绿、青、蓝、紫等。不同的色别都可用光谱中的波长来标示，人的眼睛可分辨出的色别有180种左右。
明度
明度是指色彩的明暗程度。一般在反光率相同的情况下，不同色别的明暗程度不同。如黄色光比红色光更明亮，而红色光则比青色光要明亮。

同时，同一色相在受光强弱或者物体对光的吸收、反射性能不同的情况下，会呈现不同的明暗变化和差异。
饱和度
饱和度（纯度）是指同一色别的纯净度和鲜明度的变化。从色光的角度而言，光的波长单一程度越高，饱和度就会越高。不同色别所达到的饱和度不同，一般情况下，红色的纯度可达到最高，绿色的则相对较低。同一色相深浅不同的颜色有不同的饱和度。黑白色光的渗入会导致饱和度和明度发生变化。通常，照明光线的性质、物体表面结构对光线吸收与反射的性能等等因素影响饱和度。

彩色空间

彩色空间是描述颜色的一种方式，不同的彩色空间适用于不同的应用场景。下面将详细介绍RGB、CMY、YUV等几种常见的彩色空间。

RGB彩色空间

基本概念：

RGB颜色空间以R（Red：红）、G（Green：绿）、B（Blue：蓝）三种基本色为基础，进行不同程度的叠加，产生丰富而广泛的颜色，所以俗称三基色模式。
RGB空间是生活中最常用的一个模型，电视机、电脑的CRT显示器等大部分都是采用这种模型。

特点与原理：

自然界中的任何一种颜色都可以由红、绿、蓝三种色光混合而成，现实生活中人们见到的颜色大多是混合而成的色彩。
RGB模式可表示一千六百多万种不同的颜色，在人眼看来它非常接近大自然的颜色，故又称为自然色彩模式。
RGB模型的原理来自于颜色的三刺激理论，它基于以下假设：在眼睛的中央部位有3种类型的对色彩敏感的锥状细胞，分别识别红色、绿色和蓝色。

优点：

直观、容易理解。

缺点：

对人进行颜色判断时可能不够友好。

CMY彩色空间

基本概念：

CMY是青（Cyan）、洋红或品红（Magenta）和黄（Yellow）三种颜色的组合，这是基于颜色减法混色原理的彩色空间。
由于三原色得不到纯黑色，所以在打印等领域，会加入黑色（Black），形成CMYK彩色空间。

特点：

CMY彩色空间以青、品红、黄三种颜色为基础，通过不同比例的混合来产生各种颜色。
CMY彩色空间在印刷等领域有广泛应用。

YUV彩色空间

基本概念：

YUV是被欧洲电视系统所采用的一种颜色编码方法，也是编译true-color颜色空间（color space）的种类之一。
在YUV中，“Y”表示明亮度（Luminance或Luma），也就是灰阶值；“U”和“V”表示的则是色度（Chrominance或Chroma），作用是描述影像色彩及饱和度，用于指定像素的颜色。

特点与原理：

YUV的重要性在于它的亮度信号Y和色度信号U、V是分离的。如果只有Y信号分量而没有U、V信号分量，那么表示的图像就是黑白灰度图像。
彩色电视采用YUV空间正是为了用亮度信号Y解决彩色电视机与黑白电视机的兼容问题，使黑白电视机也能接收彩色电视信号。

优点：

允许降低色度的带宽，从而节省传输带宽。

缺点：

相对于RGB彩色空间，YUV彩色空间在颜色表示上可能不够直观。

图形数据表示形式

矢量图形（用数学的方式描述图像）
位图图像（用像素点来描述的图像）

图像的属性

分辨率
图像深度
真彩色和伪彩色

图像的数据量

图像的数据量=图像的总像素数*像素深度/8（Byte）

数据压缩

有损压缩（压缩过程中损失一定信息）
无损压缩（行程长度编码，增量调制编码，霍夫曼编码）

多媒体数据压缩编码标准

多媒体数据压缩编码标准是指为了有效地存储和传输多媒体数据（如图像、音频、视频等）而制定的一系列技术规范和标准。这些标准旨在通过减少数据中的冗余信息来提高数据的压缩比，同时保持数据的可接受质量。以下是一些主要的多媒体数据压缩编码标准：

静态图像压缩标准

JPEG（Joint Photographic Experts Group）：
- 是一种广泛使用的静态图像压缩标准，由ISO和CCITT共同制定。
- 采用基于离散余弦变换（DCT）的有损压缩算法，可以大幅度减少图像数据的存储量，同时保持较好的图像质量。
- 适用于彩色和灰度静止图像的压缩，广泛应用于数码相机、网络传输和图像存储等领域。

动态图像压缩标准

MPEG（Moving Picture Experts Group）系列：
- 包括MPEG-1、MPEG-2、MPEG-4等多个版本，每个版本都有其特定的应用场景和性能特点。
- MPEG-1主要用于VCD等视频光盘的压缩，提供较高的压缩比和可接受的视频质量。
- MPEG-2则广泛应用于DVD、数字电视广播等领域，提供更高的视频质量和分辨率。
- MPEG-4除了支持传统的视频压缩外，还增加了对交互性和灵活性的支持，适用于互联网视频传输和移动多媒体等领域。
H.26X系列：
- 包括H.261、H.264/AVC（Advanced Video Coding）、H.265/HEVC（High Efficiency Video Coding）等标准。
- H.261是最早的视频压缩编码标准之一，主要用于视频会议和可视电话等领域。
- H.264/AVC是目前应用最广泛的视频压缩标准之一，具有高压缩率和良好的视频质量，广泛应用于网络视频传输、高清电视广播等领域。
- H.265/HEVC在保持高视频质量的同时，进一步提高了压缩效率，适用于超高清视频传输和存储等领域。
VVC（Versatile Video Coding）：
- 是最新的国际视频编码标准，由ITU-T和ISO/IEC联合制定。
- 相比前代标准（如HEVC），VVC能够在保证相同视频质量的情况下，进一步缩减视频数据大小，为网络视频传输和存储提供更高效的解决方案。

其他标准

DVI（Digital Visual Interface）：
- 虽然主要用于计算机显示接口的标准化，但在某些情况下也涉及到视频数据的压缩和传输。

动画（本质是运动）

实时动画（用各种算法来实现运动物体的运动控制）
矢量动画（由矢量图衍生出的动画形式）
二维动画（对传统动画的一个改进）
三维动画（根据三维数据模型）

彩色电视制式

彩色电视制式（Colour Television System）主要指彩色电视信号编码与解码的方式，它定义了图像帧速率、分辨率、颜色编码方式以及信号传输的细节，使得彩色图像能够以可视的方式在电视屏幕上呈现出来。彩色电视制式主要可以分为NTSC制、SECAM制和PAL制三种。

NTSC制

NTSC（National Television Systems Committee，美国国家电视系统委员会）制是美国在1953年定义的彩色电视广播标准，称为正交平衡调幅制。这种制式的主要特点包括：

优点：兼容性好，图像质量好，电视接收机电路简单，信号处理容易。
缺点：对相位失真十分敏感，容易产生明显的色调失真。
使用地区：美国、加拿大、墨西哥、日本、中国台湾地区、韩国、菲律宾等国家和地区采用。

PAL制

PAL（Phase Alternating Line，逐行倒相）制是联邦德国（西德）在1962年指定的彩色电视广播标准，称为逐行倒相正交平衡调幅制。它克服了NTSC制相位敏感造成色彩失真的缺点。PAL制的主要特点包括：

优点：对传输过程中相位失真不敏感，彩色图像受多径接收而出现重影彩色的影响较小。
缺点：彩色清晰度略低于NTSC制，信号处理较繁，接收机电路较复杂。
使用地区：德国、中国（包括中国大陆和中国香港地区）、英国、意大利、荷兰、中东一带等国家和地区采用。其中，PAL-D制是我国大陆采用的制式。

SECAM制

SECAM（Sequential Coleur Avec Memoire，顺序传送彩色与存储）制是法国在1956年提出，1966年制定的一种彩色电视制式。它采用时间分隔法来传送两个色差信号，与PAL制类似，但有所不同。SECAM制的主要特点包括：

优点：传输失真小，图像录放性能好。
缺点：彩色图像垂直清晰度下降一半，亮度、色度信号不易彻底分离。
使用地区：法国、前苏联、东欧和中东等约65个国家采用。

彩色电视制式的发展

随着数字技术的发展，数字电视（Digital Television, DTV）逐渐取代了模拟电视（Analog Television, ATV），彩色电视制式也逐渐被数字制式所取代，如ATSC（美国数字电视标准）、DVB（欧洲数字电视标准）和ISDB（日本数字电视标准）等。这些数字标准提供了更高的图像质量和更多的功能，如高清晰度（HD）和超高清晰度（UHD）。

总的来说，彩色电视制式是彩色电视技术的重要组成部分，它们在不同的国家和地区得到了广泛的应用和发展。虽然随着数字技术的兴起，这些制式逐渐被数字制式所取代，但它们在电视技术发展的历史上仍然具有重要的地位。