人机交互基础
人机交互概述
人机交互及其发展
- 人机交互是指人与计算机之间,使用某种对话语言,以一定的交互方式,为完成确定任务的信息交换过程。
从计算机的诞生之日起,人机交互技术的发展已经历了以下阶段:- 早期的手工作业;(计算机专业人员直接用机器语言与硬件通讯)
- 作业控制语言及交互命令语言;(如DOS-Disk Operation System)
- 图形用户界面;(GUI-Graphical User Interface,如Windows)
- 网络用户界面;(常用的网络操作系统界面,如Unix、Linux、Windows NT等等)
- 智能人机交互等发展阶段(尚在发展之中)
人机交互方式
(1)问答式交互
(2)菜单选择
(3)填表技术
(4)命令语言
(5)直接操纵
(6)语音交互
(7)图像交互
(8)行为交互
人机界面
- 人机界面(HumanMachine Interaction,HMI),又称用户界面或使用者界面,是人与计算机之间传递、交换信息的媒介和对话接口。
- 人机界面设计是指通过一定的手段对用户界面有目标和计划的一种创作活动。
主要包括3个方面: - 设计软件构件之间的接口;
- 设计模块和其他非人的信息生产者和消费者的界面;
- 设计计算机用户和计算机间的界面。
- 目前,WIMP用户界面是主要的人机交互界面,W指窗口(Windows)、I指图标(Icons)、M指菜单(Menus)、P指指点设备(PointingDevice)。
新型人机交互技术
显示屏技术
- 计算机(向用户完成)信息输出、展示的主要外部设备是显示器,传统的显示器是CRT(Cathode Ray Tube)阴极射线管的显示器,现代已被液晶显示器,或称LCD(Liquid Crystal Display)替代,它的主要原理是以电流刺激液晶分子产生点、线、面配合背部灯管构成画面。
- 触摸式显示屏;(微型机、手机、平板电脑常用)
- 柔性显示屏;(见诸于高端手机)
- 3D显示器;(造价高,虚拟现实系统的输出设备)
- 视网膜显示器(研究、发展之中)
跟踪与识别(技术)
- 是指能使得计算机系统跟踪、识别用户(人类)的语言、行为、动作的装置及技术,或者用户捕捉信息的设备与技术
(1)地理空间跟踪;(坐标、位置)
(2)动作识别;(动作,肢体语言)
(3)触觉交互;(用户与物体接触后的动作反应)
(4)语音识别;(语言)
(5)无声语音 (默读)识别;(如唇语,无声的轻微的动作)
(6)眼动跟踪;(依据眼部动作的细微变化捕捉信息)
(7)电触觉刺激 (无视觉能力的用户通过脉冲信号感知信息)
(8)仿生隐形眼镜(增强用户的视觉感知能力)
脑-机接口
- 脑-机接口是在人脑与计算机或其它电子设备之间建立的直接的交流和控制通道,通过这种通道,人就可以直接通过脑来表达想法或操纵设备,而不需要语言或动作,这可以有效增强身体严重残疾的患者与外界交流或控制外部环境的能力,以提高患者的生活质量。
- 脑-机接口分为非侵入式(通过贴近大脑的外部电极等传感部件实现脑-机相连)和侵入式(电极等传感部件植入人脑)两种。
- 大部分脑-机都采用的是“输入”方式(从大脑向机器输入),即由人利用思想来操控外部机械或设备;而由人脑来接收外部指令(从机器向大脑输入)并形成感受、语言甚至思想还面临着技术上的挑战。
多媒体技术
多媒体技术基础
多媒体的概念
- 媒体(media) 是指传送信息的载体和表现形式。
在通常情况下 ,媒体可分为5种形式,分别为
- 感觉媒体:语言、文字、符号、声音、图形、图像、动画、视频
- 表示媒体:信息的表示形式,数字化编码
- 显示媒体:输入、输出设备,如鼠标、摄像机,显示器、音箱等
- 存储媒体:存储的物理介质,如硬盘、光盘、磁带等
- 传输媒体:媒体通信的载体,即通信信道
多媒体(multi-media)是指融合两种或两种以上媒体的一种人机交互式信息交流和传播媒体。
媒体间的关联
多媒体技术及其特性
- 多媒体技术是用户通过多种感官与计算机进行实时信息交互的技术,其通过计算机对文字、图形、图像、声音、动画、视频等多种媒体信息进行综合处理和管理。
- 多媒体技术的特性包括集成性、多样性、交互性、可传播性和可存储性等。
多媒体技术的应用
- 多媒体系统的应用更以极强的渗透力进入人类生活的各个领域,如商业、教育、通信、医疗、出版、艺术、娱乐、金融、建筑、家庭等等。
多媒体技术发展趋势
(1)多媒体技术的集成化
(2)多媒体技术的网络化
(3)多媒体终端的智能化和嵌入化
多媒体应用技术
文字(语言的符号化)处理技术
- 文本的开发与设计包括普通文字、图形文字、动态文字等开发。
音频(语言的信号化)处理技术
- 计算机要处理音频信号,首先要将(连续的模拟)音频信号转换为(离散的)数字信号。
声音的数字化
声音的数字化包括 采样、量化和编码 3个步骤
模拟音频数字化的流程
① 采样:
- 对连续信号按一定的时间间隔采取样本点。奈奎斯特采样定理认为,只要采样频率大于等于信号中所包含的最高频率的两倍,则可以根据其采样完全恢复出原始信号,这相当于当信号是最高频率时,每一周期至少要采取两个点。 但这只是理论上的定理,在实际操作中,人们用混叠波形,从而使取得的信号更接近原始信号。
② 量化:
- 采样的离散音频要转化为计算机能够表示的数据范围,这个过程称为量化。 量化的等级取决于量化精度,也就是用多少位二进制数来表示一个音频数据。一般有8位,12位或16位。量化精度越高,声音的保真度越高。
③ 编码:
- 将量化的音频采样数据转化为二进制数据,但实际上就是对音频信号进行编码,但用不同的采样频率和不同的量化位数记录声音,在单位时间中,所需存贮空间是不一样的。
波形声音的主要参数包括:- 采样频率、量化位数、声道数、压缩编码方案和数码率等。
- 未压缩前,波形声音的数据量(码率)的计算公式为:
波形声音的码率 = 采样频率 × 量化位数 × 声道数 / 8。
- 波形声音的码率一般比较大,所以必需对转换后的数据进行压缩,常见的压缩格式有MP3,MP4(MPEG-1 Audio Layer 3, 4)等。
- 声音质量与它的频率范围有关
MIDI合成音频(计算机合成的数字声音、音乐)
- MIDI是乐器数字接口(Musical Instrument Digital Interface)的英文缩写,也是数字音乐的国际标准,MIDI文件的扩展名为mid和mod。MIDI文件存储的不是(自然现实的)声音信号,而是音符、控制参数等指令。 MIDI标准规定了各种音调的混合及发音,播放时通过播放软件或者音源的转换,可以将这些数字合成为音乐。
图形图像处理技术
计算机中的图像文件分为两类,
- 一类是真实影像的数字化,称为位图,简称图像(真实的);
- 另一类是计算机绘制的矢量图形,简称图形(虚拟的)。
图像的数字化
-
图像在空间和色彩(亮度)值上是连续变化的**,图像数字化就是将连续色调的模拟图像经采样、量化、编码后转换成数字影像的过程。**
-
图像的最小信息单位是像素(Pixel)
-
将一幅图像等距划分为
m行(横轴)n列(纵轴)
,行列交叉的一个小方格称作图像的一个像素,一幅连续的模拟图像经采样数字化后称作数字图像,它是有一定密度的离散像素的集合,如1024* 768
的图像 -
图像分辨率指图像中存储的信息量,是每英寸图像内有多少个像素点,分辨率的单位为PPI(Pixels Per Inch),通常叫做像素每英寸,分辨率越高,图像质量越好(辨识度越高、越清晰)
-
一幅平面黑白图像(灰度图像)由m*n的二维平面矩阵表示
- 在第i行第j列的位置存储像素(i, j)的灰度数值,8位2进制整型灰度等级取值为十进制
0-255
的整数值,也可化为0~1
的浮点数据
- 在第i行第j列的位置存储像素(i, j)的灰度数值,8位2进制整型灰度等级取值为十进制
-
一幅平面彩色图像由
m(行) x n(列) x 3(层)
的三维立体矩阵表示- 在第1层第i行第j列的位置存储像素(i, j)的 红色(Red) 颜色数值,8位2进制整型颜色等级取值为十进制
0-255
的整数值,也可化为0~1的浮点数据 - 在第2层第i行第j列的位置存储像素(i, j)的 绿色(Green) 颜色数值,8位2进制整型颜色等级取值为十进制
0-255
的整数值,也可化为0~1的浮点数据 - 在第3层第i行第j列的位置存储像素(i, j)的 蓝色(Blue) 数值,8位2进制整型颜色等级取值为十进制
0-255
的整数值,也可化为0~1的浮点数据
- 在第1层第i行第j列的位置存储像素(i, j)的 红色(Red) 颜色数值,8位2进制整型颜色等级取值为十进制
-
一个像素点的颜色是RGB三元数组,
(r, g, b),如(0, 0, 0), (1, 1,1), (0, 0, 1), (255, 255, 0)
-
常见的图像格式: BMP、JPG,GIF等;
-
常见的图像处理软件: Photoshop,ACD-see等等
-
图像的采样频率是(行或列)分辨率,即单位长度(inch)内采集的样本点数,单位是dpi(dot per inch),分辨率越高,图像质量越好。
-
颜色深度是表示颜色(灰度)数目的二进制位数,位数越多,颜色数目越多,图像色彩越逼真,常见有8位、16位、24位,当达到24位色时,可表现1677万种颜色,称为真彩色。
图形
- 图形一般指用计算机绘制的画面。与图像不同,在图形文件中只记录生成图的算法和图上的某些特点。
影像处理技术
影像信息包括动画和视频, 是 连续渐变的静态图像或图形序列(一帧图像或图形), 沿时间轴按一定的速度顺次更换(替代)显示,从而构成运动视感的媒体。 当序列中每帧图像是由人工或计算机产生的图像时,常称作动画(虚构的);当序列中每帧图像是通过实时摄取自然景象或活动对象时,常称为影像视频,或简称为视频(现实的)。
多媒体数据压缩技术
- 多媒体信号数据量大,给存储容量、通信信道的带宽以及计算机的运行速度增加了极大的压力。通过数据压缩(一般是采用新的编码方案-压缩编码-即编码的数学变换)手段,可以节约存储空间,提高数据传输效率,使实时处理音频、视频信息成为可能。
- 压缩方法分为有损压缩和无损压缩两种类型。
超文本与超媒体
- 超文本和超媒体不是顺序的,而是一个非线性的网状信息链。 它把文本或其他媒体按其内部固有的独立性和相关性划分成不同的基本信息单元,称为节点。
- 为了浏览超文本或超媒体,必须在用户界面上标记能进一步浏览其他信息单元的指示器(pointer),即通常所称的链(节点间的连接路径、通道),节点之间使用链连接起来形成网状结构。用户可以通过点击链快速打开链指向的信息,大大简化了浏览信息的操作。
虚拟现实技术
虚拟现实
- 虚拟现实(Virtual Reality,VR)也称灵境技术或人工环境,是一种由计算机技术辅助生成的现实世界的高技术模拟系统。
虚拟现实的概念
- 虚拟现实是一项综合集成技术。它用计算机生成逼真的三维空间及视觉、听觉、嗅觉等感觉通道, 使用户作为参与者通过适当装置、自然地融入虚拟世界并产生交互行为,获取与真实环境类似的体验和感受。
虚拟现实的特征
- 交互性(interactivity):用户与环境的信息交流
- 沉浸感(immersion):身临其境、沉浸其中,用户与环境的一体化、无分离感
- 构想性(imagination):信息+行为,系统状态变化为用户提供可扩展的认知空间
虚拟现实需要解决的问题
- 以假乱真的存在技术
- 相互作用
- 自律性现实
虚拟现实技术
虚拟现实技术的概念
-
虚拟现实技术是指利用计算机生成一种模拟环境,并通过多种专用设备使用户“投入”到该环境中,实现用户与该环境直接进行自然交互的技术。
-
虚拟现实技术主要包括模拟环境、感知、自然技能和传感设备等方面。
虚拟现实的关键技术
- 环境建模技术
- 立体声合成和立体显示技术
- 触觉反馈技术
- 交互技术
- 系统集成技术
虚拟现实技术的应用
- 科技开发
- 商业
- 医疗
- 军事
- 娱乐
补充题
当前最主流的人机交互方式是( )。
- 图形用户界面
运动的图像属于( )。
- 感觉媒体
我们从网上下载的MP3音乐,采用的声音压缩编码标准是( ) 。
- MPEG-1层3
使用16位二进制编码表示声音与使用8位二进制编码表示声音的效果不同,前者比后者( ) 。
- 保真度高,音质好
对带宽为300-3400Hz的语音,若采样频率为8kHz、量化位数为8位且为单声道,则未压缩时的码率约为( )。
- 64kb/s
若波形声音未进行压缩时的码率为64kb/s,已知取样频率为8kHz,量化位数为8,那么它的声道数是( )。
- 1
表示R、G、B三个基色的二进位数目分别是6位、4位、6位,因此可显示颜色的总数是( )种。
- 65536
获取供计算机显示或网页上使用的图像,以及制作3~5英寸以下的照片时,中低分辨率(1024×768或1600×1200)即可满足要求,所以( )像素的数码相机,原则上已能满足普通消费者的一般应用要求。
- 100万~200万
数字图像的获取步骤大体分为四步:扫描、分色、取样、量化,其中量化的本质是对每个样本的分量进行( )转换。
- A/D
静止图像压缩编码的国际标准有多种,下面给出的图像文件类型采用国际标准的是( )。
- JPEG
黑白图像的像素有( ) 个亮度分量。
- 1
使用8个二进制位存储颜色信息的图像能够表示( ) 种颜色。
- 256
像素深度为6位的单色图像中,不同亮度的最大数目为( )。
- 64
BMP图像是微软公司在Windows操作系统下使用的一种标准图像文件格式,几乎所有Windows应用程序都支持BMP文件。
-
是
在多媒体信息中包含大量冗余信息,把这些冗余信息去掉,就实现了压缩。
- 是
超链的( )可以是文本中的任何一个字、词或句子,甚至可以是一幅图像。
- 链源
扩展名为.mid和.wav的文件都是PC机中的音频文件。
- T
用MP3或MIDI表示同一首小提琴乐曲时,前者的数据量比后者小得多。
- F
GIF图像文件格式能够支持透明背景,具有在屏幕上渐进显示的功能。
- F