多媒体技术
2020-06-02 11:37:06 1 举报
AI智能生成
登录查看完整内容
多媒体技术知识点复习汇总
作者其他创作
大纲/内容
多媒体技术
第一章 多媒体技术概论
1. 多媒体技术概念
媒体的分类
感觉媒体
表示媒体
表现媒体
存储媒体
传输媒体
多媒体技术定义
计算机交互综合处理多种媒体信息——文本、图形、图像和声音,使多种信息建立逻辑连接,集成为一个系统并具有交互性
多媒体技术特点
集成性
实时性
交互性
多媒体技术研究意义
从人类历史发展角度
人人之间的交流手段是推动社会发展的一个重要因素
多媒体技术的引入提高了工作效率
多媒体技术不仅是时代的产物,也是人类历史发展的必然
从计算机发展的角度
用户和计算机的交互技术一直是推动计算机技术发展的重要动因
多媒体技术将文字、声音、图形、图像集成为一体,获取、存储、加工、处理、传输一体化,使人机交互达到了最佳的效果
2. 多媒体技术的发展历程
启蒙发展阶段 80’
标准化阶段 90’
多媒体计算机标准
MPC
数字化图像压缩国际标准
JPEG
MPEG
ITU H.26X
AVS
数字化音频压缩标准
光盘标准
CD-ROM
CD-DA
CD-I
VCD
DVD
应用普及 2000-
3. 多媒体技术的研究内容
3.1 数据编码、压缩\\解压缩算法与标准
3.2 多媒体数据存储技术
3.3 多媒体计算机系统硬件与软件平台
3.4 多媒体系统软件开发环境
3.5 多媒体数据库与基于内容的检索
3.6 超文本和WEB技术
3.7 多媒体系统数据结构
4. 多媒体技术的应用及发展前景
典型应用
教育和培训
咨询和演示
娱乐和游戏
信息管理
可视通信系统
计算机支持的协同工作
视频服务系统
前景
家庭教育和个人娱乐是国际多媒体市场的主流
内容服务和多媒体通信是应用的重要方面
提高多媒体系统的智能性是不变的主题
基于融合网络环境的多媒体系统是今后重点发展方向
第二章 多媒体计算机系统组成
1. 多媒体存储技术
多媒体信息存储的特点
多媒体信息存在和表现的形式
正文:包括文字和数据
向量图形:图元组成的图形
位图图像
数字化声音和高保真音响
数字化视频
多媒体信息量大
光盘存储
技术原理
改变一个存储单元的性质,使其性质的变化反映出被存储的数据;识别这种性质的变化就可以读出存储数据
特点
与硬盘相比:
可拆卸性
容量相当
驱动器较贵,但盘片便宜
读写速度慢
与磁带相比:
容量大
随机存取性强
激光头与介质无接触,不受环境影响而退磁,信息保存时间长,可达30年以上
技术指标
容量
光盘盘片的容量
平均存取时间
在光盘上找到需要读写信息的位置所需时间
数据传输率
从光盘驱动器送出的数据率,可以定义为单位时间内光盘的光道上传送的数据比特数,这与光盘转速、存储密度有关
指控制器与主机间的传输率,它与接口规范、控制器内的缓冲器大小有关
分类
CD-ROM 只读光盘
WORM 一次性写多次读光盘
Rewritable 可重写光盘
工作原理
只读光盘读原理
只读光盘上的信息是沿着盘面螺旋形式的信息轨道以凹坑和凸区的形式记录的
既可以记录模拟信息,也可以记录数字信号
可重写光盘的擦写原理
磁光式
当前国际上较流行的是磁光式,该盘普遍采用玻璃盘基上再加四层膜结构组成,它是以稀土—过渡金属非晶体垂直磁化膜作为记录介质光学膜和保护膜的多层夹心结构
写操作方式
居里点记录
补偿点记录
相变式
利用记录介质的两个稳态之间的互逆相结构的变化来实现信息的记录和擦除。两种稳态是反射率高的晶态和反射率低的非晶态(玻璃态)
写过程是把记录介质的信息点从晶态转变为非晶态
擦过程是写过程的逆过程,即把激光束照射的信息点从非晶态恢复到晶态
发展历史
1972 Philips 模拟电视信号 Laser Vision
1978 SONY 影碟机
1979 Philips 激光唱机 Compact Disk Player
规范与标准
1981 红皮书 激光数字音频光盘标准 CD最基本标准
CD-V
从红皮书发展而来,在影碟机上使用
可录CD
橙皮书, 分为CD-MO CD-WO.
CD-MO 磁光盘,可重写
CD-WO 一旦写入就不能抹掉
1987 绿皮书 交互式多媒体
1992 第二代 可播放交互式视频
CD-ROM XA
1988年 Philips SONY MS制定
Photo-CD
相片光盘 1991 发布,1992制定规范
Video CD
1993 白皮书 采用MPEG压缩算法压缩动态图像
CD-ROM性能指标
约为650MB
数据传送速率
单速 150KBps
倍速 300kBps
四倍 600KBps
存储缓冲器
早期64KB,目前常用128KB/256KB
存取时间
200~400ms
误码率
10^-12~10^-16
体积
接口
采用SCSI接口、IDE接口和AT总线接口
MTBF
平均无故障时间约为25000小时左右
兼容性
支持Photo-CD CD-ROM XA
CD-DA规范及格式
常线速伺服方式,逆时针旋转
螺旋线光道等长分段,每段称为一个扇区
每个扇区的音频数据分为许多称为帧的单元,每帧共有33个字节
错误的检测和校正采用CIRC
CD-ROM规范及格式
把光轨道分为等长的扇区,使用分、秒、扇区的数据编址方式,采用常线速伺服方式
格式
Mode1
SYNC 12B
HEADER 4B
USER DATA 2048B
EDC 4B
SPACE 8B
ECC 276B
Mode2
USER DATA 2336B
相同点
都有12B的同步码,前后00H,中间10个FFH
紧接着4B的地址字段,采用分、秒、扇区号确定地址标号,地址字段中设置了MODE字节
不同点
用户数据量不同
存贮数据的类型不同,MODE1存放对错误极为敏感的数据,MODE2存放不太敏感的
CD-ROM扩展结构CD-ROM XA
与CD-I相同的FORM1和FORM2格式
CD-I光盘
数据格式
从CD-DA和CD-ROM光盘格式演变而来
扇区与CD-ROM XA相同,有三个区
导入区
节目区
导出区
信息均采用EFM记录方式记录
由于误码率较高,采用能纠正突发错误的CIRC码
结构
一片CD-I光盘上的CD-DA光道可以有一条或多条CD-DA光道,但最多不超过98条
所有数据以文件形式存放
两种数据格式FORM1 和 FORM2记录
激光视盘
CLV
CAV
交互式视盘
在视盘上剩余空隙插入一些命令代码,计算机就便于控制视盘的播放,这种存在控制命令代码的视盘称为交互式视盘
Video CD标准
一个使用CD格式和MPEG-1标准的数字电视播放系统
MPEG-Video
MPEG-Audio
CD-ROM光盘制作过程
数据准备
主盘制作
复制光盘
DVD光盘
DVD-Video规格
图像压缩标准
MPEG-2标准
声音标准
NTSC
PAL/SECAM
通道数
多达8个声音通道和32个字幕通道
DVD和CD-ROM的差别
外观和尺寸
没什么差别
光道间距缩小(1.6微米到0.74微米),记录信息的最小凹坑凸区长度缩小(0.83微米到0.4微米),这是DVD容量提高的主要原因
采用波长更短的激光源(780纳米到635/650纳米)来提高聚焦激光束的精度
2. 多媒体功能卡
包括
视频卡
两类
可编程的多媒体处理器,如Intel750系列,TI公司的TMS320系列高效可编程多媒体处理器以及Philips和SONY共同开发的CD-I等产品
C-Cube公司的视频卡
CL550
第一个集成了JPEG算法的芯片
编码过程
解码过程
静态图像压缩板
CL450
通过执行宏码完成高层次功能
应用程序可以两种方式操作CL450
寄存器操作方式
宏命令操作方式
视霸卡
简介
三个主要功能模块
视频信号输入电路
视频信号输出电路
视频信号窗口控制模块
多种功能
解压
转换
捕捉
音频卡
处理音频信号的计算机插件,是普通计算机想MPC升级的一种重要部件
主要功能
数字化声音处理
混音器
合成器
声霸卡及其特点
VGA与TV转换卡
图形加速卡
SCSI接口卡
光盘接口卡
意义
通过这些功能卡将计算机和各种外部设备相连,构成一个制作和播出多媒体系统的工作环境
多媒体处理器
像素处理器 82750PB
显示处理器 82750DB
合并了模拟和数字处理部件
能够选择每个像素的字长,每行的像素数以及每列的行数,以满足不同显示分辨率的需要
主要组成
像素数据通道
色差插值器
YUV到RGB的变换
VBUS控制
像素均衡器
D/A转换器
3. 多媒体信息获取与显示设备
图像获取设备
数字化图像获取常用设备
扫描仪
图像扫描仪基本原理
将反映图像特征的光信号转换成计算机可接受的电信号
工作过程
CCD--光电转换
A/D转换
种类
平板式
手持式
滚动式
数字照相机
图像数字化
步骤
采样
在二维方向上分成MXN个网格
网格的亮度值即为采样值
一维采样
二维采样
量化
把连续的亮度值分为K个区间,每个区间对应一个亮度I
划分方法
均匀量化
非均匀量化
模数变换
实现上述量化的过程称为模数变换
一般采用PCM量化器实现,此为均匀量化
非均匀量化一方面可以利用PCM量化的结果,根据信号特性处理为非均匀量化的数据
另一个方面也可以利用专门的非均匀量化器实现
需要考虑采样过程中产生的失真和噪声
摄像机
构成
摄像镜头管
同步信号发生电路
偏转电路
放大电路
电源
原理
来自被摄物体的光通过光学系统在摄像管的靶上形成光学图像,这个光学图像经摄像管转换成电信号,以视频信号方式输出被摄图像
彩色图像摄取重要的是分理出三基色信号,利用滤色片、分色镜或棱镜把光分解成三基色
新产品不用电子管作光电转换,而是电荷耦合器件CCD等固态摄像器件
显示设备
显示系统
显示器
类别
多同步显示器
平面直角显示器
从扫描频率分
固定扫描频率
可变扫描频率
显示适配器
组成
寄存器
视频存储器
显示帧缓存RAM
存放BIOS的ROM
控制电路
触摸屏
传感器
控制部件
驱动程序
红外线触摸屏
在屏幕四边放置红外发射管和红外接收管,微处理器控制驱动电路依次接通红外发射管并检查相应的红外接收管,形成横竖交叉的红外线整列
内置式
外挂式
电阻式触摸屏
感应器
一个覆盖电阻性栅栏的玻璃,再在上面蒙上一层涂有导电涂层并有特殊模压凸缘的聚脂薄膜
凸缘避免其表面的涂层与玻璃的涂层接触
控制器向玻璃的四个角加稳定的5伏电压,并读取导电层的电压值
电容式触摸屏
模拟感应器
透明玻璃,表面有导电涂层,其上覆盖一层保护性玻璃外层
智能双向控制器
它工作时在感应器边缘的电极产生分布的电压场,用手指或其它导电体触摸导电涂层时,电容改变,电压场变化,控制器检测这些变化,从而确定触摸的位置。控制器把数字化的位置数据传到主机,以实现人机的交互
表面声波技术
表面声波是应变能仅集中在物体表面传播的弹性波
在一片玻璃的每个角上装有两个发射器和两个接收器,一系列的声波反射器被嵌进玻璃中,沿着两面从顶至底穿过玻璃。发射器朝一个方向发射5MHz的短脉冲。当脉冲离开一角后,就会不断地被每个反射器反射回来一部分声波
当触摸玻璃的某点就阻碍了脉冲能量通过那点反射到达接收机,于是从接收的脉冲信号中就见到一段缺口。脉冲起点至下跌点间的时间长度就确定了触摸点的坐标。控制器通过互换两对发射器和接收器,就可测出触摸在X及Y方向的坐标
底座式矢量压力测力触摸屏
在CRT外面盖上一块四角装有应力计的平板玻璃
4. 多媒体个人计算机
MPC技术的发展
MPC配置特点
一个功能强大、速度快的中央处理器
大容量的存储器空间
高分辨率显示接口与设备
可处理音响的接口与设备
可处理图像的接口与设备
可存放大量数据的配置
MPC配置
Amiga多媒体个人计算机
5. CD-I交互式多媒体系统
多媒体系统结构
多媒体应用软件
多媒体开发与创作工具
多媒体系统软件
多媒体驱动程序接口
多媒体驱动程序
多媒体硬件
CD-I系统是家用交互式多媒体系统
组成部分
音频处理子系统
4种标准音质的运行方式
继承CD-DA超级高保真音质运行方式
A级 相当于Laser Vision音质
B级 相当于FM调频广播音质
C级 相当于AM调幅广播的音质
一种非实时的语音音质运行方式
文本到语音编码转换而成的音质
声音数据的解码和控制是由CD-I音频处理器而完成
解码器ADPCM
音频处理单元
特技处理器及声音输出
CD-I接口单元
音频信号存储器
控制器
视频处理子系统
功能
把CD-I光盘上的数字化视频信号通过存储和控制进行实时解码、颜色切换、重叠控制
经过混合处理而产生RGB信号输出
视频压缩和解码原理
一维的DYUV编码
自然图像
RGB 5:5:5编码
高质量图像
CLUT编码
动画
一维行程编码
图像平面的重叠与颜色切换
平面1 16x16像素额彩色游标平面
平面2和平面3 全屏幕图像平面
平面4 背景平面
多任务的操作系统
实时操作系统CD-RTOS
源于高性能的OS-9实时操作系统
多任务实时操作系统
结构是模块化结构
有设备独立的I/O接口
能够处理多级树形结构的目录
中断驱动的系统
内核
系统相关库
接口和管理程序
设备驱动程序
系统状态描述符CSD
文件保护模块FPM
初始化和系统启动过程
CD播放机
微处理器、存储器、键盘、定位装置和CSD字体模块
6. DVI多媒体计算机系统
提供一种全数字化的方法
先进的视频压缩技术
声音压缩技术
合成图形
系统结构及其工作原理
DVI-I
DVI视频板
DVI音频板
DVI多功能板
DVI-II
将第一代3块板集成在一个板
3个门阵列电路
82750H主机接口门阵列
82750LV VRAM/SCSI/Capture门阵列
82750LA 音频子系统接口门阵列
1~16MBVRAM视频处理器
核心部件
DVI-I
视频像素处理器82750PA
像素处理速度为12.5MIPS
采用微码编程
高速执行像素处理的多种算法
视频显示处理器82750DA
当视屏像素处理器绘制和管理视频RAM中的位映射图时,显示处理器就把这个结果显示在视屏屏幕上
82750PB和82750DB,使运算速度提高了一倍
82750PB具有较宽指令字长的快速微码处理器,在25MHZ主频下,运行速度达25MIPS
由于指令字长,且不同字段分别可以实现不同的控制和操作,提高了并行操作功能,因此像素处理器的操作速度达100MIPS
音频处理器
TMS-320C10数字信号处理器(DSP)作为专用音响处理器
AD2105
模拟滤波器
DVI总线
CD-ROM接口控制器
扩展内存模块
两路操纵杆控制器接口
以DVIⅡ为代表的DVI多媒体硬件系统具有下述特点
采用了高速专用视频处理器i750B,具有实时处理视频功能
DVI总线保证了高速传输
外围逻辑集成到三个门阵列,Action MediaII体积缩小
外围接口设计方便了用户
DVI软件开发环境
第一代DVI系统软件,采用了层次接口模型,具有模块化特点,核心是AVSS
音频视频子系统AVSS
应用层
高层次接口DVI标准
高层次模块低层次接口DVI标准
驱动器接口模块
系统RAM接口模块
硬件
AVSS/RTX工作原理
AVSS概念模型称之为超级VCR模型
演播单元就是AVSS功能的具体体现
效果处理单元实际上是图形库功能的集合
钩挂例程是把专用图形添加到视频的特殊调用工具
数据流
采用3个并行的操作来播放数字视频,都做为RTX的任务
输入任务
将一帧压缩视频读进内存
解码任务
请求像素处理器对该帧视频进行还原
显示任务
将还原后的视频帧在计算机显示器上显示
任务调度RTX
首要任务
为AVSS提供CPU资源,使运动视频播放连续畅通
具体做法是给任务分配特定的优先数,并查明在其执行循环期间应发出的事件等待时间
基于DOS环境开发的,没有留扩展接口,可移植性和可扩充性很差,RTX的任务调度依靠主机CPU,因此RTX调度技术需改进。
第二代 核心是音频/视频内核AVK
基于窗口系统环境的AVK
其概念模型是“数字视频制作演播器”
主要组成部分
模拟设备接口
显示管理器
采样器
数据流控制器
效果处理器
音频/视频混合器
对数据流处理的优点
从解压缩位映射阵列分离显示的位映射允许插入拷贝和改变比例尺的操作,它也允许改变窗口的视频效果。
由于DVI硬件具有更多的功能,多个视频窗口能够同时显示在屏幕上
实时任务调度
调度器
缓冲区/数据流处理任务
命令表处理任务
周期处理任务
当视频流正在播放时,DoMotion在主命令表处理任务和缓冲区/数据流处理任务之间循环
通过主命令表和设置队列执行微码功能来完成微程序控制
周期处理任务调用队列集函数,并且用队列集函数从主机传送命令到主命令表或命令表数据流,这样就允许主机传送指令到82750PB像素处理器。AVK使用80750PB作为协处理器,有DoMotion执行实时任务调度
DVI-I型系统软件层次结构
应用支持层
图形软件包Gr
音频视频支持软件AVSS
驱动程序接口模块层
微码接口模块
视频接口模块
多功能接口模块
音响接口模块
驱动程序模块层
视频驱动程序
音频驱动程序
多功能板驱动程序
DVI图像格式及压缩算法
静态图像处理
静态图像压缩算法有JEPG和行程算法
视频图像压缩
DVI技术采用两种
PLV
RTV
7. VCD和DVD播放系统
VCD播放机是基于MPEG-1标准的交互视频播放系统
两种形式
使用PC机构成的播放系统,它是在PC机加上MPEG解压卡或解压软件升级而成
VCD播放机加上电视机构成
基本结构
CD驱动器,或称CD加载器
MPEG解码器
微控制器
基本功能
。。。。
与VCD相差不大
DVD盘读出机构
DVD-DSP
数字声音/视频解码器MPEG-2
微处理器
8. 多媒体工作站
工作站特点
采用UNIX操作系统
具有GUI接口
很强的图形图像处理功能
多媒体工作站能同时处理离散和连续媒体信息
系统结构
主存和具有自主控制器的二级存贮器
用户实时数据处理通用处理器
处理离散媒体信息标准处理器
面向图形、音频和视频媒体的专用处理器
图形和视频适配器
通信适配器
总线
系统总线
外围总线
面向连续媒体的数据传输开发的,诸如SCSI
多媒体设备
主存
二级存储器
处理器
操作系统
第三章 多媒体节目开发工具
1. 多媒体节目开发环境
环境
图形
音频
图像
各种创作系统
提供编程的环境
超文本、超媒体和多媒体数据管理的功能
支持多媒体数据的输入输出
应用连接功能
数据和动画制作功能
友好的用户界面
2. 多媒体创作工具
一种高级的软件程序或命令集合
以卡或页为基础的创作工具
可以将对象连接于卡或页的环境
一页或一张卡便是数据结构中的一个节点
这种页或卡上的数据比书上的一页或数据袋中的一张卡的数据更多样化
在卡或页上的图符很容易理解和使用
栗子
ToolBook
面向对象开发环境
提供一种面向对象的程序设计语言OPENSCRIPT
设计编程制作一体化环境
具有吧图形、文字、数字视频图像、声音及动画集成Wie一个交互式节目的能力
节目设计思想
按书的结构组织应用程序
脚本特点综述
以图符为基础,基于事件的创作工具
提供可视化的程序设计环境
设计之初须先用其他软件来制作各种元素
然后在此系统中建立一个流程图,在流程图当中可以包括起始事件、分支、处理及结束等各种图符
设计者可依流程图将适当的对象从所谓的图符库按下拉至工作区内。这些图符可以包括菜单条的选项、图形、图像、声音及运算等
这个流程图也是事先安排的次序,同时也表示整个节目的逻辑蓝图
Authorware
一个交互式多媒体节目创作工具,它使用图符设计流程图,无需编程,非常方便
最大特点是使用15个图符组成的界面
以时间为基础的创作工具
常见的一种多媒体编辑系统,常用于制作电影和卡通节目
大多以时间轴来决定事件的顺序与对象显示上演的时段
这种时间关系可以许多频道形式出现,以便安排多种对象同时呈现
这类系统中都会有一个控制播出的控制面板,它很像录音机、录像机的控制板,含有倒带、倒退、停止、演出及快进等按钮
Action!
结合了动作、声音、文字、图形、动画多媒体显示环境,使用时间轴来组织其元素
使用时间轴及控制面板来组织一个场景
以传统程序语言为基础的创作工具
精通编程的程序员对于多媒体编辑创作系统的限制及依赖工具箱产生对象的方式较不容易接受
这样程序员既可以用传统的语言来编写程序又可方便地使用媒体开发工具箱,使这些工具箱内的编码可以直接被采用成为重用的编码 。
Visual BASIC
提供各式的图形界面
基于事件的语言,程序的行为附着于对象,等到对象被调用或被用户引发时才被执行
Visual C++
与VB相似
其他专用的创作工具
3. 多媒体功能卡开发工具
Sound Blaster编程工具
SBK
语音输入输出
FM音乐输出
有文本生成语音
MIDI输入和输出
混音器控制
CD-ROM驱动器的声音接口
Video Blaster编程工具
VBK
DOS驱动编程接口
Windows动态链接库编程接口
MCI编程接口
4. WINDOWS多媒体开发环境
媒体控制接口MCI
MCI在控制音频、视频等设备方面,提供了与设备无关的API接口
用户应用程序可使用MCI控制标准多媒体设备
不同设备其驱动控制方式不同
影碟机直接控制目标设备
MIDI函数可使用MMSYSTEM函数间接控制目标设备
影片演播器则提供了与其他WindowsDLL的高层接口
应用程序通过设备的类型来区分设备
MCI接口分类
使用命令消息接口函数,直接控制MCI设备
命令消息接口
直接由MCI解释的命令
MCI0SYSINFO
MCI-BREAK
MCI-SOUND
由所有的MCI设备所支持的命令
MCI-CLOSE
关闭一个设备
MCI-GETDEVCAPS
MCI-INFO
MCI-OPEN
打开MCI设备的方法
用设备类型字符串指定待打开的MCI设备
用MCI设备驱动程序名指定待打开的MCI设备
用设备类型常数(见下表)指定待打开的MCI设备
仅用设备元素指定打开的复合设备
MCI-STATUS
基本命令
MCI-LOAD
MCI-PAUSE
MCI-PLAY
MCI-RECORD
MCI-RESUME
MCI-SAVE
MCI-SEEK
MCI-SET
MCI-STOP
扩展命令
对于不同的设备类型,MCI使用一组不同的扩展命令,控制此类设备特殊性能
第一组是MCI元素文件操作扩展命令组
第二组是MCI设备操作及定位扩展命令组
第三组是窗口或视频设备的扩展命令组
使用命令字符串接口函数,基于文本接口或命令脚本来控制MCI设备
命令字符串接口
3个函数
MciSendString
MciGetErrorString
MciExecute
不同之处
基本命令接口及其发送消息到设备的原理不同
命令消息接口使用消息控制MCI设备
命令字符串接口使用文本命令控制MCI设备
DirectShow
为在Windows平台上处理各种格式的媒体文件的回放、音视频采集等高性能要求的多媒体应用提供了完整的解决方案
基本模块
Filter软组件
一系列连接的Filter被称为Filter Graph
可以传递事件通知给应用程序,以便程序能对事件作出反应
数据传送模式
推模式
最典型情况在Live Source 实时源
能自己产生数据,并使用专门的线程将这些数据推下去
拉模式
最典型在File Source 文件源
靠后面的Filter来拉数据
线程
应用程序主线程
状态的改变
数据传送子线程
样本的传递
丢弃采样的处理过程称为Flushing
第四章 多媒体数据压缩技术
1. 信息表示与编码
数字化表示
传统上用模拟方式表示声音和图像信息
易出故障,常产生噪音和信号丢失,且拷贝过程中噪音和误差逐步累积
不适合数字计算机加工处理
数字化处理
巨大的数据量
采样定理
仅当采样频率>=2倍的原始信号频率时,才能保证采样后信号可被保真地恢复为原始信号
数字化处理的关键问题
数据压缩
压缩的基础
数据冗余
空间冗余
时间冗余
信息熵冗余
结构冗余
知识冗余
视觉冗余
其他冗余
彩色空间
常见空间
RGB
常见的有RGB5:5:5方式和RGB8:8:8
HSI
Hue色调
Saturation 饱和度
Intensity 光强度
YUV
Y为亮度信号
U、V为色差信号
优点是亮度和色差信号分离,容易使彩色电视系统与黑白电视信号兼容
采用双倍度采样4:2:2方案效果较好,提出CCIR601标准
YIQ
另一个常用的亮度和色差分离的模型
NTSC制式彩色空间
Y为亮度,I.Q共同描述图像的色调和饱和度
数字图像文件格式
TIF
文件头
参数指针表
参数数据表
图像数据
PCX
数据部分
文件体对像素数据采用行程长度编码
GIF、TGA、BMP、DVI、JPEG等
多媒体数据转换
不同媒体表示不同的信息标识码方式
有些媒体之间的转换是非常困难的事情,需要研究人类本身对各种媒体理解原理和解释过程
有些媒体之间的转换则相对容易,几乎不用做什么工作
2. 常用的数据压缩技术
根据解压后数据和原始数据是否完全一致,分为两类
可逆编码(无失真编码)
压缩大约在2:1到5:1之间
如Huffman编码、算术编码、行程长度编码
不可逆编码(有失真编码)
压缩比可以从几倍到上百倍来调节
如变换编码和预测编码
根据压缩原理分类
预测编码
利用空间中相邻数据的相关性来预测未来点的数据。差分脉冲编码调制(DPCM)和自适应差分脉冲编码调制(ADPCM)。
线性预测 DPCM
基本原理
基于图像中相邻像素之间具有较强的相关性,每个像素可根据已知的前几个像素来做预测
变换编码
量化与向量量化编码
信息熵编码
根据信源符号出现概率的分布特性而进行的压缩编码
基本思想
霍夫曼编码
Huffman定理
实现步骤
(1)将信源符号按概率递减顺序排列;
(6)写出每一符号的“1”、“0”序列(从树根到信源符号节点)
算术编码
子带编码
模型编码
3. 静态图像压缩标准 JPEG
多灰度连续色调静态图像压缩编码
选定ADCT作为静态图像压缩的标准化算法
为保证通用性,包含两种方式
空间方式
可逆编码
基于DPCM的无失真编码
优点
硬件易实现,重建图像质量好
缺点
压缩比太低,大约2:1
DCT方式
不可逆编码
包含基本系统(必须保证的功能)和扩展系统(扩充功能)
基于DCT的有失真压缩编码
离散余弦变换
量化处理
JPEG采用线性均匀量化器
DC系数的编码和AC系数的行程编码
DC系数的编码
DPCM
AC系数的行程编码
熵编码
JPEG建议的熵编码是Huffman编码和自适应二进制算术编码
分两步进行
把DC码和AC行程码转换为中间符号序列
给这些符号赋以变长码字
基于DCT的累进操作方式编码
两种方式
顺序方式
每个图象分量的编码一次扫描完成
累进方式
图象分量编码要经过多次扫描才完成
两种累进方式
频谱选择法
按位逼近法
基于DCT的分层操作方式
主要内容
基本系统
扩展系统
为了满足更为广阔领域的应用要求而设置的
JPEG2000
采用以小波变换为主的多分辨率编码方式
主要特点
高压缩率。
无损压缩。
预测编码作为对图像进行无损编码的成熟方法被集成在JPEG2000中;
渐进传输。
感兴趣区域压缩。
JPEG2000 支持所谓的“感兴趣区域”
4. 运动图像压缩编码标准 MPEG
面向运动图象压缩的一个系列标准
MPEG-1
分为5个部分
MPEG系统
定义音频、视频及有关数据的同步
MPEG视频
MPEG音频
定义音频数据的编码和解码
一致性测试
软件模拟
MPEG-1解码器原型
视频和音频解码器分别解码输出视频和声音信号
系统、视频、音频和介质4个解码器之间用定时信息进行同步
多路复合流构造为2层: 系统层和压缩层。系统解码输入的是系统层; 而视频、音频解码器输入的是压缩层
系统解码器执行两类操作:
系统层分为两个子层:
MPEG音频标准的特点:
压缩后的比特流可以按以下4种模式之一支持单声道或双声道:
MPEG视频数据流的结构
运动序列
图像组
图片信号
一个亮度信号Y和两个色度信号U、V。
块
一个块由一个8×8的亮度信息或色度信息组成
宏块
一个宏块由一个16×16的亮度信息和两个8×8色度信息构成
图像切片
由一个或多个连续的宏块构成
MPEG-1视频编码技术
主要问题
一方面无法达到很高的压缩比
另一方面用单一的静止帧内编码方法能最好地满足随机存取的要求。
解决方法
对这两个方面做了折衷考虑。即为了减少时间上冗余性的基于块的运动补偿技术和基于DCT变换的减少空间上冗余性的ADCT技术
将图象分为3种类型
I图象
P图象
用最近的前一个I图象(或P图象)预测编码得到(前向预测)。
B图象
运动补偿技术
主要用于消除P图象和B图象在时间上的冗余性提高压缩效率。
B图象宏块有4种类型
F块预测时其参照为前一个I图象或P图象
B块预测时其参照为后一个I图象或P图象
对于A块预测其参照为前后两个I图象或P图象
基于块的运动补偿技术
MPEG-2
它利用网络提供的3~100Mbps的数据传输率来支持具有更高分辨率图象的压缩和更高的图象质量。
与MPEG-1兼容的基础上实现了低码率和多声道扩展
5个档次
简单型Simple
基本型 Main
信噪比可调型 SNR Scalable
空间可调型 Spatial Scalable
增强型 High
4个等级
低级Low
基本级Main
72046030或72057625,它面向视频广播信号;
高1440级 High-1440
1440108030或1440115225,它面向HDTV
高级 High
1920108030或1920115225,它面向HDTV。
MPEG-2音频
基本特性之一是向后与MPEG-1音频兼容
可以是5.1也可以是7.1通道的环绕立体声
MPEG-2编码方法
MPEG-4
甚低速率视听编码
对AV对象的操作
采用AV对象来表示听觉、视觉或者视听组合内容
组合已有AV对象来生成复合的AV对象,并生成AV场景
对AV对象的数据灵活地多路合成与同步,以便选择合适的网络来传输这些AV对象数据
允许接收端用户在AV场景中对AV对象进行交互操作
主要构成部分
传输多媒体集成框架
主要用于解决交互网络中、广播环境下以及光盘应用中多媒体应用的操作问题。
通过传输多路合成比特信息来建立客户端和服务器端的连接与传输
场景描述
场景声音视频对象间的关系的描述体现在两个层次
音频编码
视频编码
MPEG-4也支持对自然和合成的视觉对象的编码
缓冲区管理和实时解码
与MPEG-1和2相比
5. 视听通信编码编码解码标准H.26X
H.261
P×64Kbps压缩算法采用基于DCT的变换编码和带有运动预测的DPCM预测编码的混合方法
视频层次数据结构
视频编码定义一个视频数据结构CIF保证解码器对接收到的比特流进行没有二义性的正确解码。
H.263
适合于低速视频信号的压缩标准
主要采用的改进技术
半象素精度的运动补偿
不受限的运动矢量
用基于句法的算术编码代替Huffman编码
可选项) 这是一种效率较高的自适应算术编码。
先进的预测模式
PB帧模式
H.264/AVC
同等质量下压缩效率比提高了2倍以上
最大的技术优势体现在4个方面
将每个视频帧分离成由像素组成的块,因此视频帧的编码处理的过程可以达到块的级别。
采用空间冗余方法,对视频帧一些原始块进行空间预测、转换、优化和熵编码。
对连续帧的不同块采用临时存放的方法,这样,只需对连续帧中有改变的部分进行编码。
采用剩余空间冗余技术,对视频帧里的残留块进行编码。如对于源块和相应预测块的不同,再次采用转换、优化和熵编码。
保留了以往压缩技术的长处又具有其它压缩技术无法比拟的许多优点
低码流
高质量的图像
容错能力强
网络适应性强
6. AVS标准
我国具备自主知识产权的第二代信源编码标准,它是数字音视频产业的共性基础标准
AVS标准具备先进性、自主性、开放性
7. 声音压缩技术
语音的基本参数
基音周期
共振峰
语音谱
声强
语音生成机构
3部分
声源
共鸣机构
放射机构
语音生成机构的数字模型
ITU语音标准化方案
16Kbps ITU语音标准化方案G.728
可视电话、数字移动通信、无绳电话、卫星通信、DCME、ISDN等范围内
约束条件是语音质量在32Kbps ADPCM的同等或以上,且编码延迟时间在5ms以下。
基于短延时码本激励线性预测编码
32Kbps ITU语音标准化方案G.721
使用ADPCM的标准
目的是最终取代现有的PCM电路传送方式。
采用算法是编码符号延迟为0的且对传送通道的误码率要求不高的ADPCM方式。
ADPCM本身采用了按每个采样点进行自适应控制的鲁棒自适应预测器。
为了提高预测精度
采用了动态对数量化器
第五章 多媒体数据库及基于内容检索
1. 多媒体数据管理
多媒体系统对数据进行有效管理
能尽量减少开发费用
提高多媒体应用程序的执行效率和运行质量
存储环境
要求
质量好
存取速度快
价格合适
4类介质
可更换的硬盘
磁带备份介质
光盘档案介质
磁盘阵列
传输环境
3种传输方法
使用可更换的介质进行人工传输。使用软盘、磁带、光盘、可更换硬盘等工具;
对多媒体数据资源的有效管理方法
文件管理系统
简历特定的逻辑目录
传统的字符、数值数据库管理系统
多媒体数据库管理系统
超文本和超媒体
2. 多媒体数据库管理系统
DBMS3中模式
物理模式
概念模式
外部模式
多媒体数据对数据库的影响
媒体种类增多增加了数据处理困难
多媒体数据库管理还有考虑版本控制的问题
MDBMS的功能要求
数据操作功能
网络功能
提供事务和版本管理功能
MDBMS的组织结构
集中型
主从型
有一个主MDBMS管理多个从MDBMS,再由从MDBMS来管理MDB
协作型
MDBMS的数据模型
数据模型的概念
三要素
数据结构
数据操作
完整性约束
扩充的关系数据模型
扩充的原因
模型扩充主要有3种策略
应用实例
3. 面向对象技术与MDBMS
面向对象的基本概念
面向对象的数据库模型
面向对象数据库系统的实现方法
不同于传统DBMS的系统整体结构
对象类层次的存储结构
存取方法和继承性的实现方法
用户定义的数据类型和方法的处理策略
必要的版本控制和友好的用户界面
面向对象的数据库系统的存储结构和存取方法
基于关系系统给的方法
更适合多媒体数据特点的存储结构和存取方法
EXODUS系统的B+树索引结构
适合多维空间对象的R+树索引结构
4. 基于内容的检索技术
相关概念
子主题
提取特征方法多种多样。如图象特征有形状、颜色、纹理、轮廓等特征。
基于内容的检索采用一种近似的匹配技术
提取媒体对象内容属性的方式一般有手工方式、自动方式和混合方式
媒体特征
音频低层特征
基音
线性预测
倒谱系数
Mel倒谱系数
高层特征
声纹
关键词
静态图像
底层特征
颜色
纹理
几何形状
灰度统计特征
人脸部特征
表情特征
物体和景物特征
视频
镜头切换类型
特技效果
摄像机运动
物体运动轨迹
代表帧
全景图
描述镜头内容的事件
文本
形状
周长
面积
位置
几何体间空间关系
检索实现方法
系统实现
有效方法
相似值
模糊值
分段化
图像内容分析及其检索
基于颜色直方图检索
基于轮廓的检索
基于纹理的检索
视频检索
MPEG-7标准
多媒体内容描述接口
数据
特征
描述子
描述值
描述模式
描述
编码的描述
描述定义语言
原则
制定最少的、最有用的
第六章 多媒体系统的数据模型
1. 多媒体系统数据模型概述
数据模型就是在计算机数据世界中建立的计算机能接受的对现实世界中所要研究对象的抽象描述
多媒体系统中的数据模型的主要任务
表示各种不同媒体数据构造及其属性特征
指出不同媒体数据之间的相互关系
多媒体数据时空关系的建模是多媒体系统研究的重要特色,这种时空关系主要由多媒体系统表现模型刻划
表现模型
多媒体表现是多媒体数据的合成再现
多媒体合成主要包括空间和时间合成
空间合成是同一表现空间域中共存的一系列媒体对象之间的空间特性、位置关系的描述
时间合成是在某一时间域内并发(包括顺序和并行)表现的一系列媒体对象之间的时序关系的描述
多媒体系统数据模型的层次结构
同步
对个对象间的时间关系的协调控制
层次
用户级同步
复合对象内部的同步
系统同步
2. 超文本系统的形式化模型
形式化描述
数学概念或类数学概念来精确定义和描述信息系统的基本特性的一种方法。
精确定义和描述
便于模型性质的分析
有利于研究新模型
指导系统实现
集合论和一阶逻辑
。。。。。
3. 信息元模型
多媒体信息元是具有一定语义的组成信息系统应用的信息子块
多媒体信息元是一个或多个媒体数据元经过一定的添加与包装而合成的超数据元
3个基本特性
(1)数据元本身的组织附加其表现属性—基本对象的内容与表现/单媒体对象的表现
(2)多个数据元的时空同步关系描述—复合对象的同步/多媒体的同步。
(3)成分之间的链接描述—基本的链接功能。
信息元的大小就是上述3项内容之和
MHEG标准
集中在以下几个方面
交互性和多媒体同步
实时表示
实时交换
对象格式交换
分两部分来完成标准化工作
第一部分是概念/原理性定义
第二部分主要是超媒体信息对象及MHEG链的表示
MH对象的分类
输出内容对象
一般输入对象
投射器对象
基本对象
合成对象
条件与动作
MHEG的同步机制
脚步同步
条件同步
空间-时间同步
4. 表现与同步模型
表现
合成
空间合成确定各种媒体在画面空间上位置变换和安排
时间合成确定媒体对象在时间上的顺序
定义
场景是各种媒体对象占用角色活动的多媒体空间表现环境。
场景表达式 由角色经场景运算而产生的结果。
时间同步模型的功能需求
表达能力
用户交互/不确定性
规约生成支持
同步模型分类
图模型
基于Petri网的模型
面向对象的模型
同步多媒体对象时间信息通过对象属性的方式来建模。
基于语言的模型
第七章 多媒体通信
1. 概述
多媒体对通信的影响
多媒体数据量
多媒体实时性
多媒体时空约束
多媒体交互性
多媒体分布式处理和协同工作要求
实现途径
话路+视频-》多媒体通信
网络+视频-》多媒体通信
有线电视+交换功能-》多媒体通信
关键技术
(1)声音、视频、动画等的传输技术;
(2)数据压缩和解压缩技术;
(3)解决多媒体实时同步问题;
(4)解决协议和标准化问题。
2. 多媒体通信系统
可视电话系统
语音处理部分
图像输入部分
图像输出部分
图像信号处理部分
可视电话控制器
(1)图象信号A/D和D/A转换
(2)帧存储器
(3)信源编码/解码
(4)信道编码/解码
(5)调制/解调
(6)转输信道
视频会议系统
视频编解码器及附属设备
音频编解码器及附属设备
信息通讯设备
多路复用/信号分离设备
用户/网路接口
多点控制设备(MCU)
系统控制部分
各会议点的多媒体终端将反映各个会场的主要场景、人物及有关资料的图象以及发言者的声音同时进行数字化压缩;
3种模式
语音激活模式,或称自动模式
主席控制模式
讲课模式
3. 多媒体网络
分组交换网X.25
ISDN
基本速率接口
基群速率接口
B-ISDN及ATM
常指其传输速率超过一次群速率的业务
交换方式
高速分组交换
高速电路交换
异步传输交换ATM
可动态分配和更有效地利用网络资源
光交换
4. 多媒体网络的QoS
多媒体信息传输对网络的要求
延时(Delay):传输延时定义为信源发出第一个比特到信宿接收到第一个比特之间的时间差
延时抖动(Delay jitter)网络传输延时的变化。
错误率(Error Rate)
误码率BER
包错误率BER
包丢失率PLR
5. 分布式多媒体系统
基本特征
多媒体集成性
资源分散性
运行实时性
操作交互性
系统透明性
协同工作4中情况
同时同地点
不同时同地点
不同时不同地点
同时不同地点
实现模型
开放分布处理参考系统
两种不同的协议
存取协议
定义用户代理和系统代理之间的相互作用
系统协议
定义两个系统代理之间的协议
层次结构
多媒体接口层
多媒体传输层
流管理层
多媒体表示层
第八章 典型的多媒体应用系统
1. 计算机支持的协同工作系统
CSCW是指在计算机支持的环境中,一个群体协作工作完成一项共同的任务。CSCW系统是为协作群体使用而设计的特殊计算机系统
协作性
有共同的工作目标即群体工作目标
群体性
群接口支持用户与系统的交互
分布性
设计人员分布在不同地点
与CSCW有关的群件
为协作群体使用而设计的特殊计算机系统
软件
服务
群体工作过程支持
分类原则
群体规模
两人或是多人
地理位置
远程或是同步
交互形式
同步或是异步
活跃领域
电子邮件系统
电子布告栏系统
群决策支持系统和电子会议室系统
多用户共同编辑系统
计算机会议系统
典型的协作模型
对话模型
基于对话模型的系统主要是消息系统
会议模型
模型特点
系统
计算机会议系统
白板系统
BBS等其他基于共享信息协同工作系统
过程模型
活动模型
分层抽象模型
活动-任务-合作抽象模型
CSCS系统实现方法
多Agent方法
定义1 软定义
Agent是具有下列特性的计算机软硬件系统
自治性
社会性
反应性
能动性
定义2 强定义
群接口方法
研究基础是用户界面管理系统(UIMS)
协作机制和通告机制
协调机制主要用于解决实时性活动中同步问题。
通告机制主要用于处理异步活动。
通信网络及控制
2. 数字视频服务系统
数字音频视频理事会(DAVIC)是国际上致力于研究数字音频视频应用和服务标准的组织
DAVIC
内容提供者系统CPS
服务提供者系统SPS
服务消费者系统SCS
CPS-SPS传输系统
SPS-SCS传输系统
VOD
视频服务器
ATM交换机
SDH传输网 宽带传输网络
ADSL复接器
机顶盒STB
协议
U-N阶段
主要完成S2流连接的建立
U-U阶段
主要完成用户(如STB)和服务器(如AS)之间S2流的交互控制及S1流的建立
VOD系统
分UN配置和UN会话两个阶段
DAVIC系统的信息流
S1流
S2流
从服务提供者系统到服务消费者系统间控制信息流,采用MPEG2 DSMCC协议。
S3流
S4流
S5流
影片点播
远程购物
0 条评论
回复 删除
下一页