文档介绍：第2章多媒体信息处理的必要性和可行性
多媒体信息的特点
信息压缩的必要性
信息压缩的可行性
数据压缩技术的性能指标
练习与思考题
多媒体信息的特点
要对多媒体信息进行处理就必须了解多媒体信息的基本特征。多媒体信息主要有三个特征:
(1) 数据量庞大: 和文本信息相比, 语音、图像的信息量就显得十分庞大。例如, 用生动的语音表达和文本文字相同的一段内容, 语音所需要的数据量要比文本大10倍以上。若要用图像来大体表示同样的意思, 则图像所需要的数据量又不知道要大多少倍了。
(2) 码率可变、突发性强: 代表多媒体信息的数据流其码率是随着不同的信息内容、所处的不同时间而不断变化的。人们讲话时的停顿、所传场景图像中物体的运动等都会形成码流速率的波动, 而且这种波动往往呈现出极强的突发性。再加上采用了种种信息压缩编码的方法, 就更加剧了这种变化。
(3) 复合性信息多, 同步性、实时性要求高: 多媒体通信系统中传输的往往是两种或两种以上媒体的复合信息, 各类信息之间存在着很强的关联, 因此, 对信息传输的同步性及实时性的要求也就相当高了。
信息压缩的必要性
多媒体信息的压缩技术是多媒体通信领域中的关键技术之一, 不能对多媒体数据进行有效的压缩, 就难以保证通信的顺利进行。
以一般彩色电视信号为例, 设代表光强、色彩和色饱和度的YIQ空间中各分量的带宽分别为4 MHz、 MHz。根据采样定理, 仅当采样频率大于或等于2倍的原始信号的频率时, 才能保证采样后的信号可被保真地恢复为原始信号。
再设各样点均被数字化为8 bit, 从而1秒钟的电视信号的数据量为
(4++)× 2 × 8 bit = Mbit
因而一张640 MB容量的CD[CD*2]ROM能够存放的原始电视数据(每字节附有2位校验位)为
640×8/[×(1+)]=44 s
也就是说, 一张普通光盘只能存放44 s的原始数据。
很显然, 电视信号数字化后直接保存的方法是难以令人接受的, 因而必须采取某些措施进行保存, 例如, 对图像数据进行压缩后再保存。
我们再来看看语音信号的数据量, 人在正常说话时的音频一般在200 Hz~ kHz, kHz。同样依据采样定理, 并设数字化精度为8 bit, 则每秒的数据量为
kHz×2×8= kbit
在上述采样条件下讲一分钟话的数据量约为400 kbit。
-1列出了支持语音、图像、视频等多媒体信号高质量存储和传输所必需的未压缩速率以及信号特性。
-1 各种信号的特性和未压缩速率
-1可以看出: 未进行任何形式编码和压缩的窄带语音信号需要128 kb/s的速率, 即两倍于普通电话的速率。信号未被压缩的宽带话音需要256 kb/s的速率, Mb/s的速率。在保持原始信号质量的前提下, 窄带语音可以压缩到4 kb/s(30∶1的压缩比), 宽带话音可以压缩到约16 kb/s(15∶1的压缩比), CD音频可以压缩到64 kb/s(22∶1的压缩比)。
显然, 对于多媒体处理系统所要求的语音与音频、图像、视频、文本、数据的结合, 信号进行有效的存储和传输之前, 必须进行处理, 而最关键的处理方法是进行数据压缩。多媒体信息压缩技术的对象主要是视频、音频和文本信息这三大类。例如, 现代数字压缩技术可以对多数图像实现大于100∶1的压缩比, 而质量没有重大损失。
信息压缩的可行性
数据中通常包含很大的冗余, 数据的大小与所携带的信息量的关系由下式给出:
 I=D-r (-1)
其中, I、 D、 r分别为信息量、数据量与冗余量。以存储一本200万字的中文百科全书为例, 每个汉字以2字节计算, 该书的数据量为4 MB。我们只要使用后面介绍的Huffman算法, 就可简单地将大约2 MB左右的冗余数据寻找出来并压缩掉, 这样就可以节省出2 MB的存储空间。