
MPEG4 是一个庞大的有关交互多媒休编码 与通信的标准, 目前已出台的委员会草案CD, 多达上千页。我们重点概述了AV 对象的编码技术。
1 多媒体传送集成框架DMIF
DMIF 主要解决交互网络中、广播环境下以及磁盘中多媒体 应用的操作问题, 通过传输多路合成比特信息, 建立客户端和服 务器端的握手和传输。与过去不同的是, 由于MPEG4 码流中, 包 括许多的AV 对象, 一般而言, 这些AV 对象都有各自的缓冲器, 而不仅仅是视频缓充器和音频缓充器。
2 语法描述
MPEG4 定义了一个句法描述语言来描述AV 对象比特流表 示和场景描述信息。这个句法描述语言是对C++的扩展, 不仅易 于表达其AV 对象特性, 而且也易于软件仿真实现与模型验证。与 MPEG4 相比, MPEG1 和MPEG2 则采用一种类C 语言的描述, MPEG4 描述语言反映了面向对象技术来描述对象。
3 音频对象的编码
视频音频的压缩编码自然仍是MPEG4 的核心所在。不过, 与 以前的MPEG1、MPEG2 不同的是:MPEG4 不仅支持自然的声音 ( 如语音和音乐) , 而且支持基于描述语言的合成声音( 如MIDI 之类) 。而且, 支持音频的对象特征。即一个场景中, 同时有人声和背景音乐, 它们也许是独立编码的音频对象。
1.1 自然声音编码
MPEG4 研究比较了现有的各种音频编码算法, 支持2~64K的自然声音编码。如8KHz 采样频率的2~4Kbps 的语音编码, 以及8KHz 或16KHz 采样频率4~16Kbps 的音频编码, 一般采用参数编码; 6~24Kbps 的语音编码, 一般采用码激励线性预测CELP (Code Excited Linear Predicitive) 编码技术; 16Kbps 以上码率的编 码, 则可采用时频(T/F)变换编码技术。这些技术实质上借鉴了已 有的音频编码标准如G723、G728 以及MPEG1 和MPEG2 等。图1 是MPEG4 的可伸缩自然音频编码器示意图, 包括三种编码技术。
图1 通用MPEG4 音频编码方框图
1.2 合成声音
在合成声音编码当中, MPEG4 引入了两个极有吸引力的编码技术: 文本到语音(Text- to- Speech)编码和乐谱驱动合成编码技术。这为网络上低比特率下交互的带有语音的游戏铺平了道路。事实上, 合成声音编码技术即是一种基于知识库的参数编码。
4 视觉对象的编码
同样, MPEG4 也支持对自然和合成的视觉对象编码。合成的视觉对象如2D、3D 动画, 人的面部表情动画等, 这些合成图像单独编码, 不仅可有效压缩, 而且还便于操作。对自然视觉对象的编码, 也是MPEG4 的重点。比对于静止图像, MPEG4 采用零树小波算法(Zerotree WAV eletalgorithm)以提供高压缩比, 同时还提供多达11 级的空间分辨率和质量的可伸缩性。对于运动视频对象的编码, MPEG4 采用了如图2 所示的编码框图, 以支持图象的编码。