MPEG音频和AC-3可以将非常高质量的音频信息记录在直径12cm的CD光盘上,是VCD和DVD的主要技术之一。从MPEG音频和AC-3开始,出现了各种高效率音频编码技术,这在应用广泛的音频媒体中兴起了一场大变革。本文以MPEG音频和AC-3为重点,介绍这些音频编码技术。
高效率音频编码的机制
CD以44.1kHz的采样速率、广播机器如DAT用48kHz采样速率进行PCM编码。CD以16bit/样本的精度进行编码(量化),因而比特率为每个通道44.1k×16=705.6kbps。如果用最新的音频编码技术,则可以在保持同等音质的前提下,用64kbps~128kbps速率编码。如果以44.1k样本/秒来计算,这就相当于每1个样本(采样值)1.5bit,以这么低的平均信息量能达到接近于CD的高音质,的确令人惊讶。
一般来说,数据压缩有两种方法。一种方法是利用信号的统计性质,完全不丢失信息的高效率编码法,称为平均信息量编码或熵编码(entropycoding)。第二种方法是利用接收信号的人的感觉特性,省略不必要的信息,压缩信息量,这种方法称为感觉编码(perceptualcoding)。
因为熵编码可通过解码完全再现编码前的数据,故应用范围广泛,例如可用于磁盘压缩、文件压缩等,在保存信息方面,完全不用担心劣化。不过遗憾的是,仅依靠熵编码不能将音频信号进行大幅度的数据压缩。这是因为在音频信号中会有白噪声信号,这种完全随机的信号,根据信息论是决不能用熵编码进行压缩的。因此在音频压缩中,必须同时采用感觉编码。
音频信号的感觉编码是利用听觉心理特性。这种特性很早以前就进行过研究,不过可以说只是由于DSP(数字信号处理器)的进步,才以音频编码的形式开花结果。典型的听觉心理特性有图1所示的频率特性(左)和时间特性(右)。图1中绝对可闻阈是指寂静时听觉可听到的最低音量,噪声A可闻,但噪声C因在绝对可闻阈以下,故听不到。另外,即使在郊外寂静的室内,也有图中所示的30~40dB的噪声,故如果没有实验用的消声室,绝对可闻阈是无法测量的。
如图1左图所示,当有黑线所示的某频率信号存在时,靠近它的本来可以听见的噪声B就变得听不见了,这种现象叫做频率掩蔽效应。而如右图所示,当某时刻有黑线所示的信号存在时,位于其后面的比它小一些的本来可听见的噪声E也变得听不见了,这种现象称为时间掩蔽效应。这些两种效应合成的结果,就形成了实际的可闻阈。
图2为一般音频编码的方框图。首先利用掩蔽效应对输入信号进行时间―频率变换,然后像图3所示的那样,将原信号①分解成基本波形的叠加②,再变换成对应于频率、时间方框的系数列③(子带样本)。这些系数可用逆变换完全可以恢复为原来的波形。这种变换本身完全没有数据压缩效果,也不引起信号劣化。接着,通过听觉心理模型、比特分配和量化,对图4所示的每个频率方框进行最佳比特分配。这可以粗略地理解为在PCM线性编码的情况下,在相当于图4所示的曲线范围内完全用比特填满,而在高效音频编码情况下,则仅在图中的长方形部分内分配比特。从数学上讲,矩形上半部相当于熵编码,下半部相当于感觉编码。因此这种编码方式可能达到的压缩比就相当于矩形部分与曲线图全体的面积比。
MPEG音频和AC-3不仅用于VCD和DVD,而且在各种领域被用作下一代音频格式。现在介绍这些格式完成的经过及其特征。
1.MPEG音频
MPEG当初只研究了视频方式的标准化,但考虑到欧洲要进行的数字音频广播(尤利卡计划)等,对音频编码也同时进行了标准化。1993年,MPEG视频标准化和音频的国际标准化同时完成。标准化的MPEG音频格式可将原信号信息量压缩到1/6以下。现在MPEG音频和MPEG视频一起已成为VCD、CD-I、多媒体、PC的必备功能。与此同时,MPEG音频在加拿大和欧洲还用于数字音频广播标准等,获得了很大的成功,现已得到广泛应用。
MPEG音频将输入信号分割成32个子带(层Ⅲ是576字节),根据听觉心理模型适当地进行比特分配,由此即可用128kbps~384kbps的比特率将立体声Hi-Fi音频信号编码。根据用途不同还准备了层Ⅰ、层Ⅱ、层Ⅲ三个层(编码模式),层Ⅱ是最常用的。
本文章更多内容:1 - 2 - 下一页 |