MPEG
动态影像专家小组(英语:Moving Picture Experts Group,简称MPEG)[1]为一源自国际标准化组织 (ISO) 与国际电工委员会 (IEC) 等国际组织的工作小组,成立于1988年,有超过300名专家一起制定影音压缩及传输的规格标准。MPEG的官方正式命名为ISO/IEC JTC 1/SC 29/WG 11 – Coding of moving pictures and audio (ISO/IEC Joint Technical Committee 1, Subcommittee 29, Working Group 11)。
MPEG相关标准
该小组开发的第一个标准,为MPEG-1,是以大约1.5 Mbit/s的比特率对音视频信号进行编码。这源于1988年一种日渐明朗的前瞻性视野,即将视频信号存储在光碟上,且其质量可以媲美VHS录像带。至目前为止,已有以下和视频相关的标准:
- MPEG-1:第一个官方的视频音频压缩标准,包含5个部分的标准。前三部分依序是系统,视频和音频。随后在Video CD中被采用,其中的音频压缩的第三级(MPEG-1 Layer 3)简称MP3,成为比较流行的音频压缩格式。
- MPEG-2:广播质量的视频、音频和传输协议。被用于无线数码电视-ATSC、DVB以及ISDB、数码卫星电视(例如DirecTV)、数码有线电视信号,以及DVD视频光碟技术中。
- MPEG-3:原本目标是为高清晰度电视(HDTV)设计,随后发现MPEG-2已足够HDTV应用,故MPEG-3的研发便中止。
- MPEG-4:2003年发布的视频压缩标准,主要是扩展MPEG-1、MPEG-2等标准以支持视频/音频物件(video/audio "objects")的编码、3D内容、低位元率编码(low bitrate encoding)和数码版权管理(Digital Rights Management),其中第10部分由ISO/IEC和ITU-T联合发布,称为H.264/MPEG-4 Part 10。
- MPEG-7:MPEG-7并不是一个视频压缩标准,它是一个多媒体内容的描述标准。
- MPEG-21:MPEG-21是一个正在制定中的标准,它的目标是为未来多媒体的应用提供一个完整的平台。
MPEG建立的压缩流程
MPEG如何在不影响画质的情况下大幅度减少数据呢?实际上,电视和电影画面中的移动错觉是通过快速连续显示一系列仍然的图片,每张图片与前一张稍有变化来创造的。我们无法检测个别的图片 - 我们的大脑将这些动作“平滑化”。傻瓜型模拟电视画面发送每一部分的每一张图片,但数码的MPEG视频更聪明。它会检查两张图片并找出在两者之间有多少部分是相同的。由于图片从一张到下一张变化不大,因此有很多重复的部分。重复的部分不需要被保存或发送,因为它们已经存在于前一张图片中。这些部分可以被抛弃。数码视频也包含我们的眼睛看不见的成分,所以这些也可以被抛弃,以下是技术流程。
MPEG(通常指MPEG-1)影像编码是基于变换的有损编码。光学信号线经过采样形成视频信号,视频信号基本的单位叫做帧,一个帧就是一个独立的图像,然后,这些帧会被进一步分割成称为宏块(macroblocks)的小块,进行后续的编码处理。首先,这些宏块会经过色彩空间转换与色差资讯的二次取样,再来,进行离散余弦变换(DCT)然后量化,经过量化后,DCT块中的系数会经过Z字扫描,最后进行运行长度编码(RLE)与熵编码。
色彩空间转换与色差资讯的二次取样
在影片压缩前,将RGB格式的画面转换成YCbCr格式,然后对色差信号进行二次取样。这个步骤根据人眼对亮度变化比对色彩变化更敏感的特性,降低了色差通道的采样率,从而达到更有效的压缩。
离散余弦变换 (DCT)
离散余弦变换是一种将帧中的空间资讯转换成频率资讯的过程。DCT可以将影像从空间域转换到频率域,并且大部分能量会集中在低频区域,这使得高频区域的细节(通常人眼不太能感知)可以被更加有效地压缩。
在MPEG-1中,使用8*8的DCT(离散余弦变换)。利用此变换,可以将一个8x8的像素块转换为另一个8x8的块。一般来说,大部分的能量(值)都集中在左上角。经过量化后的变换矩阵,这个矩阵中的大部分数据可能为零,然后使用Z字扫描和运行长度编码 (RLE)可以实现高压缩比。
量化
量化是一种降低资料精度的过程,用于进一步压缩资料。在量化过程中,离散的数字信号被转换为有限数量的可能值。
Z字扫描和运行长度编码 (RLE)
在离散余弦变换后,我们通常会得到一些零和非零的系数。Z字扫描是一种策略,将2维矩阵转换为1维序列,然后运行长度编码 (RLE) 被用来编码这些连续的零,以达到压缩的目的。
MPEG压缩是一种将影片压缩为更小的大小,但仍保留相对较高的视觉质量的过程。MPEG压缩使用三种不同的帧类型:I、P、和B帧。
I、P、B 帧
- I 帧(Intra frames):这些帧是自我含有的,即它们不参考任何其他帧,因此可以被视为是静态的图像。他们的压缩方式与JPEG压缩架构类似。
- P 帧(Predictive frames) 和 B 帧(Bidirectional frames):这两种帧类型都依赖于其他帧,以达到更高的压缩率。他们透过动态预测,对参考帧与当前帧进行差分编码,再透过动态补偿技术,以去除时间上的冗余资讯,最后使用JPEG压缩架构进行压缩。
多层化标头和MPEG文件
在MPEG压缩流程的最后,压缩过的帧资料会被组织成多个层次,每一层包含不同种类的资讯,如同步码、时间码等,并加上一个标头,以建立成一个MPEG文件。这个文件可以被解码器正确的解读,以还原成原始的影片。
这样的压缩策略,使得MPEG格式能高效的压缩影片,并确保在压缩后仍保有足够的质量,适合进行网络传输或存储。
MPEG-1、MPEG-2、MPEG-4实际上采用了的动量估计和动量补偿技术。在利用了动量补偿的帧(图像)中,被编码的是经过动量补偿的参考帧与当前图像的差异。与传统影像编码技术不同,MPEG不是对每格影像进行压缩,而是以一秒时段作为单位,将时段内的每一格影像进行比较,由于一般视频内容的背景变化较小、主体变化较大,MPEG技术就应用这个特点,以一幅影像为主图,其余影像格只记录参考资料及变化数据,从而更有效地记录动态影像。从MPEG-1到MPEG-4,其核心技术仍然离不开这个原理,之间的差异主要体现在比较的过程和分析的复杂性等。
MPEG只规定位元流的格式与解码精确度(即规定解码的方法),而任何人可依照MPEG标准以不同方式实现编码器(程序)。除了可减少因编码专利造成的商业利益纠纷外,MPEG标准的主要目的在于确保不同的编码器所产生的位元流可被其他解码器正确的解码,只要此位元流符合标准。
参见
参考文献
- ^ Reader, Cliff. MPEG Patents. MPEG Video Compression Standard. Boston, MA: Springer US. 1997: 357–362. ISBN 978-1-4899-4589-1.