文章转自：http://www.cnblogs.com/CoderTian/p/8477021.html

1.MPEG-4标准概述

与MPEG1和MPEG2标准相比，MPEG-4 更加注重多媒体系统的交互性和灵活性，主要应用于可视电话、视频会议等。
MPEG-4 标准主要包含音视频对象编码工具集和编码对象句法语言两个部分。
MPEG-4 标准的编码基于对象，便于操作和控制对象，MPEG-4 的对象操作使用户可在终端直接将不同对象进行拼接，得到用户合成图像。
MPEG-4 具有很好的扩展性，可进行时域和空域的扩展，MPEG-4 可根据带宽和误码率的客观条件，在时域或空域进行扩展。前者指在带宽允许时增加帧率带宽窄时，减少帧率，以达到充分利用带宽；后者指对图像进行采样插值，增加或减少空间分辨率。
MPEG-4 有多种算法，可根据需要选择，例如区域编码有 DCT、 SADCT、 OWT 等等。
MPEG-4 为了支持高效压缩、基于内容交互和基于内容分级扩展，以基于内容的方式表示视频数据，引入 AVO（Audio/Video Object）的概念实现基于内容的表示。

2.AVO及数据结构

AVO 基本单位是原始 AV 对象，可能是一个没有背景的说话的人，也可能是这个人的语音或背景音乐等等。它具有高效编码、高效存储传播及可交互操作的特性。MPEG-4 就是围绕 AV 对象的编码、存储、传输和组合而制定的。 MPEG-4 对 AV 对象的主要操作如下：

（1）采用 AV 对象表示音视频或其组合内容；

（2）组合已有 AV 对象，通过自然混合编码 SNHC 组织；

（3）可对 AV 对象数据多路合成和同步，以便选择合适网络传输数据；

（4）允许用户对 AV 对象进行交互操作；

（5）支持 AV 对象知识产权和保护

MPEG-4 是第一个使用户可在接收端对画面进行操作和交互访问的编码标准。在 MPEG-4 校验模型中， VO（Video Object）主要定义为画面中分割出来的不同物体，并由三类信息描述：运动信息、形状信息、纹理信息。MPEG-4 视频数据流的逻辑结构如下图所示：

VOP（Video Object Plane，视频对象平面）可看作 VO 在某一时刻的表示，即某一帧； GOV（Group of VOPs，视频对象平面组）提供视频流的标记点，标记 VOP 单独解码的时域位置，也即对视频流任意访问的标记；
VOL（Video Object Layer，视频对象层），用于扩展 VO 的时域和空域分辨率，包含 VO 的三种属性信息；
VO（Video Object，视频对象）如前所述，为场景中的某个物体，有生命期，由时间上连续的许多帧构成；
VS（Video Session，视频镜头），一个完整的视频序列由几个 VS 组成。

每个 VS 由一个或多个 VO 构成，每个 VO 可能有一个或多个 VOL 层，如基本层、增强层等，每个层是 VO 的某一分辨率表示。每个层中都有时间连续的 GOV，每个 GOV 又由一系列的VOP 构成。

3.MPEG-4标准构成

MPEG-4 提供自然和合成的音频、视频以及图形的基于对象的编码工具。类似于以前标准，MPEG-4 由若干部分组成，主要部分为系统、视频和音频。 MPEG-4 码流主要包括基本码流和系统流，基本码流包括音视频和场景描述的编码流表示，每个基本码流只包含一种数据类型，并通过各自的解码器解码；系统流则指定根据编码视听信息和相关场景描述信息产生交互方式的方法，并描述其交互通信系统。

3.1.系统

MPEG-4 系统把音视频对象及其组合复用成一个场景，提供与场景互相作用的工具，使用户具有交互能力。 MPEG-4 的系统终端模型如下图所示

（1）压缩层，执行媒体解码的系统组件。媒体是通过基本码流接口从同步层提取的。

（2）同步层，负责各个压缩媒体的同步和缓冲。它接收来自传输层的同步层包（SL），根据基本码流的时间标志进行拆包，并转发到压缩层。

（3）传输层，对已经存在的各种传输协议描述。这些协议能够用来传输和存储符合 MPEG-4标准的视听内容。

系统解码器模型包括定时模型和缓冲模型两种。如下图所示，每个基本码流都有一个单独的解码缓冲区，单个解码器可以解码多个基本码流（如扩展的视听对象解码）。

3.2.音频

与 MPEG-1、 MPEG-2 相比， MPEG-4 不仅支持自然声音（如语音和音乐），还支持合成声音（如MIDI）。 MPEG-4 音频部分将音频的合成编码和自然声音的编码相结合，并支持音频的对象特征。

1.自然声音编码

MPEG-4 支持 2Kbps～64 Kbps 的自然声音编码。如 8KHz采样频率的 2Kbps～4 Kbps 的语音编码，以及 8KHz 或 16KHz 采样频率 4Kbps～16 Kbps 的语音编码，一般采用参数编码；而 6Kbps～24 Kbps 的语音编码，一般采用码激励线性预测 CELP（CodeExcited Linear Predictive）编码技术；而从 16Kbps 以上码率的编码，则采用视频变换编码技术。

2.合成语音编码

MPEG-4 引入两个有力的编码技术：文本到语音编码（TTS， Text-to-Speech）和乐谱驱动合成编码。事实上，合成语音编码技术是一种基于知识库的参数编码。

3.3.视频

MPEG-4 支持对自然和合成视觉对象的编码。合成的视觉对象包括 2D、 3D 动画和人面部表情动画等。对于静止图像，
MPEG-4 采用零树小波算法（Zerotree Wavelet Algorithm），以提高压缩比，同时还提供多达 11
级的空间分辨率和质量的可伸缩性。对于运动视频对象的编码， MPEG-4 采用了如下图所示编码框图，以支持对象的编码。

MPEG-4 相对 MPEG-1、 MPEG-2 而言，编码效率显著提高除了因为基于内容的性质外，还因为引入了以下的编码工具。

DC 预测，可选择当前块的前一块或者后一块作为当前 DC 值
AC 预测， DCT 系数的 AC 预测在 MPEG-4 中是新的。选择用来预测 DC 系数的块也用于预测一行 AC 系数。AC
预测对于具有粗糙纹理、对角边缘或水平以及垂直边缘的块效果不佳。在块级切换 AC 预测的通断是所希望的，但这代价太大，一般在宏块级作出
交替水平扫描，这种扫描被添加到 MPEG-2 的两种扫描中。 MPEG-2 的交替扫描在 MPEG-4中被称为交替垂直扫描
三维 VLC， DCT 系数编码与 H.263 类似
四个运动矢量，允许宏块的四个运动矢量，与 H.263 类似
无约束运动矢量，与 H.263 相比，可以使用宽得多的±048 像素的运动矢量范围
子图形，子图形基本上是一个传输到解码器的大背景图像，为了显示，编码器传送该图像的一部分并映射到屏幕上仿射映射参数。通过改变映射，解码器可以放大和缩小子图形，以及向左或向右。
全局运动补偿，为了补偿由于摄像机运动、摄像机变焦或者大运动物体引起的全局运动，按照下列公式的八参数运动模型进行补偿：

全局运动补偿有助于改善最挑剔的场景中的图像质量

四分之一像素运动补偿，主要目的是以小的语法和计算上代价来提高运动补偿的分辨率，得到更精确的运动描述和较小的预测误差。四分之一像素运动补偿只用于亮度像素，色度像素则是用半像素精度运动补偿。

1.基于VOP的编码

某一时刻 VO 以 VOP 的形式出现，编码也主要针对这个时刻 VO 的形状、运动、纹理这三类信息进行。

形状编码：相对以前标准而言， MPEG-4 第一次引入形状编码的压缩算法。编码的形状信息有两种：二值形状信息（Binary Shape Information）和灰度级形状信息（Grey Scale Shape Information）。二值形状信息为用 0、 1 的方式表示编码 VOP 形状， 0 表示非 VOP 区域， 1 表示 VOP 区域；灰度级形状信息可取值 0～255， 0 表示非 VOP 区域（即透明区域）， 1～255 表示透明度不同的区域， 255 表示完全不透明。灰度级形状信息的引入主要为了使前景物体叠加到背景上时，边界不至于太明显、生硬，进行“模糊”处理。MPEG-4 采用位图法表示这两种形状信息。 VOP 被一个“边框”框住，如下图所示

位图表示法实际就是一个边框矩阵，取值为 0～255（或 0、1），编码变为对该矩阵的编码。矩阵倍分为 16×16
的形状块，允许进行有损编码，这要通过对边界信息子采样实现，同时允许使用宏块运动矢量作形状块的运动补偿。为了得到语义上更方便的描述，以支持基于内容的操作，
MPEG-4 还引入基于上下文的算术编码。

运动估计和运动补偿：类似于以前的压缩标准（MPEG-1、 H.263 等）的三种帧格式： I、 P、 B， MPEG-4 的 VOP 也有三种相应的帧格式： I-VOP、 P-VOP、 B-VOP，表示运动补偿类型的不同。运动估计和补偿可以基于宏块，也可基于块。

纹理编码：纹理信息可能有两种：内部编码的 I-VOP 像素值和帧间编码的 P-VOP、 B-VOP 的运动估计残差值。 MPEG-4 采用基于分块的纹理编码， VOP 边框仍分为 16×16 的宏块。

2.VOP编解码结构框图

VOP 编解码器主要由两部分组成：形状编解码和传统运动纹理编解码。重构的 VOP 由形状、纹理和运动信息正确组合而成

MPEG-4 压缩编码标准的更多相关文章

5.MPEG-4 压缩编码标准
1.MPEG-4标准概述与MPEG1和MPEG2标准相比,MPEG-4 更加注重多媒体系统的交互性和灵活性,主要应用于可视电话.视频会议等. MPEG-4 标准主要包含音视频对象编码工具集和编码对象 ...
M-JPEG和MPEG-4的区别 M-JPEG VS MPEG
http://blog.sina.com.cn/s/blog_4b357b300100gre9.html M-JPEG VS MPEG http://blog.csdn.net/bluesky_sun ...
视频基础知识：浅谈视频会议中H.264编码标准的技术发展
浅谈视频会议中H.264编码标准的技术发展浅谈视频会议中H.264编码标准的技术发展数字视频技术广泛应用于通信.计算机.广播电视等领域,带来了会议电视.可视电话及数字电视.媒体存储等一系列应用,促 ...
流媒体 5——MPEG声音
1. 听觉系统的感知特性: MPEG声音的数据压缩和编码不是依据波形本身的相关性和模拟人的发音器官的特性,而是利用人的听觉系统的特性来达到压缩声音数据的目的,这种压缩编码称为感知声音编码. 许多科学工 ...
HTML5视频Video 音频Audio
视频协议视频格式 Flash HTML5 HTTP flv HTTP f4v HTTP mp4 HTTP m3u8 HTTP webm HTTP ogg RTMP flv RTMP f4v RTMP ...
【如何快速的开发一个完整的iOS直播app】(原理篇)
原文转自:袁峥Seemygo 感谢分享.自我学习目录 [如何快速的开发一个完整的iOS直播app](原理篇) [如何快速的开发一个完整的iOS直播app](播放篇) [如何快速的开发一个完整的 ...
各种音视频编解码学习详解 h264 ，mpeg4 ，aac 等所有音视频格式
编解码学习笔记(一):基本概念媒体业务是网络的主要业务之间.尤其移动互联网业务的兴起,在运营商和应用开发商中,媒体业务份量极重,其中媒体的编解码服务涉及需求分析.应用开发.释放 license收费等 ...
iOS：app直播---原理篇
[如何快速的开发一个完整的iOS直播app](原理篇) 转载自简书@袁峥Seemygo:http://www.jianshu.com/p/7b2f1df74420 一.个人见解(直播难与易) 直播 ...
H.264码流结构解析
from:http://wenku.baidu.com/link?url=hYQHJcAWUIS-8C7nSBbf-8lGagYGXKb5msVwQKWyXFAcPLU5gR4BKOVLrFOw4bX ...

随机推荐

ExtJs 3 自定义combotree
ExtJs 3 自定义combotree /** * 自定义下拉树,支持初始化值时自动定位树节点. * 还没有考虑性能问题.继承自Ext.form.ComboBox也很浪费. * 代码中的cu.get ...
EXTJS下拉树ComboBoxTree参数提交及回显方法
http://blog.csdn.net/wjlht/article/details/6085245 使用extjs可以构造出下拉数,但是不方便向form提交参数,在此,笔者想到一个办法,很方便Com ...
The differentiation program with abstract data
#!r6rs ( import ( rnrs base ( 6 ) ) ( rnrs io simple ( 6 ) ) ) ( define ( deriv exp var ) ...
Qt Creator的下载、安装及试用
1.试用环境及版本介绍:本文介绍的是windows桌面平台下使用Qt4.7.2和Qt Creator2.1.0,其他操作系统和版本在阅读时请留意. 2.下载: 从http://get.qt.nokia ...
java string（2）
1. indexOf()函数是一个执行速度非常快的函数,可以用其与subString()实现高效的字符串分割,比内置的要高效. 2. charAt()方法也是高效率的函数,可以用其实现高效的start ...
查看系统自带的RPM
我在home目录下创建了目录mei 1.管理员权限 su 2.进入mei目录 cd /home/mei 3.创建cdrom目录作为挂载点 mkdir cdrom 4.把目录 /dev/cdrom-hd ...
高级需求分析UML建模设计模式笔记
1.REQ->HLR 分析全系统性质->AD设计 Context,BOM,Conception 2.REQ->LLR 分析模块分析->DD设计 + 编码 Feature,B ...
mysql中避免使用保留字和关键字做列的名字
设计数据表时,应尽量避免使用MySQL的关键字和保留字作为表名或列名. 比如key和keys为保留字,如果不小心使用关键字或者保留字作为列名字,执行下面的语句会出现语法错误: select * fro ...
Page的ResolveClientUrl与ResolveUrl读取路径
Page的ResolveClientUrl与ResolveUrl读取路径 . 一.Page对象的ResolveClientUrl与ResolveUrl Page.ResolveClientUrl(): ...
iOS:Xcode的beta下编译低版本项目时，出现的Link错误( "_fwrite$UNIX2003", referenced from:)
开发的项目多了,对于一个i386的错误,处理起来应该是得心应手的,可是仔细看来,跟之前遇到i386的错误还不大一样,直接搜i386是搜不到该问题解决的方法,你要是搜“Undefined symbols ...

MPEG-4 压缩编码标准