複製鏈接
請複製以下鏈接發送給好友

MPEG-4

鎖定
MPEG4於1998年11月公佈,原預計1999年1月投入使用的國際標準MPEG4不僅是針對一定比特率下的視頻音頻編碼,更加註重多媒體系統的交互性和靈活性。MPEG專家組的專家們正在為MPEG-4的制定努力工作。MPEG-4標準主要應用於視像電話(Video Phone),視像電子郵件(Video Email)和電子新聞(Electronic News)等,其傳輸速率要求較低,在4800-64000bits/sec之間,分辨率為176X144。MPEG-4利用很窄的帶寬,通過幀重建技術,壓縮和傳輸數據,以求以最少的數據獲得最佳的圖像質量。
外文名
MPEG-4
發佈時間
1998年11月

MPEG-4產品簡介

MPEG-1MPEG-2相比,MPEG-4的特點是其更適於交互AV服務以及遠程監控MPEG-4是第一個使你由被動變為主動(不再只是觀看,允許你加入其中,即有交互性)的動態圖像標準,它的另一個特點是其綜合性。從根源上説,MPEG-4試圖將自然物體與人造物體相溶合(視覺效果意義上的)。MPEG-4的設計目標還有更廣的適應性和更靈活的可擴展性。
MPEG全稱是Moving Pictures Experts Group,它是“動態圖象專家組”的英文縮寫,該專家組成立於1988年,致力於運動圖像及其伴音的壓縮編碼標準化工作,原先他們打算開發MPEG1、MPEG2、MPEG3和MPEG4四個版本,以適用於不同帶寬和數字影像質量的要求。
MPEG-4 電子產品(高清數字機頂盒) MPEG-4 電子產品(高清數字機頂盒)
目前,MPEG1技術被廣泛的應用於VCD,而MPEG2標準則用於廣播電視和DVD等。MPEG3最初是為HDTV開發的編碼和壓縮標準,但由於MPEG2的出色性能表現,MPEG3只能是死於襁褓了。而我們今天要談論的主角——MPEG4於1999年初正式成為國際標準。它是一個適用於低傳輸速率應用的方案。與MPEG1和MPEG2相比,MPEG4更加註重多媒體系統的交互性和靈活性。下面就讓我們一起進入多彩的MPEG4世界

MPEG-4標準

MPEG-4標準目前分為27個部分,統稱為ISO/IEC14496國際標準。 [1]  各部分的內容描述如下:
第一部分(ISO/IEC 14496-1),系統:描述視頻和音頻數據流的控制、同步以及混合方式(Multiplexing, MUX)。
第二部分(ISO/IEC 14496-2),視頻:定義了對各類視覺信息(包括自然視頻、靜止紋理、計算機合成圖形等等)的編解碼器。該部分採用了國際電聯ITU的技術建議H.263,故業界亦稱該部分為H.263。
第三部分(ISO/IEC 14496-3),音頻:定義了對各種音頻信號進行編碼編解碼器的集合,包括AAC(Advanced Audio Coding)。
第四部分(ISO/IEC 14496-4),一致性:定義了對本標準其他的部分進行一致性測試方法。
第五部分(ISO/IEC 14496-5),參考軟件:提供了用於功能演示的軟件。
第六部分(ISO/IEC 14496-6),多媒體傳輸集成框架。
第七部分(ISO/IEC 14496-7),優化的參考軟件:在第五部分的基礎上提供了優化示例。
第八部分(ISO/IEC 14496-8),IP網絡傳輸:定義了在IP網絡上傳輸MPEG-4內容的格式。
第九部分(ISO/IEC 14496-9),參考硬件:提供了用於實現本標準功能的硬件設計方案。
第十部分(ISO/IEC 14496-10),高級視頻編碼AVC(Advanced Video Coding):定義了更高級的視頻編解碼器。該部分採用了國際電聯ITU的技術建議H.264,故業界亦稱該部分為H.264。
第十一部分(ISO/IEC 14496-11),場景描述與應用引擎。
第十二部分(ISO/IEC 14496-12),基本媒體文件格式。
第十三部分(ISO/IEC 14496-13),知識產權管理和保護的拓展。
第十四部分(ISO/IEC 14496-14),視頻文件格式:在第十二部分的基礎上定義了視頻內容的存儲格式。
第十五部分(ISO/IEC 14496-15),AVC文件格式:在第十二部分的基礎上定義了AVC視頻內容的存儲格式。
第十六部分(ISO/IEC 14496-16),動畫框架擴展。
第十七部分(ISO/IEC 14496-17),同步文本字幕格式。
第十八部分(ISO/IEC 14496-18),字體壓縮和流媒體傳輸。
第十九部分(ISO/IEC 14496-19),合成信息流。
第二十部分(ISO/IEC 14496-20),簡單場景描述。
第二十一部分(ISO/IEC 14496-21),用於渲染的MPEG-J拓展。
第二十二部分(ISO/IEC 14496-22),開放字體格式。
第二十三部分(ISO/IEC 14496-23),符號化的音樂描述。
第二十四部分(ISO/IEC 14496-24),音頻與系統的交互定義。
第二十五部分(ISO/IEC 14496-25),3D圖形壓縮模型。
第二十六部分(ISO/IEC 14496-26),音頻一致性檢查。
第二十七部分(ISO/IEC 14496-27),3D圖形一致性檢查。

MPEG-4目標

一)、 低比特率下的多媒體通信;
二)、 是多工業的多媒體通信的綜合。
據此目標,MPEG4引入AV對象(Audio/Visual Objects),使得更多的交互操作成為可能。
MPEG-4是為在國際互聯網絡上或移動通信設備(例如移動電話)上實時傳輸音/視頻訊號而制定的最新MPEG標準,MPEG4採用Object Based方式解壓縮,壓縮比指標遠遠優於以上幾種,壓縮倍數為450倍(靜態圖像可達800倍),分辨率輸入可從320×240到1280×1024,這是同質量的MPEG1和MJEPG的十倍多。
MPEG4使用「圖層」(layer)方式,能夠智能化選擇影像的不同之處,是可根據圖像內容,將其中的對象(人物、物體、背景)分離出來分別進行壓縮,使圖文件容量大幅縮減,而加速音/視頻的傳輸,這不僅僅大大提高了壓縮比,也使圖像探測的功能和準確性更充分的體現出來。
網絡傳輸中可以設定MPEG4的碼流速率,清晰度也可在一定的範圍內作相應的變化,這樣便於用户根據自己對錄像時間、傳輸路數和清晰度的不同要求進行不同的設置,大大提高了系統使用時的適應性和靈活性。也可採用動態幀測技術,動態時快錄,靜態時慢錄,從而減少平均數據量,節省存儲空間。而且當在傳輸有誤碼或丟包現象時,MPEG4受到的影響很小,並且能迅速恢復。
MPEG4的應用前景將是非常廣闊的。它的出現將對以下各方面產生較大的推動作用:數字電視、動態圖像、萬維網(WWW)、實時多媒體監控、低比特率下的移動多媒體通信、於內容存儲和檢索多媒系統、Internet/Intranet上的視頻流與可視遊戲、基於面部表情模擬的虛擬會議DVD上的交互多媒體應用、基於計算機網絡的可視化合作實驗室場景應用、演播電視等。
當然,除了MPEG 4外,還有更先進的下一個版本MPEG 7,準確來説,MPEG-7並不是一種壓縮編碼方法,而是一個多媒體內容描述接口。繼MPEG4之後,要解決的矛盾就是對日漸龐大的圖像、聲音信息的管理和迅速搜索。MPEG 7就是針對這個矛盾的解決方案。MPEG7力求能夠快速且有效地搜索出用户所需的不同類型的多媒體材料。預計這個方案於2001年初最終完成並公佈。按照以往MPEG-4的經驗,MPEG-7起碼要再過兩年才能進入實際應用階段。

MPEG-4優點

(1)基於內容的交互性
MPEG-4提供了基於內容的多媒體數據訪問工具,如索引、超級鏈接、上傳、下載、刪除等。利用這些工具,用户可以方便地從多媒體數據庫中有選擇地獲取自己所需的與對象有關的內容,並提供了內容的操作和位流編輯功能,可應用於交互式家庭購物,淡入淡出的數字化效果等。MPEG-4提供了高效的自然或合成的多媒體數據編碼方法。它可以把自然場景或對象組合起來成為合成的多媒體數據。
(2)高效的壓縮性
MPEG-4基於更高的編碼效率。同已有的或即將形成的其它標準相比,在相同的比特率下,它基於更高的視覺聽覺質量,這就使得在低帶寬的信道上傳送視頻、音頻成為可能。同時MPEG-4還能對同時發生的數據流進行編碼。一個場景的多視角或多聲道數據流可以高效、同步地合成為最終數據流。這可用於虛擬三維遊戲、三維電影、飛行仿真練習等。
(3)通用的訪問性
MPEG-4提供了易出錯環境的魯棒性,來保證其在許多無線和有線網絡以及存儲介質中的應用,此外,MPEG-4還支持基於內容的的可分級性,即把內容、質量、複雜性分成許多小塊來滿足不同用户的不同需求,支持具有不同帶寬,不同存儲容量的傳輸信道和接收端。
這些特點無疑會加速多媒體應用的發展,從中受益的應用領域有:因特網多媒體應用;廣播電視;交互式視頻遊戲;實時可視通信;交互式存儲媒體應用;演播室技術及電視後期製作;採用面部動畫技術的虛擬會議;多媒體郵件;移動通信條件下的多媒體應用;遠程視頻監控;通過ATM網絡等進行的遠程數據庫業務等。
4MPEG4的技術特點
MPEG1、MPEG2技術當初制定時,它們定位的標準均為高層媒體表示與結構,但隨着計算機軟件及網絡技術的快速發展,MPEG1.MPEG2技術的弊端就顯示出來了:交互性及靈活性較低,壓縮的多媒體文件體積過於龐大,難以實現網絡的實時傳播。而MPEG4技術的標準是對運動圖像中的內容進行編碼,其具體的編碼對象就是圖像中的音頻和視頻,術語稱為“AV對象”,而連續的AV對象組合在一起又可以形成AV場景。因此,MPEG4標準就是圍繞着AV對象的編碼、存儲、傳輸和組合而制定的,高效率地編碼、組織、存儲、傳輸AV對象是MPEG4標準的基本內容。
視頻編碼方面,MPEG4支持對自然和合成的視覺對象的編碼。(合成的視覺對象包括2D、3D動畫和人面部表情動畫等)。在音頻編碼上,MPEG4可以在一組編碼工具支持下,對語音、音樂等自然聲音對象和具有迴響、空間方位感的合成聲音對象進行音頻編碼。
由於MPEG4只處理圖像幀與幀之間有差異的元素,而捨棄相同的元素,因此大大減少了合成多媒體文件的體積。應用MPEG4技術的影音文件最顯著特點就是壓縮率高且成像清晰,一般來説,一小時的影像可以被壓縮為350M左右的數據,而一部高清晰度的DVD電影,可以壓縮成兩張甚至一張650M的CD光碟來存儲。對廣大的“平民”計算機用户來説,這就意味着,您不需要購置DVD-ROM就可以欣賞近似DVD質量的高品質影像。而且採用MPEG4編碼技術的影片,對機器硬件配置的要求非常之低,300MHZ以上CPU,64M的內存和一個8M顯存的顯卡就可以流暢的播放。在播放軟件方面,它要求也非常寬鬆,你只需要安裝一個500K左右的MPEG4編碼驅動後,用WINDOWS自帶的媒體播放器就可以流暢的播放了(下面我們會具體講到)。

MPEG-4視頻編碼

人類獲取的信息中70%來自於視覺,視頻信息在多媒體信息中佔有重要地位;同時視頻數據冗餘度最大,經壓縮處理後的視頻質量高低是決定多媒體服務質量的關鍵因素。因此數字視頻技術是多媒體應用的核心技術,對視頻編碼的研究已成為信息技術領域的熱門話題。
視頻編碼的研究課題主要有數據壓縮比、壓縮/解壓速度及快速實現算法三方面內容。以壓縮/解壓後數據與壓縮前原始數據是否完全一致作為衡量標準,可將數據壓縮劃分為無失真壓縮(即可逆壓縮)和有失真壓縮(即不可逆壓縮)兩類。
傳統壓縮編碼建立在香農信息論基礎之上的,以經典集合論為工具,用概率統計模型來描述信源,其壓縮思想基於數據統計,因此只能去除數據冗餘,屬於低層壓縮編碼的範疇。
伴隨着視頻編碼相關學科及新興學科的迅速發展,新一代數據壓縮技術不斷誕生並日益成熟,其編碼思想由基於像素和像素塊轉變為基於內容 (content-based)。它突破了香農信息論框架的束縛,充分考慮了人眼視覺特性及信源特性,通過去除內容冗餘來實現數據壓縮,可分為基於對象(object-based)和基於語義(semantics-based)兩種,前者屬於中層壓縮編碼,後者屬於高層壓縮編碼
與此同時,視頻編碼相關標準的制定也日臻完善。視頻編碼標準主要由ITU-T和ISO/IEC開發。ITU-T發佈的視頻標準有H.261、 H.262、 H.263、 H.263+、H.263++,ISO/IEC公佈的MPEG系列標準有MPEG-1、MPEG-2 、MPEG-4 和MPEG-7,並且計劃公佈MPEG-21
MPEG即Moving Picture Expert Group(運動圖像專家組),它是專門從事制定多媒體視音頻壓縮編碼標準的國際組織。MPEG系列標準已成為國際上影響最大的多媒體技術標準,其中MPEG-1和MPEG-2是採用以香農信息論為基礎的預測編碼、變換編碼、熵編碼及運動補償等第一代數據壓縮編碼技術;MPEG-4(ISO/IEC 14496)則是基於第二代壓縮編碼技術制定的國際標準,它以視聽媒體對象為基本單元,採用基於內容的壓縮編碼,以實現數字視音頻、圖形合成應用及交互式多媒體的集成。MPEG系列標準對VCD、DVD等視聽消費電子及數字電視高清晰度電視(DTV&&HDTV)、多媒體通信等信息產業的發展產生了巨大而深遠的影響。

MPEG-4核心思想

MPEG-4視頻編碼核心思想及技術研究"
摘要
MPEG-4是新一代基於內容的多媒體數據壓縮編碼國際標準,它與傳統視頻編碼標準的最大不同在於第一次提出了基於對象的視頻編碼新概念。基於內容的交互性是MPEG-4標準的核心思想,這對於視頻編碼技術的發展方向及廣泛應用都具有特別重要的意義。
劉達 毛加軒 文章來源:中國數據通信
MPEG-4 數據壓縮視頻編碼 視聽對象 基於內容編碼 視頻對象提取 運動估計與補償
1 引言
當今時代,信息技術和計算機互聯網飛速發展,在此背景下,多媒體信息已成為人類獲取信息的最主要載體,同時也成為電子信息領域技術開發和研究的熱點。多媒體信息經數字化處理後具有易於加密、抗干擾能力強、可再生中繼等優點,但同時也伴隨海量數據的產生,這對信息存儲設備及通信網絡均提出了很高要求,從而成為阻礙人們有效獲取和使用信息的重大瓶頸。
因此研究高效的多媒體數據壓縮編碼方法,以壓縮形式存儲和傳輸數字化的多媒體信息具有重要意義。作為多媒體技術的核心及關鍵,多媒體數據壓縮編碼近年來在技術及應用方面都取得了長足進展,它的進步和完善正深刻影響着現代社會的方方面面。
2 MPEG標準演進
視頻編碼研究
人類獲取的信息中70%來自於視覺,視頻信息在多媒體信息中佔有重要地位;同時視頻數據冗餘度最大,經壓縮處理後的視頻質量高低是決定多媒體服務質量的關鍵因素。因此數字視頻技術是多媒體應用的核心技術,對視頻編碼的研究已成為信息技術領域的熱門話題。
視頻編碼的研究課題主要有數據壓縮比、壓縮/解壓速度及快速實現算法三方面內容。以壓縮/解壓後數據與壓縮前原始數據是否完全一致作為衡量標準,可將數據壓縮劃分為無失真壓縮(即可逆壓縮)和有失真壓縮(即不可逆壓縮)兩類。
傳統壓縮編碼建立在香農論基礎之上的,以經典集合論為工具,用概率統計模型來描述信源,其壓縮思想基於數據統計,因此只能去除數據冗餘,屬於低層壓縮編碼的範疇。
伴隨着視頻編碼相關學科及新興學科的迅速發展,新一代數據壓縮技術不斷誕生並日益成熟,其編碼思想由基於像素和像素塊轉變為基於內容(content-based)。它突破了香農信息論框架的束縛,充分考慮了人眼視覺特性及信源特性,通過去除內容冗餘來實現數據壓縮,可分為基於對象(object-based)和基於語義(semantics-based)兩種,前者屬於中層壓縮編碼,後者屬於高層壓縮編碼。
與此同時,視頻編碼相關標準的制定也日臻完善。視頻編碼標準主要由ITU-T和ISO/IEC開發。ITU-T發佈的視頻標準有H.261、H.262、H.263、H.263+、H.263++,ISO/IEC公佈的MPEG系列標準有MPEG-1、MPEG-2、MPEG-4 和MPEG-7,並且計劃公佈MPEG-21。
MPEG標準演進
MPEG即Moving Picture Expert Group(運動圖像專家組),它是專門從事制定多媒體視音頻壓縮編碼標準的國際組織。MPEG系列標準已成為國際上影響最大的多媒體技術標準,其中MPEG-1和MPEG-2是採用以香農信息論為基礎的預測編碼、變換編碼、熵編碼及運動補償等第一代數據壓縮編碼技術;MPEG-4(ISO/IEC 14496)則是基於第二代壓縮編碼技術制定的國際標準,它以視聽媒體對象為基本單元,採用基於內容的壓縮編碼,以實現數字視音頻、圖形合成應用及交互式多媒體的集成。MPEG系列標準對VCD、DVD等視聽消費電子及數字電視和高清晰度電視(DTV&&HDTV)、多媒體通信等信息產業的發展產生了巨大而深遠的影響。
3 核心思想及關鍵技術
3.1核心思想
在MPEG-4制定之前,MPEG-1、MPEG-2、H.261、H.263都是採用第一代壓縮編碼技術,着眼於圖像信號的統計特性來設計編碼器,屬於波形編碼的範疇。第一代壓縮編碼方案把視頻序列按時間先後分為一系列幀,每一幀圖像又分成宏塊以進行運動補償和編碼,這種編碼方案存在以下缺陷
· 將圖像固定地分成相同大小的塊,在高壓縮比的情況下會出現嚴重的塊效應,即馬賽克效應;
· 不能對圖像內容進行訪問、編輯和回放等操作;
· 未充分利用人類視覺系統(HVS,Human Visual System)的特性。
MPEG-4則代表了基於模型/對象的第二代壓縮編碼技術,它充分利用了人眼視覺特性,抓住了圖像信息傳輸的本質,從輪廓、紋理思路出發,支持基於視覺內容的交互功能,這適應了多媒體信息的應用由播放型轉向基於內容的訪問、檢索及操作的發展趨勢。
AV對象(AVO,Audio Visual Object)是MPEG-4為支持基於內容編碼而提出的重要概念。對象是指在一個場景中能夠訪問和操縱的實體,對象的劃分可根據其獨特的紋理、運動、形狀、模型和高層語義為依據。在MPEG-4中所見的視音頻已不再是過去MPEG-1、MPEG-2中圖像幀的概念,而是一個個視聽場景(AV場景),這些不同的AV場景由不同的AV對象組成。AV對象是聽覺、視覺、或者視聽內容的表示單元,其基本單位是原始AV對象,它可以是自然的或合成的聲音、圖像。原始AV對象具有高效編碼、高效存儲與傳輸以及可交互操作的特性,它又可進一步組成複合AV對象。因此MPEG-4標準的基本內容就是對AV對象進行高效編碼、組織、存儲與傳輸。AV對象的提出,使多媒體通信具有高度交互及高效編碼的能力,AV對象編碼就是MPEG-4的核心編碼技術。
MPEG-4不僅可提供高壓縮率,同時也可實現更好的多媒體內容互動性及全方位的存取性,它採用開放的編碼系統,可隨時加入新的編碼算法模塊,同時也可根據不同應用需求現場配置解碼器,以支持多種多媒體應用。
MPEG-4 採用了新一代視頻編碼技術,它在視頻編碼發展史上第一次把編碼對象從圖像幀拓展到具有實際意義的任意形狀視頻對象,從而實現了從基於像素的傳統編碼向基於對象和內容的現代編碼的轉變,因而引領着新一代智能圖像編碼的發展潮流。
3.2關鍵技術
MPEG-4除採用第一代視頻編碼的核心技術,如變換編碼、運動估計與運動補償、量化、熵編碼外,還提出了一些新的有創見性的關鍵技術,並在第一代視頻編碼技術基礎上進行了卓有成效的完善和改進。下面重點介紹其中的一些關鍵技術。
MPEG-4實現基於內容交互的首要任務就是把視頻/圖像分割成不同對象或者把運動對象從背景中分離出來,然後針對不同對象採用相應編碼方法,以實現高效壓縮。因此視頻對象提取即視頻對象分割,是MPEG-4視頻編碼的關鍵技術,也是新一代視頻編碼的研究熱點和難點。
視頻對象分割涉及對視頻內容的分析和理解,這與人工智能、圖像理解、模式識別和神經網絡等學科有密切聯繫。目前人工智能的發展還不夠完善,計算機還不具有觀察、識別、理解圖像的能力;同時關於計算機視覺的研究也表明要實現正確的圖像分割需要在更高層次上對視頻內容進行理解。因此,儘管MPEG-4框架已經制定,但至今仍沒有通用的有效方法去根本解決視頻對象分割問題,視頻對象分割被認為是一個具有挑戰性的難題,基於語義的分割則更加困難。
目前進行視頻對象分割的一般步驟是:先對原始視頻/圖像數據進行簡化以利於分割,這可通過低通濾波、中值濾波、形態濾波來完成;然後對視頻/圖像數據進行特徵提取,可以是顏色、紋理、運動、幀差、位移幀差乃至語義等特徵;再基於某種均勻性標準來確定分割決策,根據所提取特徵將視頻數據歸類;最後是進行相關後處理,以實現濾除噪聲及準確提取邊界。
視頻分割中基於數學形態理論的分水嶺(watershed)算法被廣泛使用,它又稱水線算法,其基本過程是連續腐蝕二值圖像,由圖像簡化、標記提取、決策、後處理四個階段構成。分水嶺算法具有運算簡單、性能優良,能夠較好提取運動對象輪廓、準確得到運動物體邊緣的優點。但分割時需要梯度信息,對噪聲較敏感,且未利用幀間信息,通常會產生圖像過度分割。
視頻對象平面(VOP,Video Object Plane)是視頻對象(VO)在某一時刻的採樣,VOP是MPEG-4視頻編碼的核心概念。MPEG-4在編碼過程中針對不同VO採用不同的編碼策略,即對前景VO的壓縮編碼儘可能保留細節和平滑;對背景VO則採用高壓縮率的編碼策略,甚至不予傳輸而在解碼端由其他背景拼接而成。這種基於對象的視頻編碼不僅克服了第一代視頻編碼中高壓縮率編碼所產生的方塊效應,而且使用户可與場景交互,從而既提高了壓縮比,又實現了基於內容的交互,為視頻編碼提供了廣闊的發展空間。
MPEG-4支持任意形狀圖像與視頻的編解碼。對於任意形狀視頻對象。對於極低比特率實時應用,如可視電話、會議電視,MPEG-4則採用VLBV(Very Low Bit-rate Video,極低比特率視頻)核進行編碼
傳統的矩形圖在MPEG-4中被看作是VO的一種特例,這正體現了傳統編碼與基於內容編碼在MPEG-4中的統一。VO概念的引入,更加符合人腦對視覺信息的處理方式,並使視頻信號的處理方式從數字化進展到智能化,從而提高了視頻信號的交互性和靈活性,使得更廣泛的視頻應用及更多的內容交互成為可能。因此VOP視頻編碼技術被譽為視頻信號處理技術從數字化進入智能化的初步探索。
隨着因特網業務的巨大增長,在速率起伏很大的IP(Internet Protocol)網絡及具有不同傳輸特性的異構網絡上進行視頻傳輸的要求和應用越來越多。在這種背景下,視頻分級編碼的重要性日益突出,其應用非常廣泛,且具有很高的理論研究及實際應用價值,因此受到人們的極大關注。
視頻編碼的可分級性(scalability)是指碼率的可調整性,即視頻數據只壓縮一次,卻能以多個幀率、空間分辨率或視頻質量進行解碼,從而可支持多種類型用户的各種不同應用要求。
MPEG-4通過視頻對象層(VOL,Video Object Layer)數據結構來實現分級編碼。MPEG-4提供了兩種基本分級工具,即時域分級(Temporal Scalability)和空域分級(Spatial Scalability),此外還支持時域和空域的混合分級。每一種分級編碼都至少有兩層VOL,低層稱為基本層,高層稱為增強層。基本層提供了視頻序列的基本信息,增強層提供了視頻序列更高的分辨率和細節。
在隨後增補的視頻流應用框架中,MPEG-4提出了FGS(Fine Granularity Scalable,精細可伸縮性)視頻編碼算法以及PFGS(Progressive Fine Granularity Scalable,漸進精細可伸縮性)視頻編碼算法。
FGS編碼實現簡單,可在編碼速率、顯示分辨率、內容、解碼複雜度等方面提供靈活的自適應和可擴展性,且具有很強的帶寬自適應能力和抗誤碼性能。但還存在編碼效率低於非可擴展編碼及接收端視頻質量非最優兩個不足。
PFGS則是為改善FGS編碼效率而提出的視頻編碼算法,其基本思想是在增強層圖像編碼時使用前一幀重建的某個增強層圖像為參考進行運動補償,以使運動補償更加有效,從而提高編碼效率。
4. 運動估計與運動補償技術  
MPEG-4採用I-VOP、P-VOP、B-VOP三種幀格式來表徵不同的運動補償類型。它採用了H.263中的半像素搜索(half pixel searching)技術和重疊運動補償(overlapped motion compensation)技術,同時又引入重複填充(repetitive padding)技術和修改的塊(多邊形)匹配(modified block (polygon)matching)技術以支持任意形狀的VOP區域。 
此外,為提高運動估計算法精度,MPEG-4採用了MVFAST(Motion Vector Field Adaptive Search Technique)和改進的PMVFAST(Predictive MVFAST)方法用於運動估計。對於全局運動估計,則採用了基於特徵的快速頑健的FFRGMET(Feature-based Fast and Robust Global Motion Estimation Technique)方法。
在MPEG-4視頻編碼中,運動估計相當耗時,對編碼的實時性影響很大。因此這裏特別強調快速算法。運動估計方法主要有像素遞歸法和塊匹配法兩大類,前者複雜度很高,實際中應用較少,後者則在H.263和MPEG中廣泛採用。在塊匹配法中,重點研究塊匹配準則及搜索方法。目前有三種常用的匹配準則:
1.絕對誤差和(SAD,Sum of Absolute Difference)準則;
2.均方誤差(MSE,Mean Square Error)準則;
3.歸一化互相關函數(NCCF,Normalized Cross Correlation Function)準則。 
在上述三種準則中,SAD準則具有不需乘法運算、實現簡單方便的優點而使用最多,但應清楚匹配準則的選用對匹配結果影響不大。 
在選取匹配準則後就應進行尋找最優匹配點的搜索工作。最簡單、最可靠的方法是全搜索法(FS,Full Search),但計算量太大,不便於實時實現。因此快速搜索法應運而生,主要有交叉搜索法、二維對數法和鑽石搜索法,其中鑽石搜索法被MPEG-4校驗模型(VM,Verification Model)所採納,下面詳細介紹。 
鑽石搜索(DS,Diamond Search)法以搜索模板形狀而得名,具有簡單、魯棒、高效的特點,是現有性能最優的快速搜索算法之一。其基本思想是利用搜索模板的形狀和大小對運動估計算法速度及精度產生重要影響的特性。在搜索最優匹配點時,選擇小的搜索模板可能會陷入局部最優,選擇大的搜索模板則可能無法找到最優點。因此DS算法針對視頻圖像中運動矢量的基本規律,選用了兩種形狀大小的搜索模板。 
· 大鑽石搜索模板(LDSP,Large Diamond Search Pattern),包含9個候選位置;
· 小鑽石搜索模板(SDSP,Small Diamond Search Pattern),包含5個候選位置。 
DS算法搜索過程如下:開始階段先重複使用大鑽石搜索模板,直到最佳匹配塊落在大鑽石中心。由於LDSP步長大,因而搜索範圍廣,可實現粗定位,使搜索不會陷於局部最小,當粗定位結束後,可認為最優點就在LDSP 周圍8 個點所圍菱形區域中。然後再使用小鑽石搜索模板來實現最佳匹配塊的準確定位,以不產生較大起伏,從而提高運動估計精度。
此外Sprite視頻編碼技術也在MPEG-4中應用廣泛,作為其核心技術之一。Sprite又稱鑲嵌圖或背景全景圖,是指一個視頻對象在視頻序列中所有出現部分經拼接而成的一幅圖像。利用Sprite可以直接重構該視頻對象或對其進行預測補償編碼。 
Sprite視頻編碼可視為一種更為先進的運動估計和補償技術,它能夠克服基於固定分塊的傳統運動估計和補償技術的不足,MPEG-4正是採用了將傳統分塊編碼技術與Sprite編碼技術相結合的策略。
4 結束語
多媒體數據壓縮編碼的發展趨勢是基於內容的壓縮,這實際上是信息處理的高級階段,更加向人自身的信息處理方式靠近。人的信息處理並不是基於信號的,而是基於一個比較抽象的、能夠直接進行記憶和處理的方式。 
MPEG-4作為新一代多媒體數據壓縮編碼的典型代表,它第一次提出了基於內容、基於對象的壓縮編碼思想。它要求對自然或合成視聽對象作更多分析甚至是理解,這正是信息處理的高級階段,因而代表了現代數據壓縮編碼技術的發展方向。 
MPEG-4實現了從矩形幀到VOP的轉變以及基於像素的傳統編碼向基於對象和內容的現代編碼的轉變,這正體現了傳統視頻編碼與新一代視頻編碼的有機統一。基於內容的交互性是MPEG-4的核心思想,這對於視頻編碼技術的發展方向及廣泛應用都具有特別重要的意義。

MPEG-4應用

(1)應用於視音頻廣播
由於上網人數與日俱增,傳統電視廣播的觀眾逐漸減少,隨之而來的便是廣告收入的減少,所以現在的固定式電視廣播最終將轉向基於TCP/IP的因特網廣播,觀眾的收看方式也由簡單的遙控器選擇頻道轉為網上視頻點播視頻點播的概念不是先把節目下載到硬盤,然後再播放,而是流媒體視頻(streaming video),點擊即觀看,邊傳輸邊播放。
現在因特網中播放視音頻的有:Real Networks公司的 Real Media,微軟公司的 Windows Media,蘋果公司的 QuickTime,它們定義的視音頻格式互不兼容,有可能導致媒體流中難以控制的混亂,而MPEG-4為因特網視頻應用提供了一系列的標準工具,使視音頻碼流具有規範一致性。因此在因特網播放視音頻採用MPEG-4,應該説是一個安全的選擇。
(2)應用於無線通信
MPEG-4高效的碼率壓縮,交互和分級特性尤其適合於在窄帶移動網上實現多媒體通信,未來的手機將變成多媒體移動接收機,不僅可以打移動電視電話、移動上網,還可以移動接收多媒體廣播和收看電視。
(3)用於靜止圖像壓縮
靜止圖像圖片)在因特網中大量使用,現在網上的圖片壓縮多采用JPEG技術。MPEG-4中的靜止圖像(紋理)壓縮是基於小波變換的,在同樣質量條件下,壓縮後的文件大小約是JPEG壓縮文件的十分之一。把因特網上使用的JPEG 圖片轉換成MPEG-4格式,可以大幅度提高圖片在網絡中的傳輸速度。
(4)應用於電視電話
傳統用於窄帶電視電話業務的壓縮編碼標準,如H261,採用幀內壓縮幀間壓縮、減少象素和抽幀等辦法來降低碼率,但編碼效率和圖像質量都難以令人滿意。MPEG-4的壓縮編碼可以做到以極低碼率傳送質量可以接受的聲像信號,使電視電話業務可以在窄帶的公用電話網上實現。
(5)應用於計算機圖形
MPEG4 高清技術算計顯卡 MPEG4 高清技術算計顯卡
MPEG-4特殊的編碼方式和強大的交互能力,使得基於MPEG-4的計算機圖形和動畫可以從各種來源的多媒體數據庫中獲取素材, 並實時組合出所需要的結果。因而未來的計算機圖形可以在MPEG-4語法所允許的範圍內向所希望的方向無限發展,產生出今天無法想象的動畫及仿真效果。
(6)應用於電子遊戲
MPEG-4可以進行自然圖像與聲音同人工合成的圖像與聲音的混合編碼,在編碼方式上具有前所未有的靈活性,並且能及時從各種來源的多媒體數據庫中調用素材。這可以在將來產生象電影一樣的電子遊戲,實現極高自由度的交互式操作。
(7)用於硬件產品
目前,MPEG4技術在硬件產品上也已開始逐步得到應用。特別是在視頻監控、播放上,這項高清晰度,高壓縮的技術得到了眾多硬件廠商的鐘愛,而市場上支持MPEG4技術的產品也是種類繁多。下面筆者就列舉一些代表性的產品,旨在讓讀者瞭解MPEG4技術在今天應用範圍之廣。
1.攝像機:日本夏普公司推出過應用在互聯網上的數字攝像機VN-EZ1。這台網絡攝像機利用MPEG4格式,可把影像文件壓縮為ASF(高級流格式),用户只要利用微軟公司的MediaPlayer播放程序,就可以直接在電腦上進行播放。
2.播放機:飛利浦公司於今年八月份推出了一款支持DivX的DVD播放機DVD737。它可以支持DivX 3.11、4.xx、5.xx等MPEG4標準,而對於新標準的支持則可以通過升級固件來實現。
3.數碼相機:日本京瓷公司在11月中旬發售其最新款數碼相機Finecam L30,這款是採用300萬像素、3倍光學變焦設計的數碼相機產品,L30採用了MPEG4格式動態視頻錄製,可以讓動態視頻錄製畫面效果比傳統數碼相機更出色。
4.手機:在手機領域,MPEG4技術更是得到了廣泛的應用,各大手機廠商也都推出了可拍攝MPEG4動態視頻的手機型號,如西門子ST55、索尼愛立信P900/P908、LG 彩屏G8000等。
5.MPEG4數字硬盤:在今年深圳舉行的安防展覽會上,開發數字錄像監控產品的廠家紛紛推出了他們的最新產品,而支持MPEG4的DVR壓縮技術也成為改展會上的亮點。
綜述
北京華青紫博科技推出的"E眼神MPEG4數字視頻王"便是一款基於網絡環境的高清晰數字化監控報警系統。內置多畫面處理器,集現場監控、監聽、多路同時數字錄像與回放等多種功能為一體。
其實,市場上還有許多基於MPEG4技術的硬件產品,筆者這裏就不一一列舉了,不過筆者相信,隨着視頻壓縮技術的不斷髮展,MPEG4技術的產品會越來越多的出現在我們生活,工作中。
參考資料