數字音頻編碼系統管理論文
時間:2022-07-29 04:29:00
導語:數字音頻編碼系統管理論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
[摘要]隨著存儲媒體容量和傳輸帶寬的不斷提高,高質量多聲道數字音頻系統也逐漸取代傳統的單聲道、立
體聲系統,而成為新的傳播媒體方式。本文著重介紹當前幾種典型的多聲道數字音頻系統的編、解碼技術。
以MPEG-2、AC-3、DTS、MPEGAAC多聲道數字音頻系統來討論它們各自聲道的配置、數據容量、數據率等所
帶來的優缺點,最后介紹在數字音視頻廣播中,多聲道數字音頻系統的應用。
1、前言
對于CD格式來說,大家都知道它具有良好的信噪比、超過80dB以上的動態范圍以及超過15kHz的頻率范圍,這
使得它具有良好的音頻質量和滿意的收聽效果,但是它僅僅提供了兩個聲道。多聲道數字音頻系統通過聲道
的擴展,不僅在質量上與CD音頻不相上下,同時還帶給聽眾身臨其境的感受,而這是傳統單聲道和立體聲無
法實現的,因此多聲道數字音頻系統已被更多的聽眾接受,同時也逐漸成為音樂制作的主流。
在眾多的國際標準中,如SMPTE、EBU、ITU-R、ISO/IEC、MPEG等,都涵蓋著一種稱之為5.1聲道的多聲道數
字音頻格式。在即將制定的DVD-Audio標準中,也規定將采用24bit采樣精度、88.2,96,192KHz采樣率的多
聲道數字音頻格式。
一種廣泛接受的多聲道數字音頻系統配置方案就是我們常稱的5.1聲道系統,也就是3/2/.1的配置方案。這
種方法是按照ITR-U的建議BS.775來確定用于重放的揚聲器擺放位置的,如圖1所示。
根據建議可知,5個全頻帶的重放揚聲器分為前置揚聲器(包括L、R、C)和后置揚聲器(也稱環繞揚聲器,
包括Ls、Rs),按照圖示所規定的角度和方位進行擺放,并且它們都位于一個圓的邊界上,其中L、R揚聲器
與C揚聲器分別呈30度夾角,Ls、Rs揚聲器與C揚聲器分別呈110度夾角。除此5個全頻帶的聲道外,還有一個
低頻增強聲道,稱之為LFE,它的頻率范圍在200Hz以下,大約是全頻帶倍頻程的10%左右,因此也稱點一聲
道。它的放置沒有特殊的要求,一般放置在前面。
5個重放揚聲器的擺放并不是說能夠完全重現真實的空間聲像,其實5個揚聲器的使用僅僅是一種重現空間聲
像而采用的粗略的實現方式。當然,一方面重放的效果取決于音頻素材的制作,另一方面則需要嚴格的重放
揚聲器的空間位置擺放和收聽者的位置關系。在電影院里我們往往能夠感受到聲像定位準確的音頻效果,現
在也有一些提法,認為8個、10個、12個甚至更多的重放揚聲器會有更加完美的音頻效果。這些觀點有它存在
的理由,聲像的表現當然是越準確越好,但是一味的通過增加重放揚聲器的數量以及增加音頻聲道數的話,
它也會帶來另外的負面影響,如聲像的定位更加困難等等,因此我們在此僅僅通過5.1聲道的實現方式來進
行闡述。另外,我們還應明確一點,對于家庭消費者來說,5.1聲道已經足夠表現較完美的音頻效果了。
不管是那種擺放方式,它的實現都離不開基本的編碼方式和主要規則。另外5.1聲道方式還會帶來較大的壓
縮比和較低的比特率(相對于更多聲道的情況),下面就詳細的來介紹一下多聲道數字音頻系統的編碼方式。
圖1ITR-U的建議BS.775確定的用于重放的揚聲器擺放位置
1、多聲道數字音頻的編碼
從立體聲向多聲道的過渡,增加了對存儲和傳輸媒體的需要。下面以CD格式為例,假設它的采樣頻率為
Fs=44.1kHz,采樣精度R為16bit,那么CD格式的音頻數據率B為:
BCD=2×R×Fs=1.411Mb/s
由此可知,一個小時的CD格式的音樂需要635MB的存貯空間,其實CD最長的重放時間為74分鐘。那么如果使
用的是多聲道時,此時的數據率為:
Bcdmultichannel=5.1×R×Fs=3.598Mb/s
同樣一個小時的多聲道格式的音樂需要1.62GB的存儲空間,遠遠大于CD的容量。同時當前已應用的多
聲道系統面臨著帶寬的問題。如美國的數字電視中僅僅給多聲道的音頻384kb/s的帶寬,在Internet音頻廣
播中,也只有56kb/s的數據通道,因此由上可知,多聲道數字音頻系統面臨者存儲容量和傳輸帶寬的限制。
如何將多聲道數字音頻數據率降低的同時又能夠保證音頻質量,是多聲道數字音頻系統面臨的重大問題。眾
所周知,對于線性PCM來說,它的實現簡單,在高容量/高帶寬的前提下可以提供CD質量的音頻信號。從另一
個角度來看,采樣精度的提高以及采樣頻率的提高,會帶來更高的音頻質量,如將采樣精度由R=16提高到
R=24;將采樣頻率由Fs=44.1kHz或Fs=48kHz提高到Fs=96kHz或Fs=192kHz。這種發展趨勢已經逐漸地由一些
錄音工程師和音樂制作商所接受,同樣多聲道數字音頻系統則也要順應這種趨勢。但如果仍然采用線性PC
M,這無疑是增加了更大的數據量,提高了現有的數據率。
我們知道線性PCM并沒有充分利用音頻信號的特性進行編碼,在PCM數據流中存在著大量的冗余信息。同時
要強調的是不管音頻信號如何編解碼、傳輸,最終還是要靠我們的人耳來實現的,如圖2所示,因此我們
可以充分地考慮人耳的聽覺特性,并加以利用,如人耳的掩蔽效應、哈斯效應等等。這樣就可以將音頻信
號中與人耳有關的那部分冗余信息去除掉,在編碼時則僅僅對有用的那部分音頻信號進行編碼,從而降低
了參與編碼的數據量。同時再將編碼的信號進行比特精度的分配,對于幅度比較大的信號或變化比較快的信號分配更多的比特數,而對于幅度小、變化慢的信號則減少比特數的分配,從而達到減少數據率的可能性,實現編碼的高效率。當然這種結果是以編碼過程復雜化為代價的。下面具體分析幾種聲學模型。
圖2編碼、傳輸、人耳聽音的實現
2.1根據聽覺域度對可聞信號進行編碼
人耳對聲振動的感受,在頻率及聲壓級方面都有一定的范圍,頻率范圍正常人約為20Hz~20kHz,而聲壓級范圍則是如圖聽閾曲線來描述的。意即在這條曲線之下的對應頻率的信號是聽不到的。
圖16MPEG-2音頻混合后環繞聲兼容性如圖3所示,對于信號A來說,由于其聲壓級超過聽閾曲線的聲壓級域值,所以可以對人耳造成聲振動的感
受,意即聽到A信號。而對B信號來說,其聲壓級位于聽閾曲線之下,雖然它是客觀存在的,但人耳是不可聞
的。因此,可以將類似的信號去除掉,以減少音頻數據率。
2.2根據掩蔽效應,只對幅度強的掩蔽信號進行編碼
人耳能在寂靜的環境中分辨出輕微的聲音,但在嘈雜的環境中,同樣的這些聲音則被嘈雜聲淹沒而聽不
到了。這種由于一個聲音的存在而使另一個聲音要提高聲壓級才能被聽到的現象稱為聽覺掩蔽效應。
如圖4所示,雖然B、C兩信號的聲壓級已超過聽閾曲線的范圍,人耳已可以聽到B、C兩信號的存在,但是由
于A信號的存在,通過前向掩蔽將C信號淹沒掉,通過后向掩蔽將B信號淹沒掉,從而最終到達人耳引起感覺
的只有A信號。因此,可以將類似的B、C信號去除掉以減少音頻數據率。
2.3量化噪聲使得不必全部編碼原始信號
類似于人耳的聽閾曲線,由于數字信號存在著量化噪聲,如圖5所示,對于信號A和B來說,并不一定要將A、
B信號進行全部幅度的編碼,而只需將A、B信號與量化噪聲的差值進行編碼就可以達到相同的聽覺效果,因
此,在編碼過程中實際量化幅度就可以大大的減少,而減少數據率。
2.4通過子帶分割來進行優化、編碼
在傳統的編碼過程中,都是將整個頻帶作為操作對象,采用相同的比特分配對每個信號進行量化。而實際
上,由于聽覺曲線的存在及其它因素,對于幅度較小的信號可以分配較少的比特數就可以達到要求,因此
將整個頻帶分成多個子頻帶,然后對每個子頻帶的信號獨立編碼,從而使得在每個子頻帶中比特分配可以
根據信號自身來適應。
如圖ABCD四個信號,如果對整個頻帶編碼,對于D信號來說分配16比特來量化則顯得多余浪費,所以如果
將ABCD分別置于不同的子帶內,則可在分別所處的子帶內使用最適合的比特數分配給信號來編碼,從而減
少數據率,同時如果用于分割的子帶分辨率越高,意即子帶的頻帶相對越窄,那么在子帶中分配的比特數
就越精確,而減少了比特率。
2.5不同的實現方式
當前在數字音頻編碼領域存在著各種不同的編碼方案和實現方式,為了能夠讓大家對此有一個較完整的認
識,在本文中僅對當前流行的幾種典型的編碼方法做一個介紹。不管是通過那一種方式實現,其基本的編
碼思路方框圖都大同小異,如圖7所示。對于每一個音頻聲道中的PCM音頻信號來說,首先都要將它們映射
到頻域中,這種時域到頻域的映射可以通過子帶濾波器(如MPEGLayersI,II,DTS)或通過變換濾波器
組(如AC-3,MPEGAAC)實現。這兩種方式的最大不同之處在于濾波器組中的頻率分辨率的不同。
每個聲道中的音頻采樣塊首先要根據心理聲學模型來計算掩蔽門限值,然后由計算出的掩蔽門限值來決定
如何將公用比特區中的比特分配給不同的頻率范圍內的信號,如MPEGLayersI,II,DTS所采用;或由計
算出的掩蔽門限值來決定哪些頻率范圍內的量化噪聲可以引入而不需要去除,如AC-3,MPEGAAC所采用。
然后根據音頻信號的時域表達式進行量化,隨后采用靜噪編碼(如MPEGLayersI,II,DTS,MPEGAAC)。
最后,將控制參數及輔助數據進行交織產生編碼后的數據流。解碼過程則首先將編碼后的數據流進行解復
用,然后通過比特流中傳輸的控制參數對音頻數據反量化,或通過心理聲學模型參數反向運算得到音頻信
號(如AC-3),最后將得到的音頻信號由頻域反變換到時域,完成解碼過程。
另外多聲道數字音頻編碼技術還充分利用了聲道之間的相關性及雙耳聽覺效應,來進一步去除聲道之間的
冗余度和不相關度。去除通道之間的相關度,一種最常用的方法是M/S方式,在這種方式中是將兩個獨立
聲道的頻譜相加和相減,根據兩個聲道的相關度大小,來決定是傳輸和/差信號還是傳輸原始信號。
由于人耳對于頻率超過2-3kHz的聲音定位主要是通過內耳密度差分(IID)實現的,因此為了進一步減少
數據率,將各個聲道中頻率超過約定門限值的信號組合后再進行傳輸。這種技術應用在MPEGLayersI,
II,III中,實現強度立體聲編碼;用在AC-3中對兩個聲道或耦合聲道實現多聲道編碼。在MPEGAAC中,
則既可實現強度立體聲編碼,又可實現多聲道編碼。
1、杜比數字AC-3編解碼壓縮過程
AC-3最早是在1991年的電影“BatmanReturns”中應用的。它的應用不僅在電影界占有一席之地,而且
它已被北美地區的數字電視及DVD視頻定為其數字音頻實施規范。我們熟知的AC-2,AC-3都是由兩聲道發
展而來的,即杜比數字(DolbyDigital)。對于數字音頻信號來說,通過應用數字壓縮算法,來減少正
確再現原始脈沖編碼調制(PCM)樣本所需要的數字信息量,得出原始信號經數字壓縮后的表達式。
3.1AC-3編碼過程
AC-3編碼器接受PCM音頻并產生相應的AC-3數碼流。在編碼時,AC-3算法通過對音頻信號的頻域表達式進
行粗量化,達到高的編碼增益(輸入碼率對輸出碼率之比)。如圖8所示。
編碼過程的第一步是把音頻表達式從一個PCM時間樣本的序列變換為一個頻率系數樣本塊的序列。這在分
析濾波器中完成。512個時間樣本的相互重疊樣本塊被乘以時間窗而變換到頻域。由于相互重疊的樣本
塊,每個PCM輸入樣本將表達在兩個相繼的變換樣本塊中。頻域表達式則可以二取一,使每個樣本塊包含
256個頻率系數。這些單獨的頻率系數用二進制指數記數法表達為一個二進制指數和一個尾數。這個指數
的集合被編碼為信號頻譜的粗略表達式,稱作頻譜包絡。核心的比特指派例行程序用這個頻譜包絡,確
定每個單獨尾數需要用多少比特進行編碼。將頻譜包絡和6個音頻樣本塊粗略量化的尾數,格式化成一個
AC-3數據幀(FRAME)。AC-3數碼流是一個AC-3數據幀的序列。
在實際的AC-3編碼器中,還包括下述功能:
l附有一個數據幀的信頭(header),其中包含與編碼的數碼流同步及把它解碼的信息(比特
率、取樣率、編碼的信道數目等)。
l插入誤碼檢測碼字,以便解碼器能檢驗接收的數據幀是否有誤碼。
l可以動態的改變分析濾波器組的頻譜分辨率,以便同每個音頻樣本塊的時域/頻域特性匹配的
更好。
l頻譜包絡可以用可變的時間/頻率分辨率進行編碼。
l可以實行更復雜的比特指派,并修改核心比特分派例行程序的一些參數,以便產生更加優化
的比特指派。
l一些聲道在高頻可以耦合在一起,以便工作在較低比特率時,可得到更高的編碼增益。
l在兩聲道模式中,可以有選擇的實行重新設置矩陣的過程,以便提供附加的編碼增益,以及
當兩信道的信號解碼時使用一個矩陣環繞聲解碼器,還能獲得改進的結果。
3.2AC-3解碼過程
解碼過程基本上是編碼的逆過程。解碼器必須同編碼數碼流同步,檢查誤碼,以及將不同類型的數據
(例如編碼的頻譜包絡和量化的尾數)進行解格式化。運行比特指派例行程序,將其結果用于解數據
大包(unpack)和尾數的解量化。將頻譜包絡進行解碼而產生各個指數。各個指數和尾數被變換回到
時域成為解碼的PCM時間樣本。如圖9所示:
圖9AC-3解碼過程框圖
在實際的AC-3解碼器中,還包括下述功能:
l假若檢測出一個數據誤碼,可以使用誤碼掩蓋或靜噪。
l高頻內容耦合在一起的那些聲道必須去除耦合。
l無論何時已被重新設置矩陣的聲道,必須進行去除矩陣化的過程(在2-聲道模式中)。
l必須動態的改變綜合濾波器組的分辨率,與編碼器分析濾波器組在編碼過程中所用的方法
相同。
3.3杜比數字AC-3編碼數據格式
經過杜比數字AC-3編碼器的編碼處理,可以將原始的數據PCM信號編碼為杜比數字AC-3音頻數據流。
一個AC-3串行編碼的音頻數據流是由一個同步幀的序列所組成。如圖10所示。
由圖可見,每個同步幀包含六個編碼的音頻樣本塊(AB)其中每個代表256個新的音頻樣本。在
每個同步幀開始的同步信息(SI)的信頭中,包含為了獲得同步和維持同步所需要的信息。接著SI后
面的是數碼流信息(BSI)的信頭;它包含描述編碼數據流業務的各種參數。編碼的音頻樣本塊之后接
著是一個輔助數據(AUX)字段。在每個同步幀結尾處是誤碼檢驗字段,其中包含一個用于誤碼檢測的
CRC字。一個附加的CRC字位于SI信頭中,以供選用。
AB0~AB5的每一塊代表一個編碼通道,可以被分別獨立解碼,塊的大小可以調整,但總數據量不變。在
圖中還有兩個未標出的CRC,其中第一個位于幀的5/8處,另一個位于幀未。之所以如此安排,目的就
是可以減少解碼器的RAM需求量,使得解碼器不必完全接收一幀后才解碼音頻數據,而是分成了兩部
分進行解碼。
3.4杜比數字AC-3的兼容性
由于AC-3比特流中同步結構中的AB0~AB5是獨立解碼的,因此可以將這些編碼信號重新構造為所需的輸
出信號,即輸出的下行兼容性。如圖11所示。
圖11AC-3輸出的下行兼容性
在許多重放系統中,揚聲器的數目不能同編碼的音頻聲道的數目匹配。為了重現完整的音頻節目
需要向下混合。在幀同步中,AB0~AB5中記錄著六個獨立聲道的音頻數據,按照AC-3重放時的安排,
我們稱之為L、R、C、Ls、Rs、LFE。一般用于向下混合的過程中,低音增強LFE通道記錄的音頻信號
主要用于渲染烘托氣氛,所以向下混合時,只用其中的L、R、C、Ls、Rs。從圖中可以看到編碼后的
AC-3數據流可以直接傳輸后經解碼器解碼為5.1通道音頻信息進行重放,也可以向下混合為兩個聲道
信號,然后經不同的解碼器得到不同的重放模式。就單一環繞聲道(n/1模式)而言,把S稱為單個
環繞聲道。從圖中可看出,向下混合提供兩種類型:向下混合為Lt、Rt矩陣環繞編碼的立體聲對;
向下混合為通常的立體聲信號Lo、Ro。向下混合的立體聲信號(Lo、Ro或Lt、Rt)可進一步向下混
合為單聲道M,通過兩個聲道簡單的相加即可。如果將Lt、Rt向下混合為單聲道,環繞信息將會丟
失。當希望需要一個單聲道信號時則Lo、Ro向下混合更可取。
用于Lo、Ro立體聲信號的一般3/2向下混合方程式為:
Lo=1.0′L+clev′C+slev′Ls;
Ro=1.0′R+clev′C+slev′Rs;
如果接著Lo、Ro被組合成單聲道信號重放,有效的向下混合方程式為:
M=1.0′L+2.0′clev′C+1.0′R+slev′Ls+slev′Rs;
如果只出現單個環繞聲道S(3/1模式),則向下混合方程式為:
Lo=1.0′L+clev′C+0.7′slev′S;
Ro=1.0′R+clev′C+0.7′slev′S;
M=1.0′L+2.0′clev′C+1.0′R+1.4′slev′S;
其中clev、slev分別代表中央聲道混合聲級系數和環繞聲道混合聲級系數,在BSI數據中由
Cmixlev、Surmixlev比特字段來指出相對應的值。
用于Lt、Rt立體聲信號的一般3/2向下混合方程式為:
Lt=1.0′L+0.707′C-0.707′Ls-0.707′Rs;
Rt=1.0′R+0.707′C+0.707′Ls+0.707′Rs;
如果只出現單個環繞聲道S(3/1模式),則向下混合方程式為:
Lt=1.0′L+0.707′C-0.707′S;
Rt=1.0′R+0.707′C+0.707′S;
經過對獨立聲道的音頻信號進行不同的分配及矩陣重組,則實現了AC-3數據流的向下兼容性,
意即通過不同的解碼器、解碼矩陣方式,可以得到杜比數字5.1聲道環繞聲、立體聲、杜比
Prologic、單聲道以及杜比的虛擬環繞聲方式。其中Lo、Ro與Lt、Rt的最大區別就是Lt、Rt是
記
錄的全部的L、R、環繞聲的信息,經過矩陣重解可得到環繞聲信息,而Lo、Ro則是將環繞聲信
息增加支立體聲信號中,無法再重現環繞聲信號信息。
4、MPEG-2多聲道編解碼過程
MPEG-2感知編碼系統充分利用了心理聲學中的掩蔽效應和哈斯效應,利用壓縮編碼技術,將原始
音頻信號中不相關分量和冗余分量有效的去除掉,在不影響人耳聽覺閾度和聽音效果質量上,將
音頻信號壓縮。
4.1MPEG音頻子帶編碼器的基本結構
感知型子帶音頻編碼器不斷地對音頻輸入信號進行分析。由一個心理聲學模型動態地確定掩蔽門限,
即在該掩蔽門限之下的多余的噪聲是無法為人的聽覺系統聽到的。由該心理聲學模型產生的信息被
饋至一個比特分配模塊,該模塊的任務是將各聲道可用的比特以一種優化的方式在頻譜范圍內進行
分配。輸入信號還與上述過程并行地被分割到一系列稱為子帶的頻帶中。每個子帶信號都在經過定
標處理后被重新進行量化,該量化編碼過程引入的量化噪聲不能超過已確定的對應子帶的掩蔽門限。
因此量化噪聲頻譜就與信號頻譜進行了動態自適應?!氨壤蜃印焙透髯訋褂玫牧炕鞯南嚓P
信息與編碼后的子帶樣值一同進行傳輸。
解碼器可以在不了解編碼器如何確定編碼所需信息的情況下對碼流進行解碼。這可以降低解碼器的
復雜度,并為編碼器的選擇和解碼器開發提供了很大的靈活性。如在心理聲學研究上取得了新的結
果,則更高效率和更高性能的編碼器可在與所有現有解碼器完全兼容的條件下得以應用。這一靈活
性目前已有了成功的例子,現在最高技術水平的編碼器的性能已超過了標準化過程中使用的早期編
碼器。如圖12所示。
圖12(a)MPEG音頻編碼器框圖
4.2層
MPEG音頻標準包括了三種不同的算法,稱為層。層數越高,相應可達到的壓縮比就越高,而復雜度、
延時及對傳輸誤碼的敏感度也越高。層II專門對廣播應用進行了優化。它使用了具有32個等寬子帶劃
分的子帶濾波,自適應比特分配和塊壓擴。單聲道的碼率范圍為32-192kbps,立體聲為64-384kbps。
它在256kbps及192kbps相關立體聲條件下的表現十分出色。128kbps(立體聲)條件下的性能在許
多應用中仍可接受。
4.3MPEG-2在多聲道音頻方面的擴展
ITU-R工作組TG10-1在關于多聲道聲音系統的建議方面進行了工作。該項工作的主要成果就是建議
BS.775,其中說明一個適當的多聲道聲音配置應包含五個聲道,分別代表左、中央、右、左環繞、右
環繞聲道。如果使用了一個作為選項的低頻增強聲道(LFE),則該配置被稱為“5.1”。五聲道配置
也可表示為‘3/2’,即三個前置聲道及兩個環繞(后置)聲道。
MPEG已認識到應根據ITU-R建議775來增加音頻標準的多聲道能力的必要性。
這是在第二階段完成的,由此產生了MPEG-2音頻標準。在多聲道聲音方面的擴展支持在一路碼流中傳
輸五個輸入聲道、低頻增強聲道以及7個旁白聲道。該擴展與MPEG-1保持前向及后向兼容。前向兼容性
意味著多聲道解碼器可正確地對立體聲碼流進行解碼。后向兼容性則意味著一個標準的立體聲解碼器
在對多聲道碼流進行解碼時可輸出兼容的立體聲信號。
這是通過一種真正的可分級方式實現的。在編碼器端,五個輸入聲道被向下混合為一路兼容立體聲信
號。該兼容立體聲信號按照MPEG-1標準進行編碼。所有用于在解碼器端恢復原來的五個聲道的信息都
被置于MPEG-1的附加數據區內,該數據區被MPEG-1解碼器忽略。這些附加的信息在信息聲道T2、T3及
T4以及LFE聲道中傳輸,這幾個信息聲道通常包含中央、左環繞和右環繞聲道。MPEG-2多聲道解碼器不
但對碼流中的MPEG-1部分進行解碼,還對附加信息聲道T2、T3、T4及LFE解碼。根據這些信息,它可
以恢復原來的5.1聲道聲音。如圖13所示。
13MPEG-2編碼器/解碼器框圖
當相同碼流饋送至MPEG-1解碼器時,解碼器將只對碼流的MPEG-1部分進行解碼,而忽略所有附加的多
聲道信息。由此它將輸出在MPEG-2編碼器中經向下混合產生的兩個聲道。這種方式實現了與現有的雙
聲道解碼器的兼容性。也許更為重要的是,這種可分級的方式使得即使在多聲道業務中仍可使用低成
本的雙聲道解碼器??紤]到所使用的其它所有編碼策略,多聲道業務中的雙聲道解碼器本質上就是一
個對所有聲道進行解碼并在解碼器中產生雙聲道向下混合信號的多聲道解碼器。如圖14所示。
就其包含了不同的可由編碼器使用以進一步提高音頻質量的技術而言,該標準是具有很大靈活性的。
4.4定向邏輯兼容性
如果源素材已經經過環繞聲編碼(如Dolby環繞聲),廣播業者可能希望將它直接播送給聽眾。一種
選擇是將該素材直接以2/0(僅為立體聲)模式播送。環繞聲編碼器主要是將中央聲道信號分別與左
右聲道信號同相相加,而將環繞聲道信號分別與左右聲道信號反相相加。為能對這些信息正確解碼,
編解碼器必須保持左右聲道彼此之間的幅度和相位關系。這在MPEG編碼中是通過限制強度立體聲編碼
只能在高于8kHz的頻率范圍內使用而得以保障的,因為環繞聲編碼僅在低于7kHz的范圍內使用環繞聲
道信息。如圖15所示。
圖15使用MPEG-1音頻播送環繞聲素材
當傳輸多聲道信息時,與現有(專利的)環繞聲解碼器的兼容性可通過幾種手段得以實現。多聲
道編碼器在工作時使用一個環繞聲兼容的矩陣。這可以使立體聲解碼器能夠接收環繞聲編碼的信號,
并可選擇將其傳送給環繞聲解碼器。一個完整的多聲道解碼器將對所有信號進行再變換,以獲得原來
的多聲道表現。MPEG-2多聲道語法支持這種模式,進而也為DVB規范所支持。如圖16所示。
4.5MPEG-2在低采樣率方面的擴展
除了在多聲道方面的擴展外,MPEG-2音頻還包含了MPEG-1音頻在低采樣率方面的擴展。該擴展的目的
是以一種簡單的方式獲得改進的頻譜分辨率。通過將采樣率減半,頻率分辨率就提高了兩倍,但時間
分辨率則劣化了兩倍。這可使許多穩態信號獲得更好的質量,而對一些在時間特性上要求嚴格的信號
而言質量則下降了。半采樣率的使用是在碼流中通過將每幀幀頭中的某一比特,即ID位置設為“0”
來表示的。而且,可用碼率表也進行了修改,以便在低碼率條件下提供更多的選擇,每個子帶可用的
量化器也為適應更高的頻率分辨率作了修改。
5、先進音頻編碼(AdvancedAudioCoding-AAC)
MPEGAAC(先進音頻編碼)是于1997年成為ISO/IEC標準的(參見ISO/IEC13818)。AAC是以新建立
的MPEG-4標準中的時域到頻域映射的編碼算法組成的。AAC從提高效率的角度出發,放棄了與原
MPEG-1解碼器的后向兼容性,這也是該算法在開始時被稱為NBC的原因。
5.1AAC的主要特點
AAC可以支持1到48路之間任意數目的音頻聲道組合、包括15路低頻效果聲道、配音/多語聲聲道,以
及15路數據。它可同時傳送16套節目,每套節目的音頻及數據結構可任意規定。在碼率為64kbps/聲
道的條件下,AAC可以提供很高的聲音質量。
根據不同的應用場合,AAC提供了三種類型(Profile)以供選擇,即主要類型(MainProfile)、
低復雜度類型(LowComplexityProfile)、可放縮采樣率類型(ScaleableSamplingRate,SSR
Profile)。因而其可應用范圍很廣。
5.2AAC算法結構
為提高音頻編碼效率,AAC采用了許多先進技術,如霍夫曼編碼、相關立體聲、聲道耦合、反向自適
應預測、時域噪聲整形、修正離散余弦變換(MDCT)、及混合濾波器組等。其算法基本結構框圖如圖17所示。
其中,濾波器組與MPEG層III所采用的濾波器組相比,由于層III算法在對濾波器進行選擇時考慮了兼
容性問題,因而具有固有的結構上的不足;而AAC則直接采用了MDCT變換濾波。同時,AAC增加了窗口
長度,由1152點增至2048,使MDCT的性能優于原來的濾波器組。
時域噪聲整形(TNS)技術是時域/頻域編碼中一項新穎的技術。它利用頻域的自適應預測的結果來對
時域中量化噪聲的分布進行整形處理。通過采用TNS技術,可以使特殊環境下的話音信號質量得到顯著
的提高。
后向自適應預測是一項在語音信號編碼系統領域建立起來的技術。它主要利用了某一特定形式的音頻
信號易于預測的特點。
在量化過程中,通過對量化精度更為精細的控制,可以使給定的碼率得到更加有效的利用。
在碼流復接時,通過對必須傳輸的信息進行熵編碼使冗余度降至最低。
通過以上各種編碼技術的運用以及采用一種可變的碼流結構,使AAC編碼算法在得到大大優化的同時,
也為將來進一步提高編碼效率提供了可能性。
事實上,在AAC編碼的三種類型中,各種編碼技術的使用也是不同的,也就是說,三種類型的算法復雜
度是不同的。這一不同考慮了編、解碼兩端的算法復雜度。例如,后向自適應預測約占解碼運算量的
45%左右,在LC和SSR類型中都沒有采用這一技術。另外,在LC類型中,TNS濾波器的長度被限制為12個
系數,但仍保持了18KHz帶寬;在SSR類型中,TNS也只使用12個系數,并且帶寬限制為6KHz,同時該
類型也沒有采用聲道耦合技術,在混合濾波器組的結構及增益控制方面也與另兩種類型不同。
AAC可以在低數據率的情況下提供較高質量的音頻信息,如每個聲道僅64kb/s時就會有比較好的性能。
AAC當前的應用主要用于日本的數字音頻廣播及美國的IBOC(帶內同頻技術)。
6、用于DTS的相干聲學編碼
DTS系統中采用的數字音頻壓縮算法——相干聲學編碼,主要目的就是用于提高民用音頻重放設備重放
的音頻質量的,其音頻重放質量可以超越原有的如CD唱片的質量。同時通過更多揚聲器的使用,使得
聽眾可以感受到普通立體聲無法達到的聲音效果。因此總體目標就是將聽眾真正的帶入專業的音響領
域及多聲道環繞聲的天地。
相干聲學編碼器是一種感知、優化、差分子帶音頻編碼器,它使用了多種技術對音頻數據進行壓縮。下
面將分別對其進行詳細的描述。從整體來看,編碼器與解碼器的實現是不對稱的。理論上編碼器可以
設計的非常復雜,但實際上,編碼器發展成為包括兩種音頻分析的模式。解碼器與編碼器相比則簡單的
多,因為解碼算法是根據編碼數據流中的參數來控制的,解碼器不需要做任何的計算來決定重放的音頻
質量。6.1編碼過程
編碼過程中的第一步是通過一個多相濾波器組將每個聲道的全頻帶24比特線性PCM源信號進行分割到一定
數目的子帶中去。這種濾波方式提供了一種框架,既可以消除頻譜滾降較快的音頻信號分量,同時又去除
了感知上的冗余度。多相濾波器只要通過低復雜度的計算就可以實現更好的線性、更高的理論編碼增益和
更理想的阻帶衰減。每一個子帶信號都包含了相應的、嚴格限制帶寬的線性PCM音頻數據。子帶的個數及
相應的帶寬是由源信號的帶寬來決定的,一般情況下分為32個獨立的子帶。
圖18相干聲學編碼器流程圖
在每個子帶中進行差分編碼(子帶ADPCM),這一步可以去除信號中的客觀冗余量,如周期很短的信號。
通過對信號的對比分析、心理聲學及信號瞬態的分析可以判斷信號中的感知冗余信息。通過子帶范圍比特
率的選擇和上述分析的結果,來調整對每個信號的差分編碼程序的執行。差分編碼與心理聲學模型(如噪
聲掩蔽門限)的結合可以得到較高的編碼效率,甚至可以在不影響主觀聽覺的基礎上進一步降低比特率。
如果使用較高的比特率,那么對于心理聲學模型的依賴性則相對較弱,但可以肯定隨著比特率的增加,
編碼信號的保真度也會提高。
比特指派程序管理著所有音頻聲道中子帶信息的編碼指派和分配。在時間和頻率上的自適應可以優化音頻
質量。作為音頻編碼系統設計的基礎,比特指派程序通過對音頻信號比特的分配和使用的比特率來決定音
頻質量。通過在編碼策略中獨立的執行這些程序使得運算的復雜程度大大提高,但是這樣做卻可以使得解
碼器相對的簡單。相反,隨著比特率的增加,比特指派程序的靈活性也將大大降低,但是可以確保音頻質
量的透明性。
編碼過程中最后一步就是將來自每個子帶ADPCM處理后的音頻數據進行數據復用(或稱打包)。數據復用
器將所有聲道中子帶數據加上附加的輔助信息進行打包,形成特殊數據語法格式的編碼數據流。在數據流
中加入的同步信息將用于解碼器對編碼數據流的同步。
6.2
對編碼數據流同步以后,首先就是對編碼數據流進行解包,如果必要的話還將對編碼數據流進行檢錯及誤
碼校正,然后將解包的音頻數據送到相應聲道的子帶中去。
圖19相干聲學解碼器流程圖
第二步是通過在每個子帶中傳輸的輔助信息指令,對子帶中的差分信號進行反量化得到子帶PCM信號。這
些通過反量化得到的子帶PCM信號再進行反濾波處理,得到每個聲道的全頻帶的時域PCM信號。在解碼器中,
沒有程序用于音頻質量的調整。
在解碼器中包括一個可選的DSP功能模塊,這個模塊主要用于用戶的編程使用。它允許對單個聲道或全部
聲道中子帶或是全頻帶PCM信號進行處理。這些功能諸如上矩陣變換、下矩陣變換、動態范圍控制以及聲
道之間的延時調整等。
6.3
DTS系統最早是用于電影應用中的。在1993年的電影“JurassicPark”(侏羅紀公園)中,沒有使用
AC-3,而是使用了DTS多聲道數字音頻系統。DTS系統中的音頻數據是存儲在一張CD-ROM上的,取代了將聲
音記錄在膠片上的方式,而是在膠片上記錄用于同步CD-ROM音頻信息的時間碼,通過電影膠片上的時間碼
來同步播放CD-ROM。由于CD-ROM與電影膠片磁跡相比,具有更大的容量和更穩定的可靠程度,因此它可以
在4:1壓縮比的情況下提供質量更高的多聲道音頻信息。對于AC-3來說,典型的壓縮比為12:1。隨著應
用的普及,DTS系統又提出一種低數據率版本,其參數規范如下:
音頻聲道的個數DTS=1——10.1
FsDTS=8——192kHz
RDTS=16——24bit
BDTS=32——6144kb/s
數據幀大小DTS=512樣本
在低數據率版本中,由0到24kHz的32個子帶的頻率,通過一個512抽頭的多相正交鏡象濾波器(PQMF)來
實現從時域到頻域的映射。另外8個附加的子帶覆蓋了24kHz到48kHz之間頻率范圍,2個附加的子帶覆蓋了
48kHz到96kHz之間的頻率范圍。為了進一步減小冗余度,采用了前向自適應線性預測,同時心理聲學模
型用來對信號進行預測,在量化過程中使用了標度量化和矢量量化。
DTS的大多數應用都是采用相對較小的壓縮比、工作在幾乎無損情況的模式下的。一般來說,數據率在
1Mb/s的情況下,DTS可以提供較好質量的音頻。DTS的應用也主要是在電影、CD及DVD視頻中。另外,DTS
所具有的可變比特率編碼方式使得它同樣可以應用于DAB及DVD的廣播中。
7、
數字音頻廣播系統的發展是從85年以后開始的,其中包括了我們熟知的Eureka147DAB(尤里卡147數字
音頻廣播)和DVB。不斷發展的數字調制方式及編碼算法都為數字音頻廣播提供了更加有效的傳輸和存儲
方式,使得在有限的帶寬中以較低比特率來傳輸聲道數更多、質量更優的音頻信號成為可能。同樣在數字
音頻廣播系統的發展中也充分利用了這些以此為核心的新技術。以前,立體聲廣播起著主導的作用,現在
隨著越來越多的多聲道數字音頻系統的應用,在數字音頻廣播領域也已經開始接納并制定相關的音頻標準
了。在Eureka147DAB和DVB中,已經包括了多聲道數字音頻的擴展。
7.1
Eureka147DAB國際協議是于1986年由16個歐洲成員組織為制定數字音頻廣播標準而制定的標準規范。隨
后又有一些新的組織機構加入到這項協議工作中去,并于1995年形成了第一個DAB的標準。在同一年中,
世界范圍的DAB論壇也相繼成立,它們的目標就是促進世界各地更多的組織機構采用以Eureka147DAB為
藍本的數字音頻廣播的實現。
Eureka147DAB系統的設計是用來取代現行的FM廣播業務的,它采用COFDM(編碼正交頻分復用)以便于
更好地進行移動接收和克服多徑效應,載波采用DQPSK(差值正交相移鍵控)進行調制,通道編碼采用卷
積編碼,以滿足可調整碼率的需要。
Eureka147DAB系統使用1.536MHz的頻譜帶寬來傳輸最大不超過1.5Mb/s的數據,因此對于多聲道來說,
如為6個聲道,則每個聲道的數據率最大不超過256kb/s。對于聲道如何分配及使用,則是根據節目數量/
數據業務與音頻質量來折衷考慮的。由于早期的Eureka147DAB源編碼的發展沒有反映出當前最新發展的
技術,同時由于歷史原因及DAB標準由歐洲制定,而歐洲長期以來都采用的是MPEG技術,考慮到兼容等問
題,因此DAB系統中音頻編碼系統采用的是MPEGLayerII編碼方案。不能說MPEGLayerII編碼方案有什么
不好,但是如果我們綜觀當前多聲道數字音頻系統的最新發展,不難看出,有更多更好的方案可以被采用,
如在提高聲音質量上可采用DTS系統,在增加聲道數目上可采用MPEGAAC系統。
7.2
DVB項目是在1993年由220多個世界組織來制定建立的。這些世界組織包括廣播業者、制造商、網絡管理者
和致力于發展數字電視標準的各種組織機構。最早的DVB業務是在歐洲開始的,現在DVB標準不僅是歐洲的
數字電視標準,而且它也擴展到亞洲、非洲、美洲及澳大利亞等地區,成為這些地區數字電視的選擇標準
之一。與此不同的美國采用的是ATSC系統。
在DVB的標準中規定了三個子系統:DVB-S(衛星)、DVB-C(有線)和DVB-T(地面)系統。DVB-S系統是
一種單載波系統,是最早實現的DVB標準,它是建立在正交相移鍵控(QPSK)調制和通道編碼(卷積編碼
和里得-所羅門塊編碼)的基礎之上的,典型的碼率為40Mb/s左右。DVB-C系統是以DVB-S系統為基礎建立
的,不同的是它采用QAM(正交調幅)調制方式,取代了用于DVB-S中的QPSK調制方式。在DVB-C中如果使
用64點QAM調制,則可以實現在8MHz的帶寬中傳輸38.5Mb/s的數據。DVB-T系統與以上兩者都不同的是采用
了COFDM的調制方式,而通道編碼則與前兩者基本相同。在DVB-T系統中,可以實現在7MHz的帶寬中傳輸
19.35Mb/s的數據。
DVB系統的源編碼是建立在MPEG-2視頻和MPEG-2系統標準上的。同時在DVB中也提供了與立體聲相兼容的多
聲道數字音頻系統。同樣由于歷史及其他一些原因,在DVB音頻部分中仍然采用的是MPEGLayerII多聲道
數字音頻系統,在DVB的標準中也同時規定可以采用靈活性更大、質量更高,超過MPEGLayerIIMC系統
的多聲道數字音頻系統作為DVB的音頻部分。
總之,隨著數字廣播的不斷發展,相信這些已經成熟的各種技術都將有它們各自的用武之地。
8、結語
在本文中,我們主要討論了當前較流行、較成熟的幾種多聲道數字音頻系統,同時也對它們所采用的編碼
方法的主要技術做了詳盡的分析比較。隨著存儲媒體及傳輸帶寬技術的不斷發展,相信多聲道數字音頻系
統會逐漸取代傳統的如CD格式的音頻系統;同樣應用于多聲道數字音頻系統中的音頻編碼及傳輸方案也會
不斷的進行更新、發展。更多聲道的實現及更高質量的音頻系統實現都會成為可能,如新建立的
DVD-Audio音頻技術中的編碼方案已遠遠超越了PCM音頻方式。
總而言之,我們相信在今后的數字廣播的發展中,不管是DVB、DAB、數字視頻、音頻廣播,還是ATSC數字
電視系統等,都將會采用不受帶寬限制(相對而言)、可提供更高質量、更多聲道的多聲道數字音頻系統。
參考文獻
[1]ITU-RRecommendationBS.775-1,“Multi-channelStereophonicSoundSystemwithand
withoutAccompanyingPicture”,InternationalTelecommunicationUnion,Geneva,Switzerland,
1992-1994
[2]ITU-RRecommendationBS.1116,“MethodsfortheSubjectiveAssessmentofSmall
ImpairmentsinAudioSystemsIncludingMulti-channelSoundSystem”,International
TelecommunicationUnion,Geneva,Switzerland,1992-1994
[3]J.D.JohnsonandFerreira,“Sum-DifferenceStereoTransformCoding,”IEEEICASSP
1992,pp.569-571。
[4]ISO/IEC13818-3
[5]ISO/IEC11172-3
[6]M.Davis,“TheAC-3Multi-channelCoder”,presentedatthe95thAESConvention,New
York,October1993,preprint3774.
[7]ISO/IEC13818-7,AdancedAudioCoding(AAC)
[8]“DTSCoherentAcousticsDeliveringHigh-QualityMulti-channelSoundtothe
Consumer,”presentedatthe100thAESConvention,Copenhagen,May1996,present4296
- 上一篇:內部競爭矛盾管理論文
- 下一篇:傳統工藝美學思想體系論文