王 淼
(南陽市圖書館,河南 南陽 473000)
音頻信息資源數(shù)字化最常見的方式是脈沖編碼調(diào)制(PCM,Pulse Code Modulation)。其基本原理是:首先,通過播放設備將模擬音頻轉(zhuǎn)換成一連串電壓變化的信號;其次,沿橫坐標軸將信號進行等時距分割,這個分割時距就是采樣頻率;再次,把分割線與信號圖形交叉處的坐標位置記錄下來,得到每交叉點坐標,其中用于表示縱坐標數(shù)字的二進制的位數(shù)就是采樣位數(shù),由于已經(jīng)知道時間間隔,可以去除橫坐標,得到縱坐標的一個數(shù)字序列,這一序列數(shù)字就是將以上模擬信號進行數(shù)字化生產(chǎn)的結(jié)果。影響這種模擬信號數(shù)字化生產(chǎn)質(zhì)量因素如下。
采樣是指用每隔一定時間間隔的信號樣本值序列代替原來在時間上連續(xù)的信號,即在時間上將模擬信號離散化。每秒的采樣次數(shù)稱為采樣頻率,以千赫茲(即,每秒幾千個樣本)來描述。根據(jù)奈奎斯特(Nyquist)采樣定理,只要采樣頻率大于或等于被采樣信號的最高頻率的兩倍,借助一定設備,就可以從樣值序列信號中無失真地恢復出原始模擬音頻信號。因此,一個數(shù)字音頻樣本所能記載的最高模擬頻率值應是其采樣頻率的一半,如:采樣頻率為44.1kHz的音頻光盤介質(zhì)只能記錄最高頻率為22.05kHz的模擬聲音。這意味著當聲波經(jīng)過某一點時,每秒就有44,100個離散的振幅測量值對其進行表示。
人耳可以聽到的聲音是頻率在20~20kHz之間的聲波,根據(jù)奈奎斯特采樣定理,理論上只要用40kHz以上的采樣頻率就可以完整記錄20kHz以下的信號。那么,為什么CD唱盤的規(guī)格是44.1kHz(而不是40kHz)呢?因為在CD發(fā)明前,硬盤價格昂貴,存儲數(shù)字音頻信號的主要媒體是錄像帶,用“黑”與“白”來記錄0與1。而當時的錄像帶格式為每秒30張,而一張圖又可以分為490條線,每一條線又可以儲存三個取樣信號,因此每秒有30×490×3=44,100個取樣點,為了研發(fā)方便,CD唱盤也繼承了這個規(guī)格。實際上,無論使用多么高的采樣頻率,記錄的數(shù)字與實際的信號之間總會有誤差,這種誤差稱為數(shù)字轉(zhuǎn)換失真,或稱為量化失真。
目前采樣頻率主要有96kHz和44.1kHz兩種規(guī)范。其中,檔案保存標準采樣頻率為96kHz。如果沒有資源(計算機處理能力、人員、時間及數(shù)字存儲空間等)上的限制,一般以采樣頻率為96kHz來進行音頻資源數(shù)字化生產(chǎn),并以該頻率來保存數(shù)字主文檔。對于那些數(shù)字化生產(chǎn)資源不充足的項目,采樣頻率的選擇應基于對模擬音頻類型和質(zhì)量的分析。
對于某些原始音頻資源來說,采用比44.1kHz更高的采樣頻率并不能更有效地表達出更多的信息,如乙烯錄音帶或模擬盒式錄音帶,因為這些資源不能記錄頻率高于22.05kHz的聲音。
從聲源角度,模擬音頻主要有三種類型:
(1)人類發(fā)音。所有人類發(fā)音的頻率都在20-50kHz之間,所以這類音頻信息資源數(shù)字化時的采樣頻率應該是44.1kHz。
(2)場景錄音。一般是指在一個特定場景下對人類發(fā)音進行的錄音。所以,數(shù)字化時采樣頻率也是44.1kHz。但是,如果場景錄音包括了音樂,或來自自然界的其他聲音(如昆蟲聲音,鳥叫的聲音等),數(shù)字化時的采樣頻率應該考慮96kHz。
(3)音樂錄音。是指樂器產(chǎn)生的寬范圍頻率的錄音。對這些錄音數(shù)字化時,雖然大多數(shù)可以以44.1kHz頻率進行采樣,但有些超過了這個采樣頻率的范圍,所以,一般都采用96kHz,這樣也有助于數(shù)字音頻的編輯。
采樣位數(shù)是指表示振幅測量值的二進制碼的位數(shù),其單位是比特(bit)。比如,8比特位數(shù)的取值范圍是0~255,16比特位數(shù)的取值范圍為0~65,535,而24比特位數(shù)的取值范圍0~16,777,215。由于人耳對于音量較為敏感,所以,以較高采樣位數(shù)進行采樣的音頻會聽起來“更平滑”,更能真實地再現(xiàn)原始模擬音頻。
一般來說,人耳僅可以辨別出15比特及17比特的音頻樣本差別。有些聽音者,尤其是受過專門訓練的音頻工程師,可以辨別出同一音頻資源的24比特錄音和16比特錄音之間的差異,但一般人很難辨別出它們的差別。
錄音設備不大可能也沒必要絲毫不差地將某一音頻資源再現(xiàn)出來。以24比特進行高數(shù)據(jù)位數(shù)的采樣,可以明顯地消除因設備配置帶來的缺陷,并可為計算機音頻編輯系統(tǒng)附加的音頻處理提供更多的提升空間。
此外,數(shù)字轉(zhuǎn)換時采用的采樣頻率和采樣位數(shù)與原始音頻資源息息相關(guān),不僅僅局限于人耳所能聽到的音域。許多聲音所表現(xiàn)的頻率范圍要遠遠高出22.05kHz,24比特的采樣位數(shù)比16比特的采樣位數(shù)更能清晰地記錄更多的語音信息。還有,技術(shù)飛速發(fā)展使得數(shù)字音頻的未來應用存在著諸多變化。因此,在進行音頻信息資源數(shù)字化時,最佳采樣位數(shù)的選擇受制于眾多因素。筆者列出了目前數(shù)字化項目采用不同的采樣頻率和采樣位數(shù)的優(yōu)缺點(見表1)。
表1 不同采樣頻率和采樣位數(shù)的優(yōu)缺點分析
記錄數(shù)字音頻時,如果每次生成一個聲波數(shù)據(jù),稱為單聲道;每次生成二個聲波數(shù)據(jù),稱為雙聲道(立體聲)。另外,還有四聲道、5.1聲道等。聲道數(shù)量越多,聽覺感受越好,但音頻文件存儲所占空間越大。目前為止,有下述幾種主要類型的聲道。
(1)單聲道。單聲道是比較原始的聲音轉(zhuǎn)換形式,在音頻信息資源數(shù)字化初期應用比較廣泛,但現(xiàn)在已很少使用。單聲道音頻播放時缺乏聲音的位置定位。
(2)雙聲道(立體聲)。雙聲道技術(shù)是指聲音在錄制過程中被分配到兩個獨立的聲道,從而達到較好的聲音定位效果,克服了單聲道的缺點。該技術(shù)可以使聽眾清晰地分辨出各種聲音的方向,使音樂更富想象力,更接近于臨場感受。時至今日,這種技術(shù)應用還比較廣泛,并且仍然有不少產(chǎn)品遵循該標準。
(3)準雙聲道(準立體聲)。準雙聲道是指在錄制聲音時采用單聲道,但在放音時,有時采用立體聲,有時采用單聲道。這種技術(shù)曾經(jīng)使用一時,但現(xiàn)在已基本不再使用。
(4)四聲道。技術(shù)的發(fā)展,出現(xiàn)了三維音效,四聲道也應運而生。三維音效是指一個虛擬的聲音環(huán)境,通過特殊技術(shù)營造一個趨于真實的聲場,從而獲得更好的聽覺效果和聲場定位。
四聲道有4個發(fā)音點:前左、前右,后左、后右,聽眾則被包圍在中間,有時還增加一個低音(有人稱為4.1聲道),以加強對低頻信號的回放處理。四聲道技術(shù)為聽眾帶來了來自多個不同方向的聲音環(huán)繞,獲得各種不同環(huán)境的聽覺感受。如今,四聲道技術(shù)已經(jīng)融入到不少產(chǎn)品的設計中,可能成為未來發(fā)展的主流趨勢。
(5)5.1聲道。5.1聲道已廣泛運用于各類影院中,一些比較知名的聲音錄制壓縮格式(如,杜比AC-3、DTS等)都是以5.1聲道為技術(shù)藍本。5.1聲道來源于4.1聲道,只是增加了一個中置單元。該單元負責傳送低于80Hz的聲音信號。
聲道技術(shù)發(fā)展很快,目前已出現(xiàn)了7.1聲道系統(tǒng),該聲道是在5.1聲道基礎上增加了中左和中右兩個發(fā)音點。
模擬音頻信息資源數(shù)字轉(zhuǎn)換后以文件的形式存儲、播放和傳播。目前,數(shù)字音頻文件的格式有很多種,不同格式所采用的編碼不同,采樣頻率、采樣位數(shù)和聲道個數(shù)不一樣,壓縮算法、壓縮比例以及壓縮效果也存在一定差別。所以,數(shù)字音頻文件的保存格式也是影響模擬音頻數(shù)字轉(zhuǎn)換質(zhì)量的因素之一。
目前,音頻信息資源數(shù)字化生產(chǎn)中常用的文件格式 有:WAV、CD、MP3、MP3PRO、WMA、MP4、SACD、QuickTime、VQF、DVD Audio、MD、RealAudio、Audible、AIFF、MAC、S48、AAC 等。
除了上述四個因素外,模擬音頻信息資源數(shù)字化生產(chǎn)的質(zhì)量還受其他一些因素的影響,如:揚聲器質(zhì)量、計算機聲卡A/D與 D/A(模/數(shù)、數(shù)/模)轉(zhuǎn)換芯片質(zhì)量及各個設備連接線屏蔽效果等。
[1]林俊桂.音頻數(shù)字化簡單原理[EB/OL].[2011-02-10].http://www.nhlcgz.com/blog/u/21/archives/2007/80.html
[2]CDP.Digital Audio Best Practices Version 2.0[EB/OL].[2010-11-15].www.cdpheritage.org/digital/audio/documents/cdpdabp_1-2.pdf