李紫凈 朱偉
【摘? ?要】 提出在現(xiàn)有的聽音訓(xùn)練方法上引入視覺信息以輔助進(jìn)行聽音訓(xùn)練的設(shè)想,梳理聲音可視化及聽音訓(xùn)練的發(fā)展情 況,并對聲音可視化在聽音訓(xùn)練上的應(yīng)用進(jìn)行討論。
【關(guān)鍵詞】 聲音可視化;聽音訓(xùn)練;視聽映射
文章編號: 10.3969/j.issn.1674-8239.2018.10.005
A Preliminary Study on the Application of Sound Visualization in Ear Training
LI Zi-jing, ZHU Wei
( Communication University of China, Beijing 100024, China)
【Abstract】The idea of introducing visual information into the ear training is proposed. This paper reviews the development of ? sound visualization and ear training, and the application of sound visualization in ear training is discussed.
【Key Words】sound visualization; ear training; mapping
1? 研究背景及意義
毋庸置疑,聽音能力對于錄音師來說至關(guān)重要。在工作過程中,任何一個錄音參數(shù)的設(shè)定、傳聲器的選擇和擺位等,都會對最終錄制出來的聲音有一定的影響。這也就要求錄音師能時刻根據(jù)聽到的聲音效果做出判斷調(diào)整。這種對聲音的專業(yè)聽評能力并不是完全與生俱來的,而是隨著工作經(jīng)驗(yàn)的累積得到提升,或者通過系統(tǒng)的聽音訓(xùn)練在更短的時間里取得一定的進(jìn)步。然而,對于一些剛剛接觸錄音行業(yè)的受訓(xùn)人員,由于缺少實(shí)踐經(jīng)驗(yàn)和對聲音的敏感性,可能在聽音訓(xùn)練中無法快速地理解、區(qū)別聽音要素。因此,有必要通過一定的方法來幫助受訓(xùn)人員更好地理解各種聲音要素的變化,提高訓(xùn)練效率。
在面臨復(fù)雜環(huán)境時,聽覺、視覺等多種感知通道會產(chǎn)生交互,以保證對當(dāng)下情況的充分了解。也有研究表明,跨通道的訓(xùn)練效果等效甚至更好于單通道的訓(xùn)練效果。因此筆者設(shè)想,在現(xiàn)有的聽音訓(xùn)練機(jī)制中引入一個視覺上的參考信息,幫助錄音師從另外一個角度加深對聲音要素的理解,有利于準(zhǔn)確快速地達(dá)到訓(xùn)練的目標(biāo),提高訓(xùn)練效率。
在聽音訓(xùn)練中引入視覺信息,需要保證該視覺信息可以與聲音要素的變化相對應(yīng),保證視覺信息起到幫助訓(xùn)練人員理解聲音信息的作用。因此,該設(shè)想的核心問題可以理解為聲音信息的可視化,設(shè)想的關(guān)鍵在于確定適合于聽音訓(xùn)練的聲音與圖像之間的映射關(guān)系。
2? 聲音可視化的研究現(xiàn)狀
雖然至今針對聽音訓(xùn)練進(jìn)行視覺輔助的相關(guān)研究寥寥可數(shù),但此類研究開展已久。聲音與圖像之間的映射關(guān)系在20世紀(jì)就已經(jīng)被提出。已有研究中,聲音參數(shù)大多映射到圖像的顏色、形狀和紋理,其中與顏色空間的映射是常常討論的內(nèi)容。由于研究方法以及應(yīng)用情況不同,各個文獻(xiàn)研究所提出的模型也不盡相同。
Walker R(1987)[1]通過實(shí)驗(yàn)研究了四個聲學(xué)參數(shù)(頻率、波形、幅度和持續(xù)時間)的視覺隱喻選擇,結(jié)果顯示出以下的傾向:頻率與垂直位置相匹配,幅度與大小相匹配,波形與圖案相匹配,持續(xù)時間與水平長度相匹配。同樣,Scott D. Lipscomb與Eugene M. Kim(2004)[2]的實(shí)驗(yàn)也調(diào)查了聲音參數(shù)音高、響度、音色和持續(xù)時間與視覺參數(shù)顏色、垂直位置、形狀和大小之間的映射關(guān)系,結(jié)果顯示:除了持續(xù)時間與任何視覺參數(shù)匹配程度都并不高外,其他結(jié)果與WalkerR的實(shí)驗(yàn)一致。但其發(fā)現(xiàn)某些參數(shù)并不僅有單一的匹配,例如視覺參數(shù)顏色與聲音參數(shù)音高和響度均可匹配。Mats B. Küssner與Daniel Leech-Wilkinson(2013)[3]的實(shí)驗(yàn)通過直接繪畫出相應(yīng)的被試聆聽素材的方法,也驗(yàn)證了WlakerR關(guān)于音高、響度、持續(xù)時間的映射關(guān)系。
在Giannakis, K與 Smith, M(2001)[4]的實(shí)驗(yàn)里,考量的聲音參數(shù)為響度和音高,視覺參數(shù)則是HSV顏色空間(Hue-Saturation-Value)。結(jié)果顯示,純音的響度和音高可以分別與飽和度(Saturation)和明度正相關(guān);沒有發(fā)現(xiàn)色調(diào)(Hue)與音高或響度有任何直接的關(guān)聯(lián),但色調(diào)和某些聲音頻率范圍之間存在一定的關(guān)系。Giannakis K(2006)[5]通過實(shí)驗(yàn)探究了音高、響度、音色與兩種視覺映射的關(guān)系,其中音色維度展開為尖銳度、緊湊度與不和諧度(粗糙度)。結(jié)果顯示,對于音高,高度的映射優(yōu)于亮度的映射;響度上,映射到飽和度與映射到亮度的兩種理解性都很好;音色上,尖銳度、緊湊度與不和諧度分別映射到紋理粗糙程度、粒度與紋理重復(fù)的規(guī)則性比分別映射到線數(shù)量、像素化和密度更為容易理解。
另外,很多文獻(xiàn)沒有通過實(shí)驗(yàn)來探究基本視聽參數(shù)的映射關(guān)系,但也提出了在不同應(yīng)用前提下的可視化解決方案。對于一些需要表征聲音元素的具體位置等信息的可視化模型,很多文獻(xiàn)都將聲音元素表現(xiàn)為球體。David Gibson(1997)[6]在表示混音情況時,就引入球體來表示不同的樂器元素。聲像位置由左右的變化來體現(xiàn),音量大小主要由前后來體現(xiàn),音高即頻率高低由上下來體現(xiàn)。Jarrod Ratcliffe (2014)[7]加入手勢的混音控制器中的可視化模型參考了David Gibson的設(shè)置。Kaper H G, Wiebel E與Tipei S(2000)[9]的M4Cave為呈現(xiàn)聲音在聲場中的位置,將聲音呈現(xiàn)為一組球體,頻率決定球體沿垂直軸的位置,振幅與球體大小成比例,混響則會影響球體顏色。Outram B I. (2016)[10]在對音樂的可視化中,把頻率映射到顏色,即將聲音的等響度校正的對數(shù)頻率功率譜映射到有效可見光功率譜上,音量映射到球體大小,不同的樂器音軌對應(yīng)著上下空間中不同的行,時間處于前后向的空間維度上。
同時,還有一些不同應(yīng)用環(huán)境下的可視化模型在視聽要素的選擇上另辟蹊徑。Stephen V. Rice (2005)[13]直接制定了從聲音頻率信息到顏色的映射關(guān)系,例如紅色成分的顏色會分配給高頻,深色分配給低頻,中頻至高頻呈綠色,低頻至中頻則呈藍(lán)色等,以達(dá)到使用者更快識別音頻片段的目的。Grill T與Flexer A(2012)[14]將音高從高到低的映射選擇為亮度與色調(diào)相結(jié)合,即從明亮黃色到深紅色;同時其還將一些聽覺主觀感受作為可視化對象,比如將樂音程度、有序性、粗糙程度等映射到色彩飽和度、瓦片元素的規(guī)律性、瓦片元素輪廓的粗糙度等。后續(xù)調(diào)查評估顯示,被試者可以將聲音與正確的圖像相關(guān)聯(lián)。另外,對于部分涉及音頻檢索的可視化應(yīng)用,其聲音要素的選擇就更加多樣。George Tzanetakis(2000)[15]通過主成分分析(PCA)提取特征向量的前三個主要分量,將其映射到RGB或HSV顏色空間中的顏色。Andrew Mason, Michael Evans與 Alia Sheikh(2007)[16]也選擇了三種音頻特征(過零率等)映射到RGB顏色空間。
綜上所述,可視化中考慮的聲音要素一般都會涉及音高(頻率)、音量(幅度),對于音色,有的文獻(xiàn)將音色看作一維維度(僅使用不同的樂器素材來表示),也有文獻(xiàn)將音色展開為尖銳度、緊密度、和諧度等多維度。視覺要素則比較多樣,軸向位置、大小、形狀、顏色、紋理排布等都有被使用;對于顏色,部分文獻(xiàn)使用了顏色空間的理念,部分文獻(xiàn)僅選用幾種顏色進(jìn)行探討,也有文獻(xiàn)將可見光譜展開來進(jìn)行映射;形狀、紋理排布的選用也都各取所需。另外,由于應(yīng)用不同,對于可視化的需求就有一定差別。比如對樂曲等可視化就需要考慮樂曲本身所帶有的其他音樂屬性,音頻檢索等則考慮識別效果。另外,從一些文獻(xiàn)的實(shí)驗(yàn)結(jié)果來看,對某一參數(shù)的映射并不是唯一的:音高映射到高度、亮度、顏色都是可以被識別的;基于光波長變化的顏色也均能與音高和響度匹配。因此,可視化的選擇并不是唯一的,具體的可視化方案必須從應(yīng)用層面出發(fā),選擇合適的映射關(guān)系。對于視覺輔助聽音訓(xùn)練的聲音可視化這一應(yīng)用情況,需要綜合已有可視化的成果來進(jìn)行新的建構(gòu),以突出聽音訓(xùn)練所需要關(guān)注的聽覺要素。
3? 聽音訓(xùn)練的方法背景
聽音訓(xùn)練的方法自Letowski(1985)[19]就已經(jīng)開始了研究。基本訓(xùn)練方法是讓受訓(xùn)人員將參考信號與其經(jīng)過聲學(xué)修改的版本進(jìn)行比較,了解其差異,然后重復(fù)此過程直到他們能夠可靠地確定聲音差異。通過重復(fù)和定期練習(xí),人們可以獲得對聲音細(xì)節(jié)更高的敏感度,提高耳朵識別信號處理中特定參數(shù)的效率和準(zhǔn)確性。傳統(tǒng)上,聽音訓(xùn)練是團(tuán)體培訓(xùn),需要專業(yè)的講師指導(dǎo)。講師可以為受訓(xùn)人員提供一定的示范講解,受訓(xùn)人員也可以分享聽覺體驗(yàn),達(dá)成一定的交流反饋。但其對時間、環(huán)境、人力都有一定的要求。這種情況下出現(xiàn)了各種形式的教材,如D. Moulton 的“Golden Ears”CD, HARMAN的“How to listen”、L. Herranz的“Train your ears”等軟件,以及書籍與軟件結(jié)合的Jason Corey的“Audio Production and Critical Listening: Technical Ear Training”[20]等。隨著計(jì)算機(jī)水平的發(fā)展,目前很多關(guān)于聽音訓(xùn)練軟件中的互動反饋、自適應(yīng)、個性化難度設(shè)置的研究也取得了一定的成果。
4? 聲音可視化在聽音訓(xùn)練上的應(yīng)用
有很多研究表明,跨模態(tài)訓(xùn)練存在潛在的學(xué)習(xí)優(yōu)勢。首先,當(dāng)同時有多種感官參與訓(xùn)練時,學(xué)習(xí)的注意力自然會更加集中。第二,關(guān)聯(lián)性強(qiáng)的其他模態(tài)的信息介入,有助于學(xué)習(xí)者產(chǎn)生聯(lián)想記憶。第三,跨模態(tài)的訓(xùn)練可能會引導(dǎo)學(xué)習(xí)者擴(kuò)展發(fā)現(xiàn)單一模態(tài)下不容易注意的信息。
其實(shí),在相關(guān)音頻工作中已經(jīng)依靠了一定的視覺提示,如電平表、波形顯示和一些直觀的信號處理參數(shù)。相較于視覺信息,聲音的無形性更加明顯,因此,需要一些具體而有形的信息來幫助認(rèn)識抽象概念。所以,對于新手來說,相比于聲音信號的細(xì)微變化,視覺信息的變化會更容易被注意到。
目前,將視覺信息與聽音訓(xùn)練聯(lián)系起來的研究仍然寥寥無幾。Thilo Schaller與Ian G. Burleigh [21]提到了應(yīng)用可視化的聽音訓(xùn)練方法,試圖通過可視化來解釋相關(guān)理論,例如演示了復(fù)雜的周期波形的正弦分量加法合成,來表現(xiàn)分量的幅度相位變化對整體聲音的影響;使用音高螺旋(PitchSpiral)來演示復(fù)雜音調(diào)的諧和性等。對于聽音訓(xùn)練,則開發(fā)了噪聲螺旋(Noise Spiral),如圖1所示,來進(jìn)行均衡的頻帶變化識別,噪聲螺旋可以顯示頻率及元音共振峰數(shù)據(jù),與其他聽音訓(xùn)練方法類似,要求受訓(xùn)人員通過噪聲或音樂等素材來進(jìn)行識別頻率帶的提升或衰減。
Thilo Schaller與Ian G. Burleigh的可視化則聚焦于如何讓受訓(xùn)人員更好地理解聽辨內(nèi)容的原理,其可視化需要一定的注意力去觀察理解,而并非是直觀的視覺感受。
可視化是否必須精準(zhǔn)細(xì)致,是值得討論的。如果追求精準(zhǔn)的聲音可視化,實(shí)時頻譜分析無疑是一種細(xì)致清楚的方法,可以準(zhǔn)確客觀地顯示頻率成分等。但大家并不會在平時的混音工作中十分依賴它,原因在于聲音信號是時刻變化的,實(shí)時頻譜也隨之變化,使其難以被迅速理解,反而分散了大量的注意力,增加了工作負(fù)擔(dān)。這也是這類精準(zhǔn)的可視化對聽音訓(xùn)練不適用的原因。
聽音訓(xùn)練可視化的目的并不是為受訓(xùn)人員提供詳細(xì)的頻譜內(nèi)容。聽音訓(xùn)練的本質(zhì)仍然在于“聽”,如果視覺信息喧賓奪主反而會起到反作用。因此,該可視化模型的具體呈現(xiàn)需要比較簡化,使其在起到提示作用的前提下,盡可能少地分散用戶的注意力。
在聲音對應(yīng)的音高、響度、音色三大特征中,音高與響度主要的影響因素就是頻率和幅度,而音色是一個多維屬性,不同的樂器、不同的發(fā)聲方法會使音色變化萬千。值得一提的是,普通人就已經(jīng)具備分辨出小提琴與大提琴音色不同的能力了,因此,在音頻工程師的工作中,對這種顯而易見的音色變化的辨別是不需要去練習(xí)的,需要練習(xí)的是來自于信號處理帶來的頻譜內(nèi)容以及頻譜平衡上的一些變化。所以,筆者選擇了頻率和幅度作為聽音訓(xùn)練可視化中考量的聲音要素。
對于視覺素材的選擇,正如前文所述,并沒有完全統(tǒng)一的結(jié)論。在此處,筆者更加傾向于在頻率與色調(diào)、幅度和亮度之間建立聯(lián)系。眾所周知,頻率與聲波的波長有關(guān),而色調(diào)也與可見光的波長有關(guān),顏色的冷暖與聲音的冷暖也都具有一定的類比關(guān)系。幅度和亮度都是一種能量多少的象征,即都來自強(qiáng)度這一概念,兩者之間也可以較好地建立聯(lián)系。這一可視化方案的視覺參數(shù)較少,在視覺呈現(xiàn)上用色塊的亮度變化即可完成,可以達(dá)到簡潔且非絕對化的提示作用。
另外,給用戶一個來自于其他模態(tài)的提示信息,某種意義上是需要靠受訓(xùn)人員的直覺來感應(yīng)的?!爸庇X”的概念是模糊的、因人而異的,是否能起到幫助理解的作用,也與其自身的知覺感應(yīng)有關(guān)。具體的可視化方案的優(yōu)化及其效果仍然需要通過后續(xù)的系列實(shí)驗(yàn)來進(jìn)行驗(yàn)證。
參考文獻(xiàn):
[1] Walker R. The effects of culture, environment, age, and musical training on choices of visual metaphors for sound[J]. Perception & Psychophysics, 1987, 42(5):491-502.
[2] Lipscomb S D. Perceived Match Between Visual Parameters and Auditory Correlations : An Experimental Multimedia Investigation[C]// International Conference on Music Perception & Cognition. 2004.
[3] Kussner M B, Leech-Wilkinson D. Investigating the influence of musical training on cross-modal correspondences and sensorimotor skills in a real-time drawing paradigm[J]. Psychology of Music, 2013, 42(3):448-469.
[4] Giannakis K, Smith M. Imaging Soundscapes:identifying cognitive associations between auditory and visual dimensions [J]. Musical Imagery, 2001, 161-179.
[5] Giannakis K. A comparative evaluation of auditory-visual mappings for sound visualisation[M]. Cambridge University Press, 2006.
[6] David Gibson.The Art of Mixing[M]. MixBooks , 1997.
[7] Ratcliffe J. MotionMix: A Gestural Audio Mixing Controller[J]. 2014.
[8] Ferguson S, Moere A V, Cabrera D. Seeing Sound: Real-Time Sound Visualisation in Visual Feedback Loops Used for Training Musicians[C]// International Conference on Information Visualisation, 2005. Proceedings. IEEE, 2005:97-102.
[9] Kaper H G, Wiebel E, Tipei S. Data sonification and sound visualization[C]// Computing in Science and Engineering. 2000:48 - 58.
[10] Outram B I. Synesthesia audio-visual interactive-sound and music visualization in virtual reality with orbital observation and navigation[C]// IEEE International Workshop on Mixed Reality Art. IEEE, 2016:7-8.
[11] Ford J, Cartwright M, Pardo B. MixViz: A Tool to Visualize Masking in Audio Mixes[J]. 2015.
[12] Wedekind S, Fraundorf P. Log complex color for visual pattern recognition of total sound[J]. Journal of the Audio Engineering Society, 2016:Paper Number 9647.
[13] Rice SV, Frequency-Based Coloring
of the Waveform Display
to Facilitate Audio Editing and Retrieval[J]. Journal of the Audio Engineering Society, 2005:Paper Number 6530.
[14] Grill T, Flexer A. Visualization of perceptual qualities in textural sounds[C]// International Computer Music Conference. 2012:Paper Number 9647.
[15] Tzanetakis G, Cook P. Audio Information Retrieval (AIR) Tools[J]. IN PROC. INT. SYMPOSIUM ON MUSIC INFORMATION RETRIEVAL (ISMIR, 2000:II-725 - II-728.
[16] Mason A, Evans M J, Sheikh A. Music Information Retrieval in Broadcasting: Some Visual Applications[J]. 2007.
[17] O'Sullivan L, Boland F. Visualizing and Controlling Sound with Graphical Interfaces[C]// Audio Engineering Society Conference:, International Conference: Audio for Games. 2011.
[18] Berthaut F, Desainte-Catherine M, Hachet M. Combining audiovisual mappings for 3D musical interaction[C]// 2010.
[19] Letowski T. Development of Technical Listening Skills: Timbre Solfeggio[J]. Journal of the Audio Engineering Society, 1985, 33(4):240-244.
[20] Corey, Jason. Audio production and critical listening : technical ear training[M]. Focal Press, 2010.
[21] Schaller T, Burleigh I G. Using Web Audio for Ear Training of Sound Engineers[C]// UkAes Conference on Audio Education. 2015.