孫曉雪 魏占勝
摘 要:在快速發(fā)展的數(shù)字市場(chǎng)里,音樂產(chǎn)業(yè)正在進(jìn)行著從實(shí)體到數(shù)字,音樂在數(shù)字市場(chǎng)所占的比例也在逐年增加,其所帶來的經(jīng)濟(jì)收益也越來越可觀。本文主要以音樂視頻(Music Video,MV)為研究對(duì)象,概述音頻幾個(gè)主要底層特征與聽眾評(píng)價(jià)的關(guān)系。
關(guān)鍵詞:音頻;底層特征;聽眾評(píng)價(jià)
1 頻譜特征與聽眾情緒及評(píng)價(jià)的關(guān)系
頻譜特征對(duì)于音頻而言是一個(gè)很重要的底層特征。它是通過對(duì)音頻信號(hào)進(jìn)行短時(shí)傅里葉變換而得到的譜特征,是音頻信號(hào)最基本的底層特征。
Krishna Kishore 和Krishna Satish 在其文章中選取SAVEE數(shù)據(jù)庫(kù)中的數(shù)據(jù),使用基于倒譜參數(shù)的子帶(Subband based Cepstral Parameter)和MFCC兩種算法識(shí)別憤怒、沮喪、害怕、快樂、中性、悲傷六種情感,其最高準(zhǔn)確率達(dá)到79%。Bhaykar等人在其文章中研究了在演講人固定、不固定以及多種語言交叉的三種情況下進(jìn)行情感識(shí)別,進(jìn)一步驗(yàn)證了梅爾頻率倒譜系數(shù)的有效性。研究中選用了IITKGP-SESC和IITKGP-SEHSC兩個(gè)語音數(shù)據(jù)庫(kù),并使用高斯混合模型(Gaussian Mixture Model,GMM)和隱馬爾可夫模型(Hidden Markov Model,HMM)作為分類模型進(jìn)行情感分類,文中共涉及了七種情感,分別為憤怒、厭惡、恐懼、快樂、中立、諷刺和驚喜。研究結(jié)果表明基于GMM模型使用MFCC特征識(shí)別7種情感的正確率為47.14%,而基于HMM模型的正確率為40.55%。頻譜重心也是一個(gè)重要的頻譜特征。Antonio Rodà對(duì)古老的音樂唱片進(jìn)行了研究,使用4種不同尺寸的唱針重新刻錄這些唱片,并選取了年齡在21到26歲間的24個(gè)志愿者欣賞重新刻錄的唱片,通過志愿者的評(píng)價(jià),利用頻譜重心和聲音的明亮度等音頻特征進(jìn)行了定量的感知測(cè)驗(yàn)分析,以檢驗(yàn)唱片重新刻錄的質(zhì)量。實(shí)驗(yàn)結(jié)果表明,不同的唱針類型對(duì)刻錄唱片的質(zhì)量有一定的影響。頻譜通量作為最基本的音頻特征,也有許多研究中使用這個(gè)特征。如Wang Xing等人在其研究中利用音樂情感和音樂結(jié)構(gòu)構(gòu)建音樂數(shù)據(jù)庫(kù),研究中提取的特征有頻譜特征、聲音明亮度、梅爾頻率倒譜系數(shù)、頻譜重心、節(jié)奏等音頻特征,利用這些音頻底層特征構(gòu)建了情感回歸因子,實(shí)驗(yàn)結(jié)果證明音頻底層特征可以建立比較好的情感回歸因子。綜上所述,音頻的頻譜特征影響著聽眾情緒,從而影響著其對(duì)該音樂的評(píng)價(jià)的好壞。
2 節(jié)奏特征與聽眾情緒及評(píng)價(jià)的關(guān)系
節(jié)奏是音樂中不可缺少的一部分,節(jié)奏特征對(duì)于音樂的分析也是必不可少的底層特征。常用的節(jié)奏特征有節(jié)拍,節(jié)奏和脈動(dòng)清晰度。不同的音樂表達(dá)著不同的情緒。Aathreya等人在其研究中基于Thayer情感模型,選取了快樂、旺盛、精力充沛、瘋狂、悲傷、憂郁、冷靜、知足8種情緒,提取了節(jié)拍、節(jié)奏、音高、過零率等音頻底層特征,根據(jù)音樂所表達(dá)的不同的情緒對(duì)歌曲進(jìn)行分類,分類效率最高達(dá)到94.44%。Katsunori Arakawa等人在其文章中研究了聽眾的喜好與音樂特征間的關(guān)系。其選用的音頻特征就是節(jié)奏特征。研究結(jié)果表明聽眾喜歡的音樂往往集中在某些音樂特征軸上,此外,這些特征軸隨著聽眾與藝術(shù)家的不同而改變。節(jié)奏特征還用來對(duì)音樂情緒分類。Emiru Tsunoo等人提出了一種從音樂中提取出節(jié)奏和低音線特征的單元模式,將這一單元模式與統(tǒng)計(jì)特征提取相結(jié)合來對(duì)情緒進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明自動(dòng)地計(jì)算這一單元模式信息可以有效地用來對(duì)音樂情緒分類。脈動(dòng)清晰度決定了節(jié)奏的周期性強(qiáng)度及音樂信號(hào)的脈動(dòng)強(qiáng)度,其傳遞著如何使聽眾可以輕易的感知音樂底層的脈動(dòng)的信息。Santosh Chapaneri等人提取音樂的力度特征、節(jié)奏特征、音色特征、譜特征,其中節(jié)奏特征中就選用了脈動(dòng)清晰度特征,利用CFS選出重要的特征后對(duì)500首歌曲進(jìn)行流派分類,這500首歌曲共有5個(gè)流派,分別為電子、爵士、流行、嘻哈、搖滾,最高的分類準(zhǔn)確率達(dá)到了82%。
3 音色特征與聽眾情緒及評(píng)價(jià)的關(guān)系
音色特征同樣也是重要的音頻底層特征。聲音的明亮度影響著聽眾的情緒。明亮的音色再加上響亮的聲音會(huì)讓人產(chǎn)生活力,動(dòng)蕩,沖突和豪邁的情緒;同樣的音色若是加上輕柔的聲音則會(huì)詩(shī)人產(chǎn)生敏感的、熱情的、悲憫的情緒。低沉的音色搭配輕柔的音樂更能激發(fā)聽眾的共鳴感。在不考慮節(jié)奏的飽和度的情況下,音色可以刺激聽眾的能量水平。此外,音頻信號(hào)的過零率(zero crossing rate,ZCR)在上文所提到的語音情感識(shí)別的研究中也是一個(gè)常用的底層特征,憤怒的情感相比于愉快的情感具有較高的震動(dòng)均值。
4 音高特征與聽眾情緒及評(píng)價(jià)的關(guān)系
除上述幾種特征外,音高特征(pitch)也是人們常用來進(jìn)行音頻情感識(shí)別的特征。Wu liang提出一個(gè)新方法用于語音情感識(shí)別,該方法是基于多類分類器,使用聲學(xué)的韻律信息和語義標(biāo)簽對(duì)中性、愉快、憤怒和悲傷四種情緒進(jìn)行識(shí)別。文中用于情緒識(shí)別的音頻特征中有音調(diào)、梅爾頻率倒譜系數(shù)、強(qiáng)度等,其采用元決策樹(Meta Decision Tree,MDT)將高斯混合模型、支持向量機(jī)和多層神經(jīng)網(wǎng)絡(luò)三種分類器進(jìn)行融合來提高識(shí)別的準(zhǔn)確率。研究結(jié)果表明使用MDT可以使識(shí)別的準(zhǔn)確了達(dá)到80%,單獨(dú)使用LS其平均準(zhǔn)確率為80.92%,若將AP和LS結(jié)合使用則準(zhǔn)確率可以達(dá)到83.55%,要高于單獨(dú)使用AP或LS進(jìn)行識(shí)別。Shashidhar等人也采用音高和vowel onset points進(jìn)行憤怒、害怕、高興、中性以及悲傷5種情感進(jìn)行識(shí)別,以高斯混合模型作為分類器,對(duì)數(shù)據(jù)庫(kù)IITKGP-SESC和Emo-DB進(jìn)行對(duì)比,對(duì)兩個(gè)數(shù)據(jù)庫(kù)的情感識(shí)別的準(zhǔn)確率分別為92%和89%。
鑒于上述分析,可假設(shè)音樂視頻的頻譜特征、節(jié)奏特征、音色特征和音高特征對(duì)聽眾的情感狀態(tài)有影響,但是應(yīng)該考慮哪些具體的特征呢?通過閱讀大量閱讀參考文獻(xiàn),選取頻譜通量、頻譜質(zhì)心、梅爾頻率倒譜系數(shù)、音符密度、節(jié)奏、脈動(dòng)清晰度、聲音明亮度、過零率、音調(diào)9個(gè)音頻底層特征。
參考文獻(xiàn):
[1]孫科.中國(guó)民族音樂特征提取與分類技術(shù)的研究[D].上海:東華大學(xué),2011.
[2]孫鵬玉.波形音樂文件特征提取方法的研究[D].大連:遼寧大學(xué),2013.
項(xiàng)目:吉林農(nóng)業(yè)科技學(xué)院青年基金項(xiàng)目:吉農(nóng)院合字[2018]第3013號(hào)
作者簡(jiǎn)介:孫曉雪(1988-),女,滿族,吉林吉林人,碩士,講師,研究方向:機(jī)械電子。