国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

熱門數(shù)字音頻預(yù)測技術(shù)綜述

2021-09-17 09:43:24張怡寧何洪波王閏強(qiáng)
關(guān)鍵詞:數(shù)字音頻熱門音頻

張怡寧,何洪波,王閏強(qiáng)

1.中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190

2.中國科學(xué)院大學(xué),北京 100049

引言

數(shù)字媒體技術(shù)和互聯(lián)網(wǎng)的高速發(fā)展給傳統(tǒng)媒體帶來技術(shù)上的變革,也對其形態(tài)、傳播方式、傳播理念等都產(chǎn)生了重要的影響?;诨ヂ?lián)網(wǎng)的數(shù)字音頻內(nèi)容,如在線音樂、移動(dòng)電臺播客、有聲書等,受眾愈發(fā)廣泛。根據(jù)艾媒咨詢數(shù)據(jù)[1]顯示,2019年,全國在線音頻市場用戶規(guī)模已達(dá)4.9 億人,2020年,中國在線音頻用戶規(guī)模約達(dá)5.42 億人。而在世界范圍內(nèi),據(jù)德勤的調(diào)研報(bào)告[2]統(tǒng)計(jì)全球播客(podcast)市場在2020年增長30%,規(guī)模達(dá)到了11 億美元。種種跡象表明,基于互聯(lián)網(wǎng)的數(shù)字音頻傳媒形式正在經(jīng)歷高速發(fā)展,并將憑借自身實(shí)力成長為一大重要市場。

李明揚(yáng)[3]定義數(shù)字音頻是一種利用數(shù)字化手段對聲音進(jìn)行錄制、存放、編輯、壓縮或播放的技術(shù),它是隨著數(shù)字信號處理技術(shù)、計(jì)算機(jī)技術(shù)、多媒體技術(shù)的發(fā)展而形成的一種全新的聲音處理手段。數(shù)字音頻的主要應(yīng)用領(lǐng)域是音樂后期制作和錄音。熱門數(shù)字音頻預(yù)測技術(shù)是指通過選擇和提取具有較強(qiáng)表示性的音頻特征,探索音頻熱門程度或流行程度與這些特征之間的關(guān)系,并訓(xùn)練相應(yīng)模型來預(yù)測新發(fā)布的音頻是否會(huì)成為熱門音頻(hits)。研究熱門數(shù)字音頻預(yù)測技術(shù),將一步促進(jìn)全球在線數(shù)字音頻行業(yè)的蓬勃發(fā)展——對于市場規(guī)模已然龐大的音樂行業(yè)和發(fā)展?jié)摿Ω鼮榫薮蟮囊苿?dòng)電臺播客領(lǐng)域都將帶來深遠(yuǎn)的影響。

近些年,全球已有不少學(xué)者對熱門音頻預(yù)測技術(shù)進(jìn)行了探索,并在熱門音樂預(yù)測、熱門播客預(yù)測領(lǐng)域取得了可觀的成果。本文將從熱門指標(biāo)定義、音頻特征選取、預(yù)測模型算法三方面綜述學(xué)術(shù)界在熱門數(shù)字音頻預(yù)測領(lǐng)域的相關(guān)研究成果,并對熱門數(shù)字音頻預(yù)測技術(shù)未來的發(fā)展趨勢和研究方向進(jìn)行展望。

1 熱門指標(biāo)定義

熱門數(shù)字音頻預(yù)測問題在大多數(shù)情況下都會(huì)被看作一個(gè)二分類問題,即通過音頻特征預(yù)測音頻屬于熱門/非熱門音頻。而對于“熱門”與否,學(xué)者們大多通過音頻排名、播放量或下載量等客觀數(shù)據(jù)劃定閾值進(jìn)行指標(biāo)的衡量。

在對于熱門音樂預(yù)測的研究中,大部分學(xué)者根據(jù)音樂排行榜上的音樂排名對熱門音樂和非熱門音樂進(jìn)行區(qū)分,但在熱門指標(biāo)衡量的嚴(yán)格程度上又可能有所不同。在一些文獻(xiàn)[4-6]中,作者定義熱門音樂為登上過美國公告牌(Billboard)年度歌曲排行榜前100 名的音樂,非熱門音樂為從未進(jìn)入排行榜前100名的音樂。在另一些學(xué)者的研究中[7-11]中,進(jìn)入相應(yīng)歌曲排行榜前5、前10 或前20 名的音樂被看作熱門音樂。而Dhanaraj 等人[12]只將排行榜排名第一的音樂看作熱門音樂。也有學(xué)者認(rèn)為由于時(shí)間變量的影響,單純的排行榜數(shù)據(jù)無法客觀反映一首歌的熱門程度,因此Lee 等人[13]基于音樂排行榜的排名自主定義了一首歌曲的多個(gè)流行度指標(biāo),以量化一首音樂的綜合熱度。

部分學(xué)者通過音樂播放量(play counts)對熱門音樂進(jìn)行定義[14-16],通過設(shè)定較高的播放量閾值對熱門音樂進(jìn)行劃分。還有少部分學(xué)者直接使用第三方API(Application Programming Interface,應(yīng)用程序編程接口)定義的熱度指標(biāo)對熱門音樂作出區(qū)分,如Pham 等人[17]使用the Echo Nest(原音樂網(wǎng)站應(yīng)用數(shù)據(jù)平臺,現(xiàn)已被Spotify 收購并更名為Spotify Web API[18])定義的“hotttnesss”指標(biāo)作為預(yù)測的熱門指標(biāo)。

在熱門播客預(yù)測領(lǐng)域,研究成果尚不如熱門音樂預(yù)測領(lǐng)域豐富,基本上所有學(xué)者都是通過播客在相關(guān)平臺上的排名數(shù)據(jù)對熱門播客與非熱門播客進(jìn)行區(qū)分[19-21]。

2 特征選取

音頻特征選擇與提取是熱門數(shù)字音頻預(yù)測研究中的重要環(huán)節(jié),選取與熱門程度相關(guān)性更強(qiáng)的特征往往會(huì)取得更好的預(yù)測效果。熱門數(shù)字音頻預(yù)測的特征可以分為兩個(gè)主要類別:內(nèi)部特征和外部特征[15,22]。內(nèi)部特征指音頻及其本身相關(guān)內(nèi)容的特征,外部特征通常包括與音頻有關(guān)的社交媒體事件、聽眾心理或社會(huì)影響等內(nèi)容。由于外部特征更多的涉及社會(huì)科學(xué)方向,因此熱門數(shù)字音頻預(yù)測技術(shù)領(lǐng)域的研究通常都選取可以量化表示的內(nèi)部特征進(jìn)行建模。只有Bischoff等人[23]僅依靠外部特征,通過從音樂社交網(wǎng)絡(luò)挖掘的數(shù)據(jù)以及歌曲、藝術(shù)家和專輯之間的關(guān)系,使用機(jī)器學(xué)習(xí)的方法預(yù)測了歌曲成為熱門歌曲的潛力。本文主要對學(xué)者們在該預(yù)測領(lǐng)域所選取的內(nèi)部特征進(jìn)行總結(jié)和分析,主要可歸納為以下四個(gè)類別。表1 總結(jié)了常用的四種特征示例及其解釋。

表1 常見的四種特征示例及其解釋Table1 Examples and explanations of the four common features

在大多數(shù)熱門數(shù)字音頻預(yù)測的實(shí)驗(yàn)研究中,學(xué)者們更多的選取音頻淺層特征和音頻深層特征作為輸入變量建立預(yù)測模型。單獨(dú)選取文本特征進(jìn)行預(yù)測也會(huì)取得可觀的預(yù)測效果[4]。值得注意的是,在他們的實(shí)驗(yàn)中,選取多種特征類型共同預(yù)測的效果往往最好,如Yang 等人[15]使用音頻淺層特征和元數(shù)據(jù)標(biāo)簽特征的深度學(xué)習(xí)融合模型在所有實(shí)驗(yàn)中取得了最好的預(yù)測效果,遠(yuǎn)遠(yuǎn)超過使用單一類型特征的預(yù)測結(jié)果。

2.1 音頻淺層特征

音頻淺層特征是指基于音頻信號本身的易于提取的特征,主要包括基于頻譜圖的MFCC(Mel Frequency Cepstral Coefficient,梅爾頻率倒譜系數(shù))[12,15-16,24],通過the Echo Nest 或Spotify Web API獲取的簡單音樂特征如節(jié)奏、拍子記號、調(diào)式、音調(diào)等[5-11,14,17,25],基本音頻屬性如音頻片段的時(shí)長、響度等[6,14,25]。

2.2 音頻深層特征

與音頻淺層特征相對應(yīng)的是音頻深層特征,手工特征(hand-craft features)也屬于深層特征。音頻深層特征由音頻淺層特征經(jīng)過更為復(fù)雜的計(jì)算或人工標(biāo)注而來,Porter 等人[26]認(rèn)為音頻深層特征可以捕捉更為抽象的概念,如情緒類別等。The Echo Nest 或Spotify Web API 獲取的深層音頻特征包括音樂的可舞蹈性(Danceability)、能量(Energy)、口語性(Speechness)、現(xiàn)場性(Liveness)等。

在一些研究中,學(xué)者們還經(jīng)常使用自定義的深層特征進(jìn)行熱門數(shù)字音頻的預(yù)測。如Lee 等人[24]利用音樂和聲、節(jié)奏、音色以及響度等特征隨時(shí)間的變化情況計(jì)算得出的音樂復(fù)雜度(Complexity)特征,Yang 等人[20]通過對播客的音頻特征利用基于逆向?qū)W習(xí)的建模方法提出的播客表示方法ALPR(Adversarial Learning-based Podcast Representation,基于對抗學(xué)習(xí)的播客表示),以及Tsagkias 等人[27]提出的播客分析框架PodCred 中的大部分特征也屬于音頻的深層特征。

2.3 文本特征

數(shù)字音頻的文本特征主要包括音樂的歌詞以及播客的口播文本內(nèi)容。Dhanaraj 和Logan[12]利用潛在語義分析的方法將每首歌的歌詞轉(zhuǎn)換為特征向量,Singhi 等[4]使用Rhyme Analyser[28]和CMU Pronunciation Dictionary[29]提取歌詞的韻律和音節(jié)特征,對熱門歌曲進(jìn)行預(yù)測。Joshi 等[21]基于詞法分析采用了一種三元組訓(xùn)練方法,學(xué)習(xí)了基于文本的播客特征表示,并將其應(yīng)用于熱門播客的預(yù)測任務(wù)。

2.4 元數(shù)據(jù)特征

元數(shù)據(jù)特征(meta information)是關(guān)于數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù),描述數(shù)字音頻的元數(shù)據(jù)也被作為熱門音頻預(yù)測的特征選擇。Pham 等[17]使用詞袋的方法對歌曲名稱、藝術(shù)家id 和藝術(shù)家經(jīng)常關(guān)聯(lián)的術(shù)語(類型)等元數(shù)據(jù)特征進(jìn)行表示,并取得了比深淺層音頻特征更好的熱門音樂預(yù)測效果。Yang 和Yu 等人[15-16]利用JYnet 模型[30]生成的音樂標(biāo)簽,作為卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行熱門音樂預(yù)測的特征輸入之一,提高了預(yù)測準(zhǔn)確率。Tsagkias 等[19]使用PodCred 框架[27]中基于播客元數(shù)據(jù)的相關(guān)特征完成了對iTunes 上的熱門播客的排名預(yù)測。Zangerle 等[6]使用音頻的發(fā)布時(shí)間元數(shù)據(jù)作為熱門音頻預(yù)測的特征輸入之一并取得了良好的預(yù)測效果。

3 預(yù)測模型算法

3.1 預(yù)測算法性能評價(jià)指標(biāo)

大多數(shù)情況下的熱門數(shù)字音頻預(yù)測問題是一個(gè)二分類問題,因此樣本有正負(fù)兩個(gè)類別,即熱門/非熱門音頻。那么模型預(yù)測的結(jié)果和真實(shí)標(biāo)簽的組合就有4 種:TP(True Positive),F(xiàn)P(False Positive),F(xiàn)N(False Negative),TN(True Negative),如表二所示。這4 個(gè)分別表示:實(shí)際為熱門音頻預(yù)測結(jié)果為熱門音頻,實(shí)際為非熱門音頻預(yù)測為熱門音頻,實(shí)際為熱門音頻預(yù)測為非熱門音頻,實(shí)際為非熱門音頻預(yù)測為非熱門音頻。

表2 熱門音頻二分類預(yù)測模型結(jié)果組合Table2 Results of the two-class popular audio prediction model

在使用模型對熱門數(shù)字音頻進(jìn)行二分類預(yù)測時(shí),傳統(tǒng)的模型評價(jià)指標(biāo)包括:(1)準(zhǔn)確率(Accuracy)、(2)精確率(Precision)、(3)召回率(Recall)、(4)F1 值(F1 Score)。由于許多機(jī)器學(xué)習(xí)的模型對分類問題的預(yù)測結(jié)果都是概率,而以上四種評價(jià)指標(biāo)的結(jié)果依賴于模型中的閾值設(shè)定的合理性,所以也有部分學(xué)者采用AUC 指標(biāo)(Area Under Curve,曲線下面積)衡量模型效果。同時(shí),在測試集中的正負(fù)樣本的分布變化的時(shí)候,曲線能夠保持不變。由于在實(shí)際的數(shù)據(jù)集中經(jīng)常會(huì)出現(xiàn)類不平衡(class imbalance)現(xiàn)象,即可用來實(shí)驗(yàn)的熱門音頻的數(shù)量總是遠(yuǎn)遠(yuǎn)少于非熱門音頻,使用AUC 指標(biāo)能夠很好的描述模型整體性能的高低。各個(gè)評價(jià)指標(biāo)的解釋以及意義如表3所示。

表3 熱門音頻預(yù)測模型常用評價(jià)指標(biāo)Table3 Commonly used evaluation indicators of the popular audio prediction models

除了將熱門數(shù)字音頻預(yù)測看作一個(gè)二分類問題外,還有研究者對熱門音頻在排行榜上的排名進(jìn)行預(yù)測,衡量其模型性能的評價(jià)指標(biāo)包括描述預(yù)測值誤差的均方根誤差RMSE(Root Mean Square Error)和平均絕對誤差MAE(Mean Absolute Error)[6],以及描述真實(shí)排名與預(yù)測排名相關(guān)性的歸一化折損累計(jì)增益NDCG(Normalized Discounted Cumulative Gain),Kendall 相關(guān)系數(shù)以及Spearman 相關(guān)系數(shù)等[20,31]。

3.2 基于機(jī)器學(xué)習(xí)的預(yù)測算法

機(jī)器學(xué)習(xí)是一個(gè)快速發(fā)展的領(lǐng)域,它能解決許多傳統(tǒng)方法所無法有效解決的復(fù)雜問題[32]?;诓煌瑱C(jī)器學(xué)習(xí)方法的預(yù)測算法被應(yīng)用于熱門數(shù)字音頻預(yù)測領(lǐng)域的研究,其中支持向量機(jī)法與邏輯回歸法因其較好的預(yù)測效果應(yīng)用最為廣泛。

3.2.1 支持向量機(jī)

使用支持向量機(jī)對熱門音頻進(jìn)行預(yù)測,雖然不是在該研究領(lǐng)域被被最廣泛應(yīng)用的機(jī)器學(xué)習(xí)方法,但是被學(xué)者最早應(yīng)用到該領(lǐng)域的算法。支持向量機(jī)的原理是試圖從最近的數(shù)據(jù)點(diǎn)找到一個(gè)邊界盡可能大的分離超平面,實(shí)現(xiàn)簡單,因而會(huì)最早被學(xué)者用來做熱門音樂領(lǐng)域的探索。

早在2005年,Dhanaraj 和Logan[12]首次使用基于聲學(xué)和歌詞的特征來構(gòu)建支持向量機(jī),并使用增強(qiáng)分類器來區(qū)分不同風(fēng)格的歌曲中排名前1 的歌曲。盡管只有91 首歌曲的原聲和歌詞數(shù)據(jù),他們的結(jié)果很樂觀,并認(rèn)為熱門音樂可以預(yù)測。在2011年,Borg 和Hokkanen[14]使用the Echo Nest 的音頻數(shù)據(jù)特征構(gòu)建了支持向量機(jī)模型預(yù)測熱門音樂,但獲得的結(jié)果卻非常有限:無論選取任何特征以及設(shè)定任何參數(shù),他們的預(yù)測精確率都從未超過樣本偏差1%。因此他們認(rèn)為,一首歌曲是否能成為熱門歌曲很可能是由社會(huì)力量驅(qū)動(dòng)的。2013年,F(xiàn)an 和Casey[8]對英文熱門歌曲和中文熱門歌曲進(jìn)行了預(yù)測和比較研究。英文的歌曲數(shù)據(jù)是從英國專輯排行榜收集的,中文歌曲數(shù)據(jù)從中國歌曲排行榜收集而來。同樣從the Echo Nest 獲得音樂音頻特征,他們使用了時(shí)間加權(quán)的線性回歸和支持向量機(jī)算法進(jìn)行熱門音樂預(yù)測。當(dāng)將熱門歌曲定義為出現(xiàn)在前40 位排行榜前5 名中的歌曲、將非熱門歌曲定義為同一列表中的最后5 首時(shí),使用支持向量機(jī)方法預(yù)測中文歌曲的錯(cuò)誤率約為29%,而英文歌曲的預(yù)測錯(cuò)誤率約為44%,其預(yù)測效果好于線性回歸模型。其研究結(jié)果還表明,中文流行歌曲預(yù)測比英文流行歌曲預(yù)測結(jié)果更準(zhǔn)確。斯坦福大學(xué)Pham[17]等人于2016年進(jìn)行的另一項(xiàng)最新研究評估了不同的機(jī)器學(xué)習(xí)算法預(yù)測熱門音樂的能力。他們使用了支持向量機(jī)、邏輯回歸、線性判別分析、二次判別分析和多層感知器等方法,其所選取的特征包括音頻深淺層特征以及元數(shù)據(jù)特征。在他們的研究中,所有模型獲得了大致相似的預(yù)測準(zhǔn)確率,取值范圍為0.75 至0.80,其中支持向量機(jī)模型的綜合預(yù)測效果最佳。2018年,Lee 等人[24]使用描述音樂復(fù)雜性的音頻深層特征以及其他傳統(tǒng)聲學(xué)淺層特征建立了支持向量機(jī)、邏輯回歸、決策樹和神經(jīng)網(wǎng)絡(luò)模型對熱門音樂進(jìn)行預(yù)測。其結(jié)果表明,雖然仍有改進(jìn)的空間,但基于歌曲的音頻信號預(yù)測歌曲的熱門指標(biāo)是可行的,預(yù)測結(jié)果明顯優(yōu)于隨機(jī)概率,特別是同時(shí)使用歌曲的復(fù)雜性特征和MFCC 特征,其中預(yù)測準(zhǔn)確率最高的也是支持向量機(jī)模型。

使用支持向量機(jī)對熱門歌曲進(jìn)行預(yù)測有如下優(yōu)勢:首先,它們不需要任何復(fù)雜的參數(shù)調(diào)優(yōu)。其次,在一個(gè)小的訓(xùn)練語料庫中,他們表現(xiàn)出很強(qiáng)的概括能力。最后,它們特別適用于高維空間的學(xué)習(xí)。但當(dāng)訓(xùn)練樣本過大時(shí),則不能使用支持向量機(jī)對熱門音樂進(jìn)行預(yù)測,因?yàn)樗褂枚我?guī)劃法來求解支持向量,而求解二次規(guī)劃將涉及N 階矩陣的計(jì)算(N為樣本的個(gè)數(shù)),當(dāng)N 數(shù)目很大時(shí),該矩陣的存儲和計(jì)算將耗費(fèi)大量的機(jī)器內(nèi)存和運(yùn)算時(shí)間。由于其模型的預(yù)測效果極度依賴小型訓(xùn)練數(shù)據(jù)的質(zhì)量,因此使用支持向量機(jī)預(yù)測熱門歌曲的效果也會(huì)隨著特征選取的成功與否表現(xiàn)出不同的預(yù)測成功率。

3.2.2 邏輯回歸

邏輯回歸是一種數(shù)學(xué)模型,可用于描述一個(gè)或多個(gè)自變量和一個(gè)因變量之間的關(guān)系[33]。因此,該模型可用于像熱門音頻預(yù)測這樣的二分類問題。當(dāng)將訓(xùn)練好的邏輯回歸模型應(yīng)用到測試數(shù)據(jù)的特征時(shí),會(huì)輸出是否為熱門音頻的置信概率,這個(gè)概率是0到1 之間的一個(gè)數(shù)字。邏輯回歸通常使用0.5 作為分類閾值。對于熱門音頻預(yù)測,邏輯回歸法是可以優(yōu)化精度的理想方法,因?yàn)榭梢酝ㄟ^提高熱門音頻的分類閾值,從而在熱門音頻的定義上形成一個(gè)“更嚴(yán)格的”標(biāo)準(zhǔn)。并可以通過加入正則化系數(shù)λ,迭代減小過擬合。

2014年,Herremans 等人[9]對熱門舞曲的預(yù)測進(jìn)行了研究。他們創(chuàng)建了從2009年到2013年的熱門舞曲數(shù)據(jù)集,并在其中使用了決策樹、樸素貝葉斯、邏輯回歸和支持向量機(jī)等機(jī)器學(xué)習(xí)算法進(jìn)行預(yù)測模型的訓(xùn)練。他們的研究結(jié)果表明,通過分析音頻特征來預(yù)測舞曲的流行程度是可行的,其中預(yù)測效果最好的算法是邏輯回歸,AUC 為0.65,準(zhǔn)確率為83%。同年,Wang[10]從MIDI 音樂文件中提取樂器、旋律和節(jié)拍特征對熱門音樂進(jìn)行預(yù)測,并取得了令人驚訝的好結(jié)果。他們使用n 元語言模型將原始音頻淺層特征轉(zhuǎn)換為詞-文檔頻率矩陣(word-document frequency matrices),將邏輯回歸作為分類器,并使用概率系數(shù)來優(yōu)化精度。 同時(shí)使用樂器、旋律和節(jié)拍等特征進(jìn)行預(yù)測,其預(yù)測準(zhǔn)確率峰值為0.882,對應(yīng)召回率為0.279。Herremans 和Bergmans[11]在實(shí)驗(yàn)中既使用音頻特征和元數(shù)據(jù)特征,又使用了一種基于社交媒體傾聽行為的新特征,建立了邏輯回歸和支持向量機(jī)等機(jī)器學(xué)習(xí)模型對熱門音樂進(jìn)行預(yù)測。其結(jié)果表明,基于早期聽眾行為分析特征的邏輯回歸模型在預(yù)測排名前20 的熱門舞曲時(shí)表現(xiàn)最好,能夠達(dá)到0.79 的AUC 值。2019年,Yang 等人[20]對播客的非文本特征進(jìn)行建模,提出了一種基于逆向?qū)W習(xí)的播客表示方法ALPR。其評價(jià)結(jié)果表明,同樣使用邏輯回歸的預(yù)測方法,相比于僅基于文本特征或先前研究中的音頻特征表示,ALPR 特征帶來了顯著的性能提升。同年,Georgieva 等人[5]將美國熱門歌曲排行榜Billboard年度排名前100 名的歌曲看作熱門歌曲,并整理了大約4000 首熱門和非熱門歌曲的數(shù)據(jù)集,從Spotify Web API 中提取了每首歌曲的音頻深淺層特征對熱門歌曲進(jìn)行預(yù)測。通過五種機(jī)器學(xué)習(xí)算法,他們在驗(yàn)證集上以大約75%的準(zhǔn)確率預(yù)測了一首歌曲是否可以成為熱門歌曲。其中最成功的算法是邏輯回歸模型和帶有一個(gè)隱含層的神經(jīng)網(wǎng)絡(luò)方法。

邏輯回歸是一種被人們廣泛使用的算法,使用邏輯回歸對熱門音頻進(jìn)行預(yù)測的優(yōu)勢除了上文提到的分類標(biāo)準(zhǔn)的嚴(yán)格程度可通過設(shè)置不同閾值而自由調(diào)節(jié)外,還具有高效、不需要太大計(jì)算量和縮放輸入特征、通俗易懂并且可以輸出校準(zhǔn)好的預(yù)測概率等優(yōu)勢。但它最大的劣勢就是不能用來解決非線性問題,因?yàn)樗臎Q策面是線性的。當(dāng)去掉與輸出變量無關(guān)的特征以及相似度較高的特征時(shí),邏輯回歸效果確實(shí)會(huì)更好。因此在熱門音頻預(yù)測中,特征工程質(zhì)量的好壞亦在該算法的性能方面起著重要的作用。

3.2.3 其他機(jī)器學(xué)習(xí)方法

除了應(yīng)用較為廣泛并取得了較好的預(yù)測效果的支持向量機(jī)和邏輯回歸法外,貝葉斯網(wǎng)絡(luò)、移動(dòng)感知器、隨機(jī)森林和XG-Boost 方法也曾被應(yīng)用于熱門數(shù)字音頻的預(yù)測。

2009年,Singhi 和Brown[4]使用歌曲的歌詞信息進(jìn)行了熱門歌曲預(yù)測的探索。他們使用31 種韻律和音節(jié)特征開發(fā)了一個(gè)熱門音樂檢測模型,對在2008年至2013年間進(jìn)入Billboard年終熱門100 首單曲的歌曲進(jìn)行訓(xùn)練。他們使用492 首熱門歌曲和6 323 首非熱門歌曲訓(xùn)練了貝葉斯網(wǎng)絡(luò),得到了0.451的召回率和0.214 的預(yù)測準(zhǔn)確率,結(jié)果優(yōu)于隨機(jī)結(jié)果。在他們的實(shí)驗(yàn)中,隨著歌詞長度的增加,預(yù)測效果也會(huì)隨之提高。同年,Tsagkias等人[19]通過實(shí)驗(yàn)證明,根據(jù)對比分析iTunes 上流行和非流行播客的指標(biāo)特征,并使用PodCred 評估模型[27]中的一組基于人工分析的淺層特征指標(biāo)可以用來預(yù)測播客的聽眾偏好。這些特征更多的涉及元數(shù)據(jù)的完整性、一致性以及播客的完成質(zhì)量等相關(guān)特性。他們成功在iTunes 上的一組播客數(shù)據(jù)上進(jìn)行了熱門播客預(yù)測實(shí)驗(yàn)。使用多種機(jī)器學(xué)習(xí)方法,他們能夠?qū)Tunes 上流行的播客與不流行的播客分類,并對播客進(jìn)行排名,使iTunes 上最流行的播客名列前茅。其中預(yù)測熱門播客效果最好的是隨機(jī)森林法,通過使用所有維度的所有特征,可以取得0.83 的F1 值。2019年,Joshi等人[21]研究了播客的文本內(nèi)容特征,以探索在不同的熱門播客和非熱門播客中,文本線索的輔助作用。盡管一些文本內(nèi)容的極性和主觀性非常相似,但它們所包含的詞匯線索卻存在顯著差異。因此,他們采用了一種基于三元組的訓(xùn)練方法,學(xué)習(xí)一個(gè)基于文本的播客表示,然后使用XG-Boost 算法用于熱門播客預(yù)測任務(wù)。其最佳模型的F1 值為0.82,比對照組的最佳水平提高了12.3%。

不同的機(jī)器學(xué)習(xí)算法可能會(huì)在不同的數(shù)據(jù)集上產(chǎn)生不同的預(yù)測效果,但可以肯定的是,在避免過擬合的情況下,選取恰當(dāng)而更具表示性的特征輸入都會(huì)有助于提高各自算法的預(yù)測性能。

3.3 基于深度學(xué)習(xí)的預(yù)測算法

深度學(xué)習(xí)是人工智能的重要研究方向,也是人工智能技術(shù)發(fā)展迅速的領(lǐng)域之一,幫助計(jì)算機(jī)理解大量圖像、聲音和文本形式的數(shù)據(jù)。[34]人工神經(jīng)網(wǎng)絡(luò),通常稱為神經(jīng)網(wǎng)絡(luò),是一種基于實(shí)際生物神經(jīng)元功能的計(jì)算模型。它是一種非線性的統(tǒng)計(jì)工具,在模式識別領(lǐng)域廣泛應(yīng)用,同時(shí)也是深度學(xué)習(xí)的核心方法。神經(jīng)網(wǎng)絡(luò)是一種自適應(yīng)系統(tǒng),它根據(jù)訓(xùn)練數(shù)據(jù)在學(xué)習(xí)階段自動(dòng)進(jìn)行參數(shù)的調(diào)整。

第一次使用神經(jīng)網(wǎng)絡(luò)對熱門音頻進(jìn)行預(yù)測的是Monterola 等人[25],他們在從2004年至2006年發(fā)行的380 首菲律賓語原創(chuàng)音樂(OPM,Original Pilipino Music)歌曲(其中有190 首熱門歌曲)中提取了56個(gè)單值音樂特征(如音高和速度),并定義了一個(gè)評價(jià)標(biāo)準(zhǔn)來衡量每一個(gè)特征的表示能力,將排名最高的20 個(gè)音樂特征輸入神經(jīng)網(wǎng)絡(luò),使用梯度下降反向傳播方法進(jìn)行訓(xùn)練,最后得到了81%的平均預(yù)測準(zhǔn)確率,比使用此相同的數(shù)據(jù)集和特征建立的其他機(jī)器學(xué)習(xí)方法高出了約20%的預(yù)測準(zhǔn)確率。其實(shí)驗(yàn)結(jié)果顯示了使用神經(jīng)網(wǎng)絡(luò)方法對熱門音樂進(jìn)行預(yù)測的樂觀前景與可觀優(yōu)勢,并在之后深度學(xué)習(xí)的發(fā)展歷程中得到了許多學(xué)者的實(shí)驗(yàn)佐證。

隨著深度學(xué)習(xí)領(lǐng)域如火如荼的發(fā)展,對于熱門音頻預(yù)測領(lǐng)域的研究,學(xué)者們紛紛開始使用卷積神經(jīng)網(wǎng)絡(luò)方法進(jìn)行模型的建立。不同的是模型的結(jié)構(gòu)有所不同,但都取得了較好的預(yù)測效果。同時(shí),深層結(jié)構(gòu)和多種類特征輸入的模型預(yù)測效果往往優(yōu)于淺層結(jié)構(gòu)和單一特征輸入模型的預(yù)測效果。

2017年,Yang 等人[15]將熱門歌曲預(yù)測問題表示為一個(gè)回歸問題,并以原始的MFCC 特征作為特征輸入,訓(xùn)練了一個(gè)簡單卷積神經(jīng)網(wǎng)絡(luò)模型、一個(gè)更高級的JYnet 模型[30]和這兩種模型的融合模型。其實(shí)驗(yàn)表明,在預(yù)測中文歌曲或西方歌曲在中國臺灣地區(qū)的熱門程度時(shí),深層結(jié)構(gòu)模型的預(yù)測效果比淺層結(jié)構(gòu)模型更準(zhǔn)確。對西方歌曲的預(yù)測更依賴于模型的深層結(jié)構(gòu),他們認(rèn)為簡單的淺層模型可能無法捕捉西方流行歌曲中豐富的聲學(xué)特征和流派多樣性。

同年,Yu 等人[16]擴(kuò)展了上述研究成果。他們建立了Siamese-CNN 模型,以歌曲對為輸入,然后聯(lián)合優(yōu)化兩首歌曲在預(yù)測熱門歌曲得分時(shí)的平均平方誤差和判斷兩首歌曲得分高低的成對排名損失。使用普通的卷積神經(jīng)網(wǎng)絡(luò)模型通常將熱門音頻預(yù)測作為一個(gè)回歸問題,而Siamese-CNN 模型可以同時(shí)學(xué)習(xí)音頻的流行性分?jǐn)?shù)和相對排名。作者根據(jù)KKBOX 提供的商業(yè)數(shù)據(jù)對歌曲的每日播放次數(shù)進(jìn)行評估,證實(shí)了Siamese-CNN 模型結(jié)構(gòu)在區(qū)分熱門歌曲和非熱門歌曲方面比其他基本算法更有效。

2019年,Zangerle 等人[6]采用了一個(gè)寬而深的神經(jīng)網(wǎng)絡(luò)模型,聯(lián)合利用音頻淺層特征、音頻深層特征以及元數(shù)據(jù)特征(音頻發(fā)行年份)預(yù)測美國Billboard 歌曲排行榜中年度前100 名的熱門音樂,使用多種類特征的聯(lián)合訓(xùn)練模型效果顯著高于使用單一種類特征的預(yù)測模型,最高可達(dá)75.04%的準(zhǔn)確率。

使用深度學(xué)習(xí)的方法對熱門數(shù)字音頻進(jìn)行預(yù)測具有如下優(yōu)勢:他們在實(shí)踐中往往表現(xiàn)出比普通機(jī)器學(xué)習(xí)更好的預(yù)測精準(zhǔn)度,同時(shí)可以學(xué)習(xí)訓(xùn)練數(shù)據(jù)中非常復(fù)雜的底層特征,因?yàn)榫W(wǎng)絡(luò)隱藏層的存在減少了對特征工程的需求。此外深度學(xué)習(xí)法特別適用于大型數(shù)據(jù)集和高維度數(shù)據(jù)集。但其劣勢也相應(yīng)表現(xiàn)在訓(xùn)練速度較慢、需要消耗巨大的計(jì)算資源以及對于較為少量的訓(xùn)練數(shù)據(jù)不能學(xué)習(xí)到效果較好的預(yù)測參數(shù)等方面。

3.4 預(yù)測算法小結(jié)

對上述熱門音頻預(yù)測算法進(jìn)行性能分析總結(jié),如表四所示。我們從預(yù)測類型、特征選擇、方法復(fù)雜度、預(yù)測效果及方法優(yōu)劣等幾個(gè)角度進(jìn)行了總結(jié)。

表4 熱門音頻預(yù)測算法性能分析Table4 Performance analysis of popular audio prediction algorithms

4 總結(jié)與展望

如上文所述,熱門音頻預(yù)測領(lǐng)域自發(fā)展以來,大多數(shù)研究學(xué)者在熱門音樂或熱門播客預(yù)測領(lǐng)域都取得了較為樂觀的實(shí)驗(yàn)結(jié)果。通過建立不同的預(yù)測模型,選取不同的特征數(shù)據(jù),從而取得了各不相同的預(yù)測效果,其中使用深度學(xué)習(xí)方法的預(yù)測效果最令人滿意。但熱門數(shù)字音頻預(yù)測領(lǐng)域的研究并不是一帆風(fēng)順的,Salganik 等人[35]曾在2006年提出過文化市場不可預(yù)測性的主張,Pachet 和Roy[36]在2008年通過不成功的熱門音樂預(yù)測實(shí)驗(yàn)檢驗(yàn)了這一主張?jiān)谝魳肥袌錾系挠行?,Borg 和Hokkanen[14]以及Reiman 和?rnell[37]同樣認(rèn)為,一首歌曲是否能成為熱門歌曲很可能是由社會(huì)力量驅(qū)動(dòng)的,而音頻本身的內(nèi)部特征不足以支撐成功的熱門音頻預(yù)測實(shí)驗(yàn)。

對于這些質(zhì)疑,筆者認(rèn)為其實(shí)驗(yàn)失敗的原因可能在于直接使用了第三方API 獲得特征進(jìn)行訓(xùn)練,在實(shí)驗(yàn)中缺少了選取關(guān)鍵或者是有效特征的過程。此外,對音樂數(shù)據(jù)集“熱門”這一指標(biāo)的不同定義方法也會(huì)在一定程度上影響預(yù)測效果。同時(shí),訓(xùn)練模型的維數(shù)災(zāi)難和過擬合現(xiàn)象可能也是導(dǎo)致預(yù)測失敗的原因。

筆者對于熱門音頻預(yù)測領(lǐng)域未來的發(fā)展仍是看好的。科學(xué)研究活動(dòng)必然借助于先進(jìn)的數(shù)據(jù)與計(jì)算平臺,先進(jìn)的數(shù)據(jù)與計(jì)算平臺也將因應(yīng)用需求驅(qū)動(dòng)演進(jìn)出更新的技術(shù),驅(qū)動(dòng)當(dāng)代科學(xué)研究的螺旋式上升[38]。隨著深度學(xué)習(xí)、大數(shù)據(jù)和云計(jì)算技術(shù)的深入發(fā)展,會(huì)有更大量的可用實(shí)驗(yàn)音頻數(shù)據(jù)集,對于“熱門”指標(biāo)的衡量也可以通過加入更多維度的數(shù)據(jù)計(jì)算過程來使其更加客觀和準(zhǔn)確。同時(shí),計(jì)算機(jī)的數(shù)據(jù)計(jì)算和處理能力也會(huì)不斷加強(qiáng),各種改進(jìn)的深度學(xué)習(xí)算法層出不窮,熱門音頻預(yù)測領(lǐng)域仍會(huì)有很大的探索空間,具體可歸納為以下三點(diǎn):

(1)優(yōu)化特征選取過程:特征選擇的好壞與模型的預(yù)測效果息息相關(guān),除了本文中介紹的學(xué)者常用的特征外,選取表示性更強(qiáng)的音頻淺層特征、發(fā)明更具針對性的音頻深層特征、合理利用文本特征和元數(shù)據(jù)特征可能會(huì)取得更好的預(yù)測效果。

(2)優(yōu)化“熱門”指標(biāo)的衡量方法:由于問題定義本身固有的類別不平衡,熱門播客或歌曲在語料庫中總是占少數(shù),這會(huì)導(dǎo)致訓(xùn)練數(shù)據(jù)集的不平衡。此外目前大多數(shù)文獻(xiàn)都是通過使用播放量或者是熱門排行榜中的排名這種單維第三方數(shù)據(jù)來衡量音頻的“熱門”程度,因此該指標(biāo)可能并不科學(xué)或客觀。更多的社會(huì)影響要素如推廣宣傳、時(shí)事熱點(diǎn)等狀況未被考慮進(jìn)去。這一領(lǐng)域更是需要更深入的跨學(xué)科研究過程。

(3)從預(yù)測模型算法方面進(jìn)行優(yōu)化:可以利用多層音頻特征、文本特征以及元數(shù)據(jù)特征來構(gòu)建改進(jìn)的多模態(tài)模型或融合模型,使算法更具對熱門數(shù)字音頻預(yù)測領(lǐng)域的問題針對性。

此外,由上文可知,目前國內(nèi)科研界對熱門數(shù)字音頻預(yù)測領(lǐng)域的研究內(nèi)容較為欠缺,筆者在搜集文獻(xiàn)時(shí)可查閱的中文文獻(xiàn)相對較少。而在世界范圍內(nèi),熱門音樂預(yù)測領(lǐng)域的研究成果也遠(yuǎn)遠(yuǎn)多于熱門播客預(yù)測領(lǐng)域的研究成果。但值得一提的是,目前我國移動(dòng)網(wǎng)絡(luò)電臺發(fā)展迅速,根據(jù)前瞻產(chǎn)業(yè)研究院的報(bào)告顯示,喜馬拉雅FM 在2020年5月的平臺月活用戶數(shù)已超過9937.39 萬人,因此對我國熱門播客預(yù)測領(lǐng)域進(jìn)行研究具備深遠(yuǎn)意義。

利益沖突聲明

所有作者聲明不存在利益沖突關(guān)系。

猜你喜歡
數(shù)字音頻熱門音頻
必須了解的音頻基礎(chǔ)知識 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于FPGA的多協(xié)議數(shù)字音頻信號發(fā)生方法
電子制作(2017年10期)2017-04-18 07:22:40
音頻分析儀中低失真音頻信號的發(fā)生方法
電子制作(2017年9期)2017-04-17 03:00:46
熱門智能手機(jī)應(yīng)用
海外星云(2016年7期)2016-12-01 04:18:00
瘋狂猜圖
家庭百事通(2016年5期)2016-05-06 20:48:31
數(shù)字音頻及其嵌入技術(shù)在廣播電視工程的應(yīng)用
數(shù)字音頻廣播信號接收系統(tǒng)及其軟件架構(gòu)
數(shù)字音頻廣播的特點(diǎn)
Pro Tools音頻剪輯及修正
人間(2015年8期)2016-01-09 13:12:42
汽车| 库尔勒市| 全南县| 彭泽县| 同心县| 阿拉善右旗| 交城县| 民县| 望谟县| 黄龙县| 阜新| 改则县| 中卫市| 台东县| 宜兰县| 五原县| 集安市| 曲阳县| 枣强县| 西贡区| 随州市| 沭阳县| 夏河县| 永新县| 托里县| 安丘市| 阿克陶县| 高州市| 洞头县| 西乡县| 南昌市| 温泉县| 安达市| 安化县| 达孜县| 永昌县| 雅安市| 樟树市| 山阴县| 黄大仙区| 珠海市|