国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

音樂(lè)數(shù)字圖書館系統(tǒng)架構(gòu)研究

2015-05-13 00:30:22喻亞琴南通航運(yùn)職業(yè)技術(shù)學(xué)院圖書館江蘇南通226010
圖書館學(xué)刊 2015年10期
關(guān)鍵詞:樂(lè)譜色度列表

喻亞琴(南通航運(yùn)職業(yè)技術(shù)學(xué)院圖書館,江蘇南通226010)

?

音樂(lè)數(shù)字圖書館系統(tǒng)架構(gòu)研究

喻亞琴
(南通航運(yùn)職業(yè)技術(shù)學(xué)院圖書館,江蘇南通226010)

[摘要]數(shù)字圖書館作為傳統(tǒng)圖書館在網(wǎng)絡(luò)信息時(shí)代的發(fā)展和延伸,從根本上改變了人們獲取、使用信息資源的方式方法。通過(guò)一個(gè)基本的音樂(lè)數(shù)字圖書館軟件系統(tǒng)框架結(jié)構(gòu),介紹了數(shù)字圖書館在音樂(lè)領(lǐng)域的應(yīng)用,其中涉及跨通道導(dǎo)航、多模式搜索、基于內(nèi)容的搜索、同步與匹配等技術(shù)。

[關(guān)鍵詞]音樂(lè)數(shù)字圖書館系統(tǒng)架構(gòu)多模式檢索基于內(nèi)容的搜索跨通道音樂(lè)處理

[分類號(hào)]G250.76

隨著信息產(chǎn)業(yè)技術(shù)飛速發(fā)展,信息種類和形式越來(lái)越豐富,需要存儲(chǔ)和傳播的信息量也越來(lái)越龐大,傳統(tǒng)圖書館機(jī)制已經(jīng)無(wú)法滿足這些需求。數(shù)字圖書館作為傳統(tǒng)圖書館在信息時(shí)代的發(fā)展和延伸,借鑒傳統(tǒng)圖書館的資源組織模式,運(yùn)用知識(shí)分類和精準(zhǔn)的檢索手段,將文字、圖像、聲音等數(shù)字化信息通過(guò)互聯(lián)網(wǎng)實(shí)現(xiàn)信息資源共享,從根本上改變了人們獲取和使用信息資源的方式方法。

多年來(lái),數(shù)字圖書館建設(shè)主要基于純文本文件,包括圖書、期刊、報(bào)紙等的數(shù)字化工作。在純文本文件的掃描識(shí)別、全文檢索和索引等方面取得了顯著成果。然而,對(duì)于音頻、視頻、圖形圖像數(shù)據(jù),特別是需要工具來(lái)自動(dòng)提取語(yǔ)義上有意義的實(shí)體,則缺乏相應(yīng)解決方案。

音樂(lè)數(shù)字圖書館除了可以記錄和數(shù)字化音樂(lè)數(shù)據(jù),關(guān)鍵任務(wù)是音樂(lè)在實(shí)際應(yīng)用場(chǎng)景中的自動(dòng)化處理和對(duì)音樂(lè)數(shù)據(jù)的訪問(wèn)。為了最大程度地實(shí)現(xiàn)自動(dòng)處理數(shù)字化音樂(lè)文件的創(chuàng)建、索引、標(biāo)注和同步以及管理用戶接口、用戶訪問(wèn)界面的設(shè)計(jì)和開(kāi)發(fā),筆者現(xiàn)給出一個(gè)音樂(lè)數(shù)字圖書館軟件系統(tǒng)框架,其中涉及多通道播放、交叉導(dǎo)航以及跨通道和多峰搜索等。

1音樂(lè)數(shù)字圖書館及其相關(guān)知識(shí)概述

1.1音樂(lè)表示

音樂(lè)數(shù)字圖書館包含文本數(shù)據(jù)、符號(hào)數(shù)據(jù)、視覺(jué)資料、音頻數(shù)據(jù)和視聽(tīng)資料等類型信息資源。各種類型的信息,由于不同的數(shù)據(jù)格式,而給音樂(lè)數(shù)據(jù)表示帶來(lái)了許多問(wèn)題。這些數(shù)據(jù)格式取決于特定應(yīng)用程序,根本區(qū)別在于各自的結(jié)構(gòu)和內(nèi)容?,F(xiàn)選取3個(gè)廣泛使用的、具有代表性的音樂(lè)數(shù)據(jù)格式,分別是樂(lè)譜符號(hào)格式、純物理音頻格式和MIDI格式。①樂(lè)譜符號(hào)格式包含了音樂(lè)起始時(shí)間、音高、音長(zhǎng)等信息,進(jìn)一步涉及力度和節(jié)拍。②純物理音頻格式編碼的波形音頻信號(hào)用于光盤語(yǔ)音錄制。③MIDI格式可以認(rèn)為是兩種數(shù)據(jù)格式的混合,既可以明確表示基于內(nèi)容的信息,如起始音符和音高,也可以隨機(jī)動(dòng)態(tài)處理一些特殊信息的編碼。MIDI音頻數(shù)據(jù)可以即時(shí)表示為數(shù)字格式,樂(lè)譜符號(hào)信息大部分情況下只能是通過(guò)OMR掃描獲取的樂(lè)譜。

用戶訪問(wèn)音樂(lè)采用最廣泛的是音頻和視覺(jué)表示,因此,相應(yīng)的多模式用戶接口得到高度重視。事實(shí)證明,設(shè)計(jì)這種接口和適當(dāng)?shù)仡A(yù)處理底層音樂(lè)文件的關(guān)鍵是:通過(guò)比較,找到基于相同音樂(lè)內(nèi)容的各種音樂(lè)模式的共同表示。該音樂(lè)數(shù)字圖書館框架使用了圖書館界廣泛應(yīng)用的書目記錄功能需求(FRBR)模型來(lái)實(shí)現(xiàn)各種類型音樂(lè)數(shù)據(jù)的共同表示。

1.2現(xiàn)有的音樂(lè)數(shù)字圖書館

近年來(lái),現(xiàn)有的音樂(lè)數(shù)字圖書館系統(tǒng)在使用過(guò)程中大部分被發(fā)現(xiàn)存在以下幾個(gè)主要缺點(diǎn):第一,系統(tǒng)不保持文件的完整性和一系列獨(dú)立的圖像文件;第二,同步介紹相關(guān)的音樂(lè)文件通常是不可能的;第三,不能一目了然地訪問(wèn)當(dāng)前選擇的音樂(lè)文件的元數(shù)據(jù),進(jìn)一步省略了有價(jià)值的信息。

除此以外,這些系統(tǒng)還限制了用戶體驗(yàn)音樂(lè)作品的可能性。因?yàn)椋欢我魳?lè)描述在不同的語(yǔ)義層次,針對(duì)不同的方式有不同的表示。所以,音樂(lè)數(shù)字圖書館系統(tǒng)應(yīng)提供盡可能多的不同表示形式。因此,人們將多通道技術(shù)應(yīng)用到音樂(lè)數(shù)字圖書館中,如歐洲數(shù)字圖書館項(xiàng)目。該項(xiàng)目為歐洲各大文化機(jī)構(gòu)提供大量的文本、音頻、視頻和圖像文件的在線訪問(wèn),同時(shí)也收藏了大量音樂(lè)文件。

到目前為止,雖然音樂(lè)數(shù)字圖書館系統(tǒng)大多數(shù)局限于元數(shù)據(jù)搜索,但可以通過(guò)各種各樣的MIR技術(shù)來(lái)提高音樂(lè)數(shù)字圖書館的系統(tǒng)功能,實(shí)現(xiàn)基于內(nèi)容的多通道搜索。IEEE1599標(biāo)準(zhǔn)則提供了將一個(gè)音樂(lè)作品的所有相關(guān)信息(如樂(lè)譜、歌詞、圖像標(biāo)注等)通過(guò)一個(gè)單一的XML文件表現(xiàn)的可能,還提供了添加同步信息和MIR模型到XML文件的可能性。

2軟件系統(tǒng)架構(gòu)

音樂(lè)數(shù)字圖書館系統(tǒng)采用存儲(chǔ)與訪問(wèn)數(shù)字音樂(lè)文件相結(jié)合的方式,通過(guò)對(duì)有效音樂(lè)內(nèi)容(如錄音、樂(lè)譜、歌詞等)進(jìn)行數(shù)字拷貝以實(shí)現(xiàn)保存,利用先進(jìn)的MIR技術(shù)進(jìn)行分析和標(biāo)注以實(shí)現(xiàn)訪問(wèn)。系統(tǒng)的一個(gè)關(guān)鍵任務(wù)是建立基于內(nèi)容的索引,用于搜索如歌詞、樂(lè)譜、音頻等的音樂(lè)片段;另一個(gè)關(guān)鍵任務(wù)是加強(qiáng)同一段音樂(lè)所有可用信息文件之間彼此的聯(lián)系。映射和同步技術(shù)用于創(chuàng)建有意義的實(shí)體之間樂(lè)譜與音頻的同步、歌詞與音頻的同步以及音頻與音頻的同步;通過(guò)掃描樂(lè)譜和映射音頻提取有意義的實(shí)體,實(shí)現(xiàn)基于內(nèi)容和跨通道搜索、多通道播放樂(lè)曲以及先進(jìn)的跨通道瀏覽等功能[1]。特別是樂(lè)譜與音頻的同步,一方面,用戶能夠直觀地看到當(dāng)前播放的音頻記錄在樂(lè)譜中的表示;另一方面,通過(guò)指定樂(lè)譜中一個(gè)特定的音符可以改變正在播放的音頻記錄的播放位置。歌詞與音頻同步應(yīng)用于卡拉OK程序中,可以讓用戶在錄音聽(tīng)唱的過(guò)程中看到歌詞;另外,可以通過(guò)一個(gè)特定的歌詞改變音頻記錄的播放位置。音頻與音頻的同步允許用戶在保持音樂(lè)實(shí)際播放位置的同時(shí)在不同錄音資料之間進(jìn)行切換。

系統(tǒng)所有模塊功能結(jié)構(gòu)描述如圖1所示,由傳統(tǒng)的三層體系結(jié)構(gòu)組成,從左至右分別為表示層、服務(wù)器層和存儲(chǔ)層。存儲(chǔ)層通過(guò)離線程序來(lái)預(yù)處理各種類型的音樂(lè)文件,分析文件、提取特征,實(shí)現(xiàn)音頻索引、音頻與樂(lè)譜的映射以及音頻與樂(lè)譜或歌詞的同步等功能。服務(wù)器層的主要功能是訪問(wèn)索引結(jié)構(gòu)。表示層通過(guò)用戶界面組件來(lái)訪問(wèn)音樂(lè)內(nèi)容,同時(shí)向用戶提交搜索結(jié)果。查詢引擎用于實(shí)現(xiàn)檢索搜索結(jié)果和訪問(wèn)音樂(lè)內(nèi)容的系統(tǒng)交互。表示層和服務(wù)器層之間的通信采用面向服務(wù)的體系結(jié)構(gòu)(SOA)和簡(jiǎn)單對(duì)象訪問(wèn)協(xié)議(SOAP)。SOAP是一個(gè)用于實(shí)現(xiàn)遠(yuǎn)程過(guò)程調(diào)用和Web服務(wù)的網(wǎng)絡(luò)協(xié)議,使用超文本傳輸協(xié)議(HTTP)來(lái)傳遞不同網(wǎng)絡(luò)實(shí)體之間的XML信息。服務(wù)器層與存儲(chǔ)層之間的通信采用遠(yuǎn)程方法調(diào)用(RMI)的形式。RMI以Java技術(shù)為核心,用于實(shí)現(xiàn)網(wǎng)絡(luò)交互。

圖1 音樂(lè)數(shù)字圖書館軟件系統(tǒng)架構(gòu)

3跨通道音樂(lè)處理

文件處理模塊功能包括音頻索引、音樂(lè)識(shí)別和同步以及文件特征提取等。為了在不同格式音樂(lè)文檔的數(shù)據(jù)流之間建立跨通道鏈接結(jié)構(gòu),考慮將各種音樂(lè)表達(dá)轉(zhuǎn)換為一個(gè)共同特征表示,實(shí)現(xiàn)不同類型數(shù)據(jù)的直接對(duì)照。圖2描述了在掃描樂(lè)譜和音頻記錄兩種不同形式音樂(lè)文檔的數(shù)據(jù)流之間建立“掃描—音頻”連接結(jié)構(gòu)的過(guò)程。通過(guò)反向文件索引結(jié)構(gòu)對(duì)特征提取音頻文件進(jìn)行進(jìn)一步處理。音頻索引用于識(shí)別掃描樂(lè)譜頁(yè)面和基于內(nèi)容的音樂(lè)檢索。將每個(gè)樂(lè)譜掃描頁(yè)面分配給一個(gè)特定的音頻記錄進(jìn)行樂(lè)譜識(shí)別,使每個(gè)音頻記錄與相應(yīng)的樂(lè)譜頁(yè)面對(duì)應(yīng),建立單曲音頻記錄與樂(lè)譜數(shù)據(jù)的通信磁道。最后,使用中間層色度表示法和動(dòng)態(tài)時(shí)間歸整(DTW)表示同步,建立視覺(jué)與聽(tīng)覺(jué)的鏈接結(jié)構(gòu),為實(shí)現(xiàn)以時(shí)間同步演示樂(lè)譜和音頻記錄的樂(lè)譜查看器奠定基礎(chǔ)。而基于色度的音樂(lè)特征已經(jīng)被證明是一個(gè)強(qiáng)大的中間層表示。以下討論如何使用信號(hào)處理方法從音頻記錄中或者是使用OMR掃描樂(lè)譜中獲取這些音樂(lè)特征。

圖2 “掃描-音頻”連接結(jié)構(gòu)

3.1中間層特征表示

找到合適的中間層特征表示,讓不同的音樂(lè)表現(xiàn)類似,必須滿足幾個(gè)關(guān)鍵要求。一方面,這種特征表示必須具有強(qiáng)大的語(yǔ)義轉(zhuǎn)換功能,將各種類型的數(shù)據(jù)簡(jiǎn)化為相同的中間層表示。另一方面,具有捕獲音樂(lè)中潛在的獨(dú)特音樂(lè)特征的功能。在同步和匹配的背景下,基于色度的音樂(lè)特征已經(jīng)具備了這些要示。這里,采用12個(gè)色度與傳統(tǒng)的12個(gè)音高相對(duì)應(yīng)。在西方音樂(lè)中,C的色度通常表示由C,C#,…,B組成的12個(gè)音高的屬性。

將音頻記錄的數(shù)字化信號(hào)轉(zhuǎn)換為一系列標(biāo)準(zhǔn)的十二維色度向量,每個(gè)向量表示其在12個(gè)音高中的能量分布[1]?;谛盘?hào)處理技術(shù),可以使用短時(shí)傅立葉分析結(jié)合分箱策略或使用多頻濾波器組技術(shù)得到色度表示。用來(lái)表示音頻信號(hào)中反映音高、音色、清晰度等參數(shù)變量分布的圖像稱為音頻色譜圖。圖3以貝多芬鋼琴奏鳴曲13號(hào)作品第三章為例,圖3(c)顯示從音頻記錄表示中獲取的音頻色譜圖。

圖3 貝多芬鋼琴奏鳴曲13號(hào)作品第三章音樂(lè)數(shù)據(jù)

從樂(lè)譜表示過(guò)渡到色度表示的步驟如下:

第一步,使用OMR提取樂(lè)譜符號(hào),如音符、譜號(hào)、調(diào)號(hào)和時(shí)間等特征,類似于OCR從文本文件掃描圖像中提取文本內(nèi)容的過(guò)程。注意,OMR提取步驟容易出錯(cuò),且識(shí)別精度在很大程度上取決于輸入圖像數(shù)據(jù)的質(zhì)量以及基礎(chǔ)樂(lè)譜的復(fù)雜性。系統(tǒng)考慮使用1b/s色彩深度、600dpi分辨率的高品質(zhì)掃描樂(lè)譜。除了樂(lè)譜符號(hào),OMR過(guò)程也提供空間信息,這允許提取的樂(lè)譜符號(hào)本地化。

第二步,基于OMR輸出,從音樂(lè)符號(hào)中提取音樂(lè)初始時(shí)間、音高、持續(xù)時(shí)間等特征,得到一系列標(biāo)準(zhǔn)的十二維色度向量,也稱為掃描色譜圖。滑動(dòng)掃描色譜圖中當(dāng)前時(shí)間窗口的時(shí)間軸,以增加色度區(qū)間對(duì)應(yīng)音高的能量。一個(gè)時(shí)間窗口等于一個(gè)色度向量。假定100BPM的恒定節(jié)奏,基于明確的音調(diào)和時(shí)間信息,可以根據(jù)相同類型的色度導(dǎo)出色譜圖。類似的方法在將MIDI數(shù)據(jù)表示轉(zhuǎn)換為色度表示的過(guò)程中提到,見(jiàn)參考文獻(xiàn)[2]。注意,假定的100BPM選項(xiàng)并不是最重要的,因?yàn)椴煌墓?jié)奏可以在隨后的同步和匹配過(guò)程中得到補(bǔ)償。圖3(b)顯示從掃描樂(lè)譜表示得到的掃描色譜圖。

掃描樂(lè)譜頁(yè)面的識(shí)別和基于內(nèi)容的音頻檢索依賴于有效的音頻匹配機(jī)制?,F(xiàn)在,從音頻記錄或音樂(lè)掃描樂(lè)譜中抽取一段簡(jiǎn)短的樂(lè)曲片段,以摘錄的形式進(jìn)行查詢,目標(biāo)是從音頻數(shù)據(jù)庫(kù)中自動(dòng)檢索所有摘錄對(duì)應(yīng)的樂(lè)曲。相對(duì)于傳統(tǒng)的音樂(lè)識(shí)別,因?yàn)橥粋€(gè)樂(lè)曲片段的不同解釋,音頻匹配允許語(yǔ)義隨意變化。參考文獻(xiàn)[3]介紹了基于色度表示的音頻匹配方法。最近研究證明,音樂(lè)符號(hào)表示產(chǎn)生色度特征,例如上述OMR的獲取過(guò)程與音頻色譜圖兼容。因此,色度特征可以用來(lái)對(duì)音樂(lè)文件的音樂(lè)符號(hào)和音頻記錄執(zhí)行音頻匹配和同步。

3.2音頻索引和匹配

音頻索引和匹配的關(guān)鍵是利用自動(dòng)文檔分析法減去同一音樂(lè)兩種不同類型的數(shù)據(jù)(視覺(jué)和聽(tīng)覺(jué)音樂(lè)數(shù)據(jù))所對(duì)應(yīng)色譜圖相同類型的表示,直接對(duì)兩種類型數(shù)據(jù)的特征進(jìn)行比較。也可以通過(guò)使用代碼中描述的語(yǔ)義上有意義的向量來(lái)量化色度向量,進(jìn)一步處理色度特征,實(shí)現(xiàn)有效對(duì)比。標(biāo)準(zhǔn)文本檢索常用的索引結(jié)構(gòu)是根據(jù)分配的代碼向量,將特征存儲(chǔ)在一些反向索引文件中。

現(xiàn)采用音頻匹配來(lái)描述底層引擎中各種音樂(lè)檢索和識(shí)別任務(wù)?;镜钠ヅ浞椒ㄈ缦拢簩⒋鎯?chǔ)庫(kù)中每個(gè)文件轉(zhuǎn)換為一個(gè)序列的十二維色度向量。實(shí)現(xiàn)過(guò)程中,使用一個(gè)特征1赫茲的采樣率。將所有色度序列連接成一個(gè)色度特征序列(d0,…,dK-1),用來(lái)保存文檔范圍。同樣,將給定的查詢音樂(lè)片段也轉(zhuǎn)換成一個(gè)色度特征序列(q0,…,qL-1)。然后,將這個(gè)查詢序列與數(shù)據(jù)庫(kù)序列中連續(xù)向量L組成的所有子序列(dk,dk+1,…,dk+L-1),k∈[0: K-L ]相比。這里使用距離測(cè)量Δ(k):=1-1∑L-1d,q,括號(hào)表示向量?jī)?nèi)Ll=0k+ll積,由此產(chǎn)生的曲線被稱為匹配曲線[1]。注意,△最小值接近于“0”的數(shù)據(jù)庫(kù)子序列對(duì)應(yīng)于查詢序列,這些子序列將構(gòu)成基于內(nèi)容檢索所需的匹配[1]。因?yàn)楸4媪似ヅ湮募木幪?hào)和精確位置,所以每個(gè)文檔很容易被恢復(fù)。

到目前為止,還無(wú)法對(duì)查詢片段與對(duì)應(yīng)時(shí)間區(qū)域內(nèi)的音頻文件因時(shí)差而做出合理的說(shuō)明。另外,當(dāng)樂(lè)譜表示轉(zhuǎn)換為特征表示時(shí),需要設(shè)定一個(gè)可能會(huì)偏離對(duì)應(yīng)音頻文件的節(jié)奏。處理這樣的節(jié)奏偏差,可以采用恢復(fù)到DTW的后繼變量或者基于不同的采樣率對(duì)各種色譜圖進(jìn)行多重查詢的技術(shù)。特別是后者的技術(shù)支持上述索引結(jié)構(gòu)促進(jìn)音頻匹配的有效計(jì)算。

3.3掃描樂(lè)譜的識(shí)別和標(biāo)注

文檔經(jīng)過(guò)數(shù)字化處理,保存到數(shù)字圖書館之前需要進(jìn)行適當(dāng)?shù)臉?biāo)注。在標(biāo)注數(shù)字化音頻記錄時(shí),必須指定每個(gè)記錄的元數(shù)據(jù),如標(biāo)題、藝術(shù)家或者歌詞等。除了人工標(biāo)注,可以利用如Gracenote、DE-PARCON等專業(yè)數(shù)據(jù)庫(kù)軟件來(lái)標(biāo)注各類元數(shù)據(jù)。而元數(shù)據(jù)的采集并不是一項(xiàng)輕松的任務(wù),因?yàn)橄鄬?duì)于舊的記錄現(xiàn)有的數(shù)據(jù)庫(kù)是不完整的,缺少特定類型要求的元數(shù)據(jù)或者包含錯(cuò)誤和不一致。這些可通過(guò)抽取及合并多個(gè)數(shù)據(jù)源來(lái)改進(jìn)。然而,因?yàn)橛袑I(yè)的數(shù)據(jù)提供商提供高質(zhì)量的元數(shù)據(jù),使得我們擁有了足夠數(shù)量和質(zhì)量的元數(shù)據(jù)。

掃描樂(lè)譜數(shù)字化后,可以通過(guò)掃描儀自動(dòng)翻頁(yè)功能標(biāo)注每個(gè)頁(yè)面,以往這個(gè)標(biāo)注過(guò)程通常是手工完成的?,F(xiàn)在,描述掃描樂(lè)譜自動(dòng)標(biāo)注的過(guò)程如圖4。在掃描樂(lè)譜數(shù)字化過(guò)程中,假定音頻數(shù)據(jù)庫(kù)中包含的所有數(shù)字音頻記錄均已標(biāo)注。首先,將音頻文件轉(zhuǎn)換為相應(yīng)的音頻色譜圖并建立一個(gè)音頻索引結(jié)構(gòu)。其次,將每個(gè)掃描頁(yè)面的樂(lè)譜轉(zhuǎn)換為一個(gè)單獨(dú)的掃描色譜圖。查詢每個(gè)掃描色譜圖,計(jì)算音頻文件的頭部匹配。假定每個(gè)頁(yè)面包含一個(gè)單一的音頻文件。將基于掃描樂(lè)譜頁(yè)面自動(dòng)標(biāo)注的元數(shù)據(jù)關(guān)聯(lián)到相應(yīng)的音頻記錄,如圖4。根據(jù)假定,頭部匹配能可靠地識(shí)別對(duì)應(yīng)的音頻文件。實(shí)驗(yàn)顯示,這特別適用于OMR沒(méi)有嚴(yán)重誤差的情況。此外,所有段落的頭部匹配由音樂(lè)中對(duì)應(yīng)頁(yè)面的音頻記錄組成,用于檢索和瀏覽應(yīng)用程序。

圖4 掃描樂(lè)譜自動(dòng)標(biāo)注、匹配過(guò)程

可以使用多種策略支持單獨(dú)曲目對(duì)應(yīng)的樂(lè)譜頁(yè)面到音頻記錄基于內(nèi)容的比較。首先,從總譜中尋找縮進(jìn)大的譜表。縮進(jìn)通常表明一個(gè)新的樂(lè)章或音樂(lè)作品的開(kāi)始,使用此信息,從包含縮進(jìn)頁(yè)創(chuàng)建的掃描色譜圖開(kāi)始,區(qū)分縮進(jìn)大的譜表,以說(shuō)明預(yù)期磁道變化。其次,將樂(lè)譜中的標(biāo)題作為樂(lè)章或音樂(lè)作品的開(kāi)始指標(biāo)。此外,使用合適的算法,一些OMR提取錯(cuò)誤可以在匹配步驟之前的后續(xù)步驟中被糾正。例如,在鋼琴音樂(lè)中,五線譜左手和右手彈出的不同音調(diào)符號(hào)可以通過(guò)鄰近的五線譜進(jìn)行糾正。類似的,可以同時(shí)使用不同的OMR軟件包從各種OMR提取結(jié)果獲得穩(wěn)定的匹配結(jié)果,改善OMR識(shí)別率。

3.4掃描-音頻同步

一旦確定了掃描樂(lè)譜頁(yè)面和對(duì)應(yīng)的音頻記錄,兩種類型音樂(lè)表現(xiàn)中語(yǔ)義相關(guān)的音符就自動(dòng)鏈接。不同的對(duì)齊和同步程序提出了自動(dòng)鏈接數(shù)個(gè)類型音樂(lè)表現(xiàn)的功能,從而協(xié)調(diào)給定音樂(lè)多個(gè)相關(guān)信息源。這個(gè)過(guò)程稱為“掃描-音頻”同步,目的是鏈接給定的樂(lè)譜掃描圖像在語(yǔ)義上相對(duì)應(yīng)時(shí)間音頻記錄的位置。

“掃描-音頻”同步的基本思想是:將給定的掃描樂(lè)譜及相應(yīng)的音頻記錄轉(zhuǎn)換為色度特征序列,基于DTW等標(biāo)準(zhǔn)對(duì)齊技術(shù),同步生成掃描色譜圖和音頻色譜圖。具體來(lái)說(shuō),就是建一個(gè)成本矩陣,計(jì)算每個(gè)掃描色譜向量和音頻色譜向量?jī)蓛芍g的距離,通過(guò)動(dòng)態(tài)編程(DP)從這個(gè)矩陣決定一個(gè)最佳成本對(duì)齊路徑[1]。為了應(yīng)對(duì)全球性調(diào)優(yōu)音頻記錄的變化,執(zhí)行色度循環(huán)轉(zhuǎn)移,通過(guò)兩個(gè)色度序列的時(shí)間對(duì)齊矩陣編碼生成路徑。而OMR輸出的空間信息指定了每個(gè)掃描色度向量到一個(gè)掃描樂(lè)譜圖像的相應(yīng)區(qū)域??臻g信息與“掃描-音頻”同步相結(jié)合,可以得到掃描圖像與音頻記錄的鏈接結(jié)構(gòu)。

音樂(lè)的丟失或重復(fù)等結(jié)構(gòu)性差異將影響“掃描-音頻”同步的質(zhì)量。例如,樂(lè)譜可能包含部分不在音頻記錄中的內(nèi)容或者是音頻記錄可能包含額外重復(fù)的不存在或不能識(shí)別的樂(lè)譜。這種結(jié)構(gòu)性的差異可能是由于OMR錯(cuò)誤或者源于樂(lè)譜沒(méi)有嚴(yán)格遵守組織要求。局部相似的音樂(lè)表現(xiàn)之間的同步問(wèn)題也值得關(guān)注。例如,音樂(lè)作品中的音頻和樂(lè)譜表現(xiàn)偏離了音高或者音長(zhǎng),總譜中的琶音、顫音、花音或者其他裝飾音存在歧義等。通常,這類差異在一定的限制條件下對(duì)整體同步結(jié)果幾乎沒(méi)有影響。然而,節(jié)奏的顯著差異在同步過(guò)程中卻可能導(dǎo)致問(wèn)題出現(xiàn)。此外,對(duì)于一個(gè)給定的音頻記錄,不能保證其基于特定的樂(lè)譜版本是同步的。

4用戶多通道音樂(lè)訪問(wèn)界面

4.1多通道音樂(lè)表示

現(xiàn)給出多通道音樂(lè)表示的核心組件,視圖文檔查看器。文檔查看器允許同步播放當(dāng)前選定音樂(lè)的相關(guān)音樂(lè)內(nèi)容,包括音頻記錄、樂(lè)譜、歌詞和視頻。確切地說(shuō),除了播放音頻記錄,它提供了包括樂(lè)譜、歌詞和視頻的3種可視化播放模式。例如,重復(fù)播放音頻記錄,樂(lè)譜和歌詞繼續(xù)同步顯示。用戶可以直觀地跟蹤音頻記錄當(dāng)前播放的旋律或當(dāng)前傳唱的話語(yǔ)。由于多通道的音樂(lè)欣賞方式,文檔查看器可以被作為視頻播放器。此外,還提供先進(jìn)的用戶交互選項(xiàng),如導(dǎo)航和查詢優(yōu)化。

文檔查看器分為頂部、中心和底部3個(gè)區(qū)域。頂部區(qū)域包含模式選項(xiàng)卡、當(dāng)前選定音樂(lè)的標(biāo)題以及用于變換影音播放樂(lè)譜或者音頻記錄的按鈕。除了聽(tīng)覺(jué)模式以外,用戶還可以通過(guò)模式選項(xiàng)卡自由變換用于視聽(tīng)演示的一段音樂(lè)作品的文檔模式。點(diǎn)擊選項(xiàng)卡中樂(lè)譜或者封面藝術(shù)圖標(biāo),彈出相應(yīng)的菜單列表,列出了與音樂(lè)相關(guān)的所有可用的內(nèi)容,用戶可以選擇用于播放的音頻或視頻內(nèi)容。例如,如果一段音樂(lè)作品有不同的音頻記錄可用,用戶可以選擇他想聽(tīng)的具體音頻記錄。通過(guò)這項(xiàng)功能,用戶可以在保留音樂(lè)實(shí)際播放位置的同時(shí)切換到不同的音頻記錄,還可以對(duì)不同的音頻記錄進(jìn)行比較。類似的,多個(gè)可用的樂(lè)譜之間也可以切換。中心區(qū)域顯示各種可視化內(nèi)容,根據(jù)當(dāng)前選擇的可視化模式,為用戶提供樂(lè)譜視圖、歌詞視圖或視頻視圖。底部區(qū)域顯示一個(gè)時(shí)間軸,允許用戶通過(guò)移動(dòng)滑動(dòng)按鈕調(diào)整播放位置。時(shí)間軸的下方,還有更多的按鈕來(lái)控制播放狀態(tài)和播放位置。控制按鈕保持不變,標(biāo)簽變換取決于當(dāng)前選定的可視化模式。

4.2多通道查詢模式

基于內(nèi)容的查詢到目前為止,有基于歌詞的檢索和基于音頻匹配的樂(lè)譜檢索兩種模式,且通過(guò)索引技術(shù)可以提高檢索效率。

歌詞檢索允許錄入幾句歌詞作為文本查詢,確定歌詞在音頻記錄中的位置。歌詞文本文檔的位置映射到音頻記錄的相應(yīng)時(shí)間段。單詞或者音節(jié)的開(kāi)始時(shí)間都給出明確的音樂(lè)背景,反之,這些信息被用于歌詞到音頻記錄的同步。隨后,使用基于反向文件索引技術(shù)的全文檢索和增強(qiáng)的歌詞搜索。搜索的容錯(cuò)功能允許歌詞查詢出現(xiàn)拼寫錯(cuò)誤和省略句。

基于樂(lè)譜檢索的查詢模式如下:在視覺(jué)形態(tài)下,選擇樂(lè)譜頁(yè)面的一部分作為查詢表述。系統(tǒng)檢索所有在音頻記錄中選定的音樂(lè)摘要。利用同步技術(shù),將相關(guān)音頻記錄的片段用于搜索過(guò)程,而不是查詢選定的樂(lè)譜摘要。從摘要獲取一系列音頻特征,隨后在音頻特征索引的基礎(chǔ)上執(zhí)行基于特征的查詢。由于可以提取音樂(lè)片段和音樂(lè)潛在的低級(jí)別連續(xù)特征,音頻檢索系統(tǒng)針對(duì)音質(zhì)、樂(lè)器和響度等方面的變化有很好的適應(yīng)性,因此能夠發(fā)現(xiàn)相似的音樂(lè)片段。詳細(xì)資料見(jiàn)參考文獻(xiàn)[4]。

4.3基于內(nèi)容的多模式檢索和排列

系統(tǒng)接收到提交的查詢包后,立即打開(kāi)查詢包,并根據(jù)其指定的查詢類型分派適當(dāng)?shù)牟樵円?。查詢引擎互相?dú)立,且每個(gè)類型查詢返回一個(gè)同類型的匹配列表。每個(gè)匹配段列表由文檔ID、匹配段的位置和排序值組成。在基于內(nèi)容的查詢情況下,匹配段通常是文檔的一小部分。然而,由于文檔匹配采用元數(shù)據(jù)描述,所以匹配段的匹配范圍是從文檔的開(kāi)始到結(jié)束。

由于不同文檔類型(如音頻記錄、樂(lè)譜和歌詞文檔)的同步,所有匹配段的邊界可以用時(shí)間域表示為開(kāi)始時(shí)間戳和結(jié)束時(shí)間戳[1]。因此,隨后的綜合排序和合并中,所有匹配段都是直接進(jìn)行對(duì)比。不同查詢引擎返回的多個(gè)結(jié)果列表排序、合并成一個(gè)單一的綜合結(jié)果列表。下面采用自底向上的方法來(lái)進(jìn)行說(shuō)明。

每個(gè)查詢引擎返回的結(jié)果列表由文檔ID、匹配段列表ID組成。將這些段列表插入一個(gè)哈希表,一個(gè)數(shù)據(jù)條目存儲(chǔ)一段樂(lè)曲的ID和相關(guān)段列表。對(duì)于每個(gè)插入的段列表,均有各自的存儲(chǔ)方式。與同一段樂(lè)曲相關(guān)的所有段列表集成存儲(chǔ)在一個(gè)哈希表數(shù)據(jù)條目中。隨后,為每個(gè)包含段列表的哈希表?xiàng)l目執(zhí)行合并。

兩個(gè)段列表的合并步驟如下:設(shè)L1:=第i個(gè)條目的k段列表為,其中表示起始時(shí)間戳、eik表示結(jié)束時(shí)間戳、rik表示排序值,且每個(gè)段列表對(duì)應(yīng)的形態(tài)沒(méi)有重疊部分,合并段列表Lk和Ll到綜合列表L。段ski與列表的其他任何段slj,如果沒(méi)有時(shí)間上的重疊,段sik直接復(fù)制到L列表;否則和slj合并到一個(gè)新的段列表),并將新的段列表插入L列表[1]。時(shí)間重疊的部分同時(shí)反映了產(chǎn)生的點(diǎn)擊數(shù),因此,希望獲得更高的排名。rik,rjl在段列表有時(shí)間重疊部分的情況下,為了提升排名,定義排序值為r:=(rik +rjl)?fboost,1≤fboost≤M為全局常量系數(shù)。m個(gè)段列表的合并則是不斷進(jìn)行迭代,直到不存在剩余的段列表。當(dāng)所有段列表合并成一個(gè)單一的綜合列表時(shí),所有段的排序值通過(guò)應(yīng)用因子歸化為在區(qū)間[0,1 ]上的最終排序值。只要每個(gè)列表Lk的匹配段ik)的開(kāi)始時(shí)間戳bki按升序排序,可以直接執(zhí)行該算法計(jì)算線性列表長(zhǎng)度的時(shí)間復(fù)雜度[1]。

為每段樂(lè)曲導(dǎo)入其綜合列表的多模式匹配段和分配的排序值。一段樂(lè)曲的整體排序值由其綜合段列表的最大排序值組成。最后,將每段樂(lè)曲按各自的排序值降序排序放入一個(gè)新的結(jié)果列表。最終的結(jié)果列表中,樂(lè)曲匹配的形態(tài)越多分配到的排序值越高,出現(xiàn)在列表中的位置就越靠前;反之,樂(lè)曲匹配的形態(tài)越少,出現(xiàn)在列表中的位置就越靠后。

4.4查詢結(jié)果顯示

通常情況下,搜索引擎為用戶直接提供一個(gè)由單一文件組成列表項(xiàng)的結(jié)果列表。然而,在音樂(lè)領(lǐng)域,一段樂(lè)曲有多種不同形態(tài)的文檔類型(如音頻記錄、樂(lè)譜、歌詞)表示。

該系統(tǒng)框架中,結(jié)果列表顯示關(guān)于查詢匹配的樂(lè)曲片段,文檔查看器提供訪問(wèn)屬于當(dāng)前選中樂(lè)曲的全部索引內(nèi)容。每段樂(lè)曲呈現(xiàn)給用戶的匹配結(jié)果不在文檔層,而是當(dāng)前查詢包含的一個(gè)或多個(gè)匹配的文檔表示。用戶查詢匹配屬于同一樂(lè)曲的所有文檔概括在一個(gè)列表項(xiàng)中。列表項(xiàng)顯示藝術(shù)家名字、樂(lè)曲標(biāo)題、歌詞摘錄以及匹配文檔的數(shù)量。文檔查看器則給出了更詳細(xì)的匹配文檔視圖和準(zhǔn)確的匹配位置。使用時(shí)間軸上的滑動(dòng)按鈕除了調(diào)整當(dāng)前的播放位置,還用來(lái)顯示用于播放當(dāng)前選定的多模式內(nèi)容的匹配位置。

4.5查詢優(yōu)化和跨通道導(dǎo)航

在結(jié)果列表中,對(duì)于每段樂(lè)曲檢索,用戶可以通過(guò)快捷菜單選擇“從藝術(shù)家獲得更多作品標(biāo)題”選項(xiàng),請(qǐng)求獲得同一位藝術(shù)家更多的作品鏈接。一旦用戶選擇該項(xiàng),將刷新查詢包,重建一個(gè)由藝術(shù)家名字和隨后執(zhí)行的新搜索組成的簡(jiǎn)單元數(shù)據(jù)查詢,最終結(jié)果的更新列表顯示數(shù)據(jù)庫(kù)中這位藝術(shù)家所有的作品。

用戶可以在視覺(jué)內(nèi)容的查詢實(shí)例中利用基于內(nèi)容的搜索功能,選擇部分樂(lè)譜頁(yè)面或歌詞文本作為新的查詢。用戶還可以選擇開(kāi)始一個(gè)基于選定部分的全新搜索或者添加部分查詢到查詢包。部分樂(lè)譜可能包含總譜和文本兩種形態(tài),用戶可以選擇同時(shí)查詢兩種形態(tài)或者是分開(kāi)查詢。

沿著文檔查看器底部的時(shí)間軸顯示多通道匹配段的內(nèi)容,可以同時(shí)用于導(dǎo)航的目的。通過(guò)點(diǎn)擊時(shí)間軸上的滑動(dòng)按鈕在相應(yīng)的時(shí)間位置開(kāi)始播放或繼續(xù)播放。此功能允許直接跳轉(zhuǎn)到用戶查詢的匹配段。

5 結(jié)語(yǔ)

本系統(tǒng)架構(gòu)描述了音樂(lè)數(shù)字圖書館的系統(tǒng)框架結(jié)構(gòu)和基本功能,滿足了用戶基本需求,但離實(shí)際應(yīng)用還存在著很大的差距,未來(lái)需要改進(jìn)的工作是多方面的。例如,系統(tǒng)工作流程的改進(jìn)、進(jìn)一步適應(yīng)相關(guān)處理模式和文檔類型、預(yù)處理時(shí)間的詳細(xì)評(píng)估、搜索時(shí)間和搜索質(zhì)量以及同步結(jié)果的評(píng)審等,都需要在日后的工作中不斷進(jìn)行完善。

參考文獻(xiàn):

[1] David,D.C.V.,Michael,C.F.M.·A digital library framework for heterogeneous music collections:from document acqui?sition to cross-modal interaction[J]. Int J Digit Libr,2012 (12):53-71.

[2] Hu,N.,Dannenberg,R.,Tzanetakis,G.·Polyphonic audio matching and alignment for music retrieval[J].Proceeding of the 4th IEEE Workshop on Applications of Signal Process?ing to Audio and Acoustics(WASPAA),2003.

[3] Kurth,F(xiàn).,Muller,M·Efficient index-based audio matching. IEEE Trans[J]. Audio Speech Lang. Process,2008(2):382-395.

[4] Kurth,F(xiàn).·Automated synchronization of scanned sheet music with audio recording[J].Proceeding of the 8th International Conference on Music Information Retrieval(ISMIR),2007 (b):261-266.

喻亞琴女,1981年生。本科學(xué)歷,館員。

收稿日期:(2015-06-02;責(zé)編:姚雪梅。)

猜你喜歡
樂(lè)譜色度列表
巧用列表來(lái)推理
山之高
是你一直想著我
學(xué)習(xí)運(yùn)用列表法
擴(kuò)列吧
樂(lè)譜:放飛夢(mèng)想
一毛學(xué)琴記——樂(lè)譜失蹤
琴童(2018年11期)2018-01-23 11:34:08
基于改進(jìn)色度模型的非接觸式心率檢測(cè)與估計(jì)
景德鎮(zhèn)早期青白瓷的器型與色度
如何提高蘋果的著色度
治县。| 乌兰浩特市| 新河县| 海安县| 兴化市| 泽普县| 延川县| 保定市| 石首市| 阜平县| 寿宁县| 南木林县| 唐海县| 东城区| 平顺县| 盐城市| 根河市| 马公市| 呼和浩特市| 灌阳县| 垫江县| 波密县| 新泰市| 宁安市| 石楼县| 灵武市| 陕西省| 辽中县| 安岳县| 瓦房店市| 大竹县| 寻甸| 蓝山县| 定兴县| 长岛县| 正蓝旗| 安阳县| 山东省| 富裕县| 吉水县| 公主岭市|