袁亞靜
摘 要:隨著互聯(lián)網(wǎng)時代的快速發(fā)展,音樂應(yīng)用正越來越多的影響著人們的日常生活,音樂識別技術(shù)則是聯(lián)系音樂應(yīng)用和真實(shí)音樂的樞紐[1],廣泛應(yīng)用于音樂欣賞、音樂教學(xué)、音樂分類、音樂檢索和音樂推薦等領(lǐng)域。文章基于專利數(shù)據(jù)庫,基于音樂識別的技術(shù)演進(jìn)路線介紹了音樂識別的技術(shù)發(fā)展脈絡(luò),并通過統(tǒng)計(jì)音樂識別領(lǐng)域的年申請量和主要申請人分析了該領(lǐng)域的專利技術(shù)發(fā)展趨勢。
關(guān)鍵詞:音樂識別;音樂檢索;旋律;節(jié)奏;情感識別
中圖分類號:T-18 文獻(xiàn)標(biāo)志碼:A 文章編號:2095-2945(2019)21-0011-03
Abstract: With the rapid development of the Internet era, music applications are increasingly affecting people's daily life. Music recognition technology is the hub between music application and real music. It is widely used in music appreciation, music teaching, music classification, music retrieval and music recommendation. Based on the patent database and the technical evolution route of music recognition, this paper introduces the technical development of music recognition, and analyzes the development trend of patent technology in this field by counting the annual application volume and the main applicants in the field of music recognition.
Keywords: music recognition; music retrieval; melody; rhythm; emotion recognition
1 概述
隨著數(shù)字音樂爆炸式的增長,以及各種P2P傳輸方式和音樂社區(qū)的普及,目前人們面臨的問題不再是缺少音樂,而是如何在浩如煙海的音樂世界中找到自己所需要的音樂。隨著自動識別技術(shù)的不斷發(fā)展,音樂識別技術(shù)從最初的歌名、歌手、風(fēng)格和類型等文本描述信息的識別,發(fā)展到通過電腦自動識別出音樂的旋律、節(jié)奏、類型和情感等信息,以尋找與用戶所檢索的音樂相同或類型相同的音樂,或者推送相關(guān)音樂給用戶。
2 音樂識別的技術(shù)演進(jìn)
音樂識別由于其獨(dú)特的音樂屬性,其發(fā)展最初是基于基本文本屬性進(jìn)行識別,到了九十年代后期,出現(xiàn)了基于旋律和節(jié)奏等樂理特征的識別,基于樂理特征的識別是音樂識別中應(yīng)用最為廣泛的技術(shù),其發(fā)展直接推進(jìn)了音樂識別技術(shù)的發(fā)展,用戶可以通過哼唱一段熟悉的旋律來獲得想要的音樂歌曲。在2000年后,隨著自動識別技術(shù)的發(fā)展,逐漸出現(xiàn)了基于情感和類型等整體特征的識別技術(shù),基于整體特征的識別技術(shù)主要是基于聲學(xué)特征、樂理特征和歌詞來進(jìn)行音樂識別[2-3]。
2.1 基于基本文本屬性的識別
在音樂識別領(lǐng)域,首個專利申請是JP20662282,于1982年提出,于1984年公開,這代表了音樂識別技術(shù)在專利領(lǐng)域的起源,其技術(shù)方案的實(shí)質(zhì)是通過歌名這個基本文本屬性進(jìn)行音樂識別,是音樂識別的雛形,為音樂識別的后續(xù)發(fā)展奠定了基礎(chǔ)。
2.2 基于旋律或節(jié)奏的識別
如果用戶不記得音樂歌曲的名稱、演唱者等信息,而只記得其中的主旋律片段時,用戶難以查找到想要的音樂。基于這種需求,逐漸出現(xiàn)了基于旋律和節(jié)奏識別的專利申請,最早的分別是1989年提出的基于旋律識別的JP14785798和1991年提出的基于節(jié)奏信息識別的JP324991。在基于旋律和節(jié)奏的識別中,包括用戶通過手動輸入的樂譜信息和通過語音識別獲得的信息,而基于語音識別來獲得旋律和節(jié)奏等信息是應(yīng)用最為廣泛的方式,比如,在用戶通過哼唱一段音樂片段來進(jìn)行音樂識別時,其核心就是通過提取語音中的旋律和節(jié)奏來進(jìn)行識別。由于旋律和節(jié)奏是音樂的基本屬性,其發(fā)展代表著整個音樂識別的技術(shù)領(lǐng)域的發(fā)展。同時,在基于旋律和節(jié)奏的音樂識別中,也涌現(xiàn)了較多的算法,基本的算法有字符串的匹配算法、線性伸縮算法、動態(tài)時間規(guī)整算法和隱馬爾科夫模型,在這些基本算法的基礎(chǔ)上,研究者根據(jù)具體的音樂屬性對基本算法進(jìn)行改進(jìn),近年來出現(xiàn)了較多的改進(jìn)后的性能較優(yōu)的算法,尤其是基于旋律的識別發(fā)展較為迅速。
在基于旋律的音樂識別中,由于一首音樂歌曲通常包括多個音樂片段,而人們通常比較熟悉和容易記住的是主旋律,比如,在基于哼唱的音樂識別中,用戶輸入的大多都是音樂的主旋律,因此,在基于旋律的音樂識別中,通常是基于主旋律進(jìn)行識別。由于主旋律在音樂識別中的重要地位,特征數(shù)據(jù)庫中存儲的旋律大多都是主旋律,并且在基于整首歌曲進(jìn)行旋律識別時,通常提取的也是歌曲的主旋律,以利用主旋律進(jìn)行音樂識別。然而,在一首音樂歌曲中,通常具有多個背景旋律,背景旋律對旋律識別來說是噪聲,因此,在基于旋律的音樂識別中,如果能夠?qū)⒈尘靶深A(yù)先刪除或分離,將在很大程度上提高旋律識別的精確度?;谶@個原因,2003年的專利申請US20030297350提出了一種通過分離背景旋律來進(jìn)行音樂識別的方法,能夠較好的分離背景旋律,提高旋律識別的準(zhǔn)確度。
基于人對音樂歌曲的有限理解和記憶,在用戶手動輸入的樂譜信息或者哼唱的音樂片段中,可能會存在旋律丟失的可能,基于此,2006年的專利申請CN200610065725提出了一種對旋律進(jìn)行擴(kuò)充以進(jìn)行音樂識別的方法,該方法能夠有效解決旋律丟失的缺陷,進(jìn)一步提高了旋律識別的準(zhǔn)確度。