靈動音科技：用AI讓音樂創(chuàng)作更簡單

2024-11-21 00:00顏卉孫豪祥劉曉菲陶娜

清華管理評論 2024年9期

方興未艾的短視頻，帶動了音樂行業(yè)的發(fā)展。全球音樂用戶現(xiàn)已逾16億，然而在生產(chǎn)層面，能夠參與到音樂創(chuàng)作的人數(shù)占比仍然寥寥。由于音樂創(chuàng)作本身具備一定的專業(yè)門檻，非專業(yè)人士很難借助音樂表達(dá)自我。正如全民K歌等App降低了錄歌的門檻，讓大量非專業(yè)人士參與自己錄歌的過程，人工智能生成內(nèi)容（AI-Generated Content，以下縮寫為AIGC）的發(fā)展給音樂創(chuàng)作帶來了另一種可能性。

靈動音科技，自2018年成立以來，以其獨(dú)創(chuàng)的AIGC技術(shù)在中國音樂服務(wù)行業(yè)中獨(dú)樹一幟。該公司專注于將先進(jìn)的AI音樂技術(shù)賦能各類音樂愛好者的創(chuàng)作過程，開發(fā)出許多創(chuàng)新的應(yīng)用和產(chǎn)品。靈動音不僅降低了音樂制作工具的使用門檻，更借助AI技術(shù)全方位降低音樂創(chuàng)作過程中諸如作詞、作曲、編曲、演唱、混音等一系列工作的難度，讓不具備樂理知識的普通大眾，也能夠在靈動音AI輔助工作功能的支持下實(shí)現(xiàn)音樂創(chuàng)作。其推出的AI隨身音樂工作站“和弦派”，能夠基于AI音樂生成引擎，從和弦入手進(jìn)行音樂創(chuàng)作，讓音樂創(chuàng)作變得輕而易舉。此外，靈動音持續(xù)深耕科技成果的產(chǎn)品落地和商業(yè)化探索，其旗下還有口袋樂隊(duì)、BGM貓等音樂產(chǎn)品，滿足上億用戶的音樂實(shí)踐需求。2023年，憑借在人工智能音樂領(lǐng)域的技術(shù)探索和應(yīng)用實(shí)踐，靈動音入選由極客公園旗下的科技創(chuàng)業(yè)者社區(qū)Founder Park發(fā)布的“中國最具價(jià)值的人工通用智能（AGI）創(chuàng)新機(jī)構(gòu)TOP 50”榜單。

心之所向：一切源于對音樂的熱愛

靈動音創(chuàng)始人劉曉光和音樂有著不解之緣。他從三歲半就開始學(xué)電子琴，九歲時(shí)通過了中央音樂學(xué)院的電子琴9級考試。上中學(xué)時(shí)，他喜歡周杰倫和林俊杰，白天聽到喜歡的歌，晚上回家就用電子琴彈奏出來，并在此過程中初步產(chǎn)生了對于音樂創(chuàng)作的感知。2009年，劉曉光考入清華大學(xué)化學(xué)系本科，學(xué)業(yè)的壓力并沒有阻擋他對音樂的熱愛，他把大部分的課余時(shí)間都投入到了和音樂相關(guān)的事情上。大學(xué)畢業(yè)后，劉曉光曾短暫創(chuàng)業(yè)做過VR和AR，也在音樂培訓(xùn)機(jī)構(gòu)做過老師，同時(shí)持續(xù)進(jìn)行自己的音樂創(chuàng)作，譜寫過上百首音樂作品。在此過程中，劉曉光結(jié)識了不少擅長音樂制作的朋友，為其后來創(chuàng)辦靈動音積累了一定的人力資源。

2016年，谷歌的人工智能開發(fā)者們推出了“Magenta”項(xiàng)目，嘗試用AI生成音樂。那時(shí)，即便是最先進(jìn)的AI技術(shù)，也難以模仿藝術(shù)家創(chuàng)作的繪畫或音樂，更遑論自主生成的概念。同年，清華大學(xué)的幾位本科生和研究生組成了一個(gè)在AI音樂領(lǐng)域開展研究的興趣小組。年底，曾擔(dān)任清華大學(xué)吉他協(xié)會會長、彼時(shí)正就讀于清華大學(xué)化學(xué)系的研究生劉曉光加入這個(gè)小組。2018年，該興趣小組發(fā)展成為一家公司——靈動音科技，劉曉光擔(dān)任CEO。另一位聯(lián)合創(chuàng)始人苑盛成就讀于清華大學(xué)工程物理系，他和劉曉光一樣，自幼兒時(shí)就開始學(xué)習(xí)電子琴，對音樂一直抱有濃厚的興趣。當(dāng)劉曉光找到苑盛成，希望他可以和自己一起發(fā)揮所長，共同為國內(nèi)人工智能音樂領(lǐng)域做一些有意義的事情時(shí)，苑盛成經(jīng)過深思熟慮，放棄了去美國發(fā)展，加入靈動音。靈動音公司有一間設(shè)施完備的樂器室，四壁包裹了吸音海綿，放滿了各種樂器，桌子上甚至還擺放著一套Genelec（真力）音響。這種音響通常只會出現(xiàn)在專業(yè)的音樂工作室里，靈動音團(tuán)隊(duì)雖然從事人工智能技術(shù)的開發(fā)工作，卻始終沒有忘記其最初對于音樂的熱愛和執(zhí)著。

彼時(shí)，AIGC的浪潮遠(yuǎn)未到來。與一些在2023年看到ChatGPT的火爆才匆匆“上車”的創(chuàng)業(yè)公司不同，此時(shí)的靈動音已經(jīng)在AI領(lǐng)域積累了五年多的探索經(jīng)驗(yàn)?！斑@是個(gè)挺長周期的事情，堅(jiān)持到現(xiàn)在才有一些收獲。”劉曉光坦言。自2019年起，劉曉光團(tuán)隊(duì)便專注于探索娛樂科技領(lǐng)域。在該領(lǐng)域內(nèi)，他們尤其關(guān)注那些專注于游戲、影視、動漫和音樂等娛樂主題的技術(shù)型企業(yè)。這些公司涵蓋了從渲染物理仿真到人工智能生成等多種技術(shù)，展現(xiàn)了當(dāng)時(shí)豐富多樣的數(shù)字化娛樂形式。劉曉光對于創(chuàng)業(yè)方向的選擇，源于對其產(chǎn)生深刻影響的一本書——《哥德爾、艾舍爾、巴赫》。這本書通過講述數(shù)學(xué)家哥德爾、版畫家艾舍爾、音樂家巴赫的故事，探討了數(shù)學(xué)、人工智能、哲學(xué)和藝術(shù)之間的融合問題。在劉曉光看來，娛樂科技的本質(zhì)也是這樣。娛樂行業(yè)雖然給人的第一印象是充滿感性的，但也常常借助于一系列科學(xué)技術(shù)增強(qiáng)其體驗(yàn)。在娛樂科技的多個(gè)分支中，音樂占據(jù)了一個(gè)非常重要的位置，它不僅與人們的日常生活緊密相連，還是一個(gè)有著深厚傳統(tǒng)的行業(yè)。劉曉光經(jīng)常思考的問題是，能否打造一個(gè)系統(tǒng)又完善的“AI+數(shù)據(jù)”驅(qū)動的音樂軟件，可以革新整個(gè)行業(yè)。在調(diào)研AIGC音樂賽道時(shí)，劉曉光注意到谷歌在人工智能音樂方面的兩個(gè)技術(shù)模型AudioLM和MusicLM，他認(rèn)為這兩個(gè)模型的出現(xiàn)證明了“從文本直接生成音頻”技術(shù)路線的可行性?；谠谶@個(gè)領(lǐng)域的技術(shù)積累以及對音樂的熱愛和激情，創(chuàng)業(yè)團(tuán)隊(duì)對自己的創(chuàng)業(yè)項(xiàng)目變得更加堅(jiān)定。

見微知著：AIGC音樂關(guān)鍵在于“G”

在音樂行業(yè)中，內(nèi)容被分為功能性和藝術(shù)性兩種，比如抖音短視頻的背景音樂一般屬于前者，而周杰倫的歌曲則屬于后者。AI直接生成的音樂，主要解決功能性問題，但現(xiàn)實(shí)是，功能性音樂只占音樂市場的1%，屬于一個(gè)超飽和市場。雖然理論層面可以利用AIGC技術(shù)解決“傳統(tǒng)音樂制作門檻高”這一痛點(diǎn)（見表1），但是要想在一個(gè)供大于求的市場里脫穎而出，仍面臨諸多挑戰(zhàn)和未知因素?！拔覀冚斎胍欢巫匀徽Z言，然后生成一段音樂，這雖然看上去很好玩，但不一定是真正有用的東西?！睂τ凇癆IGC”所包含三個(gè)部分：AI，指生成內(nèi)容的方式；G，指生產(chǎn)的過程；C，指生產(chǎn)的內(nèi)容，劉曉光認(rèn)為，最關(guān)鍵的是“G”，即AI生產(chǎn)內(nèi)容的過程。AI的引入，使沒有音樂基礎(chǔ)的人對音樂創(chuàng)作不再望而卻步，在AI的幫助下，人們可以不必接受長時(shí)間的復(fù)雜學(xué)習(xí)，就有機(jī)會直接參與到音樂創(chuàng)作的過程中，甚至通過AIGC技術(shù)提升用戶生成內(nèi)容（User Generated Content）的質(zhì)量。

更重要的是，AIGC技術(shù)所帶來的變革不只限于內(nèi)容創(chuàng)造領(lǐng)域，同時(shí)還代表了人機(jī)交互方式的重大創(chuàng)新，這也正是促使劉曉光團(tuán)隊(duì)選擇在AIGC領(lǐng)域創(chuàng)業(yè)的深層動機(jī)。在公司成立之初，團(tuán)隊(duì)成員就已經(jīng)認(rèn)同了這樣一種創(chuàng)新理念：讓人工智能根據(jù)其與人的互動生成音樂內(nèi)容，這一理念彼時(shí)已經(jīng)體現(xiàn)了人工智能生成內(nèi)容的精髓。他們希望讓音樂能夠被人的更多感官感受到，從而使用戶以一種更加游戲化的方式獲得娛樂體驗(yàn)。在劉曉光看來，AIGC技術(shù)將開啟多樣化的交互場景和內(nèi)容消費(fèi)模式——在應(yīng)用層面，AIGC技術(shù)能夠催生許多創(chuàng)新的服務(wù)模式，并找到新的贏利點(diǎn)占據(jù)市場。劉曉光尤其看好教育和游戲領(lǐng)域，因?yàn)檫@兩個(gè)領(lǐng)域具有強(qiáng)烈的人機(jī)交互特性。在面對不同的付費(fèi)內(nèi)容時(shí)，用戶有不同的心理預(yù)期和支付意愿。例如，用戶可能不太愿意為一個(gè)工具或視頻平臺支付費(fèi)用，但對于游戲，他們可能愿意投入更多的金錢。因此，劉曉光認(rèn)為AIGC技術(shù)很可能會在游戲化或教育化的應(yīng)用中率先獲得成功。

迎難而上：如何讓AI有情感地表達(dá)

靈動音的愿景是幫助音樂愛好者以更高的效率進(jìn)行音樂創(chuàng)作。將AIGC技術(shù)應(yīng)用于音樂生成時(shí)，會發(fā)現(xiàn)兩個(gè)突出的問題。第一，當(dāng)利用該工具來創(chuàng)作音樂時(shí)，用戶很可能不會傾向選擇一個(gè)完全自動化生成的音樂作品，因?yàn)檫@樣的作品并不真正屬于用戶自己，并且很難完全表達(dá)想要表達(dá)的情感。如果生成多首音樂作品后再挑選，雖然最初生成的幾個(gè)作品可能聽起來相當(dāng)悅耳，但隨著生成數(shù)量的增加，作品開始顯得千篇一律。這種現(xiàn)象的根源在于神經(jīng)網(wǎng)絡(luò)模型的工作原理，由于這些模型是基于概率統(tǒng)計(jì)建構(gòu)的，它們在生成內(nèi)容的過程中可能會在無意之中淡化不同音樂作品的獨(dú)特性。然而，正是這些獨(dú)特性，賦予了優(yōu)秀音樂作品魅力與價(jià)值。

另一個(gè)問題是，并非所有情感都能被語言模型準(zhǔn)確捕捉和表達(dá)。例如，當(dāng)用戶想要生成一首能夠傳達(dá)悲傷情緒的音樂作品時(shí)，可以通過在語言模型中設(shè)置相應(yīng)的情緒標(biāo)簽，并將悲傷的標(biāo)簽作為輸入條件，來生成相應(yīng)的音頻片段，這在理論上看起來是可行的。然而，如果用戶提出更細(xì)致的要求，比如希望悲傷的情感表達(dá)得更為內(nèi)斂、更有深度，那么基本的語言模型目前還難以滿足這些復(fù)雜細(xì)微的情感需求。

劉曉光認(rèn)為，音樂人能夠通過大量的學(xué)習(xí)和實(shí)踐，建立情感和音樂知識之間的映射經(jīng)驗(yàn)，一旦掌握了這些經(jīng)驗(yàn)，再加上適當(dāng)?shù)闹笇?dǎo)，人們就能更輕松地利用AIGC技術(shù)使音樂更好地表達(dá)情感。針對上述兩個(gè)難題，劉曉光團(tuán)隊(duì)查閱了很多知識庫，他們注意到在音樂領(lǐng)域，可用于操作和分析的數(shù)據(jù)集相對有限。因此，劉曉光團(tuán)隊(duì)著力收集更多數(shù)據(jù)進(jìn)行標(biāo)注。相比于自然語言圖像的標(biāo)注，音樂標(biāo)注的難度更大，為了提高收集效率和精確度，團(tuán)隊(duì)設(shè)計(jì)并開發(fā)了統(tǒng)一的、云化的音樂知識數(shù)據(jù)結(jié)構(gòu)及標(biāo)注工具UMP Board。這套數(shù)據(jù)標(biāo)準(zhǔn)解決了音樂領(lǐng)域沒有音頻對齊音樂數(shù)據(jù)的問題，該標(biāo)準(zhǔn)現(xiàn)已被多個(gè)產(chǎn)品使用。同時(shí)，團(tuán)隊(duì)將基于超過2萬首歌曲的音樂理論信息轉(zhuǎn)換成數(shù)據(jù)庫，以此用來訓(xùn)練模型，識別準(zhǔn)確率逾90%，足以滿足大多數(shù)用戶的需求。目前，經(jīng)過多輪優(yōu)化的UMP Board系統(tǒng)已經(jīng)能夠獨(dú)立完成對40萬首歌曲的人工智能自動標(biāo)注工作。此外，靈動音正在擴(kuò)充出海音樂內(nèi)容，加速推進(jìn)海外市場布局。

值得注意的是，不同于“端到端”的AI生成技術(shù)，靈動音所采用的是一種“符號音樂”的AI生成技術(shù)（見圖1）?！岸说蕉恕鄙墒侵苯訌默F(xiàn)有音頻中生成新音頻的技術(shù)，類似于AI圖像生成領(lǐng)域中的DALL·E 2模型，用戶只需輸入一段描述，如“飛行員吃蘋果”，模型就能自動生成包含飛行員、蘋果和其他航空元素的圖片?！岸说蕉松伞币魳芬嗍菍?shí)現(xiàn)類似的功能，即用戶只需輸入一句話，就能生成一段音樂以呈現(xiàn)這句話的意思。由于“端到端”生成過程具有封閉性，這對生成的音樂進(jìn)行再編輯或進(jìn)行分軌處理帶來困難。同時(shí)，由于音頻數(shù)據(jù)的復(fù)雜性，提升音質(zhì)需要投入極高的算力。這限制了端到端音樂生成技術(shù)在一些應(yīng)用場景下的廣泛使用。“符號音樂生成”技術(shù)是將現(xiàn)有的音頻材料轉(zhuǎn)換成音樂符號，這些音樂符號被用來創(chuàng)作新的音樂符號，最終轉(zhuǎn)換成新的音頻文件。符號音樂生成技術(shù)在音樂創(chuàng)作領(lǐng)域具有重要意義，它通過提取音頻中的各種信息（如詞曲、和弦、樂器等），將其轉(zhuǎn)換成類似音樂功能譜的數(shù)據(jù)形式，在“詞曲編錄混”各個(gè)環(huán)節(jié)都可以生成內(nèi)容，并且使每個(gè)環(huán)節(jié)都具有可控性，具有廣闊的應(yīng)用前景。它不僅為專業(yè)音樂人提供靈感和創(chuàng)作工具，還賦能音樂教育，幫助學(xué)生理解音樂理論和創(chuàng)作技巧。此外，隨著技術(shù)的進(jìn)步，符號音樂生成技術(shù)可以進(jìn)一步降低音樂創(chuàng)作的門檻，激發(fā)更多非專業(yè)用戶的創(chuàng)作熱情，釋放UGC（用戶生成內(nèi)容）音樂的無限潛力。

嶄露頭角：搭建AI音樂產(chǎn)品矩陣

以往音樂人做一首歌，通常要經(jīng)過“詞、曲、編、錄、混”五個(gè)過程。從技術(shù)角度看，這些工作來自于不同模態(tài)，特別是混音，是一個(gè)工程化的工作。如果人們想通過一款產(chǎn)品完全賦能到場景上，需要很大的工作量。它首先需要一個(gè)工程化的基礎(chǔ)，其中包含各種各樣的模塊技術(shù)，從而建立一個(gè)“數(shù)字音樂工作站”，為用戶創(chuàng)造多重價(jià)值。例如，作詞人可以通過AIGC技術(shù)生成多版本歌詞，從中汲取靈感，使創(chuàng)作過程變得更加高效。作為AI音樂領(lǐng)域里最交叉的兩個(gè)環(huán)節(jié)，作曲和編曲同樣需要這樣的靈感，靈動音團(tuán)隊(duì)在這兩個(gè)環(huán)節(jié)投入了極大的精力。例如，團(tuán)隊(duì)自主研發(fā)了音頻引擎Mutrix，讓音樂編輯可以在不同系統(tǒng)、不同性能、不同品牌的手機(jī)上都可以操作，從而實(shí)現(xiàn)了真正的跨平臺高性能的音樂創(chuàng)作體驗(yàn)。傳統(tǒng)的音樂創(chuàng)作軟件，如庫樂隊(duì)對于普通人而言使用門檻依然很高，需要用戶了解甚至?xí)葑嗝恳环N其想編輯樂曲所使用的樂器，才能得到高質(zhì)量的創(chuàng)作結(jié)果。靈動音開發(fā)的產(chǎn)品“和弦派”采用基于和弦的樂器生成算法，使用戶不需要學(xué)習(xí)樂器演奏也能得到高質(zhì)量的編曲結(jié)果。傳統(tǒng)的音樂工作站都是以很多軌道呈現(xiàn)音樂信息，和弦派則使用更直觀的功能譜呈現(xiàn)音樂創(chuàng)作內(nèi)容的信息，以使廣大的音樂愛好者更輕松地體會到音樂實(shí)踐的快樂。當(dāng)用戶直觀地輸入和弦、旋律、歌詞等需求，AI輔助創(chuàng)作功能就能為用戶一站式輸出完整的Demo，賦予用戶大量的靈感，使原本枯燥繁瑣的創(chuàng)作過程變得更加有趣。

除了“和弦派”以外，靈動音的產(chǎn)品還包括“BGMCAT”和“口袋樂隊(duì)”（見表2）。BGMCAT是為了在功能性音樂上直接滿足多場景需求而設(shè)計(jì)的，它能夠根據(jù)用戶輸入視頻的時(shí)長和描述標(biāo)簽，一鍵生成相匹配的背景音樂，為視頻創(chuàng)作者提供便利。具體而言，用戶可以通過選擇不同的場景、風(fēng)格和心情標(biāo)簽定制背景音樂，BGMCAT的AI系統(tǒng)根據(jù)對包括輸入字符長度、描述和選定標(biāo)簽的分析，輸出與其相對應(yīng)的原創(chuàng)音樂，時(shí)長在30秒到5分鐘。此外，BGMCAT提供官方商業(yè)授權(quán)，這意味著生成的所有音樂均已授權(quán)用于商業(yè)用途，用戶不必?fù)?dān)心版權(quán)問題。

口袋樂隊(duì)則是一個(gè)AI音樂工作站，旨在通過更加親民的可視化方式，讓每個(gè)用戶都能感受到聽覺加視覺的良好交互體驗(yàn)。具體表現(xiàn)為，它允許用戶通過選擇不同的樂手和樂器來創(chuàng)作音樂。該產(chǎn)品支持200余種演奏方式，讓用戶可以輕松地進(jìn)行作曲、編曲、錄唱和混音，使得非音樂專業(yè)的朋友也能實(shí)現(xiàn)自己的音樂想法?？诖鼧逢?duì)旨在讓音樂創(chuàng)作變得像玩游戲一樣簡單有趣，它通過AI音樂引擎的支持，幫助用戶發(fā)現(xiàn)音樂的魅力并創(chuàng)造無限可能。無論是專業(yè)的音樂人，還是音樂愛好者，都可以使用口袋樂隊(duì)創(chuàng)作個(gè)性化的音樂作品。

大有可為：AIGC音樂浪潮的到來

在音樂創(chuàng)作領(lǐng)域，創(chuàng)作者與聽眾之間的界限正在逐漸變得模糊。過去，錄制一首歌曲需要投入許多資金，通過在錄音棚錄制，最終得到一盒磁帶。在互聯(lián)網(wǎng)時(shí)代，僅需一款錄音軟件就能完成這項(xiàng)工作。如果進(jìn)一步降低知識門檻，普通大眾也能輕松參與音樂創(chuàng)作。因此，音樂生產(chǎn)就不再只是少數(shù)創(chuàng)作者的專利，而成為每個(gè)人都能參與創(chuàng)作、每個(gè)人都能享受他人作品的過程，創(chuàng)作者和消費(fèi)者的角色相互交織在一起。

劉曉光堅(jiān)信，隨著時(shí)間的推移，音樂的交互體驗(yàn)將變得更加沉浸和多元。今天的音樂人只需專注于創(chuàng)作出優(yōu)秀的音樂作品，隨著虛擬現(xiàn)實(shí)（VR）和元宇宙等技術(shù)的發(fā)展，音樂的呈現(xiàn)方式將融入更豐富多元的感官體驗(yàn)。靈動音團(tuán)隊(duì)期待在“全民音樂人”時(shí)代到來時(shí)承擔(dān)起相應(yīng)的責(zé)任，貢獻(xiàn)自己的力量。未來，靈動音將繼續(xù)深耕技術(shù)成果的產(chǎn)品化轉(zhuǎn)化和商業(yè)化探索，迎著AIGC的浪潮，讓音樂創(chuàng)作變得像現(xiàn)在的短視頻創(chuàng)作等一樣簡單快捷。

清華管理評論2024年9期