方興未艾的短視頻,帶動了音樂行業(yè)的發(fā)展。全球音樂用戶現(xiàn)已逾16億,然而在生產(chǎn)層面,能夠參與到音樂創(chuàng)作的人數(shù)占比仍然寥寥。由于音樂創(chuàng)作本身具備一定的專業(yè)門檻,非專業(yè)人士很難借助音樂表達(dá)自我。正如全民K歌等App降低了錄歌的門檻,讓大量非專業(yè)人士參與自己錄歌的過程,人工智能生成內(nèi)容(AI-Generated Content,以下縮寫為AIGC)的發(fā)展給音樂創(chuàng)作帶來了另一種可能性。
靈動音科技,自2018年成立以來,以其獨(dú)創(chuàng)的AIGC技術(shù)在中國音樂服務(wù)行業(yè)中獨(dú)樹一幟。該公司專注于將先進(jìn)的AI音樂技術(shù)賦能各類音樂愛好者的創(chuàng)作過程,開發(fā)出許多創(chuàng)新的應(yīng)用和產(chǎn)品。靈動音不僅降低了音樂制作工具的使用門檻,更借助AI技術(shù)全方位降低音樂創(chuàng)作過程中諸如作詞、作曲、編曲、演唱、混音等一系列工作的難度,讓不具備樂理知識的普通大眾,也能夠在靈動音AI輔助工作功能的支持下實(shí)現(xiàn)音樂創(chuàng)作。其推出的AI隨身音樂工作站“和弦派”,能夠基于AI音樂生成引擎,從和弦入手進(jìn)行音樂創(chuàng)作,讓音樂創(chuàng)作變得輕而易舉。此外,靈動音持續(xù)深耕科技成果的產(chǎn)品落地和商業(yè)化探索,其旗下還有口袋樂隊(duì)、BGM貓等音樂產(chǎn)品,滿足上億用戶的音樂實(shí)踐需求。2023年,憑借在人工智能音樂領(lǐng)域的技術(shù)探索和應(yīng)用實(shí)踐,靈動音入選由極客公園旗下的科技創(chuàng)業(yè)者社區(qū)Founder Park發(fā)布的“中國最具價(jià)值的人工通用智能(AGI)創(chuàng)新機(jī)構(gòu)TOP 50”榜單。
靈動音創(chuàng)始人劉曉光和音樂有著不解之緣。他從三歲半就開始學(xué)電子琴,九歲時(shí)通過了中央音樂學(xué)院的電子琴9級考試。上中學(xué)時(shí),他喜歡周杰倫和林俊杰,白天聽到喜歡的歌,晚上回家就用電子琴彈奏出來,并在此過程中初步產(chǎn)生了對于音樂創(chuàng)作的感知。2009年,劉曉光考入清華大學(xué)化學(xué)系本科,學(xué)業(yè)的壓力并沒有阻擋他對音樂的熱愛,他把大部分的課余時(shí)間都投入到了和音樂相關(guān)的事情上。大學(xué)畢業(yè)后,劉曉光曾短暫創(chuàng)業(yè)做過VR和AR,也在音樂培訓(xùn)機(jī)構(gòu)做過老師,同時(shí)持續(xù)進(jìn)行自己的音樂創(chuàng)作,譜寫過上百首音樂作品。在此過程中,劉曉光結(jié)識了不少擅長音樂制作的朋友,為其后來創(chuàng)辦靈動音積累了一定的人力資源。
2016年,谷歌的人工智能開發(fā)者們推出了“Magenta”項(xiàng)目,嘗試用AI生成音樂。那時(shí),即便是最先進(jìn)的AI技術(shù),也難以模仿藝術(shù)家創(chuàng)作的繪畫或音樂,更遑論自主生成的概念。同年,清華大學(xué)的幾位本科生和研究生組成了一個(gè)在AI音樂領(lǐng)域開展研究的興趣小組。年底,曾擔(dān)任清華大學(xué)吉他協(xié)會會長、彼時(shí)正就讀于清華大學(xué)化學(xué)系的研究生劉曉光加入這個(gè)小組。2018年,該興趣小組發(fā)展成為一家公司——靈動音科技,劉曉光擔(dān)任CEO。另一位聯(lián)合創(chuàng)始人苑盛成就讀于清華大學(xué)工程物理系,他和劉曉光一樣,自幼兒時(shí)就開始學(xué)習(xí)電子琴,對音樂一直抱有濃厚的興趣。當(dāng)劉曉光找到苑盛成,希望他可以和自己一起發(fā)揮所長,共同為國內(nèi)人工智能音樂領(lǐng)域做一些有意義的事情時(shí),苑盛成經(jīng)過深思熟慮,放棄了去美國發(fā)展,加入靈動音。靈動音公司有一間設(shè)施完備的樂器室,四壁包裹了吸音海綿,放滿了各種樂器,桌子上甚至還擺放著一套Genelec(真力)音響。這種音響通常只會出現(xiàn)在專業(yè)的音樂工作室里,靈動音團(tuán)隊(duì)雖然從事人工智能技術(shù)的開發(fā)工作,卻始終沒有忘記其最初對于音樂的熱愛和執(zhí)著。
彼時(shí),AIGC的浪潮遠(yuǎn)未到來。與一些在2023年看到ChatGPT的火爆才匆匆“上車”的創(chuàng)業(yè)公司不同,此時(shí)的靈動音已經(jīng)在AI領(lǐng)域積累了五年多的探索經(jīng)驗(yàn)?!斑@是個(gè)挺長周期的事情,堅(jiān)持到現(xiàn)在才有一些收獲。”劉曉光坦言。自2019年起,劉曉光團(tuán)隊(duì)便專注于探索娛樂科技領(lǐng)域。在該領(lǐng)域內(nèi),他們尤其關(guān)注那些專注于游戲、影視、動漫和音樂等娛樂主題的技術(shù)型企業(yè)。這些公司涵蓋了從渲染物理仿真到人工智能生成等多種技術(shù),展現(xiàn)了當(dāng)時(shí)豐富多樣的數(shù)字化娛樂形式。劉曉光對于創(chuàng)業(yè)方向的選擇,源于對其產(chǎn)生深刻影響的一本書——《哥德爾、艾舍爾、巴赫》。這本書通過講述數(shù)學(xué)家哥德爾、版畫家艾舍爾、音樂家巴赫的故事,探討了數(shù)學(xué)、人工智能、哲學(xué)和藝術(shù)之間的融合問題。在劉曉光看來,娛樂科技的本質(zhì)也是這樣。娛樂行業(yè)雖然給人的第一印象是充滿感性的,但也常常借助于一系列科學(xué)技術(shù)增強(qiáng)其體驗(yàn)。在娛樂科技的多個(gè)分支中,音樂占據(jù)了一個(gè)非常重要的位置,它不僅與人們的日常生活緊密相連,還是一個(gè)有著深厚傳統(tǒng)的行業(yè)。劉曉光經(jīng)常思考的問題是,能否打造一個(gè)系統(tǒng)又完善的“AI+數(shù)據(jù)”驅(qū)動的音樂軟件,可以革新整個(gè)行業(yè)。在調(diào)研AIGC音樂賽道時(shí),劉曉光注意到谷歌在人工智能音樂方面的兩個(gè)技術(shù)模型AudioLM和MusicLM,他認(rèn)為這兩個(gè)模型的出現(xiàn)證明了“從文本直接生成音頻”技術(shù)路線的可行性?;谠谶@個(gè)領(lǐng)域的技術(shù)積累以及對音樂的熱愛和激情,創(chuàng)業(yè)團(tuán)隊(duì)對自己的創(chuàng)業(yè)項(xiàng)目變得更加堅(jiān)定。
在音樂行業(yè)中,內(nèi)容被分為功能性和藝術(shù)性兩種,比如抖音短視頻的背景音樂一般屬于前者,而周杰倫的歌曲則屬于后者。AI直接生成的音樂,主要解決功能性問題,但現(xiàn)實(shí)是,功能性音樂只占音樂市場的1%,屬于一個(gè)超飽和市場。雖然理論層面可以利用AIGC技術(shù)解決“傳統(tǒng)音樂制作門檻高”這一痛點(diǎn)(見表1),但是要想在一個(gè)供大于求的市場里脫穎而出,仍面臨諸多挑戰(zhàn)和未知因素?!拔覀冚斎胍欢巫匀徽Z言,然后生成一段音樂,這雖然看上去很好玩,但不一定是真正有用的東西?!睂τ凇癆IGC”所包含三個(gè)部分:AI,指生成內(nèi)容的方式;G,指生產(chǎn)的過程;C,指生產(chǎn)的內(nèi)容,劉曉光認(rèn)為,最關(guān)鍵的是“G”,即AI生產(chǎn)內(nèi)容的過程。AI的引入,使沒有音樂基礎(chǔ)的人對音樂創(chuàng)作不再望而卻步,在AI的幫助下,人們可以不必接受長時(shí)間的復(fù)雜學(xué)習(xí),就有機(jī)會直接參與到音樂創(chuàng)作的過程中,甚至通過AIGC技術(shù)提升用戶生成內(nèi)容(User Generated Content)的質(zhì)量。
更重要的是,AIGC技術(shù)所帶來的變革不只限于內(nèi)容創(chuàng)造領(lǐng)域,同時(shí)還代表了人機(jī)交互方式的重大創(chuàng)新,這也正是促使劉曉光團(tuán)隊(duì)選擇在AIGC領(lǐng)域創(chuàng)業(yè)的深層動機(jī)。在公司成立之初,團(tuán)隊(duì)成員就已經(jīng)認(rèn)同了這樣一種創(chuàng)新理念:讓人工智能根據(jù)其與人的互動生成音樂內(nèi)容,這一理念彼時(shí)已經(jīng)體現(xiàn)了人工智能生成內(nèi)容的精髓。他們希望讓音樂能夠被人的更多感官感受到,從而使用戶以一種更加游戲化的方式獲得娛樂體驗(yàn)。在劉曉光看來,AIGC技術(shù)將開啟多樣化的交互場景和內(nèi)容消費(fèi)模式——在應(yīng)用層面,AIGC技術(shù)能夠催生許多創(chuàng)新的服務(wù)模式,并找到新的贏利點(diǎn)占據(jù)市場。劉曉光尤其看好教育和游戲領(lǐng)域,因?yàn)檫@兩個(gè)領(lǐng)域具有強(qiáng)烈的人機(jī)交互特性。在面對不同的付費(fèi)內(nèi)容時(shí),用戶有不同的心理預(yù)期和支付意愿。例如,用戶可能不太愿意為一個(gè)工具或視頻平臺支付費(fèi)用,但對于游戲,他們可能愿意投入更多的金錢。因此,劉曉光認(rèn)為AIGC技術(shù)很可能會在游戲化或教育化的應(yīng)用中率先獲得成功。
靈動音的愿景是幫助音樂愛好者以更高的效率進(jìn)行音樂創(chuàng)作。將AIGC技術(shù)應(yīng)用于音樂生成時(shí),會發(fā)現(xiàn)兩個(gè)突出的問題。第一,當(dāng)利用該工具來創(chuàng)作音樂時(shí),用戶很可能不會傾向選擇一個(gè)完全自動化生成的音樂作品,因?yàn)檫@樣的作品并不真正屬于用戶自己,并且很難完全表達(dá)想要表達(dá)的情感。如果生成多首音樂作品后再挑選,雖然最初生成的幾個(gè)作品可能聽起來相當(dāng)悅耳,但隨著生成數(shù)量的增加,作品開始顯得千篇一律。這種現(xiàn)象的根源在于神經(jīng)網(wǎng)絡(luò)模型的工作原理,由于這些模型是基于概率統(tǒng)計(jì)建構(gòu)的,它們在生成內(nèi)容的過程中可能會在無意之中淡化不同音樂作品的獨(dú)特性。然而,正是這些獨(dú)特性,賦予了優(yōu)秀音樂作品魅力與價(jià)值。
另一個(gè)問題是,并非所有情感都能被語言模型準(zhǔn)確捕捉和表達(dá)。例如,當(dāng)用戶想要生成一首能夠傳達(dá)悲傷情緒的音樂作品時(shí),可以通過在語言模型中設(shè)置相應(yīng)的情緒標(biāo)簽,并將悲傷的標(biāo)簽作為輸入條件,來生成相應(yīng)的音頻片段,這在理論上看起來是可行的。然而,如果用戶提出更細(xì)致的要求,比如希望悲傷的情感表達(dá)得更為內(nèi)斂、更有深度,那么基本的語言模型目前還難以滿足這些復(fù)雜細(xì)微的情感需求。
劉曉光認(rèn)為,音樂人能夠通過大量的學(xué)習(xí)和實(shí)踐,建立情感和音樂知識之間的映射經(jīng)驗(yàn),一旦掌握了這些經(jīng)驗(yàn),再加上適當(dāng)?shù)闹笇?dǎo),人們就能更輕松地利用AIGC技術(shù)使音樂更好地表達(dá)情感。針對上述兩個(gè)難題,劉曉光團(tuán)隊(duì)查閱了很多知識庫,他們注意到在音樂領(lǐng)域,可用于操作和分析的數(shù)據(jù)集相對有限。因此,劉曉光團(tuán)隊(duì)著力收集更多數(shù)據(jù)進(jìn)行標(biāo)注。相比于自然語言圖像的標(biāo)注,音樂標(biāo)注的難度更大,為了提高收集效率和精確度,團(tuán)隊(duì)設(shè)計(jì)并開發(fā)了統(tǒng)一的、云化的音樂知識數(shù)據(jù)結(jié)構(gòu)及標(biāo)注工具UMP Board。這套數(shù)據(jù)標(biāo)準(zhǔn)解決了音樂領(lǐng)域沒有音頻對齊音樂數(shù)據(jù)的問題,該標(biāo)準(zhǔn)現(xiàn)已被多個(gè)產(chǎn)品使用。同時(shí),團(tuán)隊(duì)將基于超過2萬首歌曲的音樂理論信息轉(zhuǎn)換成數(shù)據(jù)庫,以此用來訓(xùn)練模型,識別準(zhǔn)確率逾90%,足以滿足大多數(shù)用戶的需求。目前,經(jīng)過多輪優(yōu)化的UMP Board系統(tǒng)已經(jīng)能夠獨(dú)立完成對40萬首歌曲的人工智能自動標(biāo)注工作。此外,靈動音正在擴(kuò)充出海音樂內(nèi)容,加速推進(jìn)海外市場布局。
值得注意的是,不同于“端到端”的AI生成技術(shù),靈動音所采用的是一種“符號音樂”的AI生成技術(shù)(見圖1)?!岸说蕉恕鄙墒侵苯訌默F(xiàn)有音頻中生成新音頻的技術(shù),類似于AI圖像生成領(lǐng)域中的DALL·E 2模型,用戶只需輸入一段描述,如“飛行員吃蘋果”,模型就能自動生成包含飛行員、蘋果和其他航空元素的圖片?!岸说蕉松伞币魳芬嗍菍?shí)現(xiàn)類似的功能,即用戶只需輸入一句話,就能生成一段音樂以呈現(xiàn)這句話的意思。由于“端到端”生成過程具有封閉性,這對生成的音樂進(jìn)行再編輯或進(jìn)行分軌處理帶來困難。同時(shí),由于音頻數(shù)據(jù)的復(fù)雜性,提升音質(zhì)需要投入極高的算力。這限制了端到端音樂生成技術(shù)在一些應(yīng)用場景下的廣泛使用。“符號音樂生成”技術(shù)是將現(xiàn)有的音頻材料轉(zhuǎn)換成音樂符號,這些音樂符號被用來創(chuàng)作新的音樂符號,最終轉(zhuǎn)換成新的音頻文件。符號音樂生成技術(shù)在音樂創(chuàng)作領(lǐng)域具有重要意義,它通過提取音頻中的各種信息(如詞曲、和弦、樂器等),將其轉(zhuǎn)換成類似音樂功能譜的數(shù)據(jù)形式,在“詞曲編錄混”各個(gè)環(huán)節(jié)都可以生成內(nèi)容,并且使每個(gè)環(huán)節(jié)都具有可控性,具有廣闊的應(yīng)用前景。它不僅為專業(yè)音樂人提供靈感和創(chuàng)作工具,還賦能音樂教育,幫助學(xué)生理解音樂理論和創(chuàng)作技巧。此外,隨著技術(shù)的進(jìn)步,符號音樂生成技術(shù)可以進(jìn)一步降低音樂創(chuàng)作的門檻,激發(fā)更多非專業(yè)用戶的創(chuàng)作熱情,釋放UGC(用戶生成內(nèi)容)音樂的無限潛力。
以往音樂人做一首歌,通常要經(jīng)過“詞、曲、編、錄、混”五個(gè)過程。從技術(shù)角度看,這些工作來自于不同模態(tài),特別是混音,是一個(gè)工程化的工作。如果人們想通過一款產(chǎn)品完全賦能到場景上,需要很大的工作量。它首先需要一個(gè)工程化的基礎(chǔ),其中包含各種各樣的模塊技術(shù),從而建立一個(gè)“數(shù)字音樂工作站”,為用戶創(chuàng)造多重價(jià)值。例如,作詞人可以通過AIGC技術(shù)生成多版本歌詞,從中汲取靈感,使創(chuàng)作過程變得更加高效。作為AI音樂領(lǐng)域里最交叉的兩個(gè)環(huán)節(jié),作曲和編曲同樣需要這樣的靈感,靈動音團(tuán)隊(duì)在這兩個(gè)環(huán)節(jié)投入了極大的精力。例如,團(tuán)隊(duì)自主研發(fā)了音頻引擎Mutrix,讓音樂編輯可以在不同系統(tǒng)、不同性能、不同品牌的手機(jī)上都可以操作,從而實(shí)現(xiàn)了真正的跨平臺高性能的音樂創(chuàng)作體驗(yàn)。傳統(tǒng)的音樂創(chuàng)作軟件,如庫樂隊(duì)對于普通人而言使用門檻依然很高,需要用戶了解甚至?xí)葑嗝恳环N其想編輯樂曲所使用的樂器,才能得到高質(zhì)量的創(chuàng)作結(jié)果。靈動音開發(fā)的產(chǎn)品“和弦派”采用基于和弦的樂器生成算法,使用戶不需要學(xué)習(xí)樂器演奏也能得到高質(zhì)量的編曲結(jié)果。傳統(tǒng)的音樂工作站都是以很多軌道呈現(xiàn)音樂信息,和弦派則使用更直觀的功能譜呈現(xiàn)音樂創(chuàng)作內(nèi)容的信息,以使廣大的音樂愛好者更輕松地體會到音樂實(shí)踐的快樂。當(dāng)用戶直觀地輸入和弦、旋律、歌詞等需求,AI輔助創(chuàng)作功能就能為用戶一站式輸出完整的Demo,賦予用戶大量的靈感,使原本枯燥繁瑣的創(chuàng)作過程變得更加有趣。
除了“和弦派”以外,靈動音的產(chǎn)品還包括“BGMCAT”和“口袋樂隊(duì)”(見表2)。BGMCAT是為了在功能性音樂上直接滿足多場景需求而設(shè)計(jì)的,它能夠根據(jù)用戶輸入視頻的時(shí)長和描述標(biāo)簽,一鍵生成相匹配的背景音樂,為視頻創(chuàng)作者提供便利。具體而言,用戶可以通過選擇不同的場景、風(fēng)格和心情標(biāo)簽定制背景音樂,BGMCAT的AI系統(tǒng)根據(jù)對包括輸入字符長度、描述和選定標(biāo)簽的分析,輸出與其相對應(yīng)的原創(chuàng)音樂,時(shí)長在30秒到5分鐘。此外,BGMCAT提供官方商業(yè)授權(quán),這意味著生成的所有音樂均已授權(quán)用于商業(yè)用途,用戶不必?fù)?dān)心版權(quán)問題。
口袋樂隊(duì)則是一個(gè)AI音樂工作站,旨在通過更加親民的可視化方式,讓每個(gè)用戶都能感受到聽覺加視覺的良好交互體驗(yàn)。具體表現(xiàn)為,它允許用戶通過選擇不同的樂手和樂器來創(chuàng)作音樂。該產(chǎn)品支持200余種演奏方式,讓用戶可以輕松地進(jìn)行作曲、編曲、錄唱和混音,使得非音樂專業(yè)的朋友也能實(shí)現(xiàn)自己的音樂想法??诖鼧逢?duì)旨在讓音樂創(chuàng)作變得像玩游戲一樣簡單有趣,它通過AI音樂引擎的支持,幫助用戶發(fā)現(xiàn)音樂的魅力并創(chuàng)造無限可能。無論是專業(yè)的音樂人,還是音樂愛好者,都可以使用口袋樂隊(duì)創(chuàng)作個(gè)性化的音樂作品。
在音樂創(chuàng)作領(lǐng)域,創(chuàng)作者與聽眾之間的界限正在逐漸變得模糊。過去,錄制一首歌曲需要投入許多資金,通過在錄音棚錄制,最終得到一盒磁帶。在互聯(lián)網(wǎng)時(shí)代,僅需一款錄音軟件就能完成這項(xiàng)工作。如果進(jìn)一步降低知識門檻,普通大眾也能輕松參與音樂創(chuàng)作。因此,音樂生產(chǎn)就不再只是少數(shù)創(chuàng)作者的專利,而成為每個(gè)人都能參與創(chuàng)作、每個(gè)人都能享受他人作品的過程,創(chuàng)作者和消費(fèi)者的角色相互交織在一起。
劉曉光堅(jiān)信,隨著時(shí)間的推移,音樂的交互體驗(yàn)將變得更加沉浸和多元。今天的音樂人只需專注于創(chuàng)作出優(yōu)秀的音樂作品,隨著虛擬現(xiàn)實(shí)(VR)和元宇宙等技術(shù)的發(fā)展,音樂的呈現(xiàn)方式將融入更豐富多元的感官體驗(yàn)。靈動音團(tuán)隊(duì)期待在“全民音樂人”時(shí)代到來時(shí)承擔(dān)起相應(yīng)的責(zé)任,貢獻(xiàn)自己的力量。未來,靈動音將繼續(xù)深耕技術(shù)成果的產(chǎn)品化轉(zhuǎn)化和商業(yè)化探索,迎著AIGC的浪潮,讓音樂創(chuàng)作變得像現(xiàn)在的短視頻創(chuàng)作等一樣簡單快捷。
清華管理評論2024年9期