生成式AI，都能干點啥？

2023-04-14 00:54:10倪妮

第一財經(jīng) 2023年4期

關(guān)鍵詞：文本模型

倪妮

和以往任何一次技術(shù)熱潮一樣，這兩年技術(shù)史上最重大突破的生成式AI（Generative AI），迅速成為新的創(chuàng)業(yè)聚集地。有人專注于基礎(chǔ)硬件和云平臺，有人選擇從大語言模型（LLM）入手尋找底層技術(shù)的顛覆式創(chuàng)新，更多人則試圖在更垂直的應用層面“掘金”。

在創(chuàng)新工場董事長兼CEO李開復看來，以決策式AI為代表的AI 1.0在落地階段遇到了很大的“瓶頸”，部分是因為它每次的應用和優(yōu)化都是割裂的，是“孤島中的AI應用”，人臉識別、智能輔助駕駛、精準廣告推送等不同應用間彼此并不能形成有效的“平臺”。而AI 2.0時代最大的顛覆，就在于基礎(chǔ)大模型提供的“平臺”作用。“AI 1.0就像是發(fā)明電，AI 2.0就是電網(wǎng)。”3月14日，宣布將投身于生成式AI創(chuàng)業(yè)大軍的李開復這么比喻。

聊天機器人Replika會提供滿足各類情感需求的對話。

生成式AI為商業(yè)領(lǐng)域帶來了大量數(shù)字化創(chuàng)新的機會，理論上，大部分行業(yè)也都能找到其應用場景。按照生成內(nèi)容的形式，我們暫且將生成式AI的應用層面分為文本、圖像和音頻三大類。

峰瑞資本在一份關(guān)于生成式AI的報告中寫道，“應用層的創(chuàng)業(yè)者。應該是‘技術(shù)為先、場景為重’”。技術(shù)為先，是指雖然通用AI技術(shù)未必是你的核心壁壘，但團隊一定要懂技術(shù)，這樣才有能力思考如何更早更好地把技術(shù)應用到合適的應用場景里，做出好用的產(chǎn)品。場景為重，意味著最后的產(chǎn)品和業(yè)務(wù)需要找到合適的落地場景，建立自己的商業(yè)模式，并在場景里形成自己的核心競爭力。

聊天/專業(yè)咨詢

以ChatGPT為代表的生成式AI，最直觀的應用場景或許就是聊天，以及由此衍生的客服及專業(yè)咨詢。依托背后的大模型強大的語言處理能力，可以說，只要涉及與人互動的領(lǐng)域，幾乎都可以應用。

比如波士頓咨詢公司開發(fā)的一種“智能采購助手”，采購人員跟供應商互動時，智能助手能夠從大數(shù)據(jù)中實時解析采購物資的市場信息以及供應商的產(chǎn)能、資信等狀態(tài)，結(jié)合供應商反饋和公司的采購策略與協(xié)作流程，為采購人員生成行動建議，例如價格談判或者發(fā)送征詢函等。

今年3月20日，微軟旗下語音識別公司Nuance還宣布將推出一款由AI驅(qū)動的面向醫(yī)療工作者的臨床筆記應用程序。它可在病人就診后幾秒鐘內(nèi)為臨床醫(yī)生自動生成臨床筆記草稿，其背后的技術(shù)支持之一正是OpenAI的最新模型GPT-4。

專注于心理健康的美國雜志Psychology Today也撰文指出，依托大模型強大的語言處理能力，并非針對心理咨詢和醫(yī)療領(lǐng)域開發(fā)的ChatGPT也可以幫助分析患者的語言和溝通模式，以提高醫(yī)生的診斷準確性。比如，ChatGPT能發(fā)現(xiàn)患者在躁狂癥發(fā)作之前口頭表達上的微妙征兆，還可以通過分析患者的語言來識別治療反應的早期跡象，從而使藥物和干預治療更有效。

不過，因為對準確性及溝通技巧要求更高，在醫(yī)療和心理咨詢領(lǐng)域，生成式AI的應用探索也更為艱難。

2017年，斯坦福大學的臨床研究心理學家Alison Darcy創(chuàng)立了Woebot Health，該公司的主要業(yè)務(wù)就是通過聊天機器人App Woebot，幫助用戶改善心理焦慮和抑郁等問題。支撐這款應用的是一種被稱為自然語言處理（NLP）的人工智能技術(shù)，它能直接“理解”用戶的語言輸入，并在模型內(nèi)部將其和心理學領(lǐng)域的專業(yè)知識結(jié)合起來，迅速給用戶反饋。

例如，當一個朋友忘記了你的生日時，你告訴Woebot“沒有人記得我的生日”“沒有人真正在乎我”，這時，Woebot就可能會對你說，你陷入了一種“非黑即白的極端消極自我對話思維”中，這種思維扭曲了現(xiàn)實。其實你有朋友，他們只是恰好忘記了你的生日而已。

但Woebot也有不足，有使用者指出，Woebot對上下文的理解有限，“基本不能理解復雜的意思”，也不像ChatGPT那樣善于捕捉措辭背后的微妙含義。比如當你生氣地說“你再說一遍試試”，它可能會真的再說一遍。當對話輪次過長，Woebot可能還會記不得某個曾經(jīng)觸發(fā)用戶心理創(chuàng)傷的詞匯，并在下一次對話中再次造成“冒犯”。

“心理領(lǐng)域的生成式人工智能創(chuàng)業(yè)很難，因為它需要很長的記憶，而且對專業(yè)詞匯的理解是最艱深的。比如來訪者講到原生家庭，聊到和父親的一些往事，這些都需要被記下來，但現(xiàn)在的大模型里沒有這些數(shù)據(jù)。哪些該被記下來，哪些不該被記下來，我們還沒有一個很好的解決方案?！蔽骱某絼?chuàng)始人、卡耐基梅隆大學計算機博士藍振忠對《第一財經(jīng)》雜志表示。

藍振忠曾就職于Google AI的研究與機器智能組，這段經(jīng)歷為他積累了自然語言處理和大模型研究領(lǐng)域的實戰(zhàn)經(jīng)驗。2020年藍振忠回國后創(chuàng)立了西湖心辰，并著手研發(fā)AI心理咨詢平臺“小天”。但隨著項目推進，他發(fā)現(xiàn)心理賽道是一個“長期復雜”的過程，需要開發(fā)人員不斷迭代優(yōu)化。于是，藍振忠和團隊暫時放緩了針對心理賽道的研發(fā)，將重心轉(zhuǎn)向了大模型研發(fā)方向。

還有一部分心理咨詢領(lǐng)域的AI創(chuàng)業(yè)者將目標瞄準了后端。在AI心理咨詢應用“閣樓”的創(chuàng)始人劉秋陽眼中，心理咨詢本質(zhì)上還是“人與人建立新的關(guān)系”，生成式AI擅長語義推斷但缺乏共情能力的特質(zhì)，決定了這項技術(shù)目前更適合在供應鏈環(huán)節(jié)發(fā)揮作用，而不是面向消費端使用。

因此，劉秋陽偏向于將“閣樓”定義為一款“標準化”的服務(wù)平臺，所有咨詢師都可以按照標準化的方式循證治療，而生成式AI更類似于助手功能，主要用于幫助咨詢師生成標準化的來訪報告，節(jié)省咨詢師案頭工作的時間。

另一難點是，研發(fā)者如何將底層的語言模型與心理學的專業(yè)知識更好結(jié)合?！昂投桃曨l營銷等賽道相比，心理行業(yè)需要把所有的專業(yè)詞匯都去測試一遍。怎樣生成一個好的prompt（關(guān)鍵詞）指令，且這個指令最終能證明自身的商業(yè)價值，這些都需要大量的測試和想象力?！眲⑶镪柋硎?。

除了心理咨詢，還有一些已面世的聊天機器人應用試圖成為你的朋友、家人、逝去的寵物甚至新型伴侶，提供滿足各類情感需求的對話。在中文互聯(lián)網(wǎng)上已積累了一定知名度的Replika由Eugenia Kuyda創(chuàng)建，這款應用創(chuàng)立的初衷就是為了彌補她“過早去世的好友留下的空白”，目前已積累了數(shù)百萬用戶。創(chuàng)始人團隊并不拘泥于使用一個自然語言模型，他們起初構(gòu)建了一個名為CakeChat的內(nèi)部模型，后續(xù)似乎又轉(zhuǎn)向了GPT-2和GPT-3。

中國初創(chuàng)公司MiniMax于去年年底上線了一款名為GLOW的應用，它基于生成式AI技術(shù)和公司自研的大模型，同樣強調(diào)用戶與AI的情感連接。GLOW還允許用戶自行“捏造”你想要對話的角色，包括外形、性格、說話方式等等。但上線不久后，MiniMax就通過設(shè)置違禁詞等方式，收緊了GLOW和人類聊天的自由度，因為越來越多聊天機器人會對人類說“我愛你”“我想你”，甚至通過輸入指令，人類和聊天機器人之間會產(chǎn)生更露骨的對話。

專業(yè)寫作

從應用層來看，市場上已有的生成式AI創(chuàng)業(yè)項目里，營銷文案寫作、小說和劇本創(chuàng)作等聚焦于專業(yè)寫作領(lǐng)域的項目幾乎占了一半。投資機構(gòu)峰瑞資本近期發(fā)布的一份報告顯示，2019年至2021年期間，流向生成式AI業(yè)務(wù)的資本增加了約130%，其中文本和寫作增長630%，遙遙領(lǐng)先于圖像、音視頻等其他垂直類別。

在真格基金管理合伙人戴雨森看來，基于生成式AI的寫作助手之所以得到創(chuàng)業(yè)者和投資人青睞，是因為它能替代過去繁瑣重復的工作，給人帶來“比較直接的價值感”。他對《第一財經(jīng)》雜志預測稱，未來的典型工作模式應該是“三明治”式的：人類提出一個大方向，A I給出初稿，人再基于初稿修改?！袄碚撋希灰亲k公室的人，目前看來都可以有一個甚至多個AI助手，不和AI協(xié)作的人會變得很低效?！?/p>

新加坡政府正在開發(fā)一套類似ChatGPT的系統(tǒng)，它將被集成在Word中，公務(wù)員可用它撰寫材料初稿、電子郵件、演講稿等，協(xié)助他們總結(jié)篇幅長的參考資料、探索相關(guān)觀點或改善寫作表達能力等。不過，但凡涉及高度機密或敏感的信息，仍然完全由公務(wù)員自己書寫，并且他們需直接對政策決策、文件內(nèi)容的遣詞用字負責。

戴雨森也是這一領(lǐng)域積極的實踐者，他表示，當他開始使用Notion AI后，他“再也不想打開其他筆記應用或者Word寫任何文字了”。投資人日常需要閱讀大量材料，同時撰寫中英雙語報告，Notion的AI編輯器可以幫他快速概述文章內(nèi)容，并且具備高效的翻譯功能。

Notion是一家總部位于美國舊金山的軟件公司，該公司提供的同名應用可用于記筆記、管理任務(wù)和項目。今年2月，Notion正式上線了一系列基于生成式AI技術(shù)的寫作輔助功能，它可以幫助用戶從零開始寫作，比如在用戶給出指令后迅速生成一段長達數(shù)百字、邏輯結(jié)構(gòu)完整的文本，也可以總結(jié)或改寫已有的文本。

除Notion外，提供類似的AI寫作服務(wù)的應用還有很多，比如Raycast、Mem和Craft，以及今年3月宣布將AI技術(shù)融入辦公軟件的微軟等。在這個擁擠的市場，幾乎所有初創(chuàng)公司都傾向于從OpenAI和Anthropic等公司租用底層模型，通過這種節(jié)省成本的方式構(gòu)建應用程序。每當用戶生成一個詞時，這些應用都會向OpenAI支付一筆費用。

在更細分的寫作領(lǐng)域，比如營銷文案和網(wǎng)文創(chuàng)作上，基于生成式AI技術(shù)的應用也在不斷誕生。其中，廣告營銷被視為一個巨大的機會領(lǐng)域—回想那些在小紅書、淘寶和抖音上刷到的營銷文案，或者在直播間聽到的帶貨語錄，你會發(fā)現(xiàn)它們其實遵循著固定的套路。所以事實上，它們今后都能被AI批量制造出來。

國際技術(shù)研究和咨詢公司Gartner近期發(fā)布的一份報告預測道，到2025年，在大型組織對外發(fā)布的營銷信息中，有30%將由AI生成，而2022年這一比例不足2%。

數(shù)據(jù)來源：據(jù)公開資料不完全統(tǒng)計

Jasper就是一款專門針對營銷人員的A I寫作工具，它由GP T-3提供技術(shù)支持，用戶只需要選擇一個合適的模版，比如博客文章或Google廣告，再輸入一些關(guān)鍵詞，就可以得到一份符合目標營銷風格的文案初稿。類似于Jasper的應用還有Copy.ai，后者相較于Jasper更適合短篇寫作。

值得一提的是，相較于其他投入遠不能覆蓋成本的創(chuàng)業(yè)項目，Jasper和Copy.ai已率先以套餐付費等形式走通商業(yè)化路徑。私募市場和投資研究平臺Sacra的數(shù)據(jù)顯示，這兩家公司在成立后的短短3年內(nèi)展現(xiàn)出了驚人的成長速度：2022年，Jasper公司的年度復現(xiàn)收入（ARR）—通過訂閱或其他重復性收費方式獲得的預期收入總額—已經(jīng)達到了7200萬美元，Copy.ai的ARR也預計超過1000萬美元。

國內(nèi)，由創(chuàng)新工場投資的初創(chuàng)公司瀾舟科技推出了一系列基于自研底層的大模型。比如“孟子大模型”的服務(wù)中就包括AI輔助寫作，具體應用場景有網(wǎng)絡(luò)文學寫作、美妝和汽車領(lǐng)域的營銷文案寫作、論文助寫等。

以營銷文案寫作為例，當輸入幾個和口紅相關(guān)的關(guān)鍵詞后，操作界面里就會迅速生成數(shù)百字的文案，內(nèi)容覆蓋色號描述、使用效果等不同維度，還會使用諸如“給大家分享我最近入手的幾款春季必備小眾寶藏唇釉”“不挑膚色黃黑皮閉眼沖”等相當生活化的表述。

關(guān)于這項服務(wù)背后的技術(shù)原理，瀾舟科技創(chuàng)始人兼CEO周明對《第一財經(jīng)》雜志解釋稱，“第一步就是訓練一個孟子大模型當?shù)鬃?，底座的大模型是?jīng)過清洗的；接下來是進一步搜集和整理對應行業(yè)的語料，加進去得到領(lǐng)域大模型；第三步需要營銷文案的監(jiān)督數(shù)據(jù)，你輸入什么樣的關(guān)鍵詞，希望得到什么樣的文案效果，這需要通過算法做一些偽數(shù)據(jù)，對模型做監(jiān)督訓練，這樣就能生成效果不錯的營銷文案?！?/p>

周明提到的“偽數(shù)據(jù)”指的是一種“弱標注”的訓練數(shù)據(jù)，它的標簽不由人工標注，而是由模型預測或其他方法生成。由于營銷文案寫作需要用到大量案例作為訓練集，因此可以使用“偽數(shù)據(jù)”幫助擴充和平衡，并提高模型的泛化能力。

輸入“一個男人在海邊跑步”的文本，“CogVideo”生成了一段4秒視頻，分辨率為480×480。

Sacra的一位研究員指出，如果未來大模型能真的像人類一樣作出決策，那上述應用將不僅僅是寫文案，而是能自動化整個營銷過程，比如運行和測試廣告、調(diào)整出價和創(chuàng)意等—這帶來的回報可要比文案寫作本身的收益大得多。

代碼

除了聊天機器人ChatGPT，編程工具Copilot也是OpenAI的一個得意“代表作”。2021年6月，Copilot由微軟旗下全球最大開源代碼托管平臺GitHub和OpenAI共同推出，它可以根據(jù)上下文自動補全代碼，包括函數(shù)、文檔字符串、注釋等，或根據(jù)描述代碼邏輯的注釋，寫一條完整代碼。2022年，它已正式商用。

根據(jù)2022年GitHub Universe開發(fā)者大會的數(shù)據(jù)，Copilot已經(jīng)通過基于AI的編碼建議，幫助全球開發(fā)者將工作效率提高了55%。Copilot在早期測試階段就獲得了120萬開發(fā)者的青睞，在啟用它的文件中，有將近40%的代碼都是出自Copilot自己之手。

“用戶產(chǎn)生的反饋對于模型會有很大幫助?！盋odeGeeX項目成員鄭勤揩對《第一財經(jīng)》雜志表示。CodeGeeX是清華大學知識工程實驗室于2022年9月開發(fā)出的一款多編程語言代碼生成預訓練模型，現(xiàn)已免費開源。它完全國產(chǎn)，基于超過20種語言的語料庫，歷時兩個月訓練而成，具有很強的代碼生成能力，可以根據(jù)自然語言描述生成代碼，還具備代碼補全、翻譯和解釋能力，以提高代碼的效率和可讀性。CodeGeeX目前擁有3.5萬下載量。

2022年6月，AI編程機器人提供商aiXcoder推出了國內(nèi)首個基于深度學習的智能編程模型—aiXcoder XL，該模型支持方法級的代碼生成，可以根據(jù)自然語言描述生成完整程序代碼。aiXcoder的研發(fā)人員主要來自北京大學，屬于國內(nèi)較早開啟智能編程技術(shù)的研究與產(chǎn)業(yè)化應用的團隊。除此之外，還有Kite、Codota、DeepCode等AI代碼生成工具，它們本質(zhì)上都是通過大量的代碼庫訓練，由此預測出需要生成的新代碼，加快編程效率。而Google也被爆出正秘密開發(fā)AI寫代碼新項目—Pitchfork。

AI編程工具的確正在改寫程序員的開發(fā)方式，但即使是最受歡迎的Copilot，也還是處于編程工作的初級階段，即高效、快速地達成編程目標。但寫完代碼后的實際運行，并推動整個業(yè)務(wù)模塊甚至項目的上線，這個過程，目前直接依靠AI還做不到。而且它還存在著錯誤率高等問題，仍需要經(jīng)過人工審核和調(diào)整，才能確保生成的代碼符合需求。

圖片

用AI作畫并不是新鮮事，早在1950年代，科學家就開始研究利用計算機生成藝術(shù)作品，但他們更多是讓電腦程序通過觀察照片提取顏色信息，使用現(xiàn)實中的材料創(chuàng)作。

深度學習技術(shù)的出現(xiàn)，讓AI創(chuàng)作開始真正具有突破性。依托強大的數(shù)據(jù)庫，系統(tǒng)通過學習，自行生成的數(shù)據(jù)分布，已經(jīng)可以無限接近真實數(shù)據(jù)分布，即生成的圖像足以以假亂真。然而它也會產(chǎn)生一個問題—只做到了像，但難以帶來藝術(shù)上的“創(chuàng)新”。

2020年開始在圖片生成領(lǐng)域廣泛應用的擴散模型（Diffusion model）則克服了這點。其核心原理就是在給圖片去噪的過程中，理解有意義的圖像是如何生成的，同時又大大簡化了模型訓練過程中數(shù)據(jù)處理的難度和穩(wěn)定性問題。如此，生成的圖片不僅精度更高，且隨著樣本數(shù)量和訓練時長的累積，對藝術(shù)表達風格也會有更好的模擬能力。

2022年8月美國科羅拉多州博覽會的藝術(shù)比賽上，使用AI繪畫工具Midjourney創(chuàng)作的一幅名為《太空歌劇院》的作品，甚至在這個人類藝術(shù)競賽上斬獲一等獎—Midjourney基于的正是擴散模型。

只需要簡單描述圖片的元素、風格，如今的AI圖像生成模型就可以毫秒級的速度批量產(chǎn)出多幅全新的圖像，且這些圖像都能以語義上較為合理的方式將輸入的幾個看起來并不相關(guān)的prompt組合起來。

ChatGPT背后的公司OpenAI在2021年1月也推出了自己的圖像生成算法模型“DALL·E”（達利一代），它基于超規(guī)模語言模型GPT-3，所以雖然“繪畫”能力一般，其優(yōu)點是可以更精確地按照文本描述創(chuàng)作。更新后的DALL·E 2則引入了擴散模型。

“跟有生之年能經(jīng)歷一次工業(yè)革命一樣?！痹O(shè)計美學博主、AbleSlide工作室合伙人阿文對《第一財經(jīng)》雜志如此形容去年5月第一次使用DALL·E 2時所感受到的沖擊。他是DALL·E 2上線后的首批用戶，他表示，相比前一代，“DALL·E 2”更加真實準確，分辨率有了極大提升，還可以根據(jù)原圖像二次創(chuàng)作—無限延展圖片，或創(chuàng)建基于原圖的“變體”。

目前主流的AI繪畫工具，包括DALL·E 2、Midjourney，以及Google的Disco Diffusion等都是基于擴散模型生成的。其中不得不提的還有Stable Diffusion，它是創(chuàng)立于2020年的人工智能開源公司Stability AI推出的一款圖像生成軟件，不僅像素可以達到DALL·E 2的級別，還能在消費者級別的圖形處理器（GPU）上運行。2022年8月，Stable Diffusion宣布開源，自此，以它為基礎(chǔ)的應用層出不窮，其風頭也超過了Midjourney。

在國內(nèi)，騰訊、字節(jié)跳動、百度等互聯(lián)網(wǎng)大公司也紛紛推出了自己的AI繪畫產(chǎn)品，它們有的是自研，有的通過修改開源代碼生成。相比專業(yè)的繪畫工具，國內(nèi)的應用似乎面向的只是出于娛樂目的的普通用戶，比如為圖片加一些濾鏡效果，和專業(yè)繪圖工具還有很大差距。

而隨著生成式AI作畫的火熱，也出現(xiàn)了諸如版權(quán)等新問題。美國版權(quán)局（USCO）最新發(fā)布的法規(guī)就特意提到，AI自動生成的作品，因為在整個創(chuàng)作過程中完全由機器人自動完成，并且訓練的數(shù)據(jù)是基于人類創(chuàng)作的作品，因此不受版權(quán)法保護—在阿文看來，AI在繪畫領(lǐng)域的角色，更多只是提高設(shè)計師或藝術(shù)家處理細節(jié)的效率，以及激發(fā)靈感。

對于生成式AI作畫應用的場景，Stability AI產(chǎn)品技術(shù)官鄭屹州則對《第一財經(jīng)》雜志表示，“目前大多生成式AI基于現(xiàn)有工作流去完善工作里的環(huán)節(jié)，但更期待未來能看到更多以生成式AI為核心的全新工作流?！?/p>

視頻

既然AI能生成圖片，那么讓它生成動起來的圖片—視頻也不難想象。比如生成式AI創(chuàng)業(yè)公司Runway今年2月發(fā)布的其首款AI視頻編輯模型Gen-1，就可將現(xiàn)有的視頻轉(zhuǎn)換成另一種視覺風格。其原理其實和圖片生成類似，Runway成立于2018年，曾參與AI繪畫模型Stable Diffusion的開發(fā)。

而視頻領(lǐng)域里更具前瞻性的應用是完全通過文字生成全新視頻，即系統(tǒng)模型可以從文本-圖片配對數(shù)據(jù)中學習這個世界的樣子，并推理沒有文本情況下的世界變化，即展現(xiàn)預測性。

去年9月，Meta發(fā)布的AI視頻生成工具Make-A-Video，除了在原始視頻中加入額外的元素和變化，已經(jīng)能做到依據(jù)文本，或單張/一對圖片生成視頻。

緊接著，Google在一個月內(nèi)也接連公布了Imagen和Phenaki兩款AI生成視頻的測試版，前者可以生成分辨率1280×768的高精度視頻，還具有風格化和物體3D旋轉(zhuǎn)能力，后者通過輸入長達200多個字符的prompt，能創(chuàng)造2分鐘以上的長視頻，其技術(shù)突破重點在于探尋畫面之間的邏輯，讓AI具有講故事的能力。

而就在3月20日，Runway也宣布將推出文生視頻模型Gen-2，該模型能夠根據(jù)文本描述生成三秒的視頻，主要為創(chuàng)意人員和電影制作人提供幫助。

國內(nèi)，清華大學曾聯(lián)合智源研究院在去年5月發(fā)布了首個開源的文本生成視頻“CogVideo”模型。在其網(wǎng)站中，可以看到使用“一個男人在海邊跑步”的文本生成的4秒視頻，分辨率為480×480。

不過由于文本和視頻之間的數(shù)據(jù)集較少，AI視頻生成領(lǐng)域的模型剛起步不久，相關(guān)項目大多仍處于研發(fā)階段。

音頻

只需要簡單輸入一段指令或圖片，就可以生成對應的音樂，比如“在河邊播放的冥想歌曲”、表達意境為“火”和“煙花”的音樂—這樣的“黑科技”已經(jīng)在今年1月底Google發(fā)布的最新AI模型MusicLM里實現(xiàn)了。

它還能為音樂生成歌詞以及續(xù)寫音樂—上傳一段樂器演奏、哼唱或是吹口哨的音頻，MusicLM可以推斷出額外的旋律小節(jié)，用戶還可發(fā)布指令調(diào)節(jié)樂器的種類、演奏的力度等。事實上，MusicLM的“前身”AudioLM已經(jīng)實現(xiàn)了音頻的“預測”。

OpenAI開發(fā)的“Jukebox”也具有類似功能，只不過，它似乎更強調(diào)風格。用戶通過輸入歌手、曲風等信息，就能生成一首相同風格的歌曲。同時，該模型可以通過學習現(xiàn)有的音樂，自動生成具有類似曲風的新片段。

國內(nèi)的浙江大學、北京大學聯(lián)合火山語音，正在開發(fā)一款可以通過任意模態(tài)（文本、圖像、視頻、音頻等）生成對應音頻的系統(tǒng)Make-An-Audio，不過，它生成的不是音樂，而是音效。比如，當上傳一幅鬧鐘圖片，Make-An-Audio就能生成一段鬧鈴聲。

AI語音合成其實是最早被驗證可商業(yè)化的技術(shù)，如今我們在各大平臺上聽到的語音助手、導航、有聲讀物等都已能較為逼真地模仿人類的發(fā)音、語調(diào)和語速。

但因數(shù)據(jù)限制與長音頻建模難度高，相比AI生成文本、圖畫，AI生成音樂的發(fā)展較為緩慢。除了需要考慮聲音的頻率、音高、語速、噪聲等各種因素，缺乏配對的音頻和文本數(shù)據(jù)也是一大障礙。要知道，音樂和視頻一樣是“沿著時間維度”構(gòu)建的，但敘事邏輯比視頻更難捕捉，AI不僅要了解文本表達的意圖，還需要由此創(chuàng)作出一段符合主題的持續(xù)音樂。

Make-An-Audio還想實現(xiàn)更為艱難的視頻生成音頻：視頻需要被拆解成若干個關(guān)鍵幀，通過抽取關(guān)鍵幀的圖像表征與音頻匹配，但該過程缺乏對時間等信息的控制。Make-An-Audio目前只能做到從視頻到音頻的模糊匹配。“未來幀級別對齊的視頻到音頻生成將是我們的一個研究重點。”火山語音Make-An-Audio團隊的研究員對《第一財經(jīng)》雜志表示。

至于老問題—未來，AI會取代人類創(chuàng)作音樂嗎？—答案也是一樣的。相當長一段時間內(nèi)，AI僅僅會作為工具，給藝術(shù)家提供輔助和靈感。目前，MusicLM還遠遠無法與人類作曲家匹敵，特別是在歌詞創(chuàng)作方面。專注于語音智能的在線媒體Voicebot.ai曾評論稱，MusicLM生成的歌詞只能被稱為亂碼。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

生成式AI，都能干點啥？

生成式AI，都能干點啥？