9月,Google的NotebookLM“火”了。中文科技媒體的報(bào)道標(biāo)題中充滿(mǎn)了“出圈”“爆火”“下一個(gè)ChatGPT”這樣的關(guān)鍵詞,仿佛這就是AI的終極形態(tài)。
看,我的同行們就是這樣的一驚一乍?!盎稹?,是相對(duì)而言。按Google的說(shuō)法,這個(gè)產(chǎn)品的日均用戶(hù)量在9月增長(zhǎng)了10倍。據(jù)第三方機(jī)構(gòu)監(jiān)測(cè),整個(gè)9月,NotebookLM大約有1000萬(wàn)訪(fǎng)問(wèn)量。
聽(tīng)起來(lái)很多?折算一下,就是每天30萬(wàn)次。ChatGPT每天訪(fǎng)問(wèn)量在億級(jí),人們還在擔(dān)憂(yōu)它何時(shí)能跨越鴻溝、真正走向大眾,NotebookLM所謂的“火”,只能說(shuō)是引起了AI從業(yè)者的關(guān)注而已。
所以,如果你沒(méi)有聽(tīng)說(shuō)過(guò)它,那太正常不過(guò)了。NotebookLM其實(shí)不是一個(gè)新產(chǎn)品,這是Google去年在全面應(yīng)對(duì)ChatGPT時(shí),和Gemini同步推出的一個(gè)試驗(yàn)性產(chǎn)品,發(fā)布至今已經(jīng)一年多了。其最初的功能,是可以上傳文檔,然后針對(duì)文檔向AI提問(wèn),請(qǐng)AI根據(jù)文檔生成學(xué)習(xí)指南、提綱、自測(cè)題等。我一直覺(jué)得Google對(duì)NotebookLM不太認(rèn)真,一個(gè)證據(jù)就是NotebookLM這個(gè)普通人很難理解的名字—我還以為正式發(fā)布的時(shí)候會(huì)換一個(gè)名字呢。至于產(chǎn)品本身的完成度,按我一位在Google工作的朋友的吐槽,看起來(lái)就像是大一新生的計(jì)算機(jī)課作業(yè)。
話(huà)又說(shuō)回來(lái),ChatGPT這個(gè)名字也沒(méi)有更好就是了。
但NotebookLM最新的功能的確讓人耳目一新。9月初,Google在NotebookLM中增加了一個(gè)名為“音頻概覽”的功能,可以根據(jù)你上傳的文檔生成一段類(lèi)似播客的音頻,一男一女兩位“主播”會(huì)一唱一和,將你文檔中的內(nèi)容“聊”一遍。
就是這個(gè)功能引發(fā)了行業(yè)關(guān)注。我嘗試用不同的文章生成了一些播客,例如本專(zhuān)欄之前的作品,聽(tīng)兩位“主播”對(duì)我自己寫(xiě)的東西評(píng)頭論足,的確挺有趣的。它對(duì)我的啟發(fā)是將文本自動(dòng)轉(zhuǎn)換為音頻,過(guò)去的思路局限在類(lèi)似有聲書(shū)的朗讀上,微信公眾號(hào)現(xiàn)在就有這個(gè)功能。即使更進(jìn)一步,比較容易想到的也是類(lèi)似“七分鐘聽(tīng)完一本書(shū)”這樣的聽(tīng)書(shū)產(chǎn)品,重點(diǎn)在信息的濃縮提煉、節(jié)約時(shí)間上。NotebookLM將文本轉(zhuǎn)換成雙人對(duì)談的播客,在省略了大量原文中的細(xì)節(jié)的同時(shí)也注了許多水。兩位“主播”之間的互動(dòng),閑聊中夾雜的語(yǔ)氣詞、口頭禪,甚至故意插入一些可有可無(wú)的“觀(guān)點(diǎn)”和口水話(huà)……這些都沒(méi)有帶來(lái)新的信息量,卻讓人聽(tīng)起來(lái)更加輕松。
在NotebookLM的這個(gè)功能發(fā)布之前,我們做過(guò)一個(gè)小嘗試,將閱覽室每天推薦的5篇文章錄制成一段大約10分鐘的播客。讀完這5篇文章需要的時(shí)間超過(guò)一小時(shí)。播客起的作用,既不是取代閱讀,也不是提升效率,而是幫助讀者用更輕松的方式來(lái)了解這些文章的大致內(nèi)容,引發(fā)他們的閱讀興趣。只是我們沒(méi)有使用AI生成,而是真實(shí)錄制的,因此每天更新的話(huà)制作成本有些高。
NotebookLM只支持英文。我花了一個(gè)小時(shí),簡(jiǎn)單嘗試了一下能否使用市面上現(xiàn)成的技術(shù)來(lái)實(shí)現(xiàn)類(lèi)似的效果,遇到的主要困難是語(yǔ)音合成的效果還不夠自然。然后,我加入了一個(gè)研究如何復(fù)刻N(yùn)otebookLM的群,里面竟然已經(jīng)有差不多300人在摩拳擦掌。
現(xiàn)狀似乎就是這樣。隔一小段時(shí)間,就會(huì)有一個(gè)類(lèi)似NotebookLM這樣的海外產(chǎn)品引起國(guó)內(nèi)從業(yè)者的注意(上一個(gè)是Cursor),被稱(chēng)贊為AI的終極形態(tài),然后所有人一窩蜂地跟進(jìn)。這個(gè)模式在20年前的Web 2.0時(shí)代是非常讓人熟悉的,即所謂的“copy to China”。經(jīng)過(guò)這些年的發(fā)展,中國(guó)市場(chǎng)在社交、娛樂(lè)、電商、移動(dòng)支付等很多應(yīng)用領(lǐng)域在全球已經(jīng)遙遙領(lǐng)先,變成了“copy from China”。但面對(duì)AI這個(gè)最具革命性的技術(shù)趨勢(shì)時(shí),我們還是回到了老的模 式。
實(shí)際上,早在今年5月,Google就在年度開(kāi)發(fā)者大會(huì)Google I/O上展示過(guò)NotebookLM的這個(gè)新功能。當(dāng)時(shí)展示的版本更加炫酷,聽(tīng)眾甚至可以隨時(shí)插話(huà)、打斷兩位主播,加入到聊天之中。不過(guò),當(dāng)時(shí)演示的場(chǎng)景是幫助中學(xué)生學(xué)習(xí)物理,我的確沒(méi)有聯(lián)想到可以用在別的場(chǎng)景。這是這項(xiàng)功能真正發(fā)布、上手使用后我才得到的啟發(fā)。
這也說(shuō)明產(chǎn)品真正上線(xiàn)的重要性。今年5月時(shí),Google I/O的風(fēng)頭有一點(diǎn)被OpenAI突然舉行的小型發(fā)布會(huì)(見(jiàn)6月刊本專(zhuān)欄)搶走,當(dāng)時(shí)OpenAI展示了一個(gè)令人驚嘆的實(shí)時(shí)音視頻互動(dòng)的能力。這個(gè)功能在最近終于上線(xiàn)了,買(mǎi)家秀和賣(mài)家秀效果差別巨大,令人失望。
只想到可以批量生成播客、上傳到小宇宙,就有些大材小用了。生成式AI真正的潛力是能為每個(gè)人制作獨(dú)一無(wú)二的個(gè)性化內(nèi)容。將內(nèi)容在不同媒介形式之間相互轉(zhuǎn)換,是生成式AI一個(gè)比較直接的應(yīng)用。但我們不能僅從技術(shù)角度去探討不同的媒介形式,還需要理解不同媒介形式在人們?nèi)粘I钪兴鶟M(mǎn)足的不同場(chǎng)景—什么內(nèi)容適合讀,什么內(nèi)容適合聽(tīng)?
就播客而言,我覺(jué)得沒(méi)有必要從非常概念的層面去探討播客的本質(zhì)是什么(這也許是傳播學(xué)學(xué)者的工作),重要的是去理解,“播客”在用戶(hù)的腦海中占據(jù)了哪個(gè)位置,用戶(hù)在想到“播客”時(shí)會(huì)想到什么。我認(rèn)為,在中國(guó)市場(chǎng),“播客”代表的其實(shí)是一種內(nèi)容質(zhì)量屬性,而不單純是一種媒介形式。這些內(nèi)容的核心受眾閱讀文字的動(dòng)機(jī)和收聽(tīng)播客的動(dòng)機(jī)是類(lèi)似的,只是媒介形式本身的特點(diǎn)會(huì)影響其使用的場(chǎng)景。
舉個(gè)例子,我們前幾年投資了播客廠(chǎng)牌聲動(dòng)活潑,其旗下播客《聲動(dòng)早咖啡》在小宇宙日常占據(jù)“最熱榜”第一名。這就不是一檔傳統(tǒng)的、長(zhǎng)約1小時(shí)的對(duì)談節(jié)目,而是周一到周五每天更新、每期只有十多分鐘的商業(yè)資訊節(jié)iIjEFueyixeAGtWwt92fzg==目。每天在通勤路上通過(guò)音頻這種形式快速了解當(dāng)天需要知道的資訊,同時(shí)也獲得一些和商業(yè)有關(guān)的新知識(shí),這對(duì)許多人來(lái)說(shuō)比閱讀文本更輕松自然。而且,這也能發(fā)揮播客不需要占據(jù)眼睛的優(yōu)勢(shì)。
當(dāng)然,不是所有人都喜歡這么做,不同人對(duì)媒介形式有強(qiáng)烈的偏好,有些人喜歡用眼睛,有些人喜歡用耳朵。在從業(yè)者探索如何通過(guò)文本生成音頻、視頻的同時(shí),市場(chǎng)上也有許多AI工具可以幫助用戶(hù)將播客、視頻轉(zhuǎn)化為文本,可謂形成閉環(huán)了。但人生下來(lái)就會(huì)用眼睛看東西,然后才學(xué)會(huì)聽(tīng)和說(shuō);至于讀和寫(xiě),直到幾十年前還是少數(shù)人才能習(xí)得的能力。我們的確可以斷言,看視頻比聽(tīng)音頻容易,聽(tīng)音頻又比讀文本輕松。不可否認(rèn),閱讀需要耗費(fèi)更多的腦力,但文字的效率、深度、準(zhǔn)確性等優(yōu)勢(shì)仍然無(wú)法被取代,也有一部分人樂(lè)在其中。
內(nèi)容本身不同,適用的媒介形式也不同。簡(jiǎn)單粗暴地將一種形式轉(zhuǎn)換成另一種格式,效果并不好。羅永浩老師的演講錄音聽(tīng)起來(lái)讓人捧腹大笑,結(jié)集出版后,讀起來(lái)索然無(wú)味,很多訪(fǎng)談錄也是如此。一些需要深度思考的、難度較高的文本,朗讀出來(lái)幾乎無(wú)法被理解,但轉(zhuǎn)換成互動(dòng)式的講解,也許就容易理解得多。過(guò)去,文本的一大優(yōu)勢(shì)是制作和傳輸成本低廉。隨著技術(shù)的進(jìn)步,這些差距在逐步縮小。一些過(guò)去不得不由文本媒介承擔(dān)的場(chǎng)景,已經(jīng)被視頻、音頻等媒介形式接管。生成式AI會(huì)加速媒介形式自由轉(zhuǎn)換的過(guò)程,我對(duì)未來(lái)的想象,是同樣的內(nèi)容會(huì)根據(jù)每個(gè)人不同的背景知識(shí)、理解能力和偏好,有完全個(gè)性化的呈現(xiàn)。
雖然我自己喜歡閱讀,從事的工作也仍然聚焦在文本媒介上,但我并不認(rèn)為這是問(wèn)題。如果技術(shù)能用這種方式來(lái)降低更多信息的理解、接受門(mén)檻,對(duì)整個(gè)社會(huì)是有益的。另外,客觀(guān)理解事物變化的規(guī)律,也有助于我們更明確文本媒介在人們?nèi)粘I顖?chǎng)景中應(yīng)當(dāng)扮演的角色,理解文本的優(yōu)勢(shì)在哪里,而不是盲目去和視頻、音頻競(jìng)爭(zhēng)。
NotebookLM給我們演示了一種充滿(mǎn)想象力的可能性。不論它是否真的“火”了,Google至少也證明了自己有創(chuàng)新能力。Google CEO 桑達(dá)爾·皮查伊還特意在官方博客上“表?yè)P(yáng)”了NotebookLM—這樣一來(lái),至少這個(gè)項(xiàng)目暫時(shí)不會(huì)說(shuō)停就停了。
但正如前面所說(shuō),場(chǎng)景很重要。NotebookLM更多是為研究、學(xué)習(xí)而設(shè)計(jì)的,適用面有限。人和人之間的差異,除了對(duì)媒介形式的偏好,對(duì)“閱讀”的理解、閱讀習(xí)慣、閱讀目的都有很大區(qū)別。9月我參與了一次關(guān)于RSS閱讀器的討論(錄音在播客《亂翻書(shū)》),傳統(tǒng)的RSS閱讀器滿(mǎn)足的是“資訊狂人”不錯(cuò)過(guò)任何信息的需求,這也是很不同的場(chǎng)景。閱讀小說(shuō)也是很不同的場(chǎng)景,而閱覽室中最常見(jiàn)的是需要耐心閱讀的通識(shí)內(nèi)容。
所以,盡管NotebookLM給了我不小的啟發(fā),但我對(duì)于復(fù)制一個(gè)NotebookLM沒(méi)有任何的興趣。設(shè)想的場(chǎng)景不同,即使最后的關(guān)鍵詞都是“閱讀”,產(chǎn)品設(shè)計(jì)的差別也會(huì)很大。重要的,還是要結(jié)合自己對(duì)用戶(hù)的理解,從用戶(hù)的場(chǎng)景出發(fā),給出自己的答案,而不是盲目跟進(jìn)。
當(dāng)然,如果做不出來(lái),一切都是廢話(huà)。