摘要 OpenAI發(fā)布的通用視覺大模型Sora以其強(qiáng)大的文生視頻能力擁有了對(duì)當(dāng)下世界進(jìn)行描繪的話語權(quán)力,但其背后存在的大語言模型對(duì)世界表征的合法性問題以及帶來的認(rèn)知風(fēng)險(xiǎn)和社會(huì)性后果,需要將哲學(xué)和技術(shù)批判結(jié)合起來進(jìn)行反思與預(yù)防性研究。本文對(duì)多模態(tài)大語言模型技術(shù)進(jìn)行分析,探究文生視頻的技術(shù)本質(zhì)和應(yīng)用困境。同時(shí),基于大語言模型的通用性,分析了其背后蘊(yùn)藏的技術(shù)理性及對(duì)用戶價(jià)值認(rèn)知的重塑。研究表明,在從技術(shù)通用性到知識(shí)公理性的過程中,人工智能技術(shù)出現(xiàn)了認(rèn)識(shí)論上的悖論?;谏疃葘W(xué)習(xí)的生成式人工智能無法真正理解世界運(yùn)作方式,只是處理信息單元和語義的邏輯關(guān)系,且現(xiàn)有的生成式大模型在反事實(shí)推理和合規(guī)性方面仍存在缺陷,還遠(yuǎn)未達(dá)到全方位理解世界、表征世界的程度。因此,在虛實(shí)共生、人機(jī)融合成為新的時(shí)代命題時(shí),如何把握“虛”“實(shí)”之間的關(guān)系成為一個(gè)需要審視的維度。這不僅關(guān)系到社會(huì)資源的投入,而且更關(guān)系到人類自身的重塑和對(duì)于世界的理解。
關(guān)鍵詞 大模型通用人工智能模態(tài)數(shù)據(jù)
OpenAI發(fā)布的通用視覺大模型Sora以強(qiáng)大的文生視頻能力在2024年的春天又掀起了一波人工智能角逐戰(zhàn)的新高潮。在簡(jiǎn)單的文本提示之下生成的長(zhǎng)達(dá)六十秒、一鏡到底、多鏡頭運(yùn)鏡的視頻,分辨率高達(dá)1080p,其清晰度和流暢度比起專業(yè)拍攝的視頻毫不遜色。于是,在震驚和贊嘆中,樂觀的人們開始預(yù)期通用人工智能在短期內(nèi)實(shí)現(xiàn)的可能性。畢竟以GPT系列為代表的生成式人工智能和Sora代表的視覺通用大模型,分別實(shí)現(xiàn)了以文本作為提示(prompt)的多任務(wù)執(zhí)行。如果再加上谷歌的Gemini和Gemma對(duì)于跨語言和模態(tài)的模型推進(jìn),人工智能技術(shù)的發(fā)展似乎進(jìn)入了目力所及的飛躍期。
然而,在這種樂觀和狂喜背后,仍有很多問題值得深思。其中之一就是大語言模型和世界模型對(duì)人類世界和知識(shí)的表征合法性問題。如果說“元宇宙”所傳達(dá)的是對(duì)數(shù)字化的替代性世界的救世敘事,那么,被命名為“世界模擬器”的Sora則以技術(shù)為名具有了對(duì)當(dāng)下世界進(jìn)行描繪的話語權(quán)力。從某種意義上說,對(duì)于以大模型技術(shù)作為基底的文生視頻系統(tǒng),數(shù)據(jù)庫的質(zhì)量、顆粒度以及微調(diào)方式都可以決定它所展現(xiàn)的世界圖景。樂觀的數(shù)據(jù)主義者對(duì)數(shù)字技術(shù)給予絕對(duì)賦權(quán),使其可以決定知識(shí)和文化的輸出形態(tài)和傳播內(nèi)容。而數(shù)字媒介和人工智能在排他性的意義上使自己的輸出結(jié)果更具有權(quán)威性和傳播性。盡管圖像生成器能夠識(shí)別某些像素集合的概念形式,但并不真正知道其本質(zhì)是什么。原因在于大型語言模型無法創(chuàng)造意義或“理解”語言和圖像,只是純粹以形式進(jìn)行訓(xùn)練,這種方式忽視了形式和意義之間的關(guān)聯(lián),導(dǎo)致模型在面對(duì)真實(shí)世界的多樣性時(shí)表現(xiàn)出局限性甚至錯(cuò)誤。在近期《自然》(Nature)雜志發(fā)表的一篇研究論文中,社會(huì)科學(xué)家表示人工智能系統(tǒng)的超強(qiáng)能力為人類認(rèn)知帶來了進(jìn)一步的風(fēng)險(xiǎn):它卓著的性能使得研究人員認(rèn)為這些工具具有超人的能力,尤其是在客觀性、生產(chǎn)力和理解復(fù)雜概念方面。佐治亞理工學(xué)院一項(xiàng)關(guān)于“可解釋性陷阱(Explainability pitfalls,EPs)”的研究也指出,人工智能解釋可能會(huì)誤導(dǎo)用戶在不知情、無防備的情況下做出符合第三方利益的決策。這些問題的存在都在提醒開發(fā)者和使用者從初期階段開始就共同關(guān)注和評(píng)估人工智能系統(tǒng)和應(yīng)用所蘊(yùn)含的認(rèn)知風(fēng)險(xiǎn)和社會(huì)性后果,因?yàn)橐坏┻@些作為工具和公共性連接的工具深深嵌入研究流程或社會(huì)管理系統(tǒng)中,它們將更難以被察知和解決。即便能夠糾正,其所耗費(fèi)的各方面社會(huì)成本也將難以估量。以Sora所代表的通用視頻生成式人工智能為例,大語言模型的訓(xùn)練數(shù)據(jù)集來源于生存世界中的有限數(shù)字化資源,盡管其體量龐大但并不是真正意義上的“全數(shù)據(jù)”,可開發(fā)者卻號(hào)稱其足以表征和模擬全部世界。當(dāng)人類離預(yù)期的通用人工智能時(shí)代越來越近的時(shí)候,面對(duì)這種由數(shù)據(jù)主義構(gòu)建起的技術(shù)-話語雙重權(quán)力,需要以哲學(xué)批判和技術(shù)批判結(jié)合的路徑來推進(jìn)真正的反思與預(yù)防性研究。
一、文生視頻可以“模擬世界”嗎?
如果說以ChatGPT為代表的生成式人工智能是通用人工智能發(fā)展歷程中的一個(gè)奇點(diǎn),那么多模態(tài)任務(wù)實(shí)現(xiàn)則是邁向通用人工智能的必經(jīng)之路。因?yàn)橄啾扔趩文B(tài),多模態(tài)大模型可以同時(shí)對(duì)文本、音頻、圖像等不同類型信息進(jìn)行處理,在輸入輸出的效果上達(dá)到類似于人腦的信息接收和表達(dá)模式。具體而言,在輸入端,由于不同模態(tài)數(shù)據(jù)包含的信息具有互補(bǔ)性,它們之間可以實(shí)現(xiàn)不同特征集的對(duì)照融合,多模態(tài)大模型可以通過聯(lián)合學(xué)習(xí)各模態(tài)數(shù)據(jù)的潛在共享信息,提升數(shù)據(jù)任務(wù)的有效性,進(jìn)而提升通用大模型能力。在這個(gè)基礎(chǔ)上,人機(jī)交互的界面會(huì)更為友好,使用門檻更低,不但用戶體驗(yàn)感得以提升,而且在推理側(cè)也可以減少信息損耗。而在輸出端,適用性和便捷性會(huì)進(jìn)一步加強(qiáng)。因?yàn)槎嗄B(tài)模型可以直接生成綜合結(jié)果,省去了多個(gè)專項(xiàng)模型的切換和后期整合,同時(shí)輸出的信息也更符合人類綜合感知的信息接收模式,為多目的、多任務(wù)的通用任務(wù)實(shí)現(xiàn)做好鋪墊。
2023年初,OpenAI的ChatGPT以文本單模態(tài)生成式人工智能獨(dú)領(lǐng)風(fēng)騷。之后GPT-4、Midjourney、文心一言等大模型紛紛在大語言模型基礎(chǔ)上發(fā)展了各自的文生靜態(tài)圖片功能。而谷歌公司更是于2024年12月發(fā)布了號(hào)稱史上功能最強(qiáng)的大模型Gemini,它強(qiáng)調(diào)原生多模態(tài)(natively multimodal)任務(wù)實(shí)現(xiàn),支持輸入文本、圖像、音頻和視頻,輸出圖像和文字,“無縫”理解、操作和組合不同類型的信息,擁有了強(qiáng)大的交互能力。這比起之前OpenAI將純文本、純視頻和純音頻模型拼接在一起的多模態(tài)實(shí)現(xiàn)方式,是一個(gè)巨大的技術(shù)進(jìn)步。研發(fā)者聲稱這種“原生性”體現(xiàn)為模型從初始階段就被設(shè)計(jì)為“多感官”模型,通過對(duì)其“投喂”多模態(tài)數(shù)據(jù)(包括文字、音頻、圖片、視頻、PDF文件等)進(jìn)行訓(xùn)練,之后再進(jìn)行微調(diào)。在谷歌給出的與GPT-4的對(duì)比成績(jī)單中,Gemini Ultra在32個(gè)常用的學(xué)術(shù)基準(zhǔn)的30個(gè)上領(lǐng)先GPT-4。不過,Gemini在技術(shù)上的突破卻受其冒進(jìn)的宣傳策略所累,在驚艷一時(shí)后飽受爭(zhēng)議。但這并沒有改變?nèi)斯ぶ悄荛_發(fā)者對(duì)多模態(tài)任務(wù)實(shí)現(xiàn)的強(qiáng)力投入與暗中較勁。
此次OpenAI正是吸取了谷歌上次宣傳危機(jī)的教訓(xùn),不但強(qiáng)調(diào)效果上的“一鏡到底”,同時(shí)在其官網(wǎng)放出了多個(gè)不同題材視頻來證明Sora的魯棒性。秉持著這種技術(shù)與文化上的優(yōu)越感,Sora被母公司賦予了“世界模擬”的能力,使得其文生視頻不但在文字的抽象表達(dá)和影像的具象畫面之間直接畫了等號(hào),而且和之前Midjourney等工具主打創(chuàng)作的路徑不同,它通過命名所宣示的是對(duì)“現(xiàn)實(shí)”和“世界”的表達(dá)權(quán)。于是,在OpenAI官網(wǎng)展示的視頻中,借助于細(xì)節(jié)的逼真,“時(shí)尚女性”被具象化黑頭發(fā)的東方面孔,“宇航員”成了成年白人男性,“24歲的女人眼睛”被固定為修了眉、畫了眼線、涂著睫毛膏、有著寬雙眼皮的妝后明眸,“藝術(shù)環(huán)廊”展示的是西方的藝術(shù)作品……當(dāng)文字所具有的無限的表達(dá)張力被有限的畫面定格時(shí),作為技術(shù)的文生視頻任務(wù)得到了實(shí)現(xiàn),但想象的空間卻喪失殆盡。德里達(dá)在討論完成文學(xué)敘事的意謂建構(gòu)時(shí)用的“空?qǐng)鲋疅o”的概念可以用來觀照傳統(tǒng)的影像所表達(dá)的社會(huì)聯(lián)結(jié):“這個(gè)作為文學(xué)處境的空正是批評(píng)家應(yīng)該認(rèn)識(shí)到的其對(duì)象之特性,因?yàn)樗偸抢@著這個(gè)東西在說話?;蛘吒_切地說,既然‘無’不能作為對(duì)象,那么不如說批評(píng)家的恰當(dāng)對(duì)象乃是‘無’本身隱身時(shí)所確定的方式?!憋@然,缺場(chǎng)的“無”正是影像敘事得以成立的邏輯結(jié)構(gòu),它是使影像顯形和生成意義的社會(huì)情境。
和過去的影像歷史極為不同的是,對(duì)于Sora生成的視頻,人們失去了對(duì)敘事維度和符號(hào)意義的好奇。單純的觀看之下,唯一被討論的是其與文本提示之間的對(duì)應(yīng)關(guān)系。原本豐富的生成在“模擬”的大旗之下被簡(jiǎn)化為對(duì)世界圖景的定位。余下的只有景觀復(fù)活的盛大狂歡與流溢。然而,在充盈的景觀之下,內(nèi)容本身除了技術(shù)能力之外,卻幾近匱乏。觀看者不再會(huì)對(duì)影像的內(nèi)容本身、拍攝情境以及一切與現(xiàn)實(shí)表達(dá)相關(guān)的維度有探究的欲望。因?yàn)檎f到底,這種影像甚至不再是描繪或模擬,而是更純粹的符號(hào)生產(chǎn),是被抽離了象征意義的視覺符號(hào)的“結(jié)晶體”。這種“模擬”甚至和現(xiàn)代性審美對(duì)現(xiàn)實(shí)主義的偏愛相去甚遠(yuǎn)。表面上看起來,現(xiàn)實(shí)主義所主張的“藝術(shù)樸素再現(xiàn)自然”的古希臘藝術(shù)觀和“模擬世界”的口號(hào)之間確有幾分相似,但兩者所表達(dá)出來的內(nèi)涵卻迥然相異。因?yàn)楝F(xiàn)實(shí)主義關(guān)心的是“穩(wěn)固所指事物,也就是說將其校準(zhǔn),使它成為某種能夠被重新辨認(rèn)出來的意義”。而在利奧塔看來,這就是以現(xiàn)實(shí)為基準(zhǔn)線對(duì)意義的確定?!胺€(wěn)固所指事物”是讓審美判斷去服從于認(rèn)識(shí)判斷和理性判斷的過程,它是以理性主義為原則的現(xiàn)代性的根本邏輯。而這種認(rèn)識(shí)判斷本身正是通過能夠?qū)崿F(xiàn)“我思”的主體性來實(shí)現(xiàn)的,因此這種對(duì)于“藝術(shù)再現(xiàn)”的判斷正是理性主體與其觀照客體之間通過判斷力而形成的確定距離。
但是,在Sora通過文本提示產(chǎn)生的影像中,既不存在由認(rèn)識(shí)判斷形成的確定距離,也不存在如超現(xiàn)實(shí)主義所倡導(dǎo)的反思判斷力形成的對(duì)符號(hào)審美的取消。相反,影像符號(hào)脫離了一切“現(xiàn)實(shí)”,從數(shù)據(jù)的堆積中飄浮而出,獲得了普遍表達(dá)的權(quán)力。物與物、物與符號(hào)、表現(xiàn)與真實(shí)、鏡頭與對(duì)象、觀察者與鏡頭的一切關(guān)系都不再重要,呈現(xiàn)出“一種沒有形象、沒有回聲、沒有鏡子、沒有表象的現(xiàn)實(shí)”。這是喪失了焦距的鏡頭語言。在這種失重化的“現(xiàn)實(shí)”中,符號(hào)秩序成了自在存在,無法向?qū)嵲诮缫绯觯M(jìn)入真實(shí)性完全缺席的狀態(tài)。它既不是現(xiàn)實(shí),也不是獨(dú)立于現(xiàn)實(shí)之外的自主性;既不與自身同一,也不與它所表現(xiàn)的世界同一。究其原因,這種影像在剝離構(gòu)成敘事張力的“空?qǐng)鲋疅o”的同時(shí)也剝離了它的經(jīng)驗(yàn)化和具身化,而代之以被賦予了無可辯駁的普遍性和自然性的數(shù)字化。其生成機(jī)制正是視覺中心主義的知識(shí)生產(chǎn)體系所刻意隱匿的默認(rèn)值,它憑借特定的數(shù)據(jù)前設(shè)(訓(xùn)練數(shù)據(jù)集)和價(jià)值模型(已有數(shù)據(jù)的表征框架)構(gòu)成了對(duì)現(xiàn)實(shí)的理解以及視頻生產(chǎn)的特征。如果說,現(xiàn)代藝術(shù)的核心主題之一就是在距離反思的基礎(chǔ)上重新審視主客體之間的關(guān)系以及人與世界之間的關(guān)系,那么通用視覺大模型通過數(shù)據(jù)擬合進(jìn)行“創(chuàng)作”所宣揚(yáng)的正是去主體化的數(shù)據(jù)技術(shù)與世界的關(guān)系,“世界模擬器”的傲慢布展的則是對(duì)世界進(jìn)行壟斷性表達(dá)的權(quán)力。審美判斷進(jìn)退維谷,因?yàn)檎纭坝脩纛^戴蘋果Vision Pro的時(shí)候以為看到了物理世界,但其實(shí)只是在屏幕上看到了攜帶不斷變化的RGB色彩信息的單目3648×3144個(gè)像素的各種變化。甚至圖像其實(shí)并不是連續(xù)的,而是以每秒90-96次的幀率不斷刷新,擬合人眼視覺原理,讓用戶產(chǎn)生視頻是連續(xù)的錯(cuò)覺。一旦快速甩頭,畫面就會(huì)產(chǎn)生運(yùn)動(dòng)模糊。重度游戲玩家甚至能體會(huì)到畫面撕裂?!?/p>
這種比真實(shí)還真實(shí)的“超真實(shí)”景觀當(dāng)然既不能模擬真實(shí),也不能取代現(xiàn)實(shí),它只是在無限的符號(hào)生產(chǎn)能力和傳播機(jī)制下消解了真實(shí)與虛擬之間的邊界。然而,這一次,虛擬以具象的方式轉(zhuǎn)身消解了真實(shí)的豐富性。以Sora為例,針對(duì)文字提示所具有的無限張力空間和無窮的表現(xiàn)形式,人們并不關(guān)注兩種模態(tài)的數(shù)據(jù)信息含量極度不對(duì)等的事實(shí),也并不樂于探討對(duì)于這寥寥數(shù)語的文本提示還可能有多少種表現(xiàn)形式,更不關(guān)注所展現(xiàn)的影像符號(hào)的文化屬性(西式的“紅色長(zhǎng)裙”、妝后的“眼睛”),而只是追隨發(fā)布者的意愿單純地觀看和驚嘆。這種單向度的觀看所體現(xiàn)的除了哲學(xué)上的缺乏深度和無批判性之外,同時(shí)也是在技術(shù)上對(duì)于多模態(tài)數(shù)據(jù)信息之間的不對(duì)稱關(guān)系的不察。
多模態(tài)技術(shù)是一種利用多種信息輸入方式來進(jìn)行人機(jī)交互的技術(shù),這種技術(shù)可以融合來自不同傳感器和輸入設(shè)備的信息以提高人機(jī)交互的自然性、直觀性和效率。在多模態(tài)技術(shù)中,不同模態(tài)的信息可以通過特定的算法進(jìn)行融合,以產(chǎn)生更豐富、更準(zhǔn)確的輸入信息。此外,多模態(tài)技術(shù)還可以利用深度學(xué)習(xí)等機(jī)器學(xué)習(xí)算法進(jìn)行自適應(yīng)學(xué)習(xí)和優(yōu)化,以更好地適應(yīng)不同用戶的輸入習(xí)慣和需求。就一般情況而言,模態(tài)之間存在一定的關(guān)聯(lián)性,每種模態(tài)數(shù)據(jù)能為其余模態(tài)信息提供一定的信息,有效的多模態(tài)擬合有助于增加信息的有效性。然而,每種模態(tài)數(shù)據(jù)各自的特征不同,所蘊(yùn)含的信息密度也不同。例如,文本信息的抽象程度和表達(dá)的意義就遠(yuǎn)高于圖像數(shù)據(jù)。因此,對(duì)不同模態(tài)數(shù)據(jù)進(jìn)行同等處理或?qū)λ心B(tài)特征進(jìn)行簡(jiǎn)單的連接整合不能保證挖掘任務(wù)的有效性。而目前多模態(tài)大語言模型受限于輸入側(cè)的多模態(tài)理解能力,多數(shù)模型無法實(shí)現(xiàn)多模態(tài)內(nèi)容的生成。比較通行的做法是基于特征的融合算法,即從不同的模態(tài)數(shù)據(jù)原始特征中學(xué)習(xí)到新的融合特征,然后利用學(xué)習(xí)到的新的融合特征完成分類、預(yù)測(cè)等任務(wù)。但這種做法的問題在于不同模態(tài)的表示、分布和密度可能不同,簡(jiǎn)單的屬性連接會(huì)忽略模態(tài)特有的統(tǒng)計(jì)屬性和模態(tài)間的關(guān)系。文生視頻從抽象到具象的轉(zhuǎn)換之間的不對(duì)稱正是源于兩種模態(tài)數(shù)據(jù)之間的異質(zhì)性。當(dāng)文本和影像兩種模態(tài)特征呈現(xiàn)出較大差異值時(shí),只采用線性和非線性轉(zhuǎn)換來彌補(bǔ)兩種模態(tài)數(shù)據(jù)之間的語義偏差,實(shí)際上難以保證融合結(jié)果的有效性。可以想象,如果以此為基礎(chǔ)開發(fā)下游應(yīng)用或管理下層任務(wù),必然導(dǎo)致偏差的出現(xiàn)。
也正是因?yàn)檫@個(gè)原因,谷歌最新發(fā)布的開源大模型Gemma盡管在技術(shù)構(gòu)架上是以Gemini為基礎(chǔ),卻沒有延續(xù)Gemini讓人嘆為觀止的多模態(tài),而是返回到文本單模態(tài)處理上,同時(shí)適當(dāng)調(diào)整(縮?。┝四P偷囊?guī)模,使用了過濾后的訓(xùn)練數(shù)據(jù)集,甚至也沒有針對(duì)多語言任務(wù)進(jìn)行訓(xùn)練。盡管這在表面上看起來是從多模態(tài)任務(wù)實(shí)現(xiàn)的一種回撤,但事實(shí)上這一策略調(diào)整下的Gemma在性能上卻有了大幅度的提升,在文本領(lǐng)域可以實(shí)現(xiàn)強(qiáng)大的通用能力,同時(shí)具備較為先進(jìn)的理解和推理技能。這從一個(gè)側(cè)面說明了多模態(tài)開發(fā)所要面對(duì)的技術(shù)難度。一個(gè)突出的難點(diǎn)就是現(xiàn)有不完整多模態(tài)數(shù)據(jù)融合算法難以有效學(xué)習(xí)跨模態(tài)數(shù)據(jù)共享語義的問題。如果想要引導(dǎo)模型學(xué)會(huì)執(zhí)行多種不同模態(tài)和語言任務(wù),則需要提供不同的數(shù)據(jù),并針對(duì)新任務(wù)對(duì)整個(gè)模型進(jìn)行特化。尤其是如何在跨模態(tài)特征學(xué)習(xí)、共享表示和驗(yàn)證上保證泛化的有效性,是多模態(tài)發(fā)展中一個(gè)尚未解決的問題。無論是通過降低模態(tài)共享特征的語義偏差以提高遷移融合的效率,還是將不同模態(tài)的數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的特征表示,都有可能面臨匹配不對(duì)應(yīng)和信息損耗甚至沖突的問題。從這個(gè)意義上可以判斷,Sora的文生視頻也許可以算是多模態(tài)嘗試的一步,但就目前而言,難以產(chǎn)生實(shí)質(zhì)性飛躍的應(yīng)用?!笆澜缒M器”這樣充滿噱頭意味的命名既不是當(dāng)下人工智能的事實(shí),更不應(yīng)該是未來人工智能的目標(biāo)。
二、大語言模型會(huì)產(chǎn)生意義的“通用性”嗎?
從通用人工智能發(fā)展的必然性來看,原生多模態(tài)大模型是未來研發(fā)和競(jìng)爭(zhēng)的主力戰(zhàn)場(chǎng)。但原生多模態(tài)大模型開發(fā)與不同模態(tài)數(shù)據(jù)遷移融合在表征、對(duì)齊、推理、生成、遷移、量化等環(huán)節(jié)均面臨非常多的難點(diǎn),因?yàn)橐环矫婺承┠B(tài)比其他模態(tài)包含更多關(guān)于任務(wù)的信息,不同模態(tài)有專門的輸入表示,另一方面模態(tài)之間的關(guān)聯(lián)是動(dòng)態(tài)變化的,其數(shù)據(jù)的融合遷移不但需要考慮情境化,還需要不斷地更新迭代。這導(dǎo)致現(xiàn)有多模態(tài)任務(wù)實(shí)現(xiàn)更多的是以建立在Transformer構(gòu)架上的大語言模型作為預(yù)訓(xùn)練的基礎(chǔ)。因?yàn)門ransformer能夠?qū)π畔卧╰oken或patch)之間的密集相關(guān)性進(jìn)行建模,同時(shí)對(duì)其輸入進(jìn)行很少的假設(shè)。通過將密集的連續(xù)信號(hào)分成多個(gè)patch并將它們轉(zhuǎn)換為一維的序列,并且能夠在不改變Transformer結(jié)構(gòu)的前提下處理可變長(zhǎng)度的序列。這也就意味著,在一定程度上而言,大語言模型依舊是多模態(tài)模型的“大腦”,它所形成的基本語義關(guān)聯(lián)同時(shí)是其他模態(tài)數(shù)據(jù)信息處理的基礎(chǔ)之一?;赥ransformer的預(yù)訓(xùn)練可以有效地處理圖片、音頻、視頻等模態(tài)信息分類,再將不同種類的模態(tài)信息對(duì)齊到LLM的語義空間,以此實(shí)現(xiàn)模態(tài)之間的遷移和融合。
在這一信息遷移的過程中,從文本到圖片/視頻中的關(guān)鍵幀的信息對(duì)齊稱為“創(chuàng)作”的基礎(chǔ)。這種“對(duì)齊”,是不同模態(tài)“理解”和“交流”的“共識(shí)”。所以事實(shí)上,通用人工智能的“通用”維度,不僅僅是建立“一機(jī)多用”的多目的實(shí)現(xiàn)系統(tǒng),更重要的是在多語言、多文化、多模態(tài)甚至多價(jià)值之間實(shí)現(xiàn)“通用”。而在這種可通約性的實(shí)現(xiàn)當(dāng)中,作為“對(duì)齊”基礎(chǔ)的根基性預(yù)設(shè)在很大程度上決定了人工智能“理解”世界的方式,同時(shí)它也反作用于使用者,在不知不覺中規(guī)定甚至改變了用戶的認(rèn)知和理解框架。當(dāng)然,對(duì)于通用人工智能技術(shù)的愿景來說,這種可通約性只是相對(duì)容易實(shí)現(xiàn)的第一層次目標(biāo),它還需要在知識(shí)表示、推理、學(xué)習(xí)、交互甚至執(zhí)行等多個(gè)方面有突破性進(jìn)展。即使是這一步,想要真正貫徹“通用”依舊存在巨大的困難,它不僅存在于技術(shù)層面的信息處理,更體現(xiàn)為如何從哲學(xué)和文化層面獲得“通用”的合法性,以及在反事實(shí)推理能力上的強(qiáng)化。這也就是為什么Gemma的研發(fā)團(tuán)隊(duì)選擇了避過“通用性”的這些挑戰(zhàn),專注于單模態(tài)通用模型性能的提升。
《人類簡(jiǎn)史》作者尤瓦爾·赫拉利于2023年4月29日在Frontiers論壇演講時(shí)特別強(qiáng)調(diào):對(duì)自然語言的掌握被看作人工智能革命的一個(gè)重要方面。他認(rèn)為,如果將通用人工智能的能力實(shí)現(xiàn)歸結(jié)到一個(gè)更具有決定性的基礎(chǔ),那么這一基礎(chǔ)就是操縱和生成語言的能力,無論是圖像、聲音還是文字。顯然,這一點(diǎn)可以從當(dāng)下多模態(tài)模型開發(fā)的大語言模型的基礎(chǔ)性地位中得到驗(yàn)證。一方面,自然語言是人與人工智能連接的交互界面的關(guān)鍵性中介,它既是最友好的通用人工智能的交互方式,也是使用門檻最低、信息獲取相對(duì)最有效率的界面設(shè)計(jì)。同時(shí),自然語言的交互界面還關(guān)乎人-機(jī)之間在信任度和一定程度的可解釋性上的關(guān)系建立。它是人-機(jī)關(guān)系倫理化和社會(huì)化的基礎(chǔ)。與用戶使用習(xí)慣貼合度更高的語言使用,可以使人機(jī)互動(dòng)的交互過程被感知和體驗(yàn)為真實(shí)的社交過程,它加深了人對(duì)于智能設(shè)備的情感投射以及由此而產(chǎn)生的人對(duì)技術(shù)的信任感。這也就意味著,在最友好的關(guān)于人-AI交互界面的想象中,不但功能的“通用性”(即多目的性)必須與語言及所表達(dá)的意義體系的可通約性形成適配,而且語言的表達(dá)應(yīng)該有助于在人-機(jī)之間建立適當(dāng)情感反應(yīng)的信任關(guān)系。而大語言模型的海量數(shù)據(jù)庫所推進(jìn)的自然語言處理系統(tǒng)的可通約性和親人性(赫拉利將之形容為人與人工智能的“親密關(guān)系”建立)加強(qiáng)了人工智能在可解釋性方面獲得的權(quán)威感。有研究表明,基于機(jī)器深度學(xué)習(xí)、以社交方式出現(xiàn)的人工智能服務(wù)體(Artificial intelligence service agents,AISA,生成式人工智能和通用人工智能都屬于這種應(yīng)用)對(duì)于用戶所表現(xiàn)出的共情反應(yīng)有助于加強(qiáng)用戶對(duì)其的依戀和信任。這種信任可以體現(xiàn)為“親密”和“權(quán)威”兩種不同的形式。交互語言的表達(dá)習(xí)慣越接近于用戶的日常語言,其越被體驗(yàn)為私人性的,因而人-機(jī)關(guān)系愈加親密化;而交互語言的表達(dá)越官方,就越具有權(quán)威感。當(dāng)然,必須辯證地看到,鑒于自然語言作為交互界面對(duì)用戶使用心理的影響,不當(dāng)?shù)慕换ソ缑嬖O(shè)計(jì)可能會(huì)導(dǎo)致過度信任或排斥的關(guān)系。因此,如何設(shè)置合理的距離感是健康的人-機(jī)融合中必須關(guān)注的問題。
另一方面,由數(shù)據(jù)所決定的“通用性”將隨著自然語言交互界面重塑用戶的認(rèn)知和價(jià)值。在OpenAI公司提供的關(guān)于Sora的技術(shù)報(bào)告中,一段并不十分引人注意的表述透露出研發(fā)團(tuán)隊(duì)對(duì)于技術(shù)應(yīng)用和市場(chǎng)的真正野心,即“通過擴(kuò)大視頻生成模型的規(guī)模,我們有望構(gòu)建出能夠模擬物理世界的通用模擬器,這無疑是一條極具前景的發(fā)展道路”。值得注意的是,大模型對(duì)“通用性”的追求必然要求其對(duì)于知識(shí)價(jià)值體系和符號(hào)象征系統(tǒng)的預(yù)設(shè)符合資本全球化進(jìn)程所產(chǎn)生的普遍性生產(chǎn)范式,這種生產(chǎn)范式在本質(zhì)上以消弭地區(qū)、種族、文化等不能被資本一體化運(yùn)作框架所涵蓋的差異性因素為首要原則。而對(duì)于大模型而言,向“通用性”的跨越,不僅僅意味著規(guī)模問題,更重要的是作為其養(yǎng)料的數(shù)據(jù)結(jié)構(gòu)問題。雖然算法和模型決定了數(shù)字技術(shù)的意義生成框架,但數(shù)據(jù)的結(jié)構(gòu)和其表現(xiàn)同樣也決定了輸出的質(zhì)量。作為生成式人工智能“大腦”的大語言模型的學(xué)習(xí)機(jī)理,其實(shí)和人類的理解方式相去甚遠(yuǎn)。它本質(zhì)上是通過數(shù)學(xué)方式和邏輯關(guān)系去進(jìn)行數(shù)據(jù)處理,目的是使計(jì)算機(jī)系統(tǒng)以人類語言作為中介,有效地實(shí)現(xiàn)與用戶的通信。從某種意義上而言,transformer處理和表達(dá)的只是token之間的關(guān)系,它既不編織敘事,也不生成意義,所以在語言的處理上大模型并不關(guān)注單個(gè)語詞的含義和語言結(jié)構(gòu)的意義生成。這也就意味著,生成式人工智能所形成的文本或視頻盡管在邏輯上具有連續(xù)性,但是與真實(shí)經(jīng)驗(yàn)是隔絕的,它是由過去的數(shù)據(jù)重構(gòu)起來的“元書寫”,只是通過深度學(xué)習(xí)的思維鏈條和語言的概率邏輯生成的數(shù)學(xué)結(jié)果,而不是人類綜合的認(rèn)知能力的判斷。事實(shí)上,從20世紀(jì)30年代以來的認(rèn)知計(jì)算主義,就主張完全可以通過數(shù)學(xué)的方法實(shí)現(xiàn)對(duì)現(xiàn)實(shí)知識(shí)的把握。在大模型技術(shù)中,當(dāng)數(shù)據(jù)的類型、數(shù)據(jù)的體量和模型參數(shù)能夠?qū)崿F(xiàn)增長(zhǎng)的時(shí)候,通過機(jī)器學(xué)習(xí),在一定程度上可以表現(xiàn)出類似人類的思維方式,甚至情緒方式。從個(gè)性的角度來看,大語言模型雖然整體上表現(xiàn)出個(gè)性傾向,但并不像人類一樣擁有一致和穩(wěn)定的個(gè)性傾向,更可能的是多個(gè)視角的加權(quán)取值。從認(rèn)知能力領(lǐng)域來看,在歸納、類比、因果推理、心理理論等方面,以ChatGPT和GPT-4為代表的最先進(jìn)的大型語言模型可以展示出與人類相當(dāng)甚至超越人類的認(rèn)知能力,但采取的認(rèn)知模式與人類也并不一致。盡管從任何可證偽的計(jì)算性意義上來說,知識(shí)甚至語言的統(tǒng)計(jì)學(xué)本身就相當(dāng)于理解,或者說它可以制造一個(gè)和人類理解完全類似的結(jié)果。但這并不能作為人工智能擁有“意識(shí)”或“靈魂”的根據(jù)。但由于人們對(duì)人工智能結(jié)果的過度信任,往往會(huì)忽視作為其根基的數(shù)據(jù)和模型問題。
齊澤克說:“對(duì)既定歷史現(xiàn)實(shí)的體驗(yàn),要想獲得其統(tǒng)一性,唯一的方式就是獲得能指的代理,通過對(duì)‘純粹’能指的指涉。將某一意識(shí)形態(tài)的統(tǒng)一性和同一性作為指涉點(diǎn)保證的,并不是實(shí)在客體。與此相反,正是對(duì)于一個(gè)‘純粹’能指的指涉,為我們對(duì)現(xiàn)實(shí)歷史自身的體驗(yàn)提供了統(tǒng)一性和同一性?!贝竽P图夹g(shù)正是這樣一個(gè)“純粹”的能指,它以對(duì)其結(jié)構(gòu)性沖突和瓶頸的遮蔽為世界圖景的連續(xù)性提供了技術(shù)的保證。耶魯大學(xué)的人類學(xué)家Lisa Messeri和普林斯頓大學(xué)的認(rèn)知科學(xué)家Molly Crockett在共同合作的文章《科學(xué)研究中的人工智能和理解幻象》中提出了研究人員和用戶都可能在面對(duì)人工智能給出結(jié)果時(shí)產(chǎn)生“客觀性錯(cuò)覺”,即將AI系統(tǒng)的輸出表達(dá)視為窮盡了所有可能的觀點(diǎn)或是沒有立場(chǎng)傾向的客觀觀點(diǎn)。但事實(shí)上,這些工具的輸出表達(dá)只不過反映了從訓(xùn)練數(shù)據(jù)集中獲得的表達(dá)或觀點(diǎn),并且無法識(shí)別或規(guī)避這些數(shù)據(jù)中存在的偏見或價(jià)值傾向。
意識(shí)到這個(gè)問題對(duì)于批判性地看待大語言模型的“通用性”至關(guān)重要。語言毋庸置疑對(duì)思想具有塑形的作用:語言所給予的能指體系、語法關(guān)系暗含的認(rèn)知判斷、概念的差異及思想內(nèi)涵和情緒都為思想的可表達(dá)性提供了路徑。這并不是說,語言是某種在時(shí)間或邏輯上先于事實(shí)或思維的實(shí)體性建構(gòu),而是從再現(xiàn)和表征的形式上可能顛覆了將語言作為中性的表達(dá)工具。在這樣的共識(shí)之下,從算法的底層邏輯和數(shù)據(jù)結(jié)構(gòu)出發(fā)對(duì)大模型所提供的知識(shí)圖景進(jìn)行批判性審視就是一件十分必要的事情。Sora沒有公布訓(xùn)練數(shù)據(jù)庫的所有來源和數(shù)量,以及demo(樣片)的數(shù)據(jù)相關(guān)情況,因此難以判斷它的具體能力和傾向性。但眾所周知,在迄今為止可以獲得的視頻數(shù)據(jù)中,各種文化樣態(tài)、行業(yè)領(lǐng)域及地域社群的分布并不均衡。而且,不同創(chuàng)造主體和來源的視頻質(zhì)量也并不相同,發(fā)布的動(dòng)機(jī)、制作過程、社會(huì)文化背景之間的差異也會(huì)造成視頻的具體內(nèi)容和表現(xiàn)方式上的異質(zhì)性。一種被固著在大模型技術(shù)上的“世界”印象產(chǎn)生的同時(shí),也是技術(shù)理性所制造的關(guān)于人類社會(huì)文化的“通約性”假象。它的問題并不僅僅在于保真性的缺失(如Sora發(fā)布視頻中的螞蟻腿的數(shù)量),更在于這種知識(shí)生產(chǎn)方式所生產(chǎn)出來的“普遍性”知識(shí)是否消解了現(xiàn)實(shí)生活的多向度和文化的多元表達(dá)。由此,“通用性”必然在哲學(xué)上指向一種知識(shí)和價(jià)值的公理化。反映在技術(shù)策略上,訓(xùn)練團(tuán)隊(duì)如何在規(guī)模、形式、價(jià)值方面千差萬別的數(shù)據(jù)的基礎(chǔ)上保證訓(xùn)練數(shù)據(jù)集的合理性,是一個(gè)值得不斷被追問和驗(yàn)證的問題。
三、從技術(shù)通用性到知識(shí)的公理化:人工智能時(shí)代的認(rèn)識(shí)論悖論
隨著人工智能研發(fā)和應(yīng)用的競(jìng)爭(zhēng)越來越激烈,下游的應(yīng)用市場(chǎng)也在不斷擴(kuò)大。生成式AI在社會(huì)生活全方位的嵌入不僅帶來了新的機(jī)遇,也引發(fā)了諸多新的問題。一方面,以科技倫理為代表的技術(shù)審視開始關(guān)注智能應(yīng)用的社會(huì)影響,但另一方面,數(shù)字化技術(shù)對(duì)知識(shí)生產(chǎn)和認(rèn)知重塑的改變卻并沒有得到應(yīng)有的重視。事實(shí)上,以大模型為底層技術(shù)的人工智能系統(tǒng),今天正在制造著某種關(guān)于世界的公理化的知識(shí)體系。而后者又在相當(dāng)程度上改變,甚至重構(gòu)著人類對(duì)于現(xiàn)實(shí)的理解以及人類自身。人工智能條件下的知識(shí)生產(chǎn)呈現(xiàn)出具有內(nèi)在矛盾性的雙重特征:一方面是以開放性、高算力以及人-機(jī)強(qiáng)互動(dòng)性為基礎(chǔ)的知識(shí)的普遍有效性的特征。知識(shí)形成的邊界在形式上呈現(xiàn)出不斷開放的態(tài)勢(shì),它不斷地以更新的網(wǎng)絡(luò)數(shù)據(jù)作為其數(shù)據(jù)來源,改變了過去的經(jīng)驗(yàn)和知識(shí)的區(qū)域性特征。而由于數(shù)字時(shí)代的社交傳播化屬性,知識(shí)的生產(chǎn)與再生產(chǎn)也不可避免地呈現(xiàn)出擴(kuò)散性和傳播性的趨勢(shì)。這就決定了知識(shí)越具有普遍性,就越有可能進(jìn)入整個(gè)傳播化的知識(shí)生產(chǎn)過程當(dāng)中。這也解釋了為什么采用對(duì)話式提示(prompt)的GPT系列比谷歌的BERT更容易受到一般使用者的追捧以至于造成轟動(dòng)性的社會(huì)效應(yīng)。和社交媒體平臺(tái)“用戶生成內(nèi)容”的創(chuàng)作民主化機(jī)制相類似,這種降維式的知識(shí)生產(chǎn)過程同時(shí)受到數(shù)據(jù)結(jié)構(gòu)和資本市場(chǎng)需求的影響,甚至形成馬太效應(yīng)。一旦用戶為了傳播的需要而對(duì)由技術(shù)的通用性所設(shè)置的標(biāo)準(zhǔn)和原則曲意逢迎甚至趨之若鶩,那么知識(shí)的生產(chǎn)不但會(huì)脫離原有的嚴(yán)肅性,甚至?xí)蔀橛狭髁繛橥?、奇觀至上的市場(chǎng)偏好?!巴ㄓ萌斯ぶ悄軐?duì)普遍性知識(shí)結(jié)構(gòu)的無意識(shí)追求,卻在理論上近似于一種向主體哲學(xué)知識(shí)結(jié)構(gòu)的形而上學(xué)式倒退,它預(yù)設(shè)了數(shù)字這一形成經(jīng)驗(yàn)性共識(shí)的根本前提,并通過互聯(lián)網(wǎng)中無處不在的算法推送、數(shù)據(jù)生產(chǎn)強(qiáng)化了這一認(rèn)識(shí)。公眾囿于數(shù)字媒介對(duì)信息獲取形式的壟斷,只能被動(dòng)接受和理解經(jīng)算法揀選后的信息?!焙茱@然,在服務(wù)于功能性和市場(chǎng)的“通用性”以及“數(shù)字的普遍理性”主導(dǎo)下的知識(shí)生產(chǎn)在本質(zhì)上與公理化的資本生產(chǎn)別無二致,它將一種與技術(shù)伴生的觀念架構(gòu)普遍化和自然化,以之為知識(shí)生產(chǎn)的前提和原則,抽離了知識(shí)形成的情境性、歷史性、特異性和偶然性等經(jīng)驗(yàn)內(nèi)涵,并借助于傳播的彌散性最大限度地保障了知識(shí)生產(chǎn)的共識(shí)性和表面上的開放性。
而在另一方面,知識(shí)生產(chǎn)以及認(rèn)知的中心化卻在不斷加強(qiáng)。當(dāng)知識(shí)生產(chǎn)被符號(hào)秩序架構(gòu)時(shí),由他者(autre)掌握了其生產(chǎn)的權(quán)力,決定了表象與存在被認(rèn)識(shí)的可能,決定了知識(shí)單元連接的關(guān)系。當(dāng)話語和知識(shí)的權(quán)力由算法掌控時(shí),通過算法不斷地運(yùn)算,通過大數(shù)據(jù)的不斷傳播特性,算法布展著自身權(quán)力的繁殖力量。其結(jié)果是知識(shí)的內(nèi)容甚至表達(dá)形式都臣服于話語的統(tǒng)治,而話語則獲得了絕對(duì)力量去表達(dá)被自我設(shè)定的表象。這就是技術(shù)無意識(shí)的權(quán)力話語。德勒茲曾以“公理化”(axiomatization)來形容資本主義生產(chǎn)方式的運(yùn)行機(jī)制和擴(kuò)張路徑。和前資本主義社會(huì)借助特定符號(hào)意義,將社會(huì)要素的流動(dòng)限制在特定場(chǎng)域內(nèi)部,并憑借清晰且不可逾越的規(guī)則實(shí)現(xiàn)對(duì)社會(huì)進(jìn)行整合的“編碼化”體系不同,資本的公理化不但具有更為嚴(yán)密和周全的特征,且借助資本強(qiáng)大的同質(zhì)化邏輯將所遭遇的一切元素裹挾進(jìn)自己的洪流,哪怕這些元素本身具有解放性的潛力。這種公理化邏輯并不通過明確的轄域來實(shí)施對(duì)社會(huì)要素的控制,相反,它通過更加普遍的、更具成長(zhǎng)性和可塑性的“強(qiáng)中心”體系強(qiáng)化了控制的深度和廣度:“只有一只作為中心計(jì)算機(jī)的眼睛,它進(jìn)行著全范圍的掃視”。在這基礎(chǔ)之上,晚年德勒茲曾提出了“控制社會(huì)”(society of control)理論,以揭示信息通信與互聯(lián)網(wǎng)技術(shù)普及應(yīng)用的前景下,資本主義社會(huì)統(tǒng)治形式所發(fā)生的整體嬗變:技術(shù)的進(jìn)步擴(kuò)展了資本微觀規(guī)訓(xùn)的社會(huì)場(chǎng)域,主體雖從福特制時(shí)代的“懲戒社會(huì)”中解放,卻又隨即陷入“技術(shù)-資本”合謀的控制論圖景之中。更為重要的是,這種控制方式因披上了價(jià)值中立性和形式開放性的外衣,而更加難以被辨識(shí)和揭露,從而在深層上強(qiáng)化了資本主義的統(tǒng)治秩序。既然如此,人工智能如何打破知識(shí)生產(chǎn)的封閉化?重返經(jīng)驗(yàn)是必要的條件之一。也就是一定要加強(qiáng)知識(shí)和經(jīng)驗(yàn)世界之間的關(guān)系。這里的經(jīng)驗(yàn)包含了經(jīng)驗(yàn)現(xiàn)象及其背后的意義價(jià)值的關(guān)系,即關(guān)于價(jià)值體系之間的系統(tǒng)性認(rèn)知。如果不能夠重新觀察、審視甚至反思新的經(jīng)驗(yàn)世界,無論大模型的數(shù)據(jù)沉淀還是深度學(xué)習(xí)的結(jié)果,都有可能會(huì)成為浮在整個(gè)數(shù)據(jù)所制造的知識(shí)的表面之上的純粹能指。它既不能縫合經(jīng)驗(yàn),也不能形成反思。
其實(shí),除了Sora之外,Meta也推出了自己的非生成式視頻模型JEPA。這是一種用于從圖像中進(jìn)行自監(jiān)督學(xué)習(xí)的非生成方法,它的核心工作機(jī)理是:從單個(gè)上下文塊預(yù)測(cè)同一圖像中的各種目標(biāo)塊的表示。和生成式人工智能相比,JEPA的預(yù)測(cè)是在經(jīng)過編碼的表征層進(jìn)行的,而不是如生成式AI一樣在輸入層進(jìn)行。這樣的表征學(xué)習(xí)是從單個(gè)上下文塊預(yù)測(cè)目標(biāo)塊之間的依賴關(guān)系。它不顯示生成提示目標(biāo)的預(yù)測(cè)信息(生成式AI),卻是一種更為簡(jiǎn)單高效的圖像語義學(xué)習(xí)方法。然而,圖靈獎(jiǎng)得主楊立昆(Yann LeCun)在2024年3月8日的直播對(duì)談中,在評(píng)論當(dāng)下人工智能技術(shù)的局限性時(shí)以JEPA為例指出,該模型系統(tǒng)在訓(xùn)練時(shí),并不是從視頻輸入中提取所有信息,而只是那些相對(duì)容易預(yù)測(cè)的信息。而所謂的“容易預(yù)測(cè)”實(shí)際上是以現(xiàn)有語義的理解框架界定的。因此,對(duì)于特征,算法只保留其中可以建模和預(yù)測(cè)的內(nèi)容,其余的則被編碼器視為噪聲并消除掉。這樣不僅節(jié)約了處理冗余數(shù)據(jù)的算力,而且還能讓模型從已獲得確證的經(jīng)驗(yàn)框架中學(xué)習(xí)到世界的抽象表征。這也就意味著,特征的形成、判定和提取都是在特定的抽象層次上描述的,它是對(duì)具象信息的凝練和總結(jié)。大模型在語言方面之所以有效,是因?yàn)檎Z言在某種程度上已經(jīng)是抽象的,已經(jīng)消除了很多不可預(yù)測(cè)的信息并且明確地將特征信息化(文字/語言化)。而生成,是反向的抽象到具象的肉身化過程。當(dāng)圖像已經(jīng)被抽象為語言或者抽象的特征信息時(shí),就可以利用語言的可預(yù)測(cè)性,把預(yù)測(cè)出來的東西解碼為圖像,就得到了提示想要的東西。這正是目前人們?cè)谖纳曨l模型上所做的。
由此可以看出,重返經(jīng)驗(yàn)世界是特征提取和圖像語義形成的基礎(chǔ)。只有在它之上,才能形成“可預(yù)測(cè)”的抽象信息。最近,在達(dá)沃斯舉行的2024年世界經(jīng)濟(jì)論壇上,人工智能領(lǐng)域的兩位專家卡爾·弗里斯頓和楊立昆都提出,對(duì)于人工智能而言,建立一個(gè)對(duì)世界有深刻理解的模型是至關(guān)重要的。然而,這樣的世界模型是否能夠僅僅通過預(yù)測(cè)語詞來構(gòu)建?答案是否定的,因?yàn)檎Z言沒有足夠的信息。雖然大模型已經(jīng)從人類提供的文本中學(xué)習(xí)了數(shù)量大約為10的13次冪的信息單元(token),但這并不足以形成關(guān)于世界的全部信息。這不完全是數(shù)據(jù)規(guī)模的問題,還和數(shù)據(jù)的類型有關(guān)。克里斯蒂安·馬茲比爾格在“大數(shù)據(jù)”的基礎(chǔ)上創(chuàng)造性地提出了“厚數(shù)據(jù)”(thick data)概念:“厚數(shù)據(jù)不僅可以捕捉事實(shí),還可以捕捉這些事實(shí)的背景?!绻?shù)據(jù)旨在根據(jù)我們的行為來理解我們,那么厚數(shù)據(jù)就是根據(jù)與所生活的世界的聯(lián)系來理解我們。”
這顯然是一種更高維度的數(shù)據(jù)要求,它訴諸一種在深度和廣度上都更富有可擴(kuò)展性的世界觀,這才是弗里斯頓和楊立昆青睞的理想世界模型。厚數(shù)據(jù)旨在完善數(shù)據(jù)抓取的深度,“進(jìn)一步細(xì)化對(duì)數(shù)據(jù)的詮釋,以及反向加強(qiáng)數(shù)據(jù)的闡釋力。這是一種更為情境化的數(shù)據(jù)提取和優(yōu)化機(jī)制,它試圖將‘事實(shí)-數(shù)據(jù)’這一抽象化過程中所丟失掉的豐富內(nèi)容重新找回,并將‘過程性’納入數(shù)據(jù)所能展示的圖景中。”多模態(tài)數(shù)據(jù)當(dāng)然也屬于“厚數(shù)據(jù)”的范疇,它們可以以不同的方式讓模型掌握基于現(xiàn)實(shí)世界的語義關(guān)系。因?yàn)橐粋€(gè)深刻且準(zhǔn)確的世界模型意味著要觀察全部而不是部分世界,了解現(xiàn)實(shí)的多重維度,以及它們?yōu)槭裁磿?huì)以這樣的方式運(yùn)轉(zhuǎn)。
盡管如此,楊立昆仍然對(duì)基于深度學(xué)習(xí)的生成式人工智能的未來投了懷疑票。他認(rèn)為,人工智能的未來之所以不可能是生成式的,原因在于模型實(shí)際上無法通過計(jì)算機(jī)視覺或深度學(xué)習(xí)對(duì)世界運(yùn)作方式建立任何真正的知識(shí)或理解,它們只是信息單元和語義的邏輯關(guān)系,即便計(jì)算機(jī)視覺也不可能通過圖像復(fù)制或生成向人工智能傳授關(guān)于世界的知識(shí)。這也就是為什么現(xiàn)有的生成式大模型在反事實(shí)推理和輸出內(nèi)容的合規(guī)性方面都非常欠缺。由此可見,現(xiàn)有的大模型的性能還遠(yuǎn)未達(dá)到全方位理解世界、表征世界的目標(biāo),基于現(xiàn)實(shí)的“世界模擬”只是一幅意愿性的藍(lán)圖,其實(shí)現(xiàn)的真正基礎(chǔ)并未得到保證。
四、人工智能的奇點(diǎn)時(shí)刻:向?qū)嵽D(zhuǎn)?向虛轉(zhuǎn)?
最近幾年,人工智能領(lǐng)域的“明戰(zhàn)”和“暗戰(zhàn)”以一種前所未有的激烈態(tài)勢(shì)爭(zhēng)奪著媒體和投資圈的注意力。在各家科企不定期拋出的新聞“炸彈”之下,突破有之,噱頭有之,理想亦有之。但究其根本,無外乎是以技術(shù)的制高點(diǎn)吸引更多的投資和資源。這也導(dǎo)致業(yè)界和下游應(yīng)用市場(chǎng)出現(xiàn)不加甄別的“追熱”行為。對(duì)高算力、高參數(shù)的大模型的追高使一種具象的數(shù)字加速主義以勢(shì)不可擋的強(qiáng)度和態(tài)勢(shì)迫近我們的生活。盡管數(shù)字技術(shù)的嵌入已經(jīng)不可避免地成為思考未來世界圖景的底色之一,但當(dāng)不同社會(huì)階層都無差別地為“不明覺厲”的技術(shù)狂飆歡呼的時(shí)候,關(guān)鍵性的問題正在于:當(dāng)個(gè)體和群體的意識(shí)以及無意識(shí)都在被社會(huì)認(rèn)知方式和文化體系結(jié)構(gòu)化的時(shí)候,對(duì)大模型加速主義的迷戀是否在一種技術(shù)決定論的前提之下抽象地將重塑社會(huì)未來的維度簡(jiǎn)單化?它使得對(duì)于社會(huì)發(fā)展的想象喪失了真實(shí)的社會(huì)關(guān)系的維度,并且越來越脫離對(duì)于真實(shí)社會(huì)問題的關(guān)注。毋庸置疑,大模型技術(shù)的興起,不僅顯著提升了人工智能技術(shù)的創(chuàng)造場(chǎng)景和知識(shí)生產(chǎn)的能力,挑戰(zhàn)了現(xiàn)有的教育和產(chǎn)業(yè)布局,同時(shí)也重新定義了通用人工智能的可能性,打開了AI系統(tǒng)與人類合作的嶄新篇章。然而,這并不意味著人類社會(huì)的全部問題可以在關(guān)于人工智能的討論中得到解決。當(dāng)虛實(shí)共生、人機(jī)融合成為新的時(shí)代命題時(shí),如何把握“虛”“實(shí)”之間的關(guān)系是一個(gè)需要審視的維度。它不僅關(guān)系到社會(huì)資源的投入,還關(guān)系到視差、壁壘和社會(huì)復(fù)雜性,更關(guān)系到人類自身的重塑和對(duì)于世界的理解。
〔責(zé)任編輯:李海中〕
作者簡(jiǎn)介:吳靜,哲學(xué)博士,南京師范大學(xué)公共管理學(xué)院教授、博士研究生導(dǎo)師,南京師范大學(xué)數(shù)字與人文研究中心主任。
[法]雅克·德里達(dá):《書寫與差異》,張寧譯,三聯(lián)書店出版社,2001年,第1頁。
[德]阿爾布萊希特·維爾默:《論現(xiàn)代和后現(xiàn)代的辯證法》,欽文譯,商務(wù)印書館,2003年,第46頁。
[法]讓·鮑德里亞:《象征交換與死亡》,車槿山譯,譯林出版社,2012年,第68頁。
胡延平:《世界模擬器才是AGI終局,12態(tài)勢(shì)預(yù)測(cè)!專業(yè)解讀Sora里程碑》,https://baijiahao.baidu.com/s?id=1791503539412664156&wfr=spider&for=pc。
Nurhafihz Noor, Sally Rao Hill, Indrit Troshani, “Artificial intelligence service agents: Role of parasocial relationship”, Journal of Computer Information Systems, vol.62, no.5(2022).
OpenAI, “Video generation models as world simulators”, https://openai.com/research/video-generation-models-as-world-simulators.
[斯洛文尼亞]斯拉沃熱·齊澤克:《意識(shí)形態(tài)的崇高客體》,季廣茂譯,中央編譯出版社,2002年,第135頁。
Lisa Messeri, M. J. Crokett, “Artificial intelligence and illusions of understanding in scientific research”, Nature, vol.627(2024).
吳靜:《通用人工智能會(huì)預(yù)設(shè)一種“公理化”的普遍性嗎?》,《澳門理工學(xué)報(bào)》,2023年第4期。
[法]吉爾·德勒茲、費(fèi)利克斯·加塔利:《資本主義與精神分裂(卷2):千高原》,姜宇輝譯,上海書店出版社,2010年,第295頁。
Christian Madsbjerg, Sensemaking, The Power of the Humanities in the Age of the Algorithm, Hachette Books, 2017, p.22.
吳靜:《對(duì)算法邊界的哲學(xué)反思》,《哲學(xué)動(dòng)態(tài)》,2024年第1期。