国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

認知的展褶:生成式人工智能的技術(shù)審思

2024-09-06 00:00:00胡栩睿
決策與信息 2024年9期

[摘 要] 文生視頻大模型Sora超越了人工智能的文本表達結(jié)構(gòu),不斷強化圖像與視頻的價值意義,其話語建構(gòu)能力日益趨近人類的創(chuàng)作水平。這種“超能力”背后隱喻著“技術(shù)”的本質(zhì)。生成式人工智能的技術(shù)機理主要通過資源堆疊、機器學習與序列預(yù)測來實現(xiàn),其中資源堆疊奠定了智能根基、機器學習促進了知識萃取、序列預(yù)測形塑內(nèi)容體系。世界模擬想象和人機關(guān)系演進共同構(gòu)筑了生成式人工智能的意義價值。然而,隨著生成式人工智能的普泛化滲透,其遮蔽的想象塌縮、資源消耗以及內(nèi)容速朽等困境日漸凸顯,亟須通過價值對齊、黑箱稀釋等實踐方式回應(yīng)人機協(xié)同進化的時代命題。

[關(guān)鍵詞] 大模型;生成式AI;機器學習;Sora;人工智能;人機關(guān)系;AI技術(shù)-社會協(xié)同

[中圖分類號] G206 [文獻標識碼] A [文章編號] 1002-8129(2024)09-0087-10

Sora的橫空出世將人們的目光再一次引向人工智能這一技術(shù)迭代如火如荼展開的概念范疇之中。伴隨技術(shù)火熱的一方面是社會行業(yè)的廣泛關(guān)注,另一方面則是學界研究的展開。在學界認知深化與業(yè)界革命促動的交相輝映之下,人們對于Sora、ChatGPT等現(xiàn)象級人工智能產(chǎn)品有了更為細致、清晰的具象認知。然而,細究OpenAI最新的技術(shù)文檔可以發(fā)現(xiàn),Sora在模型架構(gòu)、訓練方法上更多的是對現(xiàn)有技術(shù)路線的優(yōu)化,并未有顛覆式的技術(shù)革新,其應(yīng)用潛能仍是建立在規(guī)模法則(Scaling Law)的大模型(Large Model,LM)開發(fā)上,因而其更象是技術(shù)路線量變積累的結(jié)果,而非斷裂式的質(zhì)變。

德勒茲(Gilles Deleuze)在對巴洛克藝術(shù)風格的論述中以“褶子”(fold)的概念強調(diào)了一種多元、復(fù)雜的思考方式[1] 16-21,旨在幫助我們更好地理解和把握世界的復(fù)雜性與多樣性。因此對于生成式人工智能的考察視角顯然不能拘囿于單一的產(chǎn)品特性,而是需要深入透視其技術(shù)機理,以此勾勒關(guān)于生成式人工智能社會認知與實踐應(yīng)用整體譜系,并進一步為人工智能時代個體融入社會以及AI技術(shù)潛能的充分釋放構(gòu)建良好的理論與實踐框架。有鑒于此,本文嘗試從Sora這一生成式人工智能最新產(chǎn)品出發(fā),結(jié)合業(yè)已滲透至生活日常情景的ChatGPT等AI應(yīng)用,通過拆解、歸納生成式人工智能核心機理的方式觸摸伏脈其中的技術(shù)意蘊,并在梳理技術(shù)公司等話語主體關(guān)于生成式人工智能實踐應(yīng)用的多元價值鋪陳以及駁雜社會想象的同時對其實踐現(xiàn)狀進行追問,進而探求人機協(xié)同進化的未來進路,最終勾勒出關(guān)于生成式人工智能應(yīng)用與想象的更為全面的技術(shù)圖景。

一、技術(shù)拆解:生成式人工智能的機理透視

作為一種能夠自主創(chuàng)造新內(nèi)容的AI技術(shù),生成式人工智能的核心在于理解和模仿現(xiàn)有數(shù)據(jù)模型,進而在用戶提示詞(prompt)的引導下輸出基于既有內(nèi)容形態(tài)的全新內(nèi)容。拆解其技術(shù)機理后可發(fā)現(xiàn),對這一生成能力的認識實則可劃分為三個更為具體的維度:資源堆疊下的智能涌現(xiàn)、機器學習中的知識萃取以及序列預(yù)測下的內(nèi)容編織。

(一)資源堆疊積淀智能涌現(xiàn)根基

2020年,OpenAI首次提出了基于規(guī)模法則的模型訓練方法,即模型性能會在大算力、大參數(shù)、大數(shù)據(jù)的加持下持續(xù)提升,這一法則適用于包括語言模型在內(nèi)的多模態(tài)模型[2]。這一法則精準地詮釋了生成式人工智能的重要技術(shù)機理,即基于算力與數(shù)據(jù)等資源堆疊所形成的智能涌現(xiàn)。涌現(xiàn)(emergence)作為描述復(fù)雜系統(tǒng)中由系統(tǒng)數(shù)量變化所導致行為質(zhì)量變化的重要概念,已成為大語言模型所特有的一種能力[3]。具體而言,資源堆疊可歸納為兩個層面:一是涵蓋文本、圖像等多模態(tài)信息的數(shù)據(jù)資源,二是以GPU(Graphics Processing Unit)、TPU(Tensor Processing Unit)等硬件設(shè)施所組成的算力資源。

數(shù)據(jù)是生成式人工智能學習和創(chuàng)造的基礎(chǔ)資源。一方面,生成式人工智能需要大量數(shù)據(jù)來學習人類潛在的知識結(jié)構(gòu)與模式,文本、圖像等多模態(tài)內(nèi)容能夠幫助模型捕捉到對應(yīng)領(lǐng)域的復(fù)雜特征和統(tǒng)計規(guī)律,從而在用戶新輸入新數(shù)據(jù)的提示下生成合理、連貫的內(nèi)容。另一方面,數(shù)據(jù)還可用于人工智能的持續(xù)學習與迭代優(yōu)化,用戶的反饋、新數(shù)據(jù)的加入能夠在人類反饋強化學習(RLHF)、指示學習(Instruct Learning)等學習技術(shù)的加持下不斷調(diào)整和優(yōu)化模型,促進其智能進一步涌現(xiàn)。正是龐大的數(shù)據(jù)學習催生了ChatGPT等一系列備受矚目的生成式人工智能產(chǎn)品。公開數(shù)據(jù)顯示,GPT-3的參數(shù)量達1750億,預(yù)訓練數(shù)據(jù)量為45T;GPT-4的參數(shù)量則高達1.8萬億。而在其他同期產(chǎn)品中,Meta開源模型Llama3訓練數(shù)據(jù)量超過14萬億個token,Claude3的訓練數(shù)據(jù)量也在萬億級別或更高。由是觀之,龐大的數(shù)據(jù)資源已成為大模型發(fā)展的重要依托。

如果說數(shù)據(jù)是大語言模型智能涌現(xiàn)的燃料,那么算力則可被視為生成式人工智能發(fā)展的重要助推器。強大的算力不僅能顯著縮短模型的訓練時間,促進模型快速迭代;還能提升生成式人工智能在應(yīng)用場景中的響應(yīng)效率,拓展大模型的應(yīng)用邊界。自互聯(lián)網(wǎng)誕生以來,人類便已生產(chǎn)出數(shù)以萬億計的數(shù)據(jù),但人工智能的發(fā)展并未同龐大的數(shù)據(jù)生成同步展開,其發(fā)展的掣肘主要源自彼時的算力尚不足以支撐龐大的數(shù)據(jù)處理工程。隨著辛頓(Geoffrey Hinton)等人在神經(jīng)網(wǎng)絡(luò)訓練中發(fā)掘出GPU在深度學習中的潛力[4] 84-90,即借助GPU的帶寬優(yōu)勢實現(xiàn)大規(guī)模數(shù)據(jù)的并行處理。GPU的強大算力使得深度學習中的算力瓶頸得以突破,人工智能的發(fā)展也在此過程中迎來了指數(shù)級增長。

(二)機器學習加速知識萃取進程

人工智能若僅止步于吸收與儲存人類的文本、圖像及視頻等多模態(tài)信息,將可能退化為一個功能增強版的搜索引擎,而非真正意義上的智能體。其中所涉及的數(shù)據(jù)存儲等必要條件不僅會造成更為極端的資源消耗,還會因數(shù)據(jù)的過度擬合而失去泛化能力。泛化能力是機器學習的關(guān)鍵,它能確保機器理解所學數(shù)據(jù)并將其推廣到一般情況。具備良好泛化能力的模型能夠依據(jù)訓練數(shù)據(jù)中所學習到的知識,就用戶輸入的數(shù)據(jù)或提示給出更為準確合理的輸出結(jié)果,從而提升人工智能的通用能力,因此可視為通往AGI(通用人工智能)的關(guān)鍵。而在提升人工智能泛化能力的過程中,壓縮(compression)已成為包括大模型在內(nèi)的生成模型的固有優(yōu)化目標。在香農(nóng)(Claude Elwood Shannon)看來任何信息的編碼均可被量化,通過基于信息出現(xiàn)頻率差異的異質(zhì)編碼便能夠?qū)崿F(xiàn)信息的壓縮[5]。信息壓縮的過程在于通過減少數(shù)據(jù)冗余,并利用數(shù)據(jù)的統(tǒng)計特性在減少表達所需比特數(shù)的同時盡可能保持信息的完整性和可恢復(fù)性。數(shù)據(jù)壓縮通常包含兩個階段:首先是將原始數(shù)據(jù)轉(zhuǎn)換為更加規(guī)則或統(tǒng)計特性更為明顯的形態(tài),然后再借助熵編碼、行程長度編碼等編碼技術(shù)有效利用數(shù)據(jù)中的統(tǒng)計規(guī)律,進而實現(xiàn)數(shù)據(jù)的高效存儲與傳輸。除此之外,對于一組數(shù)據(jù)的最佳解釋是對該數(shù)據(jù)進行盡可能短而準確的描述,模型的泛化性和推理能力的優(yōu)越性與描述長度存在顯著相關(guān)性。因此為進一步提升模型性能,數(shù)據(jù)在壓縮時應(yīng)遵循最小描述長度(Minimum Description Length,MDL)原則,即在壓縮數(shù)據(jù)的同時保持足夠的信息量以準確預(yù)測和理解數(shù)據(jù)。OpenAI團隊負責人Jack Rae曾在一場學術(shù)分享會上坦言大模型的本質(zhì)實際上是一個性能強大的數(shù)據(jù)無損壓縮器??梢姡瑝嚎s的過程實則建立在對于數(shù)據(jù)規(guī)則、統(tǒng)計特性等規(guī)律的尋找之上,其中便已經(jīng)具備了智能的大致輪廓。

弗魯塞爾(Vilém Flusser)曾在就人類存在過程的“文化史現(xiàn)象學”考察的過程中指出,由現(xiàn)代人所創(chuàng)造的零維度量子世界使一切呈現(xiàn)的可能性都轉(zhuǎn)變?yōu)橐粓鼋M合游戲[6] 14-15。這一判斷與當前人工智能知識生產(chǎn)邏輯不謀而合。在語言模型中,處理和生成文本的基本單元是“token”,它是一種編譯后具有意義的可作處理單元的字符串實例;而在以Sora為代表的文生視頻大模型中,通過在算法上融合diffusion和transformer兩種架構(gòu),這一基本單元則是視覺切片(visual patches),這是一種經(jīng)特定視覺編碼器壓縮后的包含時空信息的低維數(shù)據(jù)格式,能夠承載生成視頻的關(guān)鍵時空特征與動態(tài)變化信息??梢哉f,token實現(xiàn)了代碼、數(shù)字及各種自然語言的統(tǒng)一,patch則整合了圖像與視頻等多模態(tài)信息。通過將復(fù)雜的信息整合至基于“0”“1”的數(shù)字編碼中,不僅能夠在減少存儲需求的同時加速計算進程,還能顯著提高模型的可移植性和可部署性,從而使人工智能發(fā)展不斷向通用人工智能這一終極目標邁進。

(三)序列預(yù)測助力內(nèi)容編織

法國數(shù)學家博瑞爾(Emile Borel)曾在《統(tǒng)計力學與不可逆性》中提出了“無限猴子定律”(infinite monkey theorem),指出一只猴子在打字機上隨意敲出一部《哈姆雷特》在概率上的可能;維利里奧(Paul Viritio)則在考察視覺機器的技術(shù)邏輯時注意到其內(nèi)含的統(tǒng)計學意蘊,認為合成圖像事實上是一種通過對組成數(shù)碼再現(xiàn)像素的快速計算,并對緊隨其后的像素進行分析解碼進行生成的統(tǒng)計方法[7] 145。博瑞爾的思想實驗和維利里奧的深刻洞察共同揭示了生成式人工智能的基本運作邏輯,即二者均試圖表明連貫、自然的內(nèi)容生成在一定程度上可視為一場概率游戲,通過基于既有信息的預(yù)測方法能夠得到有效、期望的反饋結(jié)果。這種對現(xiàn)有及緊隨其后像素進行計算的技術(shù)洞察顯然已經(jīng)觸及當前人工智能內(nèi)容生成的根本邏輯,即一種基于既定內(nèi)容的概率鏈預(yù)測。這一觀念在當前基于大模型的生成式人工智能中得以貫徹,并形成了基于NTP(next token prediction)的技術(shù)框架。NTP策略強調(diào)通過深入挖掘既有的文本和上下文信息,精確預(yù)測序列中每個位置的后續(xù)詞匯,此乃構(gòu)建高效語言生成與理解系統(tǒng)之關(guān)鍵。NTP遠非單純的統(tǒng)計技巧,它是對機器理解語言深層含義及知識圖譜能力的度量,體現(xiàn)了從紛繁數(shù)據(jù)中提煉意義、壓縮并表達世界本質(zhì)的能力。因此,NTP不僅構(gòu)成了高級語言處理技術(shù)的應(yīng)用基礎(chǔ),也反映了人工智能在逼近人類語言智能方面取得的實質(zhì)性進展。OpenAI首席科學家在接受采訪時也不斷暗示NTP在GPT系列大模型成功中的關(guān)鍵作用。

需要強調(diào)的是,基于概率的序列預(yù)測使人工智能的內(nèi)容生成存在一定的不確定性。一方面,這種不確定性是由個體與機器間的知識差異所催生的。實際上人們在輸入相關(guān)提示詞時會預(yù)設(shè)一定的輸出結(jié)果,這種預(yù)設(shè)結(jié)果是個體基于自我經(jīng)驗及知識儲備所生成的內(nèi)容,但個體經(jīng)驗顯然無法超越已進行海量數(shù)據(jù)學習的AI的內(nèi)容儲備,個體建構(gòu)與機器生成之間的資源差異使內(nèi)容生成的不確定得以凸顯。另一方面,經(jīng)過海量數(shù)據(jù)學習的大模型能夠在更大的范疇內(nèi)遍歷可能的結(jié)果,因此可能會生成多個符合概率分布的內(nèi)容預(yù)測。喬姆斯基(Chomsky)在一次采訪中直言ChatGPT只是一種通過訪問海量數(shù)據(jù)生成不規(guī)則字符串,并以組合的方式使其看起來像人類作品的高級剽竊工具[8]。喬氏的斷言雖略顯激進,但在一定程度上觸及到生成式人工智能基于概率預(yù)測組合的技術(shù)實質(zhì),而這也是其在相同提示詞下輸出差異化內(nèi)容的重要原因。人工智能在內(nèi)容生成上的不確定看似影響了其在應(yīng)用過程中的可信任度,但也正是不確定性的存在為智能的涌現(xiàn)奠定了必要的生成條件。法國技術(shù)哲學家西蒙東(Gilbert Simondon)便指出機器真正的完美性或者說技術(shù)性程度的提高是由一種不確定性范圍來界定的,這種不確定性范圍能夠賦予機器對外來信息的敏感性[9] 3。換言之,機器的成熟并不單純依賴于其遵循預(yù)設(shè)指令的精確度,而在于其是否能在不確定的環(huán)境下展現(xiàn)出靈活的學習能力,這關(guān)乎復(fù)雜多變的現(xiàn)實世界中機器與人互動的動態(tài)性與適應(yīng)性。由此看來,序列預(yù)測驅(qū)動的內(nèi)容生成不僅僅是一場邏輯嚴密的概率游戲,更是人工智能通往更高維度智能的一座橋梁。它不僅要求AI在統(tǒng)計學與邏輯推理上達到新的高度,還促使其在不確定性環(huán)境中穩(wěn)定發(fā)揮創(chuàng)造潛力與技術(shù)適應(yīng)力,從而為AGI的實現(xiàn)奠定堅實的技術(shù)基底。

二、意義展褶:生成式人工智能的應(yīng)用想象

對于生成式人工智能這一現(xiàn)象級技術(shù)物,技術(shù)公司往往會通過技術(shù)腳本操演的方式為大眾摹畫一幅人機和諧共生的應(yīng)用藍圖。但作為一款持續(xù)迭代進化的產(chǎn)品,其技術(shù)發(fā)展中還蘊含著駁雜的社會想象以及多元的價值鋪陳,因此需要在展開技術(shù)褶皺的過程中窺視生成式人工智能的復(fù)雜機理,以此形成更為全面多元的整體觀照。

(一)世界模擬想象

OpenAI在技術(shù)報告中將Sora定義為一款世界模擬器(World Simulator),并旨在將其作為“構(gòu)筑物理世界通用模擬器的一條可行路徑”[10]。在其發(fā)布的視頻樣片中,不論是雪地中嬉戲的小狗,還是東京街頭漫步的女子,抑或是屋內(nèi)花朵綻放的定格動畫,其真實的景別呈現(xiàn)以及人物形象刻畫無不讓人感嘆其強大的現(xiàn)實場景還原能力。從這一維度而言,Sora似乎已經(jīng)初步掌握模擬物理世界的能力,其在內(nèi)容生成上愈發(fā)精細的編輯可能性以及更為突出的連續(xù)圖像處理能力使人們對生成式人工智能的內(nèi)容創(chuàng)作前景抱以樂觀的態(tài)度,并向外投射出社會對于世界模型(World Model)的再度思考。

從曾經(jīng)元宇宙的平行世界到如今Sora的世界模擬(World Simulation),人類似乎執(zhí)著于探索構(gòu)建與現(xiàn)實同在的虛擬世界。這一追求映射出人類對創(chuàng)造、控制與理解世界本質(zhì)的深切渴望。元宇宙概念曾激發(fā)了人們對一個沉浸式、交互式虛擬環(huán)境的無限遐想,它被設(shè)想為一個超越地理界限、融合現(xiàn)實與數(shù)字體驗的嶄新空間。而在人工智能的技術(shù)版圖中,世界模擬或世界模型實際上是一種高級的理論框架與實踐方法,旨在通過構(gòu)建復(fù)雜的、動態(tài)的計算模型來模仿和預(yù)測真實世界的結(jié)構(gòu)、行為及其內(nèi)在規(guī)律。戴維(David Ha)等人曾在人類認知系統(tǒng)的啟發(fā)下將智能體世界模型劃分為三個緊密相連、協(xié)同工作的組件,分別為視覺(Vision)、記憶(Memory)和控制器(Controller)[11],其工作流程是通過控制器將視覺感知模塊觀察到的高維內(nèi)容壓縮為一個小型表征性代碼,并通過內(nèi)置的記憶模塊根據(jù)歷史信息對未來狀態(tài)做出預(yù)測。而在實際應(yīng)用過程中,世界模型旨在建立一個可反復(fù)試錯的環(huán)境以推動制定現(xiàn)實最優(yōu)決策,其核心作用便是通過反事實推理(Counterfactual reasoning)模擬生成數(shù)據(jù)中并未存在的決策??梢?,由人工智能所驅(qū)動的世界模擬更像是優(yōu)化、調(diào)節(jié)現(xiàn)實世界的模擬器,試圖在虛擬環(huán)境中復(fù)現(xiàn)人類社會的動態(tài)互動與經(jīng)濟活動,這不僅是一種促進人類復(fù)歸自然的技術(shù)嘗試,也能在反復(fù)的調(diào)試中觸摸物理世界真實的內(nèi)在本質(zhì)。然而,弗魯塞爾在對由計算(Komputationen)重構(gòu)的經(jīng)濟情景與“現(xiàn)實中的經(jīng)濟狀況”間的切實程度進行追問的過程中指出,其間彌漫的不真實會讓人產(chǎn)生不寒而栗的顫栗感(Gruseln)[6] 5,而在世界模擬所營造的虛擬空間之中,這一問題同樣值得深思。

除此之外,作為一個承載宏大科技愿景的技術(shù)概念,“世界模擬器”在一定程度上仍屬于科技公司精心編織的“技術(shù)腳本”,旨在通過這樣的方式引導社會的技術(shù)想象,并借此爭奪人工智能發(fā)展所需的技術(shù)資源。OpenAI正是憑借對話模型ChatGPT、文生視頻大模型Sora等生成式人工智能的先發(fā)優(yōu)勢而獲得極大的關(guān)注與資源傾斜,以至于其后的Gemini、Claude等大模型即使在性能上與其相差無幾,卻都只能被視為暗淡的“追隨者”。由此可見,單一企業(yè)主導的技術(shù)敘事框架會在一定程度上遮蔽技術(shù)發(fā)展的多樣可能,因而需多視角地整合信息,以更加全面的認知視野去洞穿那些特定利益導向所營造的信息壁障。

(二)人機關(guān)系演進

生成式人工智能技術(shù)的涌現(xiàn),正深度重塑著人類社會的勞動關(guān)系架構(gòu)與人機交互的內(nèi)涵。以ChatGPT、百度文心一言為代表的對話式人工智能,憑借其精湛的自然語言處理能力,已作為智能行動者積極參與到人類社會的溝通網(wǎng)絡(luò)之中,并在一定程度上重塑著知識獲取與生產(chǎn)的傳統(tǒng)范式。生成式人工智能通過模擬復(fù)雜的人類語言表達與創(chuàng)新思維過程,極大提升了交互體驗的自然流暢度與感知的真實性,從而在操作層面溝通了橫亙于人機間的交往隔閡,模糊了傳統(tǒng)二元對立的人機界線。此番轉(zhuǎn)型不僅革新了個體內(nèi)在與技術(shù)外在互動的模式,還激起了對信任機制重構(gòu)、社會結(jié)構(gòu)動態(tài)調(diào)整的深度哲學與社會學層面的反思。

首先,從信任與依賴的理論維度看,生成式人工智能在信息處理的高精度、個性化服務(wù)定制及創(chuàng)意內(nèi)容自動生成上的高效表現(xiàn),有效增強了用戶的信任基礎(chǔ)與長期使用意愿,同時,這也引發(fā)了圍繞技術(shù)自主權(quán)限、隱私權(quán)益保護以及人機協(xié)作責任歸屬的倫理與法理學爭議。這一系列復(fù)雜議題迫使我們重新評價科技進步與個體自由、隱私權(quán)維護之間固有的緊張關(guān)系,并探索設(shè)計符合信息時代需求的法律框架與倫理規(guī)范體系,以協(xié)調(diào)技術(shù)發(fā)展與個體權(quán)利的和諧共存。

其次,生成式AI對于勞動市場結(jié)構(gòu)與職業(yè)生態(tài)存在潛在的顛覆性影響。自ChatGPT面世以來,社會中對于文案創(chuàng)作、語言翻譯等職業(yè)領(lǐng)域的自動化替代焦慮已初露端倪;而在Sora這類文生視頻大問世后,更是進一步引發(fā)了影視制作、廣告創(chuàng)意等具備較高從業(yè)門檻的行業(yè)對自身未來角色定位的思考。隨著生成式人工智能技術(shù)應(yīng)用的廣泛鋪開,人機深度融合將成為未來勞動形態(tài)的新常態(tài),這對社會個體迅速適應(yīng)技能更新提出了更高要求,同時,在宏觀層面上,如何應(yīng)對AI對教育體系的重塑、職業(yè)發(fā)展路徑的重新規(guī)劃以及確保社會公平正義,成為亟待解決的重大課題。為緩解技術(shù)革新可能引起的就業(yè)結(jié)構(gòu)失衡,教育體系的前瞻性改革、終身學習理念的普及以及政策制定者的主動介入或?qū)⒊蔀榫S護社會穩(wěn)定與進步的關(guān)鍵環(huán)節(jié)。

三、實踐追問:生成式人工智能涌現(xiàn)的困境遮蔽

生成式人工智能技術(shù)的迅猛發(fā)展與快速迭代催生了涵蓋自然語言處理、藝術(shù)創(chuàng)作在內(nèi)的一系列創(chuàng)新應(yīng)用,其影響力已廣泛滲透至社會生活的各個角落。然而,在這股技術(shù)浪潮之下,為其所遮蔽的困境與挑戰(zhàn)亦亟待進行深入而細致的反思與探討。

(一)塌縮的世界想象

利奧塔(Jean-Fran?ois Lyotard)在考察最發(fā)達社會(the most highly developed societies)中的知識傳遞這一話題時指出,知識可經(jīng)由計算機語言轉(zhuǎn)譯,并通過數(shù)據(jù)庫替代圖書館等傳統(tǒng)存儲器實現(xiàn)與學生使用的智能終端的連接,這些數(shù)據(jù)庫將成為后現(xiàn)代人的“自然”[12] 177-178。換言之,在高度發(fā)達的現(xiàn)代社會中,經(jīng)由二進制轉(zhuǎn)換的數(shù)字“世界”將逐步侵占人們對于現(xiàn)實物理世界的關(guān)注,人類的認識活動也將建立在同數(shù)據(jù)庫的對話之上。ChatGPT、Sora、Suno等生成式人工智能的普泛應(yīng)用逐漸構(gòu)建起涵蓋圖文、音視頻的多模態(tài)內(nèi)容生成矩陣,基于提示詞“喚起”的內(nèi)容生產(chǎn)模式已然成為數(shù)智社會的重要表征,這似乎在一定程度上印證了利奧塔的深刻洞見。即便內(nèi)容的生成仍很大程度上依賴于人類的文字提示與描述,但AI實則基于自身對于世界及內(nèi)容的理解“接管”了內(nèi)容生產(chǎn)的最終走向,從而成為內(nèi)容生產(chǎn)的代理人和真正實踐者。在這種技術(shù)主導文化偏好和內(nèi)容創(chuàng)作方式的現(xiàn)實境遇下,“想象力塌縮”便成為一種悲劇性的可能。

首先,就Sora這類凝聚多模態(tài)生產(chǎn)能力的人工智能而言,尚未了解其運作機理的普通用戶可以將其視為一個文字轉(zhuǎn)視頻的視覺裝置。但這一內(nèi)容模態(tài)的轉(zhuǎn)化過程并非簡單的輸入與輸出,而是需要介入更為復(fù)雜的信息處理過程:人們首先需要將大腦中的視頻構(gòu)想抽象化為線性的、富有邏輯的文字,然后將其作為提示詞引導智能機器輸出對應(yīng)的內(nèi)容。然而,當思想抽譯為文字,再經(jīng)過智能機器轉(zhuǎn)化為二進制代碼,最后通過概率式的預(yù)測輸出具象的視頻內(nèi)容時,原本自由流淌的想象力便逐漸淪為規(guī)范、嚴謹?shù)臄?shù)字比率,最后通過預(yù)測生成的文本或視頻無疑是對人類想象力的一種侵吞與蠶食。

除此之外,抽象的文字凝練本身是一種極具挑戰(zhàn)的認知程式,并非所有人都具備將大腦中飄渺的想法凝結(jié)為文字的能力。因此在實際使用過程中輸出的內(nèi)容必然只能無限趨近于人們的顱內(nèi)想象,或者說人們是在觀看生成的視頻后才逐漸將大腦中原本模糊的畫面進一步明晰。由此便牽涉出文生視頻的二重想象折損:一方面,人們試圖通過高信息密度的文字轉(zhuǎn)譯大腦中尚未成型的畫面想象,但抽象文字實則無法將此類想象完全統(tǒng)合歸納,由此便形成了想象力的第一重折損;而當人們借助Sora這類文生視頻模型將文字中介的大腦想象具象化為視頻后,受首因效應(yīng)、路徑依賴等心理機制的影響,AI生成的視頻會極大地影響人們后續(xù)的思考方式。也就是說當人們再次喚起相關(guān)的內(nèi)容想象時,便會不自覺地代入最初由AI所生成的信息,進而限制個體對于相關(guān)事物的想象。同時,大模型訓練過程中對于人類已有數(shù)據(jù)的把握,也使AI生成內(nèi)容無法跳脫已有的認知邊界,自然也無法精準還原人類天馬行空的無盡想象??梢姡绻鸖ora的應(yīng)用最終指向普通個體,那它必然會處于人類想象力拉扯的舞臺中心,一邊是認知經(jīng)驗固化所帶來的想象塌縮,另一方則是浸潤技術(shù)環(huán)境中人們對于AI還原想象的技術(shù)依賴,人類獨有的、經(jīng)由沉浸式的思考所激活的創(chuàng)造力天賦也由此面臨被擱置的風險。

(二)失語的資源消耗

自ChatGPT觸發(fā)全球范圍內(nèi)的人工智能熱潮以來,學界與業(yè)界的聚焦點多集中于該技術(shù)的應(yīng)用潛能、風險評估及相應(yīng)規(guī)制框架的構(gòu)建方面,卻相對忽視了其作為商業(yè)化產(chǎn)品的基本屬性。此現(xiàn)象揭示了一個值得深究的維度:人工智能,尤其是生成式人工智能,作為一種重度依賴數(shù)據(jù)與算力資源的創(chuàng)新產(chǎn)品,其資源消耗問題是一個不容回避的議題。

控制論先驅(qū)諾伯特·維納(Norbert Wiener)曾強調(diào)信息的傳遞是建立在能量消耗的基礎(chǔ)之上[13] 39。在生成式AI的實踐圖景中,這種消耗體現(xiàn)在兩個關(guān)鍵環(huán)節(jié):一是模型訓練階段對既有數(shù)據(jù)集的深度學習與模式提煉;二是用戶交互時的即時反饋與個性化信息處理。前者重度依賴于GPU、NPU等核心運算硬件,后者則在硬件依賴的基礎(chǔ)上強調(diào)云服務(wù)的接入,這種雙重信息傳遞機制無疑需要龐大的能源作為基礎(chǔ)設(shè)施支撐。相關(guān)產(chǎn)業(yè)報告顯示,前沿模型的訓練成本已經(jīng)達到前所未有的水平。GPT-4預(yù)估使用了7800萬美元的計算資源進行訓練,谷歌的Gemini Ultra計算成本更是高達1.91億美元[14]。相比之下,此前發(fā)布的Transformer模型(2017年)與RoBERTa Large(2019年)的訓練成本則分別約為900美元與16萬美元。雖然當前生成式AI的供應(yīng)廠商已經(jīng)通過會員服務(wù)等方式實現(xiàn)部分盈利,但面對巨量的資源消耗,此類收益顯然是杯水車薪。隨著技術(shù)向日常生活領(lǐng)域的加速滲透,遵循資本增值邏輯的企業(yè)勢必通過提高服務(wù)費用等方式實現(xiàn)成本分攤,進而無形中構(gòu)筑起不同社會階層間技術(shù)可及性的新壁壘。

此外,海量資源的投入直接映射于模型性能的顯著差異。OpenAI即憑借其在數(shù)據(jù)與算力上的大規(guī)模投資,不斷引領(lǐng)著人工智能領(lǐng)域發(fā)展方向,其ChatGPT模型在英語自然語言處理上的卓越表現(xiàn)便是明證。而中文領(lǐng)域尚存的發(fā)展空間,也為本土生成式人工智能的發(fā)展提供了追趕的契機。由此可見,大型模型效能的提升高度依賴于海量數(shù)據(jù)的學習,這一過程不僅需要海量文本、音視頻等多模態(tài)資源,更伴隨著巨額資本的注入。這使得人工智能的發(fā)展路徑不可避免地遭受資本主義經(jīng)濟邏輯的影響。OpenAI最初高調(diào)宣稱將借助通用人工智能造福全人類,但在資源消耗日益加劇的背景下,開源的選擇不得不陷入兩難境地:一方面是個體企業(yè)成本回收的難題,另一方面則是閉源可能導致的社會資源重復(fù)配置與浪費。在現(xiàn)行資本主義框架內(nèi),如何平衡這兩方面矛盾,短期內(nèi)似乎難以覓得理想解決方案。

(三)速朽的內(nèi)容生成

以ChatGPT與Sora為標志的生成式人工智能大模型,其運作核心在于持續(xù)的數(shù)據(jù)滋養(yǎng),旨在確保生成內(nèi)容與提示指令的高度契合。這意味著為滿足個體在人類社會日益豐富多元的經(jīng)驗背景與知識迭代中的需求變化,生成式人工智能的學習必須不斷獲取新興的數(shù)據(jù)資料。這一顯著的數(shù)據(jù)依賴性將Sora等AI的內(nèi)容創(chuàng)造置于矛盾的境地:一方面,AI內(nèi)容生成的本質(zhì)是對人類想象力的模擬與回應(yīng),而想象與現(xiàn)實的固有差距,要求生成過程高度敏感于用戶提示的微妙調(diào)整,由此生成的內(nèi)容便展現(xiàn)出一種瞬時性特征,即永恒地在反映人類想象的鏡像中徘徊,卻難以觸及持久的創(chuàng)造性深度。另一方面,伴隨用戶基數(shù)的增長,AI視頻在網(wǎng)絡(luò)空間的泛濫,以其超高的生成效率逐漸壓縮人類原創(chuàng)內(nèi)容的生存空間,預(yù)示著人工視頻可能面臨邊緣化風險。更為關(guān)鍵的是,這些充斥網(wǎng)絡(luò)的AI產(chǎn)出物,最終將回饋至如OpenAI等技術(shù)公司的訓練數(shù)據(jù)庫,形成一種“數(shù)據(jù)反饋循環(huán)”,其中蘊含的大量低質(zhì)或重復(fù)內(nèi)容如同“數(shù)據(jù)泔水”一般。依據(jù)“垃圾進,垃圾出”機器學習法則,不可避免地對AI的后續(xù)學習質(zhì)量構(gòu)成挑戰(zhàn),進而同人類所追求的高質(zhì)量智能發(fā)展的目標背道而馳。

此外,生成式AI對世界的理解,根植于算法邏輯與“0”“1”二進制編碼構(gòu)建的數(shù)字化宇宙,是弗魯塞爾筆下點狀、零散分布的高度抽象產(chǎn)物。這意味著其所有的認知活動均通過編碼的中介進行,與物理現(xiàn)實世界的直接接觸并非其本質(zhì)屬性。因此,AI所生成的內(nèi)容實質(zhì)上是對虛擬信息的解碼與再構(gòu)建,以及基于數(shù)字轉(zhuǎn)換的虛擬場景與敘事再造。盡管文本本身作為一種現(xiàn)實的抽象轉(zhuǎn)譯能夠幫助ChatGPT等對話式AI營造出難以辨識真實與虛構(gòu)界限的交流體驗,但Sora等文生視頻技術(shù)的出現(xiàn)則更深層次地將現(xiàn)實世界抽象化、虛像化,數(shù)字比特重組拼接的內(nèi)容生成在一定程度上喪失了現(xiàn)實世界中經(jīng)驗的直觀與真實,僅留存數(shù)字化轉(zhuǎn)化的痕跡。同時,這一過程亦凸顯出生成式AI在模擬現(xiàn)實與創(chuàng)造新知方面的局限性,以及其內(nèi)容生成背后版權(quán)所屬、責任界定等復(fù)雜的技術(shù)與社會倫理議題。

四、人機協(xié)同:生成式人工智能的未來進路

海德格爾(Martin Heidegger)曾對技術(shù)中性的話語進行批判,認為這一論調(diào)使人類對技術(shù)之本質(zhì)盲然無知[15] 3。美國技術(shù)哲學家蘭登·溫納(Langdon Winner)則將技術(shù)視為一種異質(zhì)性主體,指出其在發(fā)展過程中會逐漸進化為一種自主、獨立的自主性力量[16] 13。人工智能內(nèi)在的價值負荷以及算法運作中不可避免的黑箱也揭示其非價值無涉與中立的基本屬性,因而對生成式人工智能未來發(fā)展路徑的展望不應(yīng)單純聚焦于技術(shù)如何為人類所用,而應(yīng)將其視為能動的行動者,進而聚焦人與機器的協(xié)同進化路徑。

(一)價值對齊疏導人機潛在沖突

能力日益增強、應(yīng)用場景不斷泛化的生成式人工智能已逐漸滲透至人類社會生產(chǎn)的多個方面,但機器學習的不可控性、算法的黑箱特性等技術(shù)特質(zhì)使其在生成內(nèi)容上存在錯誤信息(misinformation)、幻覺(hallucination)、不一致信息(inconsistency)等不準確信息和偏見、隱私敏感內(nèi)容等不良信息以及諸如意識(Awareness)、欺騙(Deception)、權(quán)力尋求(Power-Seeking)等足以引發(fā)人機沖突的潛在隱患。這類內(nèi)容的出現(xiàn)不僅限制了AI的應(yīng)用場景,更引發(fā)了社會對于人工智能潛在風險的憂慮,因而需要在人工智能發(fā)展的未來圖景中注入價值對齊的技術(shù)因子。

諾伯特·維納(Norbert Wiener)曾在就人機關(guān)系的考察中指出,可通過確定機器中所輸入的目標與行動期望(desire)是否相符的方式在無法有效干預(yù)運行的機器中達到特定目的(purpose)[17] 1355-1358。作為控制論之父,維納的深刻洞見在一定程度上奠定了人機價值對齊方法范式,即通過預(yù)先植入人類標準的方式避免機器出現(xiàn)有悖于人類期望的行動偏向。在機器復(fù)雜程度日益提升的數(shù)智時代,價值對齊(Value Alignment)旨在使人工智能系統(tǒng)的行為與人類的意圖和價值觀相一致,進而確保其能夠捕捉到我們的規(guī)范和價值觀,理解我們的意圖并以我們想要的方式行事[18] 10,使其更好地融入人類社會并促進技術(shù)與社會的和諧共處[19] 415-418。實踐層面的價值對齊主要涵蓋前向?qū)R(Forward Alignment)與后向?qū)R(Backward Alignment)兩個維度。前者通過反饋學習、分布偏移學習等對齊訓練實現(xiàn),后者則借由安全評估、生成測試用例(red teaming)等保險(Assurance)方式以及政府法規(guī)、實驗室自治等治理(Governance)方式實現(xiàn)對齊細化[20]。而通過技術(shù)設(shè)計實現(xiàn)人工物系統(tǒng)中“價值偏差”最小化的價值敏感性設(shè)計亦是價值對齊的可行路徑之一[21] 77-83。

同時,我們還應(yīng)注意到頭部AI產(chǎn)品對于價值對齊的“定義權(quán)”。漢娜·阿倫特(Hannah Arendt)曾在就“工具制造者”的反思中指出,技藝人所創(chuàng)造產(chǎn)品的“客觀”目的能夠決定器具的合用與精確程度[22] 111。這啟示我們在涉及人機價值對齊的理性實踐中更應(yīng)關(guān)注作為人類社會普遍遵循的“客觀”價值,不能因技術(shù)公司主導的AI產(chǎn)品的先進程度而將這一重要的定義權(quán)讓渡,以此維系人類社會中倫理、道德規(guī)范等價值的公共屬性,避免人機間的關(guān)系沖突。

(二)黑箱稀釋構(gòu)筑人機信任紐帶

信任是人機關(guān)系得以良性發(fā)展的重要依托,也是人工智能治理得以實施的前提和基礎(chǔ)。對于人工智能技術(shù)開發(fā)、配置和使用的信賴不僅是技術(shù)的內(nèi)在屬性和要求,也是設(shè)計人工智能應(yīng)用技術(shù)-社會系統(tǒng)的屬性所指[23] 44-51。然而,作為生成式人工智能的底層技術(shù)之一,深度神經(jīng)網(wǎng)絡(luò)(DNNs)的“黑箱”本質(zhì)及其廣泛的參數(shù)化妨礙了自動駕駛、醫(yī)療等關(guān)鍵應(yīng)用中所需的透明度的展示,從而引發(fā)了人們對于高風險環(huán)境下大模型可靠性的擔憂。即便能夠?qū)⒁?guī)模法則作為其智能快速迭代的理論參照,但其核心機理仍不為人們所知。因此在通往人機協(xié)同的通用人工智能道路上,對于人工智能技術(shù)黑箱的稀釋將成為其持續(xù)發(fā)展不可規(guī)避的技術(shù)使命與追求。

在此背景下,可解釋人工智能(Explainable Artificial Intelligence,XAI)已然成為一條理想的技術(shù)路徑。其旨在為當今強大但不透明的深度學習模型帶來透明度,局部解釋與全局解釋是當前XAI研究中兩條主要的技術(shù)路線:前者以屬性圖(attribution map)的形式解釋單個預(yù)測,后者則在可視化模型的過程中習得編碼概念[24] 1006-1019。除此之外,XAI包括三個核心范疇。一是深度模型的解釋,旨在同各闡明模型在每個實例基礎(chǔ)上的預(yù)測理由提升透明度和信任;二是聚焦訓練數(shù)據(jù)的影響,通過準確指出對模型輸出產(chǎn)生巨大影響的數(shù)據(jù)點,促進訓練過程的改進以及模型的簡化;三是關(guān)注領(lǐng)域知識的洞察,進而為其高風險領(lǐng)域中的應(yīng)用提供有益的指導[25]。目前,以O(shè)penAI為代表的頭部AI企業(yè)已投入到可解釋人工智能的研究進程中。2024年6月,OpenAI在其新發(fā)布的技術(shù)論文中提出通過改進稀疏自編碼器(Sparse Autoencoders,SAEs)提升GPT-4的可解釋性,這一方式通過識別神經(jīng)網(wǎng)絡(luò)中對輸出結(jié)果產(chǎn)生重要影響的“特征”來增進模型的可解釋性,進而提高模型整體的透明度和泛化能力。由是觀之,智能黑箱的破解不僅是人工智能發(fā)展的技術(shù)追求,也是借由信任紐帶提升人機協(xié)同進化進程的行動所指。

五、結(jié)語

在關(guān)于后現(xiàn)代知識結(jié)構(gòu)及其性質(zhì)的考察中,利奧塔指出未來的教育將不再是內(nèi)容的撒播,而是傳授終端的使用,即“向哪里提出問題?怎樣提出問題才能避免錯誤?”[13] 177-178。隨著生成式人工智能的迅速迭代以及于人類日常生活的深入滲透,人類似乎已經(jīng)步入利奧塔所預(yù)見的世界:人們懷揣特定的問題向ChatGPT尋求答案;抑或是將自己的想象訴諸文字,然后經(jīng)由Sora等文生視頻模型予以具象呈現(xiàn)……生成式人工智能從多個維度為人類的交往方式、知識生產(chǎn)注入新的可能,在此過程中人類似乎也始終以主體性的姿態(tài)對智能體提出需求。但我們不應(yīng)就此忽視行動網(wǎng)絡(luò)中智能體的能動潛力以及技術(shù)生態(tài)的整體性,也不應(yīng)在技術(shù)迅猛迭代之時過分趨鶩于新興產(chǎn)品的嶄新特性,而是應(yīng)該嘗試用類型學的方法觸碰伏脈其中的技術(shù)肌理,深入分析它們是如何嵌入社會系統(tǒng),如何影響人類的認知習慣、社會關(guān)系以及文化生產(chǎn),進而為技術(shù)發(fā)展注入更為全面、深遠的人文考量。

對于生成式人工智能所觸發(fā)的生態(tài)變革可能性,目前雖未有定論,但其作為技術(shù)發(fā)展史中的關(guān)鍵節(jié)點儼然已成共識。在此背景下,研究者與決策者需超越對新興技術(shù)表層特性的追逐,轉(zhuǎn)而聚焦于長遠的技術(shù)-社會協(xié)同進化路徑。這意味著在思考人機關(guān)系時應(yīng)摒棄二元對立的替代論調(diào),而應(yīng)通過價值對齊、黑箱稀釋等實踐舉措強調(diào)技術(shù)適應(yīng)性融合下的協(xié)同進化。通過深入探討其在可預(yù)見歷史時段內(nèi)的發(fā)展趨勢,以及如何在確保技術(shù)進步與人類價值體系和諧共生的框架下,推動技術(shù)的負責任發(fā)展。

[參考文獻]

[1] 吉爾·德勒茲.褶子:萊布尼茨與巴洛克風格(修訂譯本)[M].楊潔,譯.上海:上海人民出版社,2021.

[2] J. Kaplan, Sam McCandlish, T. Henighan, et al. Scaling Laws for Neural Language Models[EB/OL]. ArXiv,https://arxiv.org/pdf/2001.08361.

[3] Jason Wei, Yi Tay, Rishi Bommasani, et al. Emergent Abilities of Large Language Models[EB/OL]. ArXiv,https://arxiv.org/pdf/2206.07682.

[4] Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM,2017,(6).

[5] C. Shannon. A mathematical theory of communication[J]. Bell Syst. Tech. J., 1948.

[6] 威廉·弗魯塞爾.表象的禮贊:媒介現(xiàn)象學[M].周海寧,許凌波,周軒,譯.上海:復(fù)旦大學出版社,2023.

[7] 保羅·維利里奧.視覺機器[M].張新木,魏舒,譯.南京:南京大學出版社,2014.

[8] 喬姆斯基談ChatGPT:這是一種高科技剽竊[EB/OL].澎湃新聞,2023-02-25.https://www.thepaper.cn/newsDetail_forward_22066562.

[9] 吉爾貝·西蒙東.論技術(shù)物的存在模式[M].許煜,譯.南京:南京大學出版社,2024.

[10] OpenAI. Video generation models as world simulators[EB/OL].2024-02-15.https://openai.com/research/video-genera

tion-models-as-world-simulators.

[11] David Ha, Jürgen Schmidhuber. World Models[EB/OL].ArXiv,https://arxiv.org/pdf/1803.10122.

[12] 讓-弗朗索瓦·利奧塔爾.后現(xiàn)代狀態(tài):關(guān)于知識的報告[M].車槿山,譯.南京:南京大學出版社,2011.

[13] Norbert Wiener. The Human Use of Human Beings: Cybernetics and Society[M]. New York: Doubleday,1954.

[14] Stanford HAI. 2024 AI Index Report[EB/OL]. https://hai.stanford.edu/research/ai-index-report.

[15] 海德格爾.演講與論文集[M].孫周興,譯.上海:生活·讀書·新知三聯(lián)書店,2005.

[16] 蘭登·溫納.自主性技術(shù):作為政治思想主題的失控技術(shù)[M].楊海燕,譯.北京:北京大學出版社,2014.

[17] Norbert Wiener. Some Moral and Technical Consequences of Automation: As machines learn they may develop unforeseen strategies at rates that baffle their programmers.[J]. Science,1960,(3410).

[18] 布萊恩·克里斯汀.人機對齊[M].唐璐,譯.長沙:湖南科學技術(shù)出版社,2023.

[19] Russell S , Hauert S , Altman R ,et al. Robotics: Ethics of artificial intelligence[J]. Nature, 2015, (7553).

[20] Ji J, Qiu T, Chen B, et al. AI Alignment: A Comprehensive Survey[EB/OL]. AarXiv, https://arxiv.org/pdf/2310.19852.

[21] 張浩鵬, 夏保華.價值敏感性設(shè)計透視:背景、現(xiàn)狀、問題與未來[J].自然辯證法研究,2023,(4).

[22] 漢娜·阿倫特.人的境況[M].王寅麗,譯.上海:上海人民出版社,2009.

[23] 頓新國.可解釋人工智能問題[J].江蘇行政學院學報,2023,(3).

[24] Achtibat R, Dreyer M, Eisenbraun I, et al. From attribution maps to human-understandable explanations through Concept Relevance Propagation[J]. Nature Machine Intelligence, 2023,(9).

[25] Xiong H, Li X, Zhang X, et al. Towards Explainable Artificial Intelligence (XAI): A Data Mining Perspective[M]. arXiv,2024.

[責任編輯:胡 梁 實習生:秦 溢]

鸡西市| 莱西市| 陇西县| 承德市| 潞西市| 广东省| 鞍山市| 教育| 罗田县| 盐池县| 芜湖市| 延庆县| 巢湖市| 蓬安县| 西乌| 油尖旺区| 龙泉市| 西华县| 鹤庆县| 通海县| 阳东县| 洞头县| 枣庄市| 阜阳市| 灌南县| 普洱| 平乐县| 南岸区| 永嘉县| 西和县| 内乡县| 报价| 浠水县| 莎车县| 苍梧县| 晋州市| 汤原县| 长宁区| 灵丘县| 伊通| 乐至县|