榮智慧
第歐根尼錯(cuò)了。
柏拉圖沒(méi)有死在婚宴上,而是死于臥榻,旁邊一位色雷斯女奴正演奏長(zhǎng)笛。即使生命垂危,80歲的柏拉圖也能敏銳地指出演奏者的錯(cuò)誤。
公元79年,維蘇威火山爆發(fā),灰燼吞沒(méi)意大利龐貝、赫庫(kù)蘭尼姆和斯塔比亞。1900多年后,上百卷碳化的紙莎草卷軸正逐一經(jīng)受人工智能破譯。柏拉圖之死是4月30日最新揭開(kāi)的謎底。
站在科技的懸崖前,凝視時(shí)間深處,“維蘇威挑戰(zhàn)”凝結(jié)起計(jì)算機(jī)科學(xué)家、古文字學(xué)家、哲學(xué)家和投資人的智慧,向世人展示古代世界不為人知的燦爛文化。
人工智能不是人類生存和職業(yè)的威脅,只是解放人類的工具:它所能挖掘的歷史,呈現(xiàn)的不僅僅是人類文明的未來(lái)。
2023年8月下旬,一個(gè)普通的星期六晚上,21歲的盧克·法里托離開(kāi)了朋友聚會(huì),開(kāi)車回宿舍。他是內(nèi)布拉斯加大學(xué)林肯分校計(jì)算機(jī)科學(xué)專業(yè)的本科生。
上車前,一條訊息從手機(jī)上彈了出來(lái),差點(diǎn)讓他摔個(gè)大跟頭。半年來(lái),法里托一直研究用X射線掃描古代紙莎草卷軸,一周超過(guò)40個(gè)小時(shí)。聚會(huì)時(shí),他也沒(méi)忘了遠(yuǎn)程登錄電腦,用人工智能模型檢測(cè)一截新片段。
手機(jī)屏上有三個(gè)希臘字母—π、ο、ρ。近兩千年來(lái),法里托是第一個(gè)閱讀它們的人。
此刻,他距離“維蘇威挑戰(zhàn)”賽首獎(jiǎng)只有一步之遙。首獎(jiǎng)規(guī)定,以待研究的紙莎草卷軸為藍(lán)本,第一個(gè)在4平方厘米的區(qū)域內(nèi)找到10個(gè)清晰字母的人,贏4萬(wàn)美元。
改進(jìn)搜索模型后,法里托很快擊中了一個(gè)古希臘詞:“πορφ?ραc”,意思為“紫色”。沒(méi)多久,柏林自由大學(xué)生物機(jī)器人專業(yè)研究生優(yōu)素福·納德,也找到了這個(gè)詞。作為第二名,他拿到1萬(wàn)美元獎(jiǎng)金。
古羅馬博物學(xué)家老普林尼在《自然史》中介紹,紫色染料只能從貝類中提取。
這個(gè)秘密是希臘神話中“大力神”赫拉克勒斯發(fā)現(xiàn)的。海邊閑逛時(shí),他的狗咬碎了一枚骨螺,濺出一攤紫色。赫拉克勒斯從此身著紫袍,還將此法秘傳給了腓尼基的提洛斯人???0000個(gè)骨螺才能制出1克的珍貴“泰里安紫”染料,腓尼基人建立了龐大的商業(yè)帝國(guó)。
《馬可福音》提到,耶穌遭羅馬士兵鞭打,被迫身著羅馬皇帝才能穿的紫色長(zhǎng)袍。士兵們朝他吐口水,嘲笑他,“向你致意了,猶太王”,然后將他釘在十字架上。
塵封兩千年的古卷軸的篇章,就從一個(gè)不可思議的“紫色”開(kāi)始了。
公元79年,維蘇威火山爆發(fā),意大利西南部的小鎮(zhèn)赫庫(kù)蘭尼姆,很快淹沒(méi)在20米厚的熱泥之下。和龐貝不同,面向那不勒斯灣的赫庫(kù)蘭尼姆被埋得更深,建筑、家具和食品保存得更好。
赫庫(kù)蘭尼姆比龐貝富裕,很多房屋都帶彩色大理石外墻。郊外坐落著羅馬時(shí)代最豪華的別墅,據(jù)信由凱撒大帝的岳父盧修斯·卡爾普尼烏斯·皮索·凱索尼努斯擁有。
差不多1700年后,當(dāng)?shù)剞r(nóng)民挖井時(shí)意外發(fā)現(xiàn)了別墅的殘?jiān)珨啾?。尋找寶藏的同時(shí),農(nóng)民還刨出一大堆看起來(lái)像煤塊的東西。
這些黑乎乎的“煤塊”就是卷軸—也稱紙莎草卷軸。紙莎草廣泛分布在尼羅河三角洲地帶,古埃及人用它造紙。凱索尼努斯的別墅里有一座圖書館,內(nèi)藏1000多卷紙莎草卷軸。
2023年初,西爾斯的學(xué)生斯蒂芬·帕森斯證實(shí),機(jī)器學(xué)習(xí)模型可以進(jìn)一步辨別紙莎草上的細(xì)微痕跡。
火山噴發(fā)時(shí)產(chǎn)生的高溫、低氧令卷軸碳化。事也湊巧—?jiǎng)e墅距離火山的位置“不遠(yuǎn)不近”,溫度也“不冷不熱”,導(dǎo)致所有的東西都被“碳化”,而不是被點(diǎn)燃。碳化之后,泥石流奔涌而來(lái),將整個(gè)別墅與細(xì)菌、空氣隔絕開(kāi)來(lái)。
這是有史以來(lái)唯一一個(gè)完整幸存下來(lái)的古代圖書館,其中包含很多早已散佚的經(jīng)典。像伊壁鳩魯?shù)摹墩撟匀弧?,菲洛德穆的《論善惡》,以及斯多葛派哲學(xué)家克律西波斯700部作品里的三分之一,都還在。
多年來(lái),人們一直想打開(kāi)這些卷軸,很多努力都白費(fèi)了。因?yàn)樗鼈兙拖裾ǖ锰沟拇壕恚慌鼍退椤?/p>
1756年,梵蒂岡手稿策展人安東尼奧·比亞喬發(fā)明了一種機(jī)器,一次可以拆開(kāi)幾毫米。他花了四年時(shí)間才展開(kāi)第一個(gè)卷軸,還令人痛心地弄破了不少。
1802年,那不勒斯國(guó)王斐迪南四世向拿破侖·波拿巴贈(zèng)送了六幅卷軸,后來(lái)由巴黎法蘭西學(xué)院保管。有傳言說(shuō),斐迪南四世還給了當(dāng)時(shí)英國(guó)攝政王、后來(lái)的國(guó)王喬治四世18個(gè)卷軸,換來(lái)18只袋鼠。這些來(lái)自澳大利亞的稀罕物就養(yǎng)在那不勒斯某別墅的花園里。
在任何時(shí)代,卷軸都是無(wú)上至寶。如果能閱讀它們,就更好了。
學(xué)者們保守估計(jì),未開(kāi)封的卷軸中,至少有30多種人們從來(lái)沒(méi)見(jiàn)過(guò)的歷史著作,涵蓋從希臘到羅馬、從西方到東方的作者及學(xué)派。
2002年,肯塔基大學(xué)計(jì)算機(jī)科學(xué)教授布倫特·西爾斯正訪問(wèn)倫敦大英圖書館。當(dāng)時(shí)他和一位同事要制作公元8世紀(jì)敘事長(zhǎng)詩(shī)《貝奧武甫》手稿的數(shù)字版本。
圖書館保管員拿出一份手稿給他看,彼此都十分惋惜。手稿損壞得太嚴(yán)重了,根本無(wú)法打開(kāi)。
西爾斯發(fā)明了“虛擬拆封”三步法,在不打開(kāi)卷軸的情況下閱讀內(nèi)容。
首先,使用X射線進(jìn)行3D掃描,該技術(shù)與CT掃描的技術(shù)相同。其次,分析掃描結(jié)果,找到彎曲的單層,同時(shí)將單層壓平。最后,在已經(jīng)2D化的平面層中,尋找書寫留下的墨跡。
2006年,西爾斯旗開(kāi)得勝—“打開(kāi)”了一本希伯來(lái)語(yǔ)傳道書。
2015年,他和團(tuán)隊(duì)成功閱讀了碳化的“隱基底卷軸”。隱基底位于死海西岸,大衛(wèi)曾逃到此處躲避掃羅的追殺。隱基底卷軸距今1700年至1800年左右,其中包含利未記的文本。利未記是猶太律法書,舊約圣經(jīng)的一部分。
隱基底卷軸的墨水含鉛。但赫庫(kù)蘭尼姆紙莎草卷軸上的墨水是煙灰做的,也就是說(shuō)墨跡和紙張都是碳基的,極難分辨。
為了大幅度提高分辨率,西爾斯和團(tuán)隊(duì)求助于牛津的粒子加速器—精度高達(dá)4—8微米(1微米是1米的一百萬(wàn)分之一)。
2023年初,西爾斯的學(xué)生斯蒂芬·帕森斯證實(shí),機(jī)器學(xué)習(xí)模型可以進(jìn)一步辨別紙莎草上的細(xì)微痕跡。
2020年初,科技投資人、GitHub的CEO納特·弗里德曼,因Covid-19大流行而禁足在家,熬夜讀完了《古羅馬的24小時(shí)》。
這本書是八年級(jí)讀物,但弗里德曼完全“陷進(jìn)去了”,把維基百科的羅馬詞條倒背如流。他甚至開(kāi)始“Cosplay”古羅馬人的生活:網(wǎng)購(gòu)了2000年前就有的傳統(tǒng)小麥,烤出了龐貝古面包。
瘋狂檢索時(shí),弗里德曼偶然“跳進(jìn)”赫庫(kù)蘭尼姆紙莎草的維基百科頁(yè)面,發(fā)現(xiàn)了西爾斯的艱苦努力。
2022年,弗里德曼邀請(qǐng)西爾斯到訪。在加利福尼亞州索諾馬縣,每年都有75人參加他的豪華露營(yíng)活動(dòng)。弗里德曼說(shuō)服西爾斯當(dāng)眾演講,為考古項(xiàng)目拉點(diǎn)贊助。
沒(méi)人感興趣,弗里德曼決心自己干—靠開(kāi)源社區(qū)的辦法,舉辦“維蘇威挑戰(zhàn)”賽。啟動(dòng)資金來(lái)自弗里德曼和朋友格羅斯,每人捐贈(zèng)12.5萬(wàn)美元。接著,弗里德曼辦了一場(chǎng)“推特馬拉松”,籌到140萬(wàn)美元。
大獎(jiǎng)發(fā)給第一個(gè)閱讀出卷軸中至少4段連續(xù)且合理文本的人,每段至少140個(gè)字符。獎(jiǎng)金70萬(wàn)美元。
2023年3月15日,“維蘇威挑戰(zhàn)”賽正式啟動(dòng)。
西爾斯告訴弗里德曼:“我已經(jīng)為此工作了很長(zhǎng)時(shí)間。最終我會(huì)解開(kāi)它的,但不知道要花多長(zhǎng)時(shí)間??赡苄枰荛L(zhǎng)很長(zhǎng)的時(shí)間吧?!备ダ锏侣参克?,樂(lè)趣常在,畢竟“咱們就想讀卷軸”—這成了他們的口頭禪。
一個(gè)星期后,在SpaceX當(dāng)實(shí)習(xí)生的盧克·法里托,正待在得克薩斯州南部的博卡奇卡發(fā)射場(chǎng),有一搭沒(méi)一搭地聽(tīng)播客。聽(tīng)到弗里德曼解釋“維蘇威挑戰(zhàn)”時(shí),他想,“天哪,我必須試一試”。
2023年6月,法里托找到了尋覓墨跡的門徑,訓(xùn)練出一個(gè)機(jī)器學(xué)習(xí)模型。8月,他讀出了三個(gè)希臘字母。10月,他識(shí)別出10個(gè)清晰字符,贏得“維蘇威挑戰(zhàn)”第一項(xiàng)大獎(jiǎng)“單詞挑戰(zhàn)”。
2024年2月5日,“維蘇威挑戰(zhàn)”官方網(wǎng)站頒布2023大獎(jiǎng)。
拆封凱索尼努斯的紙莎草卷軸,難點(diǎn)不在于“破譯文字”,而在于將層層碳化、難以剝落的紙張展開(kāi),這全賴技術(shù)的突破。
2023大獎(jiǎng)的目標(biāo),就是弗里德曼和西爾斯最初設(shè)置的目標(biāo):識(shí)別4個(gè)段落,每個(gè)段落140個(gè)字符,至少有85%的字符可以確證。最終,70萬(wàn)美元獎(jiǎng)金頒發(fā)給三人團(tuán)隊(duì),以表彰他們的出色探索,三位冠軍是:優(yōu)素?!ぜ{德,盧克·法里托,朱利安·席利格。
法里托和納德就是“單詞挑戰(zhàn)”的第一名和第二名,席利格是蘇黎世聯(lián)邦理工學(xué)院機(jī)器人專業(yè)的學(xué)生,擅長(zhǎng)分割圖形圖層。三人組隊(duì),一舉識(shí)別出2000多個(gè)字符。
冠軍隊(duì)提交的內(nèi)容,包含了三個(gè)不同模型架構(gòu)分析的結(jié)果,同時(shí),每個(gè)模型架構(gòu)都支持其他模型的成果。效果最好的,來(lái)自TimeSformer模型。他們?cè)O(shè)計(jì)了好幾種措施,防止過(guò)度擬合和識(shí)別幻覺(jué)。其代碼已經(jīng)在GitHub上公布。
席利格的自動(dòng)分割方法,是比賽啟動(dòng)以來(lái)最強(qiáng)大的圖像分辨技術(shù),不僅能驗(yàn)證此前的墨跡,還能展示卷軸最外層的墨跡。
總結(jié)冠軍隊(duì)的“經(jīng)驗(yàn)”,大概有三點(diǎn)。
首先,拆封凱索尼努斯的紙莎草卷軸,難點(diǎn)不在于“破譯文字”,而在于將層層碳化、難以剝落的紙張展開(kāi),這全賴技術(shù)的突破。
利用粒子加速器,研究者進(jìn)行高分辨率的X光三維斷層掃描,取得卷軸內(nèi)部高清數(shù)據(jù)。卷軸就像是一塊長(zhǎng)10厘米多一點(diǎn)的春卷,要被“切”成1萬(wàn)多張薄片,再把這些薄片拼成3D數(shù)據(jù)。這一步就已經(jīng)昂貴且艱難,據(jù)項(xiàng)目方估算,如果將800個(gè)卷軸全部掃描完,約花費(fèi)3千萬(wàn)美元。
其次,拿到數(shù)據(jù)后,難點(diǎn)是解讀數(shù)據(jù)。研究者要把黏在一起的三維粒子信號(hào)重新分層,還原成展開(kāi)的平面。就像切掉春卷的一片,選中面皮部分,識(shí)別它在Z軸的走向,把該曲面一層層剝離出來(lái),再把剝離完展開(kāi)的平面,串成連續(xù)的平面。
“春卷”的面皮在高溫中高度粘連,極難區(qū)分。目前網(wǎng)站上展示的15個(gè)平展段落,由專人程序、手動(dòng)標(biāo)注完成,只占卷軸的5%。
最后,識(shí)別墨跡。上文提到,這些紙莎草卷軸上的墨水由煙灰制成,在X光下,紙張和墨跡的信號(hào)對(duì)比度幾近于無(wú)。人工智能大展身手,這正是其最擅長(zhǎng)的地方—人眼看不到細(xì)微差別,通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)訓(xùn)練AI識(shí)別。
AI識(shí)別不是光學(xué)識(shí)別,而是小窗口、一個(gè)像素點(diǎn)一個(gè)像素點(diǎn)來(lái)判斷墨跡有無(wú),最終產(chǎn)出一個(gè)二元圖像,再人工讀取有墨水的部分所組成的“圖案”,從根本上避免AI生編硬造。
反過(guò)來(lái)說(shuō),這些AI識(shí)別出來(lái)的文本,也狠狠打了“希臘偽史論”者的臉。代碼是開(kāi)源的,技術(shù)是公開(kāi)的,參賽者彼此競(jìng)爭(zhēng),彼此交叉驗(yàn)證,這里沒(méi)有任何陰謀論的空間。
拆封的第一卷,5%內(nèi)容已經(jīng)展現(xiàn)。杰出的古文字學(xué)家、紙莎草專家和哲學(xué)家告訴我們,文本的主題是“快樂(lè)”。
如何正確理解快樂(lè),是伊壁鳩魯哲學(xué)中最高的善。在這兩段連續(xù)的文本中,作者關(guān)注的是食物等商品的供應(yīng)是否能提供快樂(lè),以及如何影響人們的感受。
“數(shù)量少的東西會(huì)比數(shù)量多的東西帶來(lái)更多的樂(lè)趣嗎?”
作者認(rèn)為:“就像食物一樣,我們不會(huì)立即相信,稀缺的東西一定比豐富的食物更令人快樂(lè)。然而,沒(méi)有豐沛回報(bào)的事情,我們會(huì)自然而然去做嗎?”
有人猜測(cè),這是菲洛德穆寫的。他是凱索尼努斯的別墅的常駐哲學(xué)家,希臘化時(shí)代晚期的伊壁鳩魯主義者,曾在這所圖書館工作。像其他伊壁鳩魯主義者一樣,他把快樂(lè)看得高于一切。
當(dāng)然,快樂(lè)不代表放縱。雖然他們的批評(píng)者都這么看。
這些AI識(shí)別出來(lái)的文本,也狠狠打了“希臘偽史論”者的臉。代碼是開(kāi)源的,技術(shù)是公開(kāi)的,參賽者彼此競(jìng)爭(zhēng),彼此交叉驗(yàn)證,這里沒(méi)有任何陰謀論的空間。
公元前300多年,伊壁鳩魯延續(xù)了阿瑞斯提普斯(蘇格拉底的學(xué)生之一)的論點(diǎn),認(rèn)為最大的善是驅(qū)逐恐懼、追求快樂(lè),達(dá)到一種寧?kù)o且自由的狀態(tài),并通過(guò)知識(shí)免除生理的痛苦,降低欲望。他的弟子都有同樣的基本認(rèn)識(shí)—哲學(xué)必須貢獻(xiàn)給寧?kù)o與和平。
與其說(shuō)這是一篇哲學(xué)論文,毋寧說(shuō)是一段“博客隨筆”,穿過(guò)2000年的煙塵,我們似乎和作者一起思考,如何享受生活,如何感受快樂(lè)。即使作者很有可能在后續(xù)的文章里十分“學(xué)術(shù)”—大戰(zhàn)斯多葛學(xué)派,因?yàn)楹笳摺皩?duì)快樂(lè)無(wú)話可說(shuō)”。
在“快樂(lè)”問(wèn)題上針?shù)h相對(duì)的伊壁鳩魯學(xué)派和斯多葛學(xué)派,討論的問(wèn)題在今天依然具有重要意義:生活的樂(lè)趣是什么,什么樣的生活才值得過(guò)?
想到這一倫理問(wèn)題是蟬聯(lián)全球新聞?lì)^條好幾年的人工智能“搶救”出來(lái)的,更有一種奇妙的“快樂(lè)”。
是熱愛(ài)和樂(lè)趣,把計(jì)算機(jī)科學(xué)家、古文字學(xué)家、哲學(xué)家和投資人凝聚在一起,共享一點(diǎn)一滴的發(fā)現(xiàn)和技術(shù)進(jìn)步,為后來(lái)者掃清障礙。哪怕資金不太夠,時(shí)間也很緊張。
是熱愛(ài)和樂(lè)趣,讓今天的人們對(duì)古文明充滿了期待,新的亞里士多德的對(duì)話、李維的羅馬史、荷馬的史詩(shī),薩福的只言片語(yǔ),都有可能從這堆灰燼中閃耀現(xiàn)身,刷新經(jīng)典的規(guī)模和深度。
“維蘇威挑戰(zhàn)”是21世紀(jì)20年代最大的烏托邦—對(duì),不是ChatGPT,不是神經(jīng)網(wǎng)絡(luò),也不是可控核聚變這些技術(shù)本身。
在一個(gè)共同的目標(biāo)上,人類的智慧凝結(jié)在一起,利用最先進(jìn)的科學(xué)技術(shù),與遙遠(yuǎn)的文明產(chǎn)生靈魂的連接。這是單純的技術(shù)進(jìn)步無(wú)法帶來(lái)的意義。