⊙金把路[韓國中央大學(xué),韓國 首爾 156-756]
自谷歌(Google)的阿爾法圍棋(AlphaGo)擊敗人類職業(yè)圍棋選手以后,人工智能迅速地進(jìn)入大眾視野。有人期待人工智能與人類合作的烏托邦(Utopia),有人擔(dān)心人工智能統(tǒng)治人類的反烏托邦(Dystopia),但不管如何,人類從來不會放棄手里的武器。我們無法阻擋人工智能技術(shù)的發(fā)展,我們只能領(lǐng)導(dǎo)人工智能技術(shù)的發(fā)展軌跡。哲學(xué)界已經(jīng)針對人工智能進(jìn)行了許多研究,其代表有約翰·羅杰斯·希爾勒的“中文房間”(Chinese room),但是哲學(xué)界針對人工智能的探索大部分留在哲學(xué)思辨領(lǐng)域。哲學(xué)家是以局外人的立場,觀察、探索、預(yù)測人工智能與人工智能所帶來的未來。雖然哲學(xué)的局外省察也格外重要,但是人工智能能否應(yīng)用于哲學(xué)領(lǐng)域呢?
西方人文學(xué)界已經(jīng)開始提倡數(shù)字與人文學(xué)融合的數(shù)字人文(Digital Humanities)。數(shù)字人文是對數(shù)字技術(shù)與人文學(xué)之間的交叉領(lǐng)域進(jìn)行研究、教育以及創(chuàng)新的一門學(xué)科,它不僅力求傳統(tǒng)文本的數(shù)字化,還考慮到文本挖掘(Text Mining)、社會網(wǎng)絡(luò)分析(Social Network Analysis)、空間分析(Spatial Analysis)等數(shù)字分析方法與多媒體、虛擬現(xiàn)實(shí)(Virtual Reality,VR)、增強(qiáng)現(xiàn)實(shí)(Augmented Reality,AR) 等數(shù)字視覺化,在歷史、哲學(xué)、文學(xué)等人文學(xué)研究領(lǐng)域的應(yīng)用。簡單地說,數(shù)字人文是在傳統(tǒng)人文學(xué)研究的基礎(chǔ)上導(dǎo)入數(shù)字的研究方法。數(shù)字人文的本質(zhì)還是對人類的探究,只是傳統(tǒng)人文學(xué)以紙張為基礎(chǔ),而數(shù)字人文以數(shù)字為基礎(chǔ)。數(shù)字人文借用計(jì)算機(jī)的能力,可實(shí)現(xiàn)人類無法或者難以實(shí)現(xiàn)的情報(bào)搜集、分析與共享,還可以實(shí)現(xiàn)紙張無法提供的多媒體視覺化。
論者把數(shù)字人文研究領(lǐng)域分為設(shè)計(jì)、建造、分析、解釋、視覺化。設(shè)計(jì)是為了人文學(xué)情報(bào)數(shù)字化,研究人文學(xué)各個(gè)研究對象的結(jié)構(gòu)與內(nèi)容;建造是按照設(shè)計(jì)結(jié)果,新造、再編、運(yùn)營人文數(shù)據(jù)庫;分析是以人文數(shù)據(jù)為基礎(chǔ),以傳統(tǒng)人文學(xué)研究方法結(jié)合文本挖掘、社會網(wǎng)絡(luò)分析、空間分析等的數(shù)字分析方法導(dǎo)出分析結(jié)果數(shù)據(jù)的領(lǐng)域;解釋是通過人文學(xué)的觀點(diǎn)與思維,在分析結(jié)果數(shù)據(jù)上賦予意義的領(lǐng)域;視覺化是設(shè)計(jì)結(jié)果、人文數(shù)據(jù)、分析結(jié)果數(shù)據(jù)、解釋結(jié)果變?yōu)檫m用于人類可讀的領(lǐng)域。本文以數(shù)字人文的觀點(diǎn)為基礎(chǔ),探討在人工智能時(shí)代實(shí)現(xiàn)“新子學(xué)”研究的自由性、開放性、多樣性、平等性、包容性的現(xiàn)實(shí)方法。
“新子學(xué)”語義網(wǎng)(Semantic Web)概念圖
設(shè)計(jì)與建造都是數(shù)據(jù)的領(lǐng)域。人文學(xué)領(lǐng)域已經(jīng)有豐富的紙張情報(bào),所以人文學(xué)領(lǐng)域比較關(guān)心數(shù)字化(digitalization)。但是很多人文學(xué)領(lǐng)域的人士忽略數(shù)據(jù)的質(zhì)量。根據(jù)鍵連公開數(shù)據(jù)(Linked Open Data,LOD),數(shù)據(jù)可分為五個(gè)等級。
第五等級的條件是制作權(quán)公開(Open Licence),我們一般接觸的PDF文件屬于這一類。數(shù)字網(wǎng)絡(luò)的最大特點(diǎn)在情報(bào)的共享,如果某一個(gè)情報(bào)無法共享等于沒有數(shù)據(jù)。第四等級的條件是制作權(quán)公開與可再用(Reusable),我們一般接觸的Excel文件屬于這一類。為了借用計(jì)算機(jī)的力量,必須建造機(jī)器可讀數(shù)據(jù)(machine readable data),雖然最近PDF文件通過光學(xué)字符識別(Optical Character Recognition,OCR)可以變成文本(TEXT),但是其導(dǎo)出的文本還是有限的。機(jī)器有限地讀出其內(nèi)容意味著人工智能只能有限地處理其內(nèi)容。第三等級的條件是制作權(quán)公開、可再用的、自由文件格式(Open format),其代表文件形式為CSV格式。雖然我們常用Excel,但是Excel文件只能在微軟的Office上才能運(yùn)行,所以我們?yōu)榱吮U献杂尚?,得采用自由文件格式。第二等級的條件是制作權(quán)公開、可再用的、自由文件格式、統(tǒng)一資源標(biāo)志符(Uniform Resource Identifier,URI)。URI是為了同時(shí)保障多樣性、平等性而產(chǎn)生的一種出處表明手段。如果方勇所想的“新子學(xué)”與金白鉉所想的“新子學(xué)”是不同的,那么數(shù)字上分別表達(dá)為“方勇:新子學(xué)”“金白鉉:新子學(xué)”,實(shí)際上是利用網(wǎng)絡(luò)上常用的統(tǒng)一資源定位符(Uniform Resource Locator,URL)來表達(dá)。如果方勇的網(wǎng)站是“http://fangyong.com",方勇的“新子學(xué)”可表達(dá)為“http://fangyong.com/新子學(xué)”。第一等級的條件是制作權(quán)公開、可再用的、自由文件格式、統(tǒng)一資源標(biāo)志符、鍵連數(shù)據(jù)(Linked data)。人人皆有自己的想法,我們在第二等級的數(shù)據(jù)條件下,已經(jīng)可建立各自的人文數(shù)據(jù)庫。第一等級是各自的人文數(shù)據(jù)庫互相連接的,比如中國“新子學(xué)”數(shù)據(jù)庫與韓國“新子學(xué)”數(shù)據(jù)庫之鍵連、“新子學(xué)”數(shù)據(jù)庫與“新儒學(xué)”數(shù)據(jù)庫之鍵連、“新子學(xué)”數(shù)據(jù)庫與康德數(shù)據(jù)庫之鍵連,但是現(xiàn)在大部分的人文數(shù)據(jù)連第五等級都達(dá)不到,重點(diǎn)在于機(jī)器可讀性數(shù)據(jù)與數(shù)據(jù)共享。
如今,最高級的機(jī)器可讀性數(shù)據(jù)是語義網(wǎng)(Semantic Web)。語義網(wǎng)是由萬維網(wǎng)聯(lián)盟的蒂姆·伯納斯-李(Tim Berners-Lee)在1998年提出的一個(gè)概念,它的核心是:通過給萬維網(wǎng)上的文檔(如HTML)添加能夠被計(jì)算機(jī)所理解的語義(Meta data),從而使整個(gè)互聯(lián)網(wǎng)成為一個(gè)通用的信息交換介質(zhì)。語義萬維網(wǎng)通過使用標(biāo)準(zhǔn)、置標(biāo)語言和相關(guān)的處理工具來擴(kuò)展萬維網(wǎng)的能力。不過語意網(wǎng)概念實(shí)際上是基于很多已有技術(shù)的,也依賴于后來和text-and-markup與知識表現(xiàn)的綜合。為了實(shí)現(xiàn)語義網(wǎng)需要設(shè)計(jì)數(shù)字本體(digital ontology)。數(shù)字本體的基本要素為類(Class)、屬性(Property)、個(gè)體(instance),基本形式為論域(domain)——關(guān)系(relation)——定義域(range)。
“老子”“《道德經(jīng)》”“道可道,非常道”是個(gè)體,“老子”“王弼”“明太祖”屬于“人物”類,“創(chuàng)作”“圖像”“注解”是屬性?!叭宋铩鳖惖摹袄献印眰€(gè)體——“創(chuàng)作”——“文獻(xiàn)”類的“《道德經(jīng)》”個(gè)體,我們可將其抽象化為“人物”類——“創(chuàng)作”——“文獻(xiàn)”類(參考本文第一頁“新子學(xué)”語義網(wǎng)概念圖)。雖然數(shù)字本體的結(jié)構(gòu)是比較簡單的,但是語義網(wǎng)(Semantic Web)已經(jīng)成功實(shí)現(xiàn)了各種人文數(shù)據(jù)庫,如歐洲數(shù)位圖書館(Europeana)統(tǒng)合了歐洲各個(gè)圖書館、美術(shù)館、博物館的文化遺產(chǎn)情報(bào)。
需要注意的是,人文情報(bào)的結(jié)構(gòu)與語義網(wǎng)的結(jié)構(gòu)比較相似。從前人文情報(bào)的數(shù)字化依靠可擴(kuò)展標(biāo)記語言(Extensible Markup Language,XML)與關(guān)系數(shù)據(jù)庫(Relational database,RDB)。雖然可擴(kuò)展標(biāo)記語言與關(guān)系數(shù)據(jù)庫是商業(yè)上得到地位的方法,但還是無法完全包含數(shù)位情報(bào)的全部內(nèi)容。相反,語義網(wǎng)以數(shù)字本體為基礎(chǔ)可輸入、運(yùn)營、輸出多層次的人文情報(bào),還可以按照以往的人文數(shù)據(jù)進(jìn)行倫理推論而找到新的情報(bào)。大膽地說,我們通過語義網(wǎng),把人的思維移植到數(shù)字上了。
1.數(shù)字《子藏》
“新子學(xué)工作包括三個(gè)部分:文獻(xiàn)、學(xué)術(shù)史、思想創(chuàng)造。這是逐步深入的研究步驟,也是并進(jìn)的三個(gè)方面?!狈接滤f的文獻(xiàn)就是人工智能時(shí)代的數(shù)據(jù)?!蹲硬亍匪鸭耸澜绺鞯氐闹T子百家文獻(xiàn)而精選了其中的最好版本,體現(xiàn)了“全”與“精”,但是現(xiàn)在《子藏》出版于紙張。數(shù)字人文的立場也贊同搜集盡可能多的版本,但是數(shù)字人文無法贊同“選”版本而出版于紙張的行為,因?yàn)槠湫袨楸举|(zhì)上限制開放性、多樣性?,F(xiàn)在學(xué)者們難以接觸《子藏》全集,只能看到選取的精本,在《子藏》上尋找所需的內(nèi)容也十分艱難。因此筆者建議建設(shè)數(shù)字《子藏》,這是參考了CBETA漢文大藏經(jīng)與CTEXT(中國哲學(xué)書電子化計(jì)劃),建造全世界的相關(guān)學(xué)者們?nèi)菀捉咏⒉榭?、互?dòng)的數(shù)字《子藏》平臺,數(shù)字《子藏》不僅推薦《子藏》項(xiàng)目所選的最好版本,同時(shí)還提供與其他版本之比較,這才是“全”與“精”的。
2.數(shù)字“新子學(xué)”
方勇曾說:“以往的研究大多以各子或者各家為對象,像一般的哲學(xué)史或者諸子學(xué)論著中,都以儒家、墨家、道家、法家等為章節(jié),逐一加以論說,或僅論說諸子個(gè)人,如‘先秦七子’一類。當(dāng)代諸子學(xué)研究已經(jīng)有了諸多積累,各種學(xué)派研究、重要子家的研究,成果都非常豐碩,即使諸如《鹖冠子》《文子》《鬻子》等典籍也都有可觀的研究成果,這是綜合性研究的基礎(chǔ)。諸子學(xué)研究需要會通諸子學(xué)各家各派,回環(huán)往復(fù)地閱讀研究,以通盤的視野看待諸子思想,這樣才可能做到真正的綜合”。但是在紙張上綜合以往的成果是個(gè)難題,而且即使綜合了成果可能也難以找到研究者個(gè)人所需要的。在將“新子學(xué)”的研究成果編纂為機(jī)器可讀性數(shù)據(jù)的前提下,人工智能可以實(shí)現(xiàn)研究者的需求,甚至幫助研究者找到個(gè)人難以找到的情報(bào)。因此我們不僅應(yīng)針對《子藏》進(jìn)行數(shù)字化,還需要針對“新子學(xué)”研究與教育環(huán)境進(jìn)行數(shù)字化。
3.“新子學(xué)”人工智能倫理模型
為了防止人工智能造成惡性未來,我們需要人工智能倫理模型。世界各國正在力求建立各種各樣的人工智能倫理模型,但其倫理模型是以功利主義與康德主義為基礎(chǔ)的。人工智能完全依靠倫理模型來判斷,在現(xiàn)在的趨勢下,就變成西方哲學(xué)的代行者。換個(gè)思路,我們能否建立老子人工智能倫理模型呢?西方倫理學(xué)有個(gè)著名的思想實(shí)驗(yàn)——有軌電車難題(Trolley Problem):“假設(shè)你看到一輛剎車壞了的有軌電車,即將撞上前方軌道上的五個(gè)人,而旁邊的備用軌道上只有一個(gè)人,如果你什么都不做,五個(gè)人會被撞死。你手邊有一個(gè)按鈕,按下按鈕,車會駛?cè)雮溆密壍?,只撞死一個(gè)人。你是否應(yīng)該犧牲這一個(gè)人的生命而拯救另外五個(gè)人?”簡單地說,以功利主義為基礎(chǔ)的人工智能倫理模型一般會選擇撞死一個(gè)人,但是以老子為基礎(chǔ)的人工智能倫理模型可能與功利主義人工智能不同,也許會為了體現(xiàn)“無為”不按鈕,也許會為了體現(xiàn)“自然”隨機(jī)(random)按下按鈕。
以往的人文學(xué)研究用不著分開分析與解釋,但是在計(jì)算機(jī)明明超越人類的計(jì)算能力的現(xiàn)實(shí)下,人文學(xué)也需要探索與計(jì)算機(jī)的合作之路。人工智能在條件限定的情況下,遠(yuǎn)遠(yuǎn)超過人類的認(rèn)知與計(jì)算能力。如現(xiàn)在根本不會有人從北京走路到首爾,學(xué)術(shù)也沒有理由回避借用計(jì)算機(jī)的能力。但人工智能無法限定條件,人類才能限定條件。更重要的是,到現(xiàn)在為止,人工智能無法判斷其意義,無法賦予其意義,解釋領(lǐng)域還在人類的手里。只是解釋計(jì)算機(jī)分析結(jié)果的前提是針對計(jì)算機(jī)分析方法的理解。遺憾的是,人工智能的核心技術(shù)是深度學(xué)習(xí)(deep learning),而深度學(xué)習(xí)需要大數(shù)據(jù)(Big Data)。到目前為止,幾乎沒有大量的人文數(shù)據(jù),所以現(xiàn)在難以直接利用深度學(xué)習(xí)進(jìn)行人文學(xué)研究,只能依靠小數(shù)據(jù)(Small Data)的數(shù)字分析方法。現(xiàn)在比較成熟的數(shù)字分析方法為文本挖掘、社會網(wǎng)絡(luò)分析、空間分析。
文本挖掘是用計(jì)算機(jī)進(jìn)行語言文字分析的。語言分析方法眾多,有自然語言處理(Natural Language Processing,NLP)、語料庫語言學(xué)(corpus linguistics)、文本分類、文本聚類、共字分析(co-word analysis)、感情分析等。傳統(tǒng)人文學(xué)研究經(jīng)常進(jìn)行版本比較研究,但是其研究一般是以少數(shù)文章之間的比較為主。因?yàn)閭€(gè)人難以進(jìn)行異本之間的全文比較研究,所以只能依靠幾十年積累的經(jīng)驗(yàn)為基礎(chǔ)的直觀研究。文本挖掘如何應(yīng)用在人文學(xué)研究上?可以參考“類書對應(yīng)查詢系統(tǒng)”所提供的《藝文類聚》與《太平御覽》之間共引內(nèi)容的比較功能。
《太平御覽》的道部總共25條,其條內(nèi)容在《藝文類聚》中涉及11部、總共29條。由其分析可知,唐代的居處部、靈異部、木部、山部、樂部、水部、寶玉部、果部、人部、禮部、藥香草部到宋代都?xì)w為道部。更具體一點(diǎn),《藝文類聚》靈異部的被榮都屬于仙道,但在《太平御覽》其條分為天仙、里所、服餌、地仙,而《太平御覽》中地仙的內(nèi)容來源不僅有《藝文類聚》的靈異部,還有木部、樂部、寶玉部、果部。從中我們可以理解唐代與宋代“仙”的概念之異同。以上情況,如果是個(gè)人進(jìn)行研究,將會難以完成任務(wù),或者只能選擇幾個(gè)案例,但是利用計(jì)算機(jī),就很容易可以實(shí)現(xiàn),并可以將剩下的時(shí)間投入在解釋層面。我建議同一個(gè)方法應(yīng)用在“新子學(xué)”文獻(xiàn)之間的變遷研究上。
社會網(wǎng)絡(luò)分析是通過網(wǎng)絡(luò)中關(guān)系的分析研究網(wǎng)絡(luò)的結(jié)構(gòu)與屬性特征的方法。屬性特征是度中心性(Degree Centrality)、接近中心性(Closeness Centrality)、中介中心性(Between Centrality) 等。社會網(wǎng)絡(luò)分析的基本數(shù)據(jù)要素是來源(Source)與目標(biāo)(Target)。例如,王弼注釋了《老子》的“王弼(來源)——《老子》(目標(biāo))”。社會網(wǎng)絡(luò)分析如何應(yīng)用在人文學(xué)研究上?中國歷代人物傳記數(shù)據(jù)庫(China Biographical Database Project,CBDB)提供了中國歷史人物之間的社會網(wǎng)絡(luò)分析之?dāng)?shù)據(jù)。
上圖是1050至1100年間取得進(jìn)士學(xué)位者之間的社會網(wǎng)絡(luò)。網(wǎng)絡(luò)中的關(guān)系一般為血緣關(guān)系:F是父親,F(xiàn)F是祖父等。我們可以看出當(dāng)時(shí)少數(shù)家族獨(dú)占進(jìn)士學(xué)位。與文本挖掘一樣,個(gè)人基本上無法進(jìn)行類似的研究,只能利用計(jì)算機(jī)觀察到比較客觀的整體狀況。筆者建議同一個(gè)方法應(yīng)用在歷代“新子學(xué)”學(xué)者之間的分析上。
空間分析是對于地理空間現(xiàn)象的定量研究,以空間數(shù)據(jù)為基礎(chǔ),提取空間數(shù)據(jù)與其相關(guān)數(shù)據(jù)里潛在的信息。其主要研究為空間位置、空間分布、空間形態(tài)、空間距離、空間關(guān)系。歷史地理學(xué)領(lǐng)域已有歷史地理信息系統(tǒng)(Historical Geographic Information System,GIS)??臻g分析如何應(yīng)用在人文學(xué)研究上?WorldMap提供了開放的地理信息系統(tǒng)。
上圖是WorldMap上的宋代與明代科舉考試合格者的出生地比較,出身數(shù)量利用氣泡圖(bubble chart)來視覺化了。我們可以看出宋、明科舉合格者出生地的相異。其分析是中國歷代人物傳記數(shù)據(jù)庫的科舉數(shù)據(jù)與中國歷史地理信息系統(tǒng)(China Historical Geographic Information System,CHGIS)的地名數(shù)據(jù)結(jié)合而成的。筆者建議同一個(gè)方法應(yīng)用在“新子學(xué)”思想的傳播分析上。
紙張印刷基本上依靠單色的文字與圖畫,雖然已有彩色印刷技術(shù),但是成本還是比較高。相反地,數(shù)字技術(shù)不僅提供彩色的文字、圖片、照片,還提供紙張無法呈現(xiàn)的聲音、動(dòng)畫和影片,以及程序所提供的互動(dòng)功能。近年來甚至出現(xiàn)虛擬現(xiàn)實(shí)(virtual reality,VR)與增強(qiáng)現(xiàn)實(shí)(Augmented Reality,AR)以及兩者合成的混合現(xiàn)實(shí)(Mixed Reality,MR),慢慢地走向瓦解虛擬與現(xiàn)實(shí)的邊界的方向。但是數(shù)字上的視覺化領(lǐng)域的基礎(chǔ)是數(shù)據(jù),問題是現(xiàn)在“新子學(xué)”的數(shù)據(jù)不足以深入研究視覺化,只能一邊建造數(shù)據(jù)一邊視覺化。不過“新子學(xué)”通過數(shù)字人文的方法進(jìn)行設(shè)計(jì)、建造、分析、解釋,可以實(shí)現(xiàn)如下視覺化:“新子學(xué)”文獻(xiàn)的視覺化、“新子學(xué)”文獻(xiàn)結(jié)構(gòu)的視覺化、“新子學(xué)”文化遺產(chǎn)的視覺化、“新子學(xué)”思想與文化遺產(chǎn)的互聯(lián)視覺化。
雖然在人工智能時(shí)代,“新子學(xué)”可以展開研究人工智能所帶來的問題,這也是“新子學(xué)”應(yīng)當(dāng)擔(dān)任的責(zé)任,但是對其批評首先需要對其深刻理解,而且人工智能可以幫助傳統(tǒng)“新子學(xué)”的研究,并且可以開拓新的“新子學(xué)”研究,我們又何必留在限制自由性、開放性、多樣性、平等性、包容性的紙張上呢?