劉亞男,肖 明(北京師范大學(xué)政府管理學(xué)院)
傳記是記述人物事跡、反映人物思想的作品。凡是包括人物生平與經(jīng)歷的相關(guān)文獻(xiàn)、音頻、視頻等資源都可歸為傳記資源。對傳記資源進(jìn)行發(fā)掘與研究歷來被研究者們所關(guān)注,從傳記資源中發(fā)現(xiàn)的一些事件細(xì)節(jié)對于還原歷史真相、豐富人物形象能都起到至關(guān)重要的作用,數(shù)量宏豐的傳記資源為當(dāng)代學(xué)者的研究工作提供了極大的幫助。我國歷來有對傳記資源進(jìn)行發(fā)掘與整理的經(jīng)驗(yàn),面對來源廣泛、類型多樣的傳記資源,探索如何從資源組織的角度進(jìn)行研究,對于更加充分地利用傳記資源至關(guān)重要。
知識地圖是一種組織與管理知識資源的工具,其目的在于用一種通用、直觀的方式來對知識進(jìn)行獲取與描述,用可視化技術(shù)顯示知識及其關(guān)系,具有解讀顯性知識和挖掘隱性知識等特點(diǎn)。學(xué)術(shù)領(lǐng)域的知識地圖最早由英國情報學(xué)家布魯克斯于1981年提出,他希望能夠通過知識地圖將相互影響、相互關(guān)聯(lián)的知識連接起來,揭示出知識的有機(jī)結(jié)構(gòu)。[1]目前,企業(yè)、高校、圖書館等均已對知識地圖的應(yīng)用展開研究。[2-4]本文通過分析現(xiàn)有的傳記資源組織方式,并結(jié)合傳記資源特點(diǎn),構(gòu)造了相應(yīng)的知識地圖模型,在此基礎(chǔ)上,以王重民傳記資料為例,實(shí)現(xiàn)了傳記資源知識地圖的構(gòu)建與可視化。結(jié)果表明,傳記資源知識地圖能夠直觀地反映出節(jié)點(diǎn)信息與人物之間的關(guān)系,為傳記資源的組織提供了新思路。
傳記資源以人物為核心,是一種圍繞傳主的生平或經(jīng)歷來進(jìn)行記述與組織的資源。隨著傳記的發(fā)展,現(xiàn)代傳記家不再滿足于僅敘述傳主的事跡,他們越來越重視展示傳主的個性或人格,并對傳主人格的發(fā)展進(jìn)行解釋。[5]由于傳記資源的文體類型多樣,具有地域性、時代性等特征,所以整理傳記資源時應(yīng)該注意從多角度、按照標(biāo)準(zhǔn)化的流程來進(jìn)行揭示,[6]由傳記資源來探究人物之間的交往、學(xué)術(shù)往來等關(guān)系歷來被研究者們所重視?,F(xiàn)有的關(guān)于傳記資源組織方法的研究大多基于圖書館領(lǐng)域?qū)Y源的組織方式進(jìn)行探索,主要可以分為元數(shù)據(jù)法、分類組織法和主題組織法三種。
元數(shù)據(jù)是用來描述信息資源特征、揭示相互關(guān)系、實(shí)現(xiàn)相應(yīng)操作的一整套編碼體系。[7]元數(shù)據(jù)通過結(jié)構(gòu)化的表示方式揭示信息資源特征,使無序的信息資源轉(zhuǎn)變得有序,從而實(shí)現(xiàn)對資源的整合、管理和利用。根據(jù)不同領(lǐng)域數(shù)據(jù)的特點(diǎn)和研究者的需要,可以使用多種元數(shù)據(jù)標(biāo)準(zhǔn)對信息資源進(jìn)行揭示,根據(jù)載體的不同來描述資源特征、揭示其屬性,有利于資源更好地被檢索和利用。李芳等設(shè)計(jì)了傳記資源元數(shù)據(jù)框架,在描述傳記資源物理和內(nèi)容特征的基礎(chǔ)上,對傳主的姓名、身份、職業(yè)、國別進(jìn)行元數(shù)據(jù)標(biāo)注,以提供傳記資源檢索的多種途徑。[8]
分類組織法是根據(jù)資源內(nèi)容來分門別類地組織資源的方法。分類號能夠客觀且直觀地反映資源所屬類別,如在《中國圖書館分類法》中,K81為傳記類,而對于馬克思、列寧、毛澤東等人物的相關(guān)傳記資源又會單獨(dú)分類,同時由于傳記資源本身具有很高的文學(xué)性,相當(dāng)數(shù)量的傳記資源也收錄在“I文學(xué)”類目下。在《杜威十進(jìn)分類法》中,除了“800文學(xué)”“900歷史、地理與傳記”之外,對傳記資源的組織則是根據(jù)傳主所研究的學(xué)科領(lǐng)域?qū)饔涃Y源歸類到各個學(xué)科中。在具體的傳記資源組織實(shí)踐中,按照傳主的國別、身份、地域、學(xué)科、時代等特征,也進(jìn)行了大量的資源組織工作,數(shù)據(jù)庫方面如“中國歷史人物傳記資源庫”按照文獻(xiàn)、姓氏、朝代、地域四個方面來進(jìn)行分類,紙質(zhì)文獻(xiàn)方面如《中國文學(xué)家傳記》(中央書店,1937)、《世界著名數(shù)學(xué)家傳記》(科學(xué)出版社,1995)、《宋元明清人物》(華文出版社,2004)等。
主題法是按照信息內(nèi)容的主題名稱來標(biāo)引與組織信息的方法,按照主題名稱的字順排列,一般包括標(biāo)題法、敘詞法和關(guān)鍵詞法。[9]標(biāo)題法是一種以標(biāo)題詞作為主題標(biāo)識、以詞表預(yù)先確定的組配方式標(biāo)引和檢索的主題法;敘詞法是通過概念組配方式表達(dá)文獻(xiàn)主題的主題法分類;關(guān)鍵詞法是隨著計(jì)算機(jī)而出現(xiàn)的、為適應(yīng)索引編制自動化的需要而產(chǎn)生的主題法類型。傳記資源的主題法可以以學(xué)科主題詞和傳主姓名作為重點(diǎn)標(biāo)引內(nèi)容。傳記以傳主為研究和論述的主要對象,一般分為以多人為論述對象和以個人為研究對象兩種類型。在主題標(biāo)引多人列傳時,應(yīng)按照傳記資料所覆蓋的范圍或所涉及的領(lǐng)域來進(jìn)行主題劃分,如某一時代、學(xué)科、組織的人物傳記資料匯編,應(yīng)以時代、學(xué)科、組織和人物類型等主題詞為主標(biāo)題,以傳記資源類型等為副標(biāo)題。趙萍萍認(rèn)為,多人列傳主題標(biāo)引側(cè)重群體屬性對應(yīng)的學(xué)科主題詞和國家、地區(qū)、時代對應(yīng)的主題詞,且多人傳記中應(yīng)對標(biāo)引的人物數(shù)量做明確界定,如若達(dá)到一定數(shù)量,則可只著錄前數(shù)名傳主信息,但需在“描述”字段中對著錄的規(guī)則加以說明。[10]
知識地圖的構(gòu)建需根據(jù)一定的原則,采用信息標(biāo)引、分類聚類等信息組織方式,結(jié)合一定的技術(shù)手段實(shí)現(xiàn)對知識的良好組織與挖掘。前期的信息組織是采用一定的標(biāo)準(zhǔn)對信息進(jìn)行序化和歸類,完成對信息的整理與準(zhǔn)確表達(dá),進(jìn)而完成信息的提取工作;知識的挖掘則是在信息組織的基礎(chǔ)上,利用元數(shù)據(jù)或關(guān)聯(lián)規(guī)則形成知識之間的關(guān)聯(lián)。
2.1.1 構(gòu)建原則
① 主題明確。主題是指所構(gòu)建知識地圖的性質(zhì),如領(lǐng)域?qū)<抑R地圖、旅游路線知識地圖、企業(yè)管理知識地圖等。知識地圖的構(gòu)建應(yīng)嚴(yán)格圍繞所確定的主題,明確的主題能夠使用戶更清晰地了解整個知識地圖。② 以需求為導(dǎo)向。構(gòu)建知識地圖應(yīng)充分考慮用戶需求,具有良好的實(shí)用性,確定所構(gòu)建的知識地圖用于什么目的、要達(dá)到什么樣的目標(biāo)。③ 結(jié)構(gòu)清晰。設(shè)計(jì)知識地圖應(yīng)明確其基礎(chǔ)結(jié)構(gòu),明確其構(gòu)成成分、節(jié)點(diǎn)關(guān)系及相關(guān)屬性,結(jié)構(gòu)清晰的知識地圖對于用戶更好地理解內(nèi)容至關(guān)重要。④ 可擴(kuò)展性與可維護(hù)性。知識地圖的構(gòu)建并不是一成不變的,隨著相關(guān)信息的不斷完善,仍需要對其進(jìn)行擴(kuò)展和維護(hù),因此知識地圖在使用過程中應(yīng)具有良好的可擴(kuò)展性和維護(hù)性,以保證其時效性和準(zhǔn)確性。
2.1.2 構(gòu)建方法與工具
知識地圖的構(gòu)建方法主要是指在利用信息組織相關(guān)理論的基礎(chǔ)上,結(jié)合描述語言或本體相關(guān)技術(shù)來構(gòu)建知識地圖。信息組織相關(guān)理論主要包括信息標(biāo)引、分類聚類、數(shù)據(jù)挖掘等。其中,信息標(biāo)引可以采用人工標(biāo)引和自動標(biāo)引等方式從文獻(xiàn)中提取出標(biāo)引項(xiàng),如標(biāo)題、作者、關(guān)鍵詞等字段,借助信息組織理論可以使資源更加規(guī)范化,有利于知識地圖的交流和共享。Ontolingua、OIL、OWL和XML是常用的知識地圖描述語言,其中XML由于具有良好的可擴(kuò)展性,更適合于構(gòu)建網(wǎng)絡(luò)知識地圖。[11]目前,可用于構(gòu)建知識地圖的軟件主要有 OntolinguaServer、OntoEdit、Protégé等,因本體可以很好地解決信息異構(gòu)問題,使不同領(lǐng)域的知識地圖實(shí)現(xiàn)互聯(lián)與共享,所以越來越多的研究者們開始探索利用本體技術(shù)來構(gòu)建知識地圖的方法,以更好地實(shí)現(xiàn)知識的良好組織并提高檢索效率。
按照資源類型,可以將傳記資源劃分為文獻(xiàn)資源、圖片與音視頻資源兩種類型,其中文獻(xiàn)資源包括傳記文、書籍、書信與日記,書信與日記都是由傳主本人所創(chuàng)作的,而其他類型的資源大都是由其后人或研究者們所創(chuàng)作、整理而來的。為了在對傳記資源進(jìn)行組織的基礎(chǔ)上更好地展示人物之間的關(guān)系,筆者認(rèn)為,傳記資源的組織應(yīng)以傳主為核心元素,以傳記類型為組織元素,以作傳者或相關(guān)人物為特征元素來對傳記資源進(jìn)行整理。針對不同的資源類型,作傳者的標(biāo)識符可能有所不同,如書籍與傳記文應(yīng)為其著者、書信應(yīng)為收信人、圖片及音視頻資源應(yīng)為其制作者,其元素之間的關(guān)系見圖1。
圖1 傳記資源元素關(guān)系
傳主是傳記資源整理組織中的核心元素,以傳主為核心能夠更為清晰地展示傳主的所有傳記資料,有利于讀者全面地了解和把握人物情況。本文將傳記資源按照類型劃分為傳記文、書籍、書信、日記、圖片與音視頻文件,不同類型的資源其描述元素會有所不同,如書籍的“出版地”元素,在傳記文中是“來源刊”,在音視頻文件中則是“發(fā)行方”,可見按照類型來對傳記資源進(jìn)行組織具有其合理性與有效性。特征元素可以進(jìn)一步描述傳記資源的特點(diǎn),可以更好地體現(xiàn)人物之間的關(guān)系,其種類有很多,如傳記文中對“著者”“來源刊”“卷次”“期次”“日期”等元素的描述。
知識地圖采用形象、直觀的方式為用戶提供服務(wù),而本體則能夠通過明確、規(guī)范的概念體系和關(guān)系網(wǎng)絡(luò)為知識地圖的構(gòu)建與維護(hù)提供堅(jiān)實(shí)的基礎(chǔ)。[12]隨著本體技術(shù)在知識地圖構(gòu)建中的應(yīng)用,結(jié)合本體構(gòu)建模型來建立傳記資源知識地圖模型能夠更好地規(guī)范傳記資源知識地圖的構(gòu)建與應(yīng)用。如圖2所示,基于本體的傳記資源知識地圖模型一共分為三個層次。① 資源層是傳記資源知識地圖的底層,也是構(gòu)建整個知識地圖的基礎(chǔ),本文按照人工劃分資源類型的方式來對其進(jìn)行組織,其來源主要包括相關(guān)數(shù)據(jù)庫、文獻(xiàn)資源以及網(wǎng)絡(luò)資源。② 本體層在劃分資源類型的基礎(chǔ)上對傳記資源進(jìn)行知識提取,主要涉及RDF和知識描述兩部分:在RDF中,所有資源都能通過一個統(tǒng)一資源識別碼(Uniform Resource Identifier,URI)進(jìn)行唯一標(biāo)識;知識描述采用元數(shù)據(jù)等形式來描述資源的內(nèi)容或結(jié)構(gòu)等信息。③ 展示層將構(gòu)建完成的本體進(jìn)行可視化展示,在可視化界面與知識描述之間建立知識鏈接,為用戶提供多種形式的展示方式。展示層主要涉及知識節(jié)點(diǎn)與知識節(jié)點(diǎn)之間的關(guān)聯(lián),知識節(jié)點(diǎn)一般是某領(lǐng)域知識通用的概念或術(shù)語,用戶可以通過知識節(jié)點(diǎn)之間的關(guān)聯(lián)來了解知識結(jié)構(gòu)的交流和演化情況。
圖2 基于本體的傳記資源知識地圖模型
依據(jù)上文構(gòu)建的傳記資源知識地圖模型,本文選取王重民先生作為傳主,對其傳記資料進(jìn)行整理與組織。王重民(1903-1975),字有三,號冷廬主人,河北高陽縣人,現(xiàn)代著名目錄學(xué)家、考據(jù)學(xué)家、敦煌學(xué)家、圖書館學(xué)教育家,是具有廣泛影響力的國學(xué)大師,在目錄學(xué)、版本學(xué)、??睂W(xué)、敦煌學(xué)等領(lǐng)域都有高深的造詣。
通過對知識地圖構(gòu)建方法與工具的分析,結(jié)合傳記資源的元素特征,本文選擇本體構(gòu)建工具Protégé來構(gòu)建傳記資源知識地圖。首先,Protégé具有良好的工作界面和一定的擴(kuò)展功能,用戶利用插件可以實(shí)現(xiàn)可視化等功能;其次,Protégé屬于開源軟件,有較為詳細(xì)的使用教程且能夠較好地支持中文的使用。其構(gòu)建過程主要包括以下步驟。
(1)創(chuàng)建類與子類,明確類與類之間的關(guān)系。本文在組織傳記資源中構(gòu)建了“人物”和“傳記資源”兩個大類?!叭宋铩庇脕泶娣刨Y源中涉及到的所有人物,包括傳主及作傳者;“傳記資源”包括書籍、傳記文、圖片與音視頻資源、書信、日記五個子類。在傳記資源之外另設(shè)“人物”類主要是因?yàn)閭饔涃Y源是以人物為核心進(jìn)行組織的,隨著傳記資源的增加,“人物”類中的人名必定會越來越多?,F(xiàn)有傳記資料除傳主本身所作的以外,大部分是由其家人、師友或后學(xué)所作,往往流露著對傳主本身或其成就的某種情感,因此,將作傳者歸入“人物”類能更直觀的體現(xiàn)人物關(guān)系。本文以王重民為傳主進(jìn)行組織,故“人物”類中包含王重民及與其相關(guān)的人物。
(2)添加實(shí)體,設(shè)置實(shí)體的屬性。實(shí)體主要包括人物及各種傳記資源,如傅振倫曾為王重民撰寫傳記文“王重民別傳”,故“傅振倫”應(yīng)歸入人物類、“王重民別傳”應(yīng)歸入傳記文類。人物類的屬性主要有名、字、號、生卒年、籍貫、曾任職、配偶等。不同的傳記資源類具有不同的屬性,如傳記文類屬性主要包括題名、著者、期刊名、卷號、期號、出版時間等。
(3)創(chuàng)建實(shí)體之間的關(guān)系。以三元組的形式來定義實(shí)體之間的關(guān)系,如“王重民”的“配偶”是“劉修業(yè)”、“王重民別傳”的“著者”是“傅振倫”等,通過實(shí)體之間的關(guān)聯(lián)可以更加明確各實(shí)體之間的關(guān)系。按照以上所列的步驟構(gòu)建知識地圖,將所搜集到的傳記資源進(jìn)行分類,然后逐一進(jìn)行實(shí)例添加。由于傳記資源來源廣泛,所以本文采用人工方式對搜集到的資源進(jìn)行初步的類別分析與實(shí)例化。
3.2.1 傳記資源的可視化
將相關(guān)人物及傳記資源進(jìn)行實(shí)例化之后,可以將傳記資源知識地圖以可視化的形式進(jìn)行展示。Protégé軟件自帶的OntoGraf插件可以很好地呈現(xiàn)知識節(jié)點(diǎn)與知識關(guān)聯(lián),它不僅能夠展示類目之間的層次結(jié)構(gòu),還可以顯示實(shí)例之間的關(guān)系。圖3展示了王重民傳記文資源的知識地圖,圖中包含人物及傳記文,人物與傳記文之間通過“著者”屬性進(jìn)行關(guān)聯(lián),如人物類的實(shí)體“崔文印”與傳記文類的實(shí)體“王重民先生略傳”的“著者”是人物類的實(shí)體“崔文印”。將鼠標(biāo)放置在圖中的某個節(jié)點(diǎn)上,就能夠以框架的形式展示該節(jié)點(diǎn)的詳細(xì)信息,如“王重民先生略傳”節(jié)點(diǎn)的相關(guān)信息如下:著者為人物類實(shí)體“崔文印”,出版時間為“1983年”,期刊名為“晉陽學(xué)刊”,期號為“1期”(見圖 4)。
圖3 王重民傳記文資源可視化展示
圖4 “王重民先生略傳”節(jié)點(diǎn)信息展示
3.2.2 相關(guān)人物檢索
OntoGraf能夠通過語詞匹配來進(jìn)行檢索,本文以“劉修業(yè)”為檢索詞,發(fā)現(xiàn)與劉修業(yè)相關(guān)的關(guān)聯(lián)有3個:一是在傳記文中有5篇為劉修業(yè)所撰,二是與王重民之間存在配偶關(guān)系,三是劉修業(yè)本身屬于人物類(見圖5)。OntoGraf在檢索中不要求完全匹配,只要節(jié)點(diǎn)中包含檢索的信息就能夠被檢索到,這種方式能提高檢全率。
由于傳記資源類型多樣,本文在傳記資源搜集與整理的基礎(chǔ)上,探析基于知識地圖的傳記資源組織方法,構(gòu)建傳記資源知識地圖模型,并結(jié)合王重民傳記資源進(jìn)行實(shí)例化構(gòu)建與展示。結(jié)果表明,知識地圖在資源組織與關(guān)系揭示上具有良好的適用性,能夠?yàn)閭饔涃Y源的組織提供較好的借鑒作用。但同時,本文基于資源類型的不同對傳記資源進(jìn)行劃分,以人物來體現(xiàn)傳記資源與傳主之間的關(guān)系,只體現(xiàn)了對不同類型資源的組織以及人物之間的簡單關(guān)系,并未對傳記資源的內(nèi)容進(jìn)行提取和分析。對于知識地圖而言,如何利用可視化的工具表示、挖掘資源的內(nèi)部特征,仍將是未來深入研究的重點(diǎn)內(nèi)容。