徐 雯,徐宜浩
(1.南京農(nóng)業(yè)大學(xué),江蘇南京210095;2.南京大學(xué),江蘇南京210023)
傳統(tǒng)文獻(xiàn)分類法主要揭示的是印刷型文獻(xiàn),一般以學(xué)科為中心建立分類體系。它是一種按照事先規(guī)定好的體系范疇或?qū)W科,依照一定的屬性將文獻(xiàn)分門別類地組織起來以便查驗(yàn)的方法[1]。目前國內(nèi)外的傳統(tǒng)文獻(xiàn)分類法主要有《中國科學(xué)院圖書館圖書分類法》《中國圖書館分類法》《杜威十進(jìn)分類法》《冒號(hào)分類法》等。
然而,隨著計(jì)算機(jī)網(wǎng)絡(luò)和信息技術(shù)的發(fā)展,網(wǎng)絡(luò)信息量增長(zhǎng)迅速,信息來源廣,繁雜無序,難以查詢。傳統(tǒng)的分類法很難解決這一問題。在這種情況下,各網(wǎng)站更加注重對(duì)網(wǎng)絡(luò)信息的整理歸納,并借鑒傳統(tǒng)的文獻(xiàn)分類法,推出各自的信息分類法,方便用戶的查找。其中最為常見的一種是以用戶為中心的大眾分類法。大眾分類法也叫自由分類法、社會(huì)分類法、分眾分類法、通俗分類法等,是一種由用戶參與和主導(dǎo)的信息資源組織控制方式。目前,大眾分類法還沒有統(tǒng)一的定義。
本文以知乎話題結(jié)構(gòu)和《中國圖書館分類法》(以下簡(jiǎn)稱《中圖法》)為例,分析大眾分類法與傳統(tǒng)文獻(xiàn)分類法之間的區(qū)別,揭示大眾分類法相對(duì)于傳統(tǒng)文獻(xiàn)分類法的優(yōu)勢(shì)和不足,為大眾分類法的進(jìn)一步發(fā)展提供可行性的建議。
大眾分類法是對(duì)網(wǎng)絡(luò)信息分類的一種嘗試,旨在通過用戶自己給感興趣的信息設(shè)置標(biāo)簽,對(duì)網(wǎng)絡(luò)信息進(jìn)行分類,方便用戶檢索。它突破了傳統(tǒng)網(wǎng)絡(luò)分類法事先規(guī)定的類目以及用戶不能自己定義和修改的類名。2004年8月美國信息構(gòu)建專家Thomas Vander Wal和Gene Smith首先提出了大眾分類法,隨后在各網(wǎng)站上得到了廣泛的應(yīng)用[2],如社會(huì)化書簽、分享類網(wǎng)站、網(wǎng)絡(luò)社區(qū)等。社會(huì)化書簽是大眾分類法最早的應(yīng)用,如美味書簽、Google書簽、和訊網(wǎng)摘等。分享類網(wǎng)站主要是指圖片及視頻分享網(wǎng)站,用戶對(duì)其上傳的圖片及視頻賦予關(guān)鍵詞,即標(biāo)簽,就可以實(shí)現(xiàn)網(wǎng)民的共享,如土豆、YouTube等。網(wǎng)絡(luò)社區(qū)是指通過網(wǎng)上交流的方式,包括在線聊天、群組討論、論壇、空間動(dòng)態(tài)、通知公告欄等,使具有共同興趣的網(wǎng)民聚集在同一主題的社區(qū)內(nèi),根據(jù)用戶提交的標(biāo)簽,為他們尋找趣味相同的朋友。豆瓣便是應(yīng)用大眾分類法最成功的中文社區(qū)之一。
大眾分類法適用于現(xiàn)在錯(cuò)綜復(fù)雜的網(wǎng)絡(luò)發(fā)展環(huán)境,在科研、商業(yè)及電子政務(wù)等領(lǐng)域已經(jīng)存在對(duì)它的基本探索及應(yīng)用。它最早被使用的領(lǐng)域便是數(shù)字圖書館,通過貼標(biāo)簽、收藏、共享3個(gè)步驟,讀者能管理自己所喜歡的網(wǎng)頁。學(xué)科門戶也是大眾分類法在科研領(lǐng)域的應(yīng)用之一。對(duì)企業(yè)來說,員工對(duì)專業(yè)知識(shí)的了解至關(guān)重要,但常因?yàn)閷I(yè)知識(shí)無法及時(shí)流通而導(dǎo)致人力物力的大量浪費(fèi)。如果用大眾分類法對(duì)專業(yè)知識(shí)進(jìn)行標(biāo)引,便可加強(qiáng)員工之間的溝通,提高企業(yè)的工作效率。政府門戶網(wǎng)站,也可以建立政務(wù)信息書簽。
大眾分類法是Web3.0的一種主要組織形式,與傳統(tǒng)文獻(xiàn)分類法相比具有獨(dú)有的特征,具體表現(xiàn)在以下幾個(gè)方面。
2.1.1 非受控詞匯
與傳統(tǒng)文獻(xiàn)分類法相比,大眾分類法最大的不同之處就是它的類目完全由用戶制定,采用的是非受控的自然語言。大眾分類法主要以主題和學(xué)科相結(jié)合的方式建立分類體系;傳統(tǒng)文獻(xiàn)分類法則采用受控詞匯,類目由專家制定,具有權(quán)威性。例如:知乎的同一個(gè)問題會(huì)被用戶貼上不同的標(biāo)簽(話題),標(biāo)簽之間存在著等級(jí)的關(guān)系,這樣就形成類似于主題詞表的話題結(jié)構(gòu),標(biāo)簽之間的關(guān)系均由用戶創(chuàng)造[3]。知乎話題廣場(chǎng),除了有自然科學(xué)、經(jīng)濟(jì)學(xué)、物理學(xué)等以學(xué)科為主的分類,還有游戲、運(yùn)動(dòng)、美食等以主題為主的分類。而中圖法將全部知識(shí)門類分為5大部類:馬列主義、毛澤東思想、鄧小平理論;哲學(xué)、宗教;自然科學(xué);社會(huì)科學(xué);綜合性圖書。主要按照學(xué)科知識(shí)門類層次劃分,以高度規(guī)范化的代碼和語詞為標(biāo)志來揭示和組織信息。
2.1.2 共享性
大眾分類法的標(biāo)簽分類公開共享,任何人都能看到。用戶既可以自己建立一個(gè)標(biāo)簽來標(biāo)引所感興趣的信息,也可使用別人已經(jīng)定義過的標(biāo)簽進(jìn)行標(biāo)引。任何人進(jìn)行標(biāo)引后,其他人便能立刻看到這些標(biāo)簽。如果覺得標(biāo)簽不是特別合適,還可以對(duì)標(biāo)簽進(jìn)行增刪改。而傳統(tǒng)分類法是專業(yè)人員利用復(fù)雜的標(biāo)引技術(shù)、遵循嚴(yán)格的分類規(guī)定進(jìn)行分類標(biāo)引工作的。例如中圖法的類目都是預(yù)先規(guī)定好的,用戶只能使用,不能隨意更改。
2.1.3 動(dòng)態(tài)性
大眾分類法極具動(dòng)態(tài)性,類目設(shè)置是及時(shí)更新的。網(wǎng)絡(luò)用戶的關(guān)注點(diǎn)會(huì)隨著時(shí)間的變化而變化,這就使其定義的標(biāo)簽也在變化著,新的標(biāo)簽不斷進(jìn)入系統(tǒng)。使用頻率低的標(biāo)簽會(huì)慢慢淡出視野,而使用頻率高的標(biāo)簽則會(huì)逐漸顯現(xiàn),這便能體現(xiàn)用戶在某一時(shí)間段的愛好習(xí)慣,在一定程度上也可以反映社會(huì)熱點(diǎn)的變化。傳統(tǒng)分類法只能在分類體系中對(duì)已設(shè)定好的類目進(jìn)行對(duì)號(hào)入座,對(duì)于新事物新學(xué)科只能靠類或歸入上位類,不能增加新的類目。例如:南京大屠殺這一話題,在平時(shí)的關(guān)注度不是很高,但是在12月13日國家公祭日這一天,南京大屠殺霸占了知乎熱搜一整天。而在中圖法中并沒有“南京大屠殺”這一類目,只能把它歸類到“抗日戰(zhàn)爭(zhēng)時(shí)期歷史事件”。
2.1.4 自下而上的分類
在大眾分類法中,用戶可以自由對(duì)感興趣的內(nèi)容進(jìn)行標(biāo)注,不同的用戶可能有不同的標(biāo)注方式,最后由網(wǎng)絡(luò)系統(tǒng)對(duì)同一內(nèi)容的標(biāo)簽進(jìn)行統(tǒng)計(jì),使用頻率最高的標(biāo)簽就是該內(nèi)容的分類,所以大眾分類法是一個(gè)自下而上的分類過程。而傳統(tǒng)分類法正好與之相反,它是一個(gè)自上而下的分類過程,用戶在使用時(shí)從所屬上位類開始一級(jí)一級(jí)地往下找信息所屬的類目。
大眾分類法相對(duì)于傳統(tǒng)文獻(xiàn)分類法有以上諸多優(yōu)勢(shì),但由于大眾分類法標(biāo)簽過度自由化,導(dǎo)致了大眾分類中標(biāo)簽的專指度不夠、標(biāo)簽的多樣性、標(biāo)簽垃圾、系統(tǒng)間交互性低等缺陷。
2.2.1 標(biāo)簽的專指度不夠
由于大部分用戶沒有要標(biāo)引內(nèi)容的專業(yè)知識(shí),所以其設(shè)置的標(biāo)簽可能并不能準(zhǔn)確表達(dá)信息內(nèi)容。例如知乎中搜尋“筆記本”相關(guān)話題,網(wǎng)絡(luò)系統(tǒng)不能很好地識(shí)別出,這里的“筆記本”可能指的是個(gè)人筆記本電腦,也可能是普通的日記本,最終會(huì)把兩個(gè)話題都搜索出來,導(dǎo)致檢索結(jié)果的不準(zhǔn)確性。
2.2.2 標(biāo)簽的多樣性
由于網(wǎng)絡(luò)用戶的知識(shí)層次不盡相同,對(duì)同一內(nèi)容的理解程度也不一樣,便導(dǎo)致了對(duì)同一內(nèi)容進(jìn)行標(biāo)引時(shí)使用了不同的標(biāo)簽。以知乎為例,同一個(gè)問題會(huì)被貼上不同的標(biāo)簽。例如“互聯(lián)網(wǎng)”,又名“網(wǎng)際網(wǎng)絡(luò)”“因特網(wǎng)”“英特網(wǎng)”,甚至還有英文名稱“Interet”,不同的用戶,可能用不同的名稱標(biāo)引相關(guān)內(nèi)容。這就導(dǎo)致了當(dāng)用戶輸入“因特網(wǎng)”時(shí),系統(tǒng)不會(huì)認(rèn)為“因特網(wǎng)”與“互聯(lián)網(wǎng)”“網(wǎng)際網(wǎng)絡(luò)”等含義相同,繼而不能檢索出“互聯(lián)網(wǎng)”“網(wǎng)際網(wǎng)絡(luò)”等的相關(guān)信息,極大降低了系統(tǒng)的檢全率。造成標(biāo)簽多樣性的原因主要是語言的多樣性,例如同義詞、簡(jiǎn)稱、縮略語等[4]。
2.2.3 標(biāo)簽垃圾
由于用戶設(shè)置標(biāo)簽的隨意性和網(wǎng)絡(luò)系統(tǒng)的開放性,有的用戶會(huì)給某一網(wǎng)絡(luò)信息標(biāo)注一些引人注目的標(biāo)簽,從而提高點(diǎn)擊率,盡管這些標(biāo)簽跟該信息內(nèi)容完全不匹配。在一些高頻標(biāo)簽中,會(huì)出現(xiàn)一些毫無關(guān)系的垃圾資源,從而影響用戶的檢索效率,大大降低檢準(zhǔn)率。
2.2.4 系統(tǒng)間交互性低
由于網(wǎng)絡(luò)信息資源的日益增加,傳統(tǒng)的信息資源管理已經(jīng)很難滿足用戶的需要,大眾分類法從某種程度上解決了一些問題[5]。不少網(wǎng)絡(luò)系統(tǒng)都可以標(biāo)注和分享標(biāo)簽,但它們?cè)诟袷揭?guī)范和語義表達(dá)等方面并不一樣。例如有的系統(tǒng)區(qū)分大小寫,有的卻不區(qū)分,這就導(dǎo)致了檢索方面的問題。
2.2.5 分類的片面性
大眾分類的目的是建立一個(gè)內(nèi)容更加廣闊的網(wǎng)絡(luò)平臺(tái),供用戶在比較大的知識(shí)范圍或信息內(nèi)查詢?yōu)g覽。大眾分類法可對(duì)熱點(diǎn)信息做出及時(shí)反應(yīng),吸納更多的用戶。同時(shí),大眾分類法建立在大眾參與分類體系建構(gòu)的基礎(chǔ)上,對(duì)同一內(nèi)容只有存在大量不同的標(biāo)簽,系統(tǒng)才可能通過同義詞控制等方式得出最優(yōu)化的分類結(jié)構(gòu)。一旦參與人數(shù)不足,就很容易暴露出分類的片面性[6],這樣得出的分類結(jié)果不具有代表性,影響用戶體驗(yàn)感。
2.2.6 類目體系混亂
在大眾分類法中,由于沒有嚴(yán)格的規(guī)定,其類目體系混亂。在知乎中,“機(jī)器學(xué)習(xí)”話題可以通過多種途徑找到。比如某技術(shù)領(lǐng)域有3個(gè)父話題——計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、人工智能;23個(gè)子話題——深度學(xué)習(xí)、圖像識(shí)別、自然語言處理、強(qiáng)化學(xué)習(xí)等?!皺C(jī)器學(xué)習(xí)”的結(jié)構(gòu)較混亂,不適合用戶的查找。而在傳統(tǒng)文獻(xiàn)分類法中,每一個(gè)類目都是固定的。在中圖法中,“機(jī)器學(xué)習(xí)”只能在T工業(yè)技術(shù)——TP自動(dòng)化技術(shù)、計(jì)算機(jī)技術(shù)——TP18人工智能理論——TP181自動(dòng)推理、機(jī)器學(xué)習(xí)中找到。
網(wǎng)絡(luò)系統(tǒng)可以通過強(qiáng)化用戶的網(wǎng)絡(luò)角色和參與程度,來提高標(biāo)簽的質(zhì)量。例如:可以根據(jù)用戶添加的標(biāo)簽被其他用戶使用的程度,設(shè)置知乎用戶等級(jí),不同級(jí)別的用戶享有不同的話語權(quán),從而提高用戶的自律意識(shí)和標(biāo)簽質(zhì)量[7]。同時(shí),可以設(shè)計(jì)一個(gè)用戶小界面,讓用戶對(duì)標(biāo)簽進(jìn)行打分,從而發(fā)現(xiàn)高質(zhì)量的標(biāo)簽。
用戶在遇到標(biāo)簽濫用時(shí),可以進(jìn)行投訴。系統(tǒng)根據(jù)其他用戶對(duì)該標(biāo)簽的評(píng)價(jià)等因素,確定該標(biāo)簽是否存在濫用,如果是,可以限定濫用用戶標(biāo)簽的呈現(xiàn)范圍,比如把它限定為自己查看,不允許其進(jìn)入公共標(biāo)簽層面或者由系統(tǒng)提醒用戶該標(biāo)簽存在濫用情況,建議修改標(biāo)簽內(nèi)容,否則該標(biāo)簽將被刪除。
標(biāo)簽是大眾分類法在圖書館信息組織的典型應(yīng)用。信息組織者圖書館可構(gòu)建敘詞表對(duì)標(biāo)簽進(jìn)行優(yōu)化,解決自然語言標(biāo)引造成的語義模糊問題[8]。同理,對(duì)網(wǎng)絡(luò)信息資源,可以構(gòu)建用戶的敘詞表和搜索者的敘詞表,涉及同義詞、近義詞的規(guī)范。比如:搜索者要檢索A,用戶標(biāo)簽的是B,他們可能用不同的語詞表達(dá)了同一個(gè)意思;或者他們可能都書寫B(tài),表示的卻是不同的內(nèi)容。這時(shí)就可以用這兩個(gè)敘詞表進(jìn)行相互對(duì)照,使用更規(guī)范的術(shù)語來控制同義詞的出現(xiàn)[9]。
本文通過調(diào)查,研究了大眾分類法的應(yīng)用現(xiàn)狀,發(fā)現(xiàn)它適用于現(xiàn)在錯(cuò)綜復(fù)雜的網(wǎng)絡(luò)發(fā)展環(huán)境,但仍然存在著些許不足之處。并以知乎話題結(jié)構(gòu)和《中圖法》為例,將其與傳統(tǒng)文獻(xiàn)分類法進(jìn)行比較,深度揭示大眾分類法的優(yōu)勢(shì)與劣勢(shì)。大眾分類法采用非受控詞匯進(jìn)行標(biāo)引,使用戶直接參與到網(wǎng)絡(luò)信息分類中,打破了傳統(tǒng)分類法不能增刪改類目的不足。同時(shí),大眾分類法具有共享性和動(dòng)態(tài)性,類目設(shè)置可以及時(shí)更新,是一個(gè)自下而上的分類過程。但由于大眾分類法標(biāo)簽過度自由化,導(dǎo)致了大眾分類中標(biāo)簽的專指度不夠、標(biāo)簽的多樣性、標(biāo)簽垃圾、系統(tǒng)間交互性低等缺陷。針對(duì)這些不足,本文提供了一些可行性的建議,例如:通過強(qiáng)化用戶的網(wǎng)絡(luò)角色和參與度,來提高標(biāo)簽的質(zhì)量;通過人工控制,可以很好地減少標(biāo)簽垃圾的產(chǎn)生;構(gòu)建基于大眾分類體系的敘詞表,控制同義詞的出現(xiàn)等。