国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

社會(huì)化構(gòu)建標(biāo)簽等級(jí)的評(píng)價(jià)研究

2016-10-21 09:26張鵬翼蘇杰張久珍
圖書與情報(bào) 2016年4期

張鵬翼 蘇杰 張久珍

摘 要:文章以知乎話題結(jié)構(gòu)為例,對(duì)采用社會(huì)化方式構(gòu)建的標(biāo)簽等級(jí)進(jìn)行評(píng)價(jià),探討了受控語言和大眾分類法的結(jié)合機(jī)制。抽取知乎的四個(gè)學(xué)科話題等級(jí)結(jié)構(gòu)(哲學(xué)、物理學(xué)、 社會(huì)學(xué)、文學(xué))與《中圖法》及《國會(huì)法》進(jìn)行對(duì)比,綜合使用定量(重合度)、定性(劃分標(biāo)準(zhǔn)、引用次序、橫向關(guān)系揭示處理、等級(jí)關(guān)系、同位排列、類目命名等)指標(biāo)進(jìn)行評(píng)價(jià)。發(fā)現(xiàn)知乎話題結(jié)構(gòu)等級(jí)與傳統(tǒng)學(xué)科分類法重合度不高,呈現(xiàn)出類目數(shù)量大、局部有邏輯、全局無規(guī)律的特點(diǎn),存在劃分及排序標(biāo)準(zhǔn)不一致,話題名稱較隨意等問題。認(rèn)為社會(huì)化構(gòu)建的知乎話題等級(jí),并非嚴(yán)格的分類體系,而是話題分類與主題標(biāo)簽結(jié)合的一種形態(tài),不具備系統(tǒng)性、邏輯性,但交由用戶構(gòu)建、體現(xiàn)用戶主導(dǎo)原則,對(duì)于用戶生成知識(shí)資源的組織有借鑒意義。

關(guān)鍵詞:標(biāo)簽等級(jí);大眾分類法;社會(huì)化標(biāo)注;話題結(jié)構(gòu);知乎

中圖分類號(hào): G254 文獻(xiàn)標(biāo)識(shí)碼: A DOI:10.11968/tsyqb.1003-6938.2016081

Evaluation of a Socially Constructed Tag Hierarchy: A Case Study of Zhihu Topic Structure

Abstract This paper aims to evaluate a socially constructed Web classification, the Zhihu topic hierarchy. We sampled four discipline hierarchies (philosophy, physics, sociology, and literature) and compared them with the equivalent sections of CLC and LCC using quantitative measures (topic overlap) and qualitative measures (classification criteria, ordering of classes, equivalence, hierarchical and related relations, and the naming of classes). The socially constructed topic hierarchy has very small overlap with traditional classification schemes, contains large number of classes, and relationships seem to be valid regionally but messy as a whole. The topic hierarchy is not a rigid classification, but rather a classification on top and sorted tags at the bottom. It reflects the needs of users and may provide insights to organizing user generated knowledge resources.

Key words tag hierarchy; Folksonomy; social tagging; topic hierarchy; Zhihu

1 引言

分類法是信息組織的重要方法之一,從傳統(tǒng)的圖書分類法如《中國圖書館分類法》(以下簡(jiǎn)稱《中圖法》)、《美國國會(huì)圖書館圖書分類法》(以下簡(jiǎn)稱《國會(huì)法》),到網(wǎng)頁分類目錄如Yahoo Directory2和Open Directory Project3,都提供針對(duì)信息資源的系統(tǒng)性的整序。學(xué)科分類法多采用等級(jí)樹狀結(jié)構(gòu),具有系統(tǒng)性、層次性的優(yōu)點(diǎn)[1]。而隨著Web 2.0的發(fā)展,社會(huì)化標(biāo)注(social tagging)和大眾分類法(Folksonomy)為組織用戶生成內(nèi)容(UGC)提供了新的方法和思路[2]。然而,傳統(tǒng)分類法編制困難、更新周期長,大眾分類法則缺乏等級(jí)結(jié)構(gòu)和詞匯控制,對(duì)于檢索和瀏覽的支持較為有限,都不是組織網(wǎng)絡(luò)資源的理想工具。如賈君枝[3]提出可以將大眾分類法與受控詞表相結(jié)合;朱燁[4]提出可以利用大眾的智慧,社會(huì)化構(gòu)建分類法,國外有研究嘗試將構(gòu)建分類法的任務(wù)“眾包”給用戶[5]。但如何開展社會(huì)化構(gòu)建,構(gòu)建出的分類體系評(píng)價(jià)如何,都尚不明確,也沒有社會(huì)化協(xié)同構(gòu)建分類法的成熟系統(tǒng)或平臺(tái)。

知乎是國內(nèi)主要的社會(huì)化問答平臺(tái)之一。知乎允許提問者對(duì)問題進(jìn)行標(biāo)簽標(biāo)注(即“話題”),用戶可以按話題瀏覽問題和答案。截至2015年3月,知乎已擁有1700萬注冊(cè)用戶,累計(jì)產(chǎn)生十多萬個(gè)話題,包含350萬個(gè)問題。除了對(duì)問題和答案進(jìn)行標(biāo)注外,知乎還允許部分用戶對(duì)話題之間的等同關(guān)系(話題別名)和等級(jí)關(guān)系(父話題、子話題)進(jìn)行編輯;用戶參與公共編輯,要求有 5 個(gè)以上獲得 5 票贊同的回答4。通過社會(huì)化方式構(gòu)建標(biāo)簽等級(jí),知乎形成了具有6個(gè)一級(jí)話題、111個(gè)二級(jí)話題、最深超過10級(jí)的話題結(jié)構(gòu)。

本研究以知乎話題結(jié)構(gòu)為例,選擇其中與學(xué)科分類法共有的4個(gè)話題(哲學(xué)、物理學(xué)、社會(huì)學(xué)、文學(xué)),對(duì)社會(huì)化協(xié)同構(gòu)建的分類體系進(jìn)行評(píng)價(jià),探討社會(huì)化協(xié)同構(gòu)建分類法的改進(jìn)思路。

2 文獻(xiàn)綜述

2.1 網(wǎng)絡(luò)資源分類組織

針對(duì)網(wǎng)絡(luò)資源產(chǎn)生的網(wǎng)絡(luò)分類法在Web早期發(fā)揮了重要作用,如Yahoo Directory在搜索引擎出現(xiàn)之前相當(dāng)長時(shí)間內(nèi)充當(dāng)著Web門戶的角色。網(wǎng)絡(luò)信息分類組織具有較高的動(dòng)態(tài)化,同時(shí)常突破傳統(tǒng)的邏輯列類,分類表適用的語詞具有通用性,注重實(shí)用性和易用性。與此同時(shí),網(wǎng)絡(luò)信息分類系統(tǒng)大多存在體系不統(tǒng)一,類目排列的邏輯性、系統(tǒng)性較差的問題[6]。王知津等[7]提出網(wǎng)絡(luò)資源分類可以采用多維的分類體系,控制類目級(jí)別和層次并與主題詞表的結(jié)合。

隨著網(wǎng)絡(luò)資源特別是Web 2.0資源的增加,集中管理的網(wǎng)絡(luò)分類法逐漸不能適應(yīng)資源增長的需要,因此,以社會(huì)化標(biāo)注和大眾分類法為代表的Web 2.0信息資源組織方式逐漸替代了以Yahoo為代表的等級(jí)分類體系。國內(nèi)有學(xué)者對(duì)豆瓣網(wǎng)圖書標(biāo)簽進(jìn)行了評(píng)價(jià)研究,指出大眾標(biāo)注的標(biāo)簽數(shù)量分布不等,系統(tǒng)對(duì)標(biāo)簽的管理松散,缺乏詞形控制,存在標(biāo)注錯(cuò)誤、標(biāo)簽意義不明確等問題,提出了對(duì)同義詞進(jìn)行控制,用戶標(biāo)注倡議,明確標(biāo)簽意義,優(yōu)化系統(tǒng)推薦,完善標(biāo)簽管理功能,逐漸形成標(biāo)注規(guī)則和模式等改進(jìn)大眾標(biāo)注的若干建議[8]。但如何有效地在大眾標(biāo)簽中進(jìn)行等同、等級(jí)、相關(guān)等詞間關(guān)系的標(biāo)注和控制,由資源的創(chuàng)建者、使用者來進(jìn)行資源的組織這種“以用戶為中心”的信息組織思路在系統(tǒng)和機(jī)制層面如何實(shí)現(xiàn),仍是尚未解決的問題。

2.2 社會(huì)化標(biāo)簽與詞表

作為Web 2.0信息組織核心方法之一的社會(huì)化標(biāo)注(social tagging),允許用戶對(duì)信息資源通過標(biāo)簽(Tags)進(jìn)行標(biāo)引,由此形成大眾分類法(Folksonomy),是對(duì)基于傳統(tǒng)受控詞表的信息組織方式的有益補(bǔ)充[2,9]。然而,大眾分類法缺乏詞匯控制,概念與標(biāo)簽并非一一對(duì)應(yīng),標(biāo)簽結(jié)構(gòu)扁平,缺乏等級(jí)關(guān)系,用戶對(duì)資源的瀏覽和檢索方式受到很大局限。如標(biāo)簽系統(tǒng)支持的瀏覽方式包括:(1)瀏覽某個(gè)標(biāo)簽的所有資源;(2)瀏覽高頻標(biāo)簽列表;(3)瀏覽與當(dāng)前用戶標(biāo)簽重合度較高的標(biāo)簽列表。因此,Heymann P希望能夠從無結(jié)構(gòu)的標(biāo)簽中自動(dòng)構(gòu)建出等級(jí)結(jié)構(gòu)[10]。但自動(dòng)構(gòu)建詞表的方法(如LDA主題模型算法、機(jī)器學(xué)習(xí)等人工智能技術(shù))創(chuàng)建的詞表質(zhì)量并不高[5],僅能作為人工標(biāo)注的輔助工具。

用戶主導(dǎo)的信息組織,是Web 2.0信息組織的主要思路之一。如Quintareli E[11]提出在標(biāo)簽的基礎(chǔ)上,允許用戶標(biāo)記標(biāo)簽之間的等級(jí)關(guān)系、標(biāo)簽所屬分面;Hamasaki等[12]提出了標(biāo)簽的屬性等,并開發(fā)了實(shí)驗(yàn)系統(tǒng);Bragg J等[5]提出通過“眾包”方式,結(jié)合人工與自動(dòng)方法,共同構(gòu)建詞表。每個(gè)用戶只需少量智力勞動(dòng),然后由自動(dòng)方法將編輯的結(jié)果匯總形成完整的體系結(jié)構(gòu)。

王爽[13]、尚加寧[14]等嘗試通過改進(jìn)用戶的標(biāo)注方式,來提升自動(dòng)方法構(gòu)建標(biāo)簽等級(jí)關(guān)系的質(zhì)量,如要求用戶在給資源進(jìn)行標(biāo)注時(shí),同時(shí)標(biāo)注該資源的上位概念,以“標(biāo)簽1—標(biāo)簽2”的形式進(jìn)行標(biāo)注,其中“標(biāo)簽1”是對(duì)該資源的描述,“標(biāo)簽2”是“標(biāo)簽1”的上位概念。自動(dòng)方法結(jié)合用戶提供的上下位關(guān)系來構(gòu)建標(biāo)簽等級(jí)結(jié)構(gòu)。實(shí)驗(yàn)表明此方法構(gòu)建的等級(jí)結(jié)構(gòu)比直接自動(dòng)構(gòu)建的標(biāo)簽等級(jí)結(jié)構(gòu)質(zhì)量更高,但標(biāo)簽的豐富性和深度受到制約。

2.3 分類法評(píng)價(jià)

一般而言,對(duì)于傳統(tǒng)分類法的評(píng)價(jià)研究一般從類目結(jié)構(gòu)分布、類目設(shè)置特點(diǎn)如編制原則、體系結(jié)構(gòu)、具體類目(類號(hào)、類名、注釋、入口詞表等)等方面,進(jìn)行定性評(píng)價(jià)。也有學(xué)者嘗試從類目數(shù)量、類目質(zhì)量(交替度、參照度清晰度)等定量角度對(duì)《中圖法》和《科圖法》進(jìn)行評(píng)價(jià)研究[15]。對(duì)于大眾標(biāo)簽等級(jí)結(jié)構(gòu)的評(píng)價(jià),可采用標(biāo)簽等級(jí)質(zhì)量和錯(cuò)誤率兩個(gè)指標(biāo):其中,標(biāo)簽等級(jí)質(zhì)量與多個(gè)相關(guān)領(lǐng)域的專家詞表進(jìn)行對(duì)比,其重合度與專家詞表間的重合度作為等級(jí)質(zhì)量的依據(jù);錯(cuò)誤率包含標(biāo)簽重復(fù)、上下位關(guān)系缺失和錯(cuò)誤三種[13]。有研究標(biāo)明,通過人工與自動(dòng)方式構(gòu)建的領(lǐng)域的詞表,平均錯(cuò)誤率(包含類目重復(fù)、上下位關(guān)系缺失和上下位關(guān)系錯(cuò)誤)約為20%,也即大部分(80%)上下位關(guān)系是正確可用的[5]。Soloskinnsbakk G等[16]通過自動(dòng)方法在標(biāo)簽之間建立淺結(jié)構(gòu)來評(píng)價(jià)大眾分類法和本體的質(zhì)量。本研究借鑒傳統(tǒng)分類法的定性評(píng)價(jià)方式,也參考類目數(shù)量、重合度、關(guān)系質(zhì)量等指標(biāo),對(duì)社會(huì)化方式構(gòu)建的知乎標(biāo)簽等級(jí)結(jié)構(gòu)進(jìn)行綜合評(píng)價(jià)。

3 研究方法

作為社會(huì)化問答知識(shí)社區(qū),就內(nèi)容特征而言,知乎話題的等級(jí)結(jié)構(gòu)與傳統(tǒng)的文獻(xiàn)分類法應(yīng)有一定的相似之處,即用于組織知識(shí)資源。但由于其內(nèi)容的大眾化特點(diǎn),并非所有話題標(biāo)簽都在學(xué)科分類法中有所對(duì)應(yīng),因此,選取4個(gè)學(xué)科及其子話題結(jié)構(gòu),與傳統(tǒng)學(xué)科分類法較有代表性的《中國圖書館分類法》(Chinese Library Classification, 以下簡(jiǎn)稱《中圖法》和《美國國會(huì)圖書館圖書分類法》(Library of Congress Classification,以下簡(jiǎn)稱《國會(huì)法》)與之進(jìn)行比較評(píng)價(jià)。

3.1 數(shù)據(jù)采集

在話題/類目的選擇上,按照兼顧理性思維與感性思維的思路,從哲學(xué)、自然科學(xué)、社會(huì)科學(xué)、人文科學(xué)四個(gè)基本門類選取哲學(xué)、物理學(xué)、社會(huì)學(xué)、文學(xué)4個(gè)相對(duì)獨(dú)立的話題等級(jí)即主題領(lǐng)域。使用網(wǎng)絡(luò)爬蟲程序加載和抓取知乎話題的完整話題結(jié)構(gòu)頁,并對(duì)話題(即主題標(biāo)簽)按等級(jí)進(jìn)行統(tǒng)計(jì)(見表1)。

3.2 數(shù)據(jù)分析

由于知乎話題結(jié)構(gòu)樹較深,上述四個(gè)學(xué)科的抽樣達(dá)到7-10級(jí),因此,只選取知乎4個(gè)話題的完整話題結(jié)構(gòu)的前3級(jí)話題分別與《中圖法》、《國會(huì)法》相應(yīng)類目/主題的前3級(jí)類目/主題進(jìn)行對(duì)比,綜合展開定量、定性的評(píng)估比較。定量指標(biāo)為知乎4個(gè)話題結(jié)構(gòu)與《中圖法》、《國會(huì)法》類目的重合度;定性的指標(biāo)借鑒傳統(tǒng)分類法評(píng)估從劃分標(biāo)準(zhǔn)和引用次序、上下級(jí)關(guān)系、同位類的排列、橫向關(guān)系的揭示處理、話題名5個(gè)方面進(jìn)行具體分析。

4 結(jié)果

4.1 知乎話題的設(shè)置情況

四個(gè)知乎話題等級(jí)中,類目層級(jí)最深達(dá)到10層。圖1展示了四個(gè)學(xué)科話題各層級(jí)的類目數(shù)量分布情況。

其中,“哲學(xué)”話題結(jié)構(gòu)包含9個(gè)等級(jí)共148個(gè)不重復(fù)話題,其中121個(gè)(81.8%)話題僅出現(xiàn)1次,其余27個(gè)話題共出現(xiàn)78次?!拔锢韺W(xué)”話題的結(jié)構(gòu)包含10個(gè)等級(jí)共240個(gè)不重復(fù)話題,其中有204個(gè)(85%)話題僅出現(xiàn)1次,其余36個(gè)話題共出現(xiàn)97次?!吧鐣?huì)學(xué)”話題的結(jié)構(gòu)包含7個(gè)等級(jí)共113個(gè)不重復(fù)話題,其中有82個(gè)(72.6%)話題僅出現(xiàn)1次,其余31個(gè)共出現(xiàn)67次。“文學(xué)”話題的結(jié)構(gòu)包含10個(gè)等級(jí)共536個(gè)不重復(fù)話題,其中有306個(gè)(57%)話題僅出現(xiàn)1次,其余230個(gè)話題共出現(xiàn)889次。

四個(gè)話題中,“文學(xué)”話題子類的重復(fù)率最高,每個(gè)重復(fù)反映的子類平均出現(xiàn)3.9次。

4.2 知乎、《中圖法》與《國會(huì)法》對(duì)比評(píng)價(jià)

4.2.1 哲學(xué)

從內(nèi)容看,《中圖法》第5版與知乎“哲學(xué)”話題

相對(duì)應(yīng)的類目范圍包含:“B-4 哲學(xué)教育與普及”、“B0 哲學(xué)理論”、“B1 世界哲學(xué)”、“B2 中國哲學(xué)”、“B3 亞洲哲學(xué)”、“B4 非洲哲學(xué)”、“B5 歐洲哲學(xué)”、“B6 大洋洲哲學(xué)”和“B7 美洲哲學(xué)”。類目體系先按從一般到具體,再按先地域后時(shí)間的順序展開。

《國會(huì)法》中與知乎“哲學(xué)”話題相對(duì)應(yīng)的范圍為基本大類“B Philosophy, Psychology”下的二級(jí)類目“B1-5802 Philosophy”。該類以下,《國會(huì)法》將與對(duì)應(yīng)類目相關(guān)的主題按從一般到具體的順序組成松散的體系結(jié)構(gòu)(《國會(huì)法》在其他 3個(gè)學(xué)科大類以下的主題結(jié)構(gòu)也具有類似的特征)。有關(guān)主題體系先從文獻(xiàn)的載體類型等形式標(biāo)準(zhǔn)劃分到特殊主題,再按先時(shí)間后地域再時(shí)間的邏輯展開。

知乎“哲學(xué)”話題下有18個(gè)二級(jí)子話題,其中有1個(gè)(6%)二級(jí)子話題與《中圖法》“哲學(xué)”類下三級(jí)類目相同,1個(gè)(6%)二級(jí)子話題與《國會(huì)法》“哲學(xué)”類下二級(jí)主題相同;有26個(gè)三級(jí)子話題,其中有1個(gè)(4%)三級(jí)子話題與《中圖法》“哲學(xué)”類下三級(jí)類目相同,1個(gè)(4%)三級(jí)子話題與《中圖法》“哲學(xué)”類下二級(jí)類目相同,有2個(gè)(8%)三級(jí)子話題與《國會(huì)法》“哲學(xué)”類下三級(jí)主題相同。針對(duì)“哲學(xué)”在三個(gè)分類體系中的對(duì)比評(píng)價(jià)見表2。

知乎“哲學(xué)”話題的話題結(jié)構(gòu)整體沒有明確的劃分標(biāo)準(zhǔn)和引用次序,僅在局部有明確的劃分標(biāo)準(zhǔn),如三級(jí)話題“唯物主義(Materialism)”和“唯心主義(Idealism)”,但是,可見明確劃分標(biāo)準(zhǔn)的各局部話題結(jié)構(gòu)都是日常同現(xiàn)率較高的主題,所以,這不能反映用戶較明確、系統(tǒng)的分類意識(shí);由于僅在很少量的局部可見明確的劃分標(biāo)準(zhǔn),加之整個(gè)話題結(jié)構(gòu)表現(xiàn)為

用戶在不同時(shí)間從不同角度創(chuàng)建的話題的累積,所以,更不可見可歸納的引用次序;部分上下級(jí)話題間的關(guān)系不規(guī)范,如二級(jí)話題“數(shù)學(xué)哲學(xué)”、“語言哲學(xué)”應(yīng)為數(shù)學(xué)、語言學(xué)的相應(yīng)子類,“哲學(xué)流派”下有三級(jí)話題“古代哲學(xué)”;由于以上劃分標(biāo)準(zhǔn)、引用次序、上下級(jí)話題關(guān)系的不規(guī)范,以及同級(jí)話題創(chuàng)建的本身也缺乏協(xié)調(diào),導(dǎo)致同級(jí)話題的排列也不遵循特定的順序,僅是按加入同一父話題的時(shí)間先后序列;橫向關(guān)系的處理在此表現(xiàn)為重復(fù)反映,在用于對(duì)比的二三級(jí)話題中有1處,即三級(jí)話題“真理論(Theory of Truth)”同為“形而上學(xué)”和“邏輯哲學(xué)論”的子話題,反映的橫向關(guān)系類似傳統(tǒng)圖書分類法的“參照”;與前兩部嚴(yán)謹(jǐn)?shù)姆诸惙ㄒ?guī)范統(tǒng)一的類目和主題名不同,知乎“哲學(xué)”話題下的子話題名稱更為具體、自由,如二級(jí)話題“哲學(xué)入門”、三級(jí)話題“心物關(guān)系”。

4.2.2 物理學(xué)

《中圖法》第5版“O4 物理學(xué)”屬基礎(chǔ)科學(xué)類目,是基本大類“O 數(shù)理科學(xué)和化學(xué)”的子類,下設(shè)19個(gè)二級(jí)子類和75個(gè)三級(jí)子類,類目展開按研究對(duì)象的性質(zhì),依據(jù)從總到分,從簡(jiǎn)單到復(fù)雜的方式。

在《國會(huì)法》中,“QC1-999 Physics”為基本大類“Q Science”下的二級(jí)類目。其下級(jí)主題體系按照從文獻(xiàn)的載體類型、哲學(xué)和方法論等形式標(biāo)準(zhǔn)和一般標(biāo)準(zhǔn)到原子、聲、熱、光、電磁等具體研究主題的順序展開。

知乎“物理學(xué)”話題下有32個(gè)二級(jí)子話題,其中有7個(gè)(22%)二級(jí)子話題與《中圖法》“物理學(xué)”類下二級(jí)類目相同,有8個(gè)(25%)二級(jí)子話題與《國會(huì)法》“物理學(xué)”類下二級(jí)主題相同,有7個(gè)(22%)二級(jí)子話題與《中圖法》“物理學(xué)”類下三級(jí)類目相同,有7個(gè)(22%)二級(jí)子話題與《國會(huì)法》“物理學(xué)”類下三級(jí)類目相同;有62個(gè)三級(jí)子話題,其中有4個(gè)(6%)三級(jí)子話題與《中圖法》“物理學(xué)”類下三級(jí)類目相同,有9個(gè)(15%)三級(jí)子話題與《國會(huì)法》“物理學(xué)”類下三級(jí)主題相同。得出“物理學(xué)”在三個(gè)分類體系中的對(duì)比評(píng)價(jià)(見表3)。

知乎“物理學(xué)”話題的話題結(jié)構(gòu)整體仍然沒有明確的劃分標(biāo)準(zhǔn),僅在有限的局部可見明確的劃分標(biāo)準(zhǔn),如二級(jí)話題“相對(duì)論”下設(shè)兩個(gè)子話題“唯廣義相對(duì)論”和“狹義相對(duì)論”,可見明確劃分標(biāo)準(zhǔn)的局部話題結(jié)構(gòu)仍然都是日常同現(xiàn)率較高、大眾熟知的劃分,同樣不能反映用戶較明確、系統(tǒng)的分類意識(shí);整個(gè)話題結(jié)構(gòu)仍無可歸納的引用次序;相對(duì)于“哲學(xué)”話題,“物理學(xué)”的話題結(jié)構(gòu)中父子話題間的上下級(jí)關(guān)系相對(duì)規(guī)范,沒有子話題從屬不當(dāng)?shù)默F(xiàn)象;同級(jí)子話題同樣是按加入同一父話題的時(shí)間先后序列;橫向關(guān)系的處理在此未體現(xiàn);與《中圖法》、《國會(huì)法》規(guī)范、全面的類目和主題不同,知乎“物理學(xué)”話題下的子話題更多地具有大眾化的特點(diǎn),如二級(jí)話題“物理學(xué)家”下僅有7個(gè)子話題:牛頓、愛因斯坦、伽利略、霍金是物理學(xué)史上最為杰出者,為大眾所熟知;錢學(xué)森在中國網(wǎng)民中聲明卓著;而其余兩位尤其尼古拉·特斯拉則因其傳奇神秘的經(jīng)歷而被廣泛討論。

4.2.3 社會(huì)學(xué)

《中圖法》第5版“C91 社會(huì)學(xué)”是基本大類“C 社會(huì)科學(xué)總論”的子類,下設(shè)6個(gè)二級(jí)子類和28個(gè)三級(jí)子類,類目展開按研究對(duì)象的性質(zhì),依從一般到特殊、從理論到實(shí)踐的方式。

《國會(huì)法》中與知乎“社會(huì)學(xué)”話題相對(duì)應(yīng)的類目大致為基本大類“H Social sciences”下的二級(jí)類目“HM401-1281 Sociology”,主題體系大致按從一般到特殊、由抽象到具體的順序展開。

知乎“社會(huì)學(xué)”下有28個(gè)二級(jí)子話題,沒有二級(jí)子話題與《中圖法》“社會(huì)學(xué)”下二級(jí)類目相同,有2個(gè)(7%)二級(jí)子話題與《國會(huì)法》“社會(huì)學(xué)”下二級(jí)主題相同;有33個(gè)三級(jí)子話題,沒有與《中圖法》和《國會(huì)法》相同的話題。“社會(huì)學(xué)”在三個(gè)分類體系中的對(duì)比評(píng)價(jià)(見表4)。

知乎“社會(huì)學(xué)”話題的結(jié)構(gòu)混亂無序,不可見任何明確的劃分標(biāo)準(zhǔn)和引用次序;相對(duì)于前兩個(gè)話題,“社會(huì)學(xué)”的話題結(jié)構(gòu)中父子話題間的上下級(jí)關(guān)系更加不規(guī)范,如二級(jí)話題“民族主義”下設(shè)子話題“憤青”,“社會(huì)心理學(xué)”下有“生物理論”;同級(jí)子話題按加入同一父話題的時(shí)間先后序列,部分話題在內(nèi)容范圍上存在交叉,如“公益組織”下的子話題“Teach For China”、“榕樹根公益項(xiàng)目”兩個(gè)話題與“慈善機(jī)構(gòu)”、“公益基金會(huì)”兩個(gè)話題間,以及“慈善機(jī)構(gòu)”、“公益基金會(huì)”相互之間都存在交叉;橫向關(guān)系的處理有2處,一處為話題的同級(jí)別重復(fù)反映,即“ Teach For China”同屬于“公益組織”和“非盈利組織”;另一處為話題的跨級(jí)別重復(fù)反映,即“種族主義”既是二級(jí)子話題又是二級(jí)話題“社會(huì)問題”的子話題;知乎“社會(huì)學(xué)”話題下的子話題更多地具有世俗化的特點(diǎn),相對(duì)于哲學(xué)、物理學(xué)、文學(xué)來說,社會(huì)學(xué)的內(nèi)容更不為大眾所熟知。因此,知乎“社會(huì)學(xué)”話題下的子話題很多與“社會(huì)”“社會(huì)問題”相關(guān),如“老齡化”“留守兒童”等。

4.2.4 文學(xué)

《中圖法》第5版中,“I 文學(xué)”為基本大類,下設(shè)“I0 文學(xué)理論”“I1 世界文學(xué)”“I2 中國文學(xué)”“I3/7 各國文學(xué)”4個(gè)二級(jí)子類和47個(gè)三級(jí)子類(含15個(gè)專類復(fù)分表類目),類目展開按從一般到特殊,從理論到體裁的方式。

《國會(huì)法》中與知乎“文學(xué)”話題對(duì)應(yīng)的類目大致為基本大類“P Language and Literature”下的二級(jí)類目“PN Literature”,該類下包含19個(gè)二級(jí)子主題和68個(gè)三級(jí)子主題。類目展開的模式與《中圖法》類似。

知乎“文學(xué)”下有37個(gè)二級(jí)子話題,其中有2個(gè)(5%)二級(jí)子話題與《中圖法》“文學(xué)”下二級(jí)類目相同,有10個(gè)(27%)二級(jí)子話題與《國會(huì)法》“文學(xué)”下二級(jí)主題相同,有3個(gè)(8%)二級(jí)子話題與《中圖法》“文學(xué)”下三級(jí)類目相同,有1個(gè)(3%)二級(jí)子話題與《國會(huì)法》“文學(xué)”下三級(jí)主題相同;有111個(gè)三級(jí)子話題,其中有3個(gè)(3%)三級(jí)子話題與《中圖法》“文學(xué)”下三級(jí)類目相同,有2個(gè)(2%)三級(jí)子話題與《國會(huì)法》“文學(xué)”下三級(jí)主題相同,有1個(gè)三級(jí)子話題與《中圖法》“文學(xué)”下二級(jí)類目相同,有1個(gè)三級(jí)子話題與《國會(huì)法》“文學(xué)”下二級(jí)主題相同。針對(duì)“文學(xué)”在三個(gè)分類體系中的對(duì)比評(píng)價(jià)(見表5)。

知乎“文學(xué)”話題的結(jié)構(gòu)整體仍沒有明確的劃分標(biāo)準(zhǔn),僅在有限的局部可見明確的劃分標(biāo)準(zhǔn),如二級(jí)話題“文學(xué)史”下設(shè)兩個(gè)子話題“中國文學(xué)史”和“世界文學(xué)史”,可見明確劃分標(biāo)準(zhǔn)的局部話題結(jié)構(gòu)屬大眾熟知的劃分,同樣不能反映用戶較明確、系統(tǒng)的分類意識(shí);整個(gè)話題結(jié)構(gòu)仍無可歸納的引用次序;話題結(jié)構(gòu)中存在子話題從屬不當(dāng)?shù)默F(xiàn)象,如“古代文學(xué)”下設(shè)“古籍”;同級(jí)子話題同樣是按加入同一父話題的時(shí)間先后序列;橫向關(guān)系的處理方面,存在多處話題的同級(jí)別重復(fù)反映和跨級(jí)別重復(fù)反映;知乎“文學(xué)”話題下的子話題具有一定的中國文化特色,如“新詩”“傷痕文學(xué)”等。

4.3 知乎話題結(jié)構(gòu)的評(píng)價(jià)

知乎的話題結(jié)構(gòu)式社會(huì)化方法構(gòu)建標(biāo)簽等級(jí)的一個(gè)案例,借助用戶力量以等級(jí)體系組織和顯示話題關(guān)系,由用戶創(chuàng)建話題并采用社會(huì)化的方式構(gòu)建話題結(jié)構(gòu)。

(1)相對(duì)于傳統(tǒng)的文獻(xiàn)分類法,采用社會(huì)化方式構(gòu)建的知乎話題結(jié)構(gòu)不完整?!吨袌D法》和《國會(huì)法》兩部等級(jí)列舉式分類法采用盡量列舉的編制方式,類目體系可以基本涵蓋有關(guān)領(lǐng)域的全部文獻(xiàn);相比較而言,知乎的話題結(jié)構(gòu)遠(yuǎn)未窮盡有關(guān)話題(主題)的外延,但其中包含的子話題更多地反映了用戶本身的關(guān)注熱點(diǎn)。從使用目的來看,兩者分別能夠適應(yīng)類分文獻(xiàn)和專注用戶興趣的需要,但知乎不完整的話題結(jié)構(gòu)使用戶不能對(duì)有關(guān)話題作全面把握和了解。

(2)從知乎選取的4個(gè)話題的結(jié)構(gòu)來看,雖然管理者最初試圖以等級(jí)結(jié)構(gòu)體系組織和顯示用戶創(chuàng)建的話題(事物主題),從形式上講,話題間的關(guān)系也是以等級(jí)體系顯示的,但這種設(shè)定和經(jīng)用戶社會(huì)化構(gòu)建過程形成的話題結(jié)構(gòu)最終呈現(xiàn)的實(shí)際仍是事物主題網(wǎng)狀聯(lián)系的自然分布特征。4個(gè)話題的話題結(jié)構(gòu)中有部分話題重復(fù)反映率高達(dá)40%,這一方面在一定程度上對(duì)于揭示話題內(nèi)部的橫向多元關(guān)系是有益的;另一方面也造成了等級(jí)關(guān)系的混亂和話題結(jié)構(gòu)的臃腫。

(3)雖然4個(gè)話題的子話題是以等級(jí)體系顯示的,但子話題具有類目特征的很少,更多地是反映了用戶的關(guān)注和興趣。即使僅考察4個(gè)話題的話題結(jié)構(gòu)的第1次劃分即二級(jí)話題,具有顯著類目特征的話題也極少。有必要說明,由于物理學(xué)本身的自然科學(xué)屬性,在傳統(tǒng)文獻(xiàn)分類法中,該類目所作的類目劃分多按研究對(duì)象進(jìn)行,因而在傳統(tǒng)文獻(xiàn)分類法中該類的子類名稱就較多地表現(xiàn)為主題。因而相對(duì)于其它3個(gè)話題,該話題的子話題與《中圖法》和《國會(huì)法》有較高的重復(fù)率。由于等級(jí)結(jié)構(gòu)必然體現(xiàn)上下位類的屬分關(guān)系,知乎話題較少類目特征的子話題進(jìn)一步削弱了話題結(jié)構(gòu)本身的體系揭示功能,進(jìn)而更容易導(dǎo)致用戶使用時(shí)邏輯的混亂。

(4)從話題結(jié)構(gòu)的整體來看,話題結(jié)構(gòu)中每一級(jí)話題的展開幾乎都沒有僅使用一個(gè)標(biāo)準(zhǔn)而是不同劃分標(biāo)準(zhǔn)的主題并存,有的主題沒有互相排斥,存在交叉現(xiàn)象,如“社會(huì)學(xué)”2級(jí)話題中“社會(huì)階層”與“社會(huì)地位”“社會(huì)結(jié)構(gòu)”,文學(xué)2級(jí)話題中“中國文學(xué)”與“漢語言文學(xué)”,“文學(xué)創(chuàng)作”與“寫作”;對(duì)4個(gè)話題結(jié)構(gòu)從上到下進(jìn)行遍歷,發(fā)現(xiàn)在結(jié)構(gòu)體系展開的過程中,也不可見成規(guī)律的引用次序;在同位類排列方面,由于每一級(jí)話題的展開表現(xiàn)為不同劃分標(biāo)準(zhǔn)的雜糅,同位類的排列也不可見明顯的排序依據(jù)。

5 結(jié)論與討論

知乎以等級(jí)結(jié)構(gòu)體系組織和顯示話題及其關(guān)系,交由用戶創(chuàng)建話題、進(jìn)行話題結(jié)構(gòu)的社會(huì)化構(gòu)建,最終得到的話題等級(jí)呈現(xiàn)出數(shù)量大、局部有邏輯、全局無規(guī)律的特點(diǎn),存在劃分及排序不一致,話題名稱較隨意等問題。社會(huì)化構(gòu)建的知乎話題等級(jí),并非嚴(yán)格的分類體系,而是話題分類與主題標(biāo)簽結(jié)合的一種形態(tài),不具備系統(tǒng)性、邏輯性,但交由用戶構(gòu)建、體現(xiàn)用戶保證原則,對(duì)于用戶生成知識(shí)資源的組織有借鑒意義。對(duì)于社會(huì)化構(gòu)建的編制方式,用戶在創(chuàng)建話題和構(gòu)建話題結(jié)構(gòu)時(shí),基于主題局部邏輯,但全體用戶最終構(gòu)建出多維、充分揭示的完整等級(jí),Web2.0優(yōu)勢(shì)便得以顯現(xiàn)。與一般標(biāo)簽系統(tǒng)的使用不同[17],知乎話題結(jié)構(gòu)是基于主題的,幾乎沒有用于其他任務(wù),如標(biāo)記擁有者、用于個(gè)人參考和用于任務(wù)協(xié)調(diào)的標(biāo)簽。

對(duì)于知乎類社會(huì)化構(gòu)建的標(biāo)簽等級(jí)的改進(jìn),可使用淺結(jié)構(gòu)加標(biāo)簽云的知識(shí)組織模式:允許淺層類目(如3-6級(jí)[6]),深層則采用標(biāo)簽云等靈活、豐富的各種表現(xiàn)形式。深層的分類體系適合傳統(tǒng)各專業(yè)領(lǐng)域,越深的類目結(jié)構(gòu)越會(huì)限制話題(主題)的網(wǎng)狀聯(lián)系,對(duì)于社會(huì)化構(gòu)建的編制方式和大眾使用不太適用,因此,不建議深層主題使用等級(jí)結(jié)構(gòu)體系的組織和顯示方式。傳統(tǒng)文獻(xiàn)分類法在反映最新主題方面雖不及時(shí),但其上級(jí)類作為對(duì)主題內(nèi)容的初步劃分,類目之間更加獨(dú)立和穩(wěn)定,是可以參考的,在頂層采用類目結(jié)構(gòu)作基本范疇劃分可以最大限度地降低對(duì)主題網(wǎng)狀聯(lián)系的限制。

總體來看,知乎參與話題結(jié)構(gòu)社會(huì)化構(gòu)建的用戶是缺乏按分類思維組織等級(jí)體系的明確意識(shí)的。在無意識(shí)的協(xié)同過程中,用戶的標(biāo)注行為與信息組織結(jié)果之間的關(guān)系如何,用戶本身的特點(diǎn)如社會(huì)資本等對(duì)標(biāo)注行為是否有影響[18],信息行為呈現(xiàn)怎樣的特點(diǎn),還有待進(jìn)一步研究。

參考文獻(xiàn):

[1] 康桂英.分類法與主題法在網(wǎng)絡(luò)信息資源組織與揭示中的應(yīng)用[J].情報(bào)科學(xué),1999(3):284-287.

[2] Macgregor G,Mcculloch E.Collaborative Tagging as a Knowledge Organisation and Resource Discovery Tool[J].Library Review,2006,55(5):291-300.

[3] 賈君枝.分眾分類法與受控詞表的結(jié)合研究進(jìn)展[J].中國圖書館學(xué)報(bào),2010,36(5):96-101.

[4] 朱燁.基于窄分眾分類法構(gòu)建學(xué)科網(wǎng)摘門戶初探[J].圖書情報(bào)知識(shí),2007(1):74-78.

[5] Bragg J,Mausam S.,Weld D.Crowdsourcing Multi-Label Classification for Taxonomy Creation[C].Proceedings of the the First AAAI Conference on Human Computation and Crowdsourcing,2013.

[6] 陳樹年.網(wǎng)絡(luò)信息分類法研究[J].現(xiàn)代圖書情報(bào)技術(shù),2002(3):54-57.

[7] 王知津,肖洪.網(wǎng)絡(luò)信息組織對(duì)傳統(tǒng)信息組織的借鑒[J].圖書館工作與研究,2003(4):2-7.

[8] 羌麗,張學(xué)蓮,侯漢清.圖書大眾標(biāo)注評(píng)介——以豆瓣網(wǎng)為例[J].圖書館雜志,2009(2):21-26.

[9] Kiu C-C,Tsui E.TaxoFolk:A hybrid taxonomy–folksonomy structure for knowledge classification and navigation[J].Expert Systems with Applications,2011,38(5):6049-6058.

[10] Heymann,P.,Garcia-Molina,H.Collaborative creation of communal hierarchical taxonomies in social tagging systems[EB/OL].[2016-04-30].http://ilpubs.stanford.edu:8090/775/1/2006-10.pdf.

[11] Quintarelli E,Resmini A,Rosati L.Information architecture:Facetag:Integrating bottom-up and top-down classification in a social tagging system[J].Bulletin of the American Society for Information Science and Technology,2007,33(5):10-15.

[12] Hamasaki M,Goto M,Takeda H.Social Infobox:collaborative knowledge construction by social property tagging[C]. Proceedings of the ACM 2011 conference on Computer supported cooperative work.ACM,2011.

[13] Almoqhim F,Millard D,Shadbolt N.An Approach to Building High-Quality Tag Hierarchies from Crowdsourced Taxonomic Tag Pairs[M].JATOWT A,LIM E-P,DING Y,et al.Social Informatics.Springer International Publishing,2013:129-138.

[14] 王爽,徐行.基于用戶分類標(biāo)簽建立結(jié)構(gòu)性的大眾分類法[J].圖書館學(xué)研究,2011(5):73-76.

[15] 尚加寧,韓露盈.圖書分類法性能的定量測(cè)評(píng)初探[J].情報(bào)理論與實(shí)踐,1999,22(5):356-358.

[16] Solskinnsbakk G,Gulla J A,Haderlein V,et al.Quality of hierarchies in ontologies and folksonomies[J].Data & Knowledge Engineering,2012(74):13-25.

[17] Golder S A,Huberman B A.Usage patterns of collaborative tagging systems[J].Journal of Information Science,2006,32(2):198-208.

[18] Lin C S,Chen Y F.Examining social tagging behaviour and the construction of an online folksonomy from the perspectives of cultural capital and social capital[J].Journal of Information Science,2012,38(6):540-57.

作者簡(jiǎn)介:張鵬翼(1981-),女,北京大學(xué)信息管理系副教授;蘇杰(1990-),男,北京大學(xué)信息管理系碩士研究生;張久珍(1974-),女,北京大學(xué)信息管理系副教授。