国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

從用戶標(biāo)注中抽取本體框架與知識(shí)組織系統(tǒng)創(chuàng)新研究*

2016-07-13 03:42鄭州大學(xué)信息管理學(xué)院河南鄭州450001
圖書館建設(shè) 2016年1期
關(guān)鍵詞:本體關(guān)聯(lián)語(yǔ)義

白 華(鄭州大學(xué)信息管理學(xué)院 河南 鄭州 450001)

?

從用戶標(biāo)注中抽取本體框架與知識(shí)組織系統(tǒng)創(chuàng)新研究*

白 華(鄭州大學(xué)信息管理學(xué)院河南鄭州450001)

針對(duì)用戶標(biāo)注的弱點(diǎn),在標(biāo)簽的基礎(chǔ)上構(gòu)建本體框架并賦予標(biāo)簽豐富的語(yǔ)義,有助于進(jìn)一步改善知識(shí)組織系統(tǒng)的性能。在大量標(biāo)簽數(shù)據(jù)的支持下,提取知識(shí)框架是一種建立本體框架的有效方法,提取方法主要采用特征或?qū)傩愿爬ǚ?,即針?duì)一類標(biāo)簽集合的共同特征抽取它們的上位概念,并根據(jù)這些上位概念的關(guān)系建立知識(shí)框架。對(duì)基于兩種系統(tǒng)的語(yǔ)義分析而構(gòu)建的可以整合標(biāo)簽和概念本體的兼容本體進(jìn)行分析可知,它吸取了用戶標(biāo)注的靈活、多元、表達(dá)性強(qiáng)大的特征,提高了知識(shí)組織系統(tǒng)的組織能力和標(biāo)引功能;同時(shí),也改進(jìn)了用戶標(biāo)注系統(tǒng)的語(yǔ)義能力,使之具有豐富的結(jié)構(gòu)和語(yǔ)義表達(dá)功能。

用戶標(biāo)注 本體框架抽取 知識(shí)組織系統(tǒng)

目前,大多數(shù)知識(shí)體系或資源組織系統(tǒng)都采用概念劃分方式展開(kāi)體系,劃分意味著區(qū)分和關(guān)聯(lián),即每個(gè)概念都是其他概念的“關(guān)系”概念,這是人們構(gòu)建知識(shí)世界的普遍規(guī)則。寬泛地說(shuō),本體就是一種按任務(wù)或目標(biāo)用語(yǔ)義技術(shù)構(gòu)建知識(shí)體系的方法,它不限于一般的學(xué)科概念或知識(shí)框架,可以構(gòu)建不同任務(wù)與目標(biāo)的本體。大眾分類的出現(xiàn)只有10年左右,它創(chuàng)造了一種新的分類“體系”,大眾詞匯、非規(guī)范性的表達(dá)、多樣化的分組、概念的模糊性或獨(dú)特性、平面化的結(jié)構(gòu)等構(gòu)成了大眾分類的主要特征[1]。也就是說(shuō),它為分類展現(xiàn)了新的視角或樣式。大眾分類在結(jié)構(gòu)、觀念、應(yīng)用上都體現(xiàn)了“草根”化的民俗(folk)特征,這些特征將成為新型本體的養(yǎng)料。

1 用戶標(biāo)注的分類創(chuàng)新

大眾分類首先是具有民俗性,這在觀念上形成了大眾的視角:對(duì)資源的選取、表達(dá)資源詞匯的選取、獨(dú)到的感受和表達(dá)符號(hào)等都顛覆了原來(lái)的專家視角和觀念,使知識(shí)體系的表達(dá)出現(xiàn)了全新的價(jià)值和方法。它也許不是最好的,然而卻是最有用的,這在大眾時(shí)代是對(duì)專家式知識(shí)觀和資源觀的顛覆或重新改寫。然而這種顛覆,不是要否定其他知識(shí)體系,而是要?jiǎng)?chuàng)造一種新的知識(shí)組織方式,即大眾分類的意義在于它的創(chuàng)舉而不是否定。大眾分類實(shí)質(zhì)上是由“小眾”(組群)組成的,不僅因?yàn)樗馁Y源是個(gè)人或“小眾”(組群)的,它的描述資源的符號(hào)也是由分群形成的“小眾”,即在一個(gè)交流圈中流行的術(shù)語(yǔ),即使表面上與一般詞匯相同的符號(hào),在不同組群中也可能代表不盡相同的意思。這樣就產(chǎn)生了問(wèn)題,即怎樣在一般知識(shí)系統(tǒng)中表達(dá)“個(gè)人化”的知識(shí)結(jié)構(gòu),而又不失其本意?這就需要?jiǎng)?chuàng)新,需要在一般知識(shí)系統(tǒng)中添加必要的大眾分類的個(gè)性化方法或技術(shù)。

1.1大眾語(yǔ)言

“民俗”化的表達(dá)是大眾分類最突出的特色,這些表達(dá)選取的符號(hào),并非僅僅是追求詞語(yǔ)的新奇,而是追求獨(dú)特的用戶感受和大眾的資源需要,或許這些符號(hào)只是流行的泡沫,然而它在知識(shí)的發(fā)展中留下了抹不去的痕跡,因而具有價(jià)值上的正當(dāng)性。網(wǎng)絡(luò)熱詞的出現(xiàn),總是伴隨著某些資源或觀念的誕生,這就是它的價(jià)值。如果這些資源是有價(jià)值的,被許多人關(guān)注的,它就必須成為知識(shí)體系的一個(gè)節(jié)點(diǎn)。

1.2大眾關(guān)注的資源選擇

用戶標(biāo)注是以用戶個(gè)人創(chuàng)作或閱讀的資源為對(duì)象,這顛覆了過(guò)去分類法或敘詞表等的資源選擇,并直接影響到知識(shí)表達(dá)系統(tǒng)。在表達(dá)的用戶看來(lái),大眾分類資源選取的用戶立場(chǎng)不但使資源保障成為不言自明的內(nèi)在規(guī)則,而且使符號(hào)對(duì)資源的表達(dá)性更為“真確”。由于表達(dá)的個(gè)別性(各個(gè)用戶分別表達(dá)),個(gè)性化的標(biāo)簽使表達(dá)的符號(hào)體系呈現(xiàn)出獨(dú)有的特點(diǎn),而且這些特點(diǎn)可以用資源本身來(lái)定義。這就是大眾分類本體“浮出語(yǔ)義”方法的支柱。

表達(dá)符號(hào)的多樣性,并非一定會(huì)導(dǎo)致混亂或不清晰,這種“混亂”可能是建構(gòu)新的知識(shí)秩序的原料[2]。例如,在分布式環(huán)境中,數(shù)字資源的多樣表達(dá)幾乎是不可避免的,而語(yǔ)義本體就是為這樣的異構(gòu)數(shù)據(jù)與分布環(huán)境建立橋梁。同類資源的多樣表達(dá)(多種符號(hào))不僅為用戶保留了多樣化的尋找資源的渠道,而且為本體增加了豐富的表達(dá)手段或語(yǔ)義。例如,OWL(Web Ontology Language,網(wǎng)絡(luò)本體語(yǔ)言)本體的Equivalent Classes 與SKOS (Simple Knowledge Organization System,簡(jiǎn)單知識(shí)組織系統(tǒng))PrefLabel、AltLabel、HiddenLabel語(yǔ)句,都可以關(guān)聯(lián)不同形式的標(biāo)簽,從而使本體語(yǔ)義更為豐富[3]。正如人們總是不斷變換表達(dá)事物的詞匯一樣,知識(shí)體系也在不斷地變換詞匯符號(hào),用變化的概念表達(dá)變化的觀念或事物。

1.3資源多元語(yǔ)義與多向關(guān)聯(lián)本體

由于用戶標(biāo)注資源時(shí)通常使用多個(gè)標(biāo)簽描述資源,使資源可以關(guān)聯(lián)多個(gè)類,同時(shí)多元語(yǔ)義關(guān)聯(lián)可以方便用戶從多個(gè)角度(詞匯或其他符號(hào))查找到相同資源。多元關(guān)系是資源多種特征的體現(xiàn),因?yàn)橘Y源研究的事物的屬性是多方面、多角度的。多元語(yǔ)義可以多方面地表達(dá)事物對(duì)象(即資源)的多方面特征,也可以反映用戶對(duì)事物的多方面、多角度的認(rèn)識(shí);這些認(rèn)知是用戶標(biāo)記和查詢資源的依據(jù),所以多元語(yǔ)義應(yīng)是本體技術(shù)滿足用戶查詢和標(biāo)注工作的一個(gè)策略。一種用戶標(biāo)注的標(biāo)簽有時(shí)使用了大量寬泛的上位詞,這使資源分組形成了普遍的“不合法”或不嚴(yán)謹(jǐn)?shù)臓顟B(tài),創(chuàng)造了一種大眾時(shí)代的寬泛甚或模糊的分類“規(guī)則”。這種方法,在早期的關(guān)鍵詞索引時(shí)代就存在了,但是真正使之普遍化的是20世紀(jì)80年代以后的“超文本時(shí)代”,網(wǎng)絡(luò)資源多元成組技術(shù)成為突破線性組織體系的一個(gè)數(shù)字時(shí)代的創(chuàng)舉。但是真正具有“分類法則”意義的是大眾分類時(shí)代,它使檢索和歸類實(shí)現(xiàn)了真正意義上的多元組織,即真正成為一種普遍的方法體系或方法變革的樣例。

本體和語(yǔ)義網(wǎng)的核心思想是在分布式數(shù)據(jù)環(huán)境中,如何實(shí)現(xiàn)大量異構(gòu)數(shù)據(jù)的語(yǔ)義關(guān)聯(lián),所以本體對(duì)準(zhǔn)、本體映射、本體集成技術(shù)從不同角度探索了如何疊加不同的概念框架,并連接或轉(zhuǎn)換不同的表達(dá)形式[4]。在另一層面,語(yǔ)義網(wǎng)與本體語(yǔ)言在一個(gè)本體系統(tǒng)內(nèi)部,也致力于各種類別、個(gè)體概念的關(guān)聯(lián)、重用和轉(zhuǎn)換,即把不同的表達(dá)符號(hào)集成到一起,以便實(shí)現(xiàn)信息聚合[5]。例如,在OWL2中,Equivalent Class、Equivalent Property 、Same Individual這些本體建構(gòu)語(yǔ)句形成了構(gòu)造不同概念、不同個(gè)體和不同屬性的強(qiáng)有力的語(yǔ)法工具[5]。

然而,本體關(guān)聯(lián)不僅是實(shí)體之間顯性語(yǔ)義關(guān)系的聯(lián)系,更多的是一種隱在的語(yǔ)義關(guān)聯(lián),如明顯的屬性描述中隱含的間接語(yǔ)義關(guān)系以及父類賦予子類和實(shí)體的邏輯關(guān)系。這些關(guān)聯(lián)并非一定是一種類似傳統(tǒng)分類的“歸入”關(guān)系,而是一種特征表達(dá),這些特征被推理器推導(dǎo)出來(lái),成為本體最重要的語(yǔ)義類型。隱含關(guān)系可能推導(dǎo)出人們從未發(fā)現(xiàn)的新知識(shí)或新信息,從而為本體知識(shí)庫(kù)添加新的知識(shí)類型,幫助語(yǔ)義網(wǎng)實(shí)現(xiàn)智能咨詢和檢索[6]。例如,相交類(in te rs ec tion c la ss es)一般就是創(chuàng)造一個(gè)匿名類(anonymous class),如“美國(guó)∩懸疑∩電影”就是創(chuàng)造了一個(gè)隱匿的類——“美國(guó)懸疑電影”,這個(gè)匿名類實(shí)際上是由本體中的3個(gè)初級(jí)類(primary class)即“美國(guó)”“懸疑”“電影”的交集組成,或可以解析為“美國(guó)電影∩懸疑電影”的交集。然而本體類在同一層級(jí)(父類)是兩兩不相交的類(disjoint classes),這意味著,相交類通常是不同父類之間的子類或個(gè)體相交;所以,匿名類實(shí)際上是由屬性關(guān)聯(lián)起來(lái)的、具有本體語(yǔ)言規(guī)定的某些給定條件的隱在的類,它可以把大量具有某些同樣特征的類,以匿名形式表達(dá)為一個(gè)新的個(gè)體知識(shí)集合,這極大地豐富了本體的語(yǔ)義能力。

2 在知識(shí)組織體系中加入大眾分類本體的特征和改進(jìn)表達(dá)方法

大眾分類的創(chuàng)新并不完美,然而它為新型分類本體提供了革新的“原料”。此外,大眾分類代表的知識(shí)本體的使用群體是龐大、復(fù)雜的,這個(gè)因素也是本體創(chuàng)建要考慮的核心因素之一。

2.1語(yǔ)言選擇

本體語(yǔ)言的選擇需要基于很多方面的考量,首先是資源表達(dá)的標(biāo)記符號(hào)發(fā)生了變化,大眾標(biāo)記不過(guò)是一種表現(xiàn)。除此之外,近十幾年來(lái),圖書研究的內(nèi)容發(fā)生了變化,越來(lái)越多的作者從多種角度研究同一個(gè)對(duì)象,傳統(tǒng)的資源描述符號(hào)已經(jīng)難以適應(yīng)當(dāng)前知識(shí)的復(fù)雜情況。其次,多學(xué)科視角的研究規(guī)范已經(jīng)建立,多學(xué)科研究使單線性的知識(shí)結(jié)構(gòu)無(wú)法適應(yīng)現(xiàn)實(shí)的著述情況,因?yàn)橘Y源放在一個(gè)位置顯然是不夠的。因此,當(dāng)前的資源內(nèi)容需要多元化的表達(dá)符號(hào)和表達(dá)形式。

首先,本體的語(yǔ)言選擇已經(jīng)完全不同于傳統(tǒng)分類法和敘詞表的一般化概念,而是更強(qiáng)調(diào)本體底層的個(gè)體和屬性的表達(dá),以便推出細(xì)節(jié)性知識(shí);其次,本體語(yǔ)言的大量關(guān)系構(gòu)造語(yǔ)句致力于描述不同語(yǔ)言、不同表達(dá)形成的映射關(guān)聯(lián)。例如,在SKOS中,正式標(biāo)簽(PrefLabel)、替代標(biāo)簽(AltLabel)、隱藏標(biāo)簽(HiddenLabel)、語(yǔ)種標(biāo)記(以@language表示)表明了本體語(yǔ)言對(duì)多樣化的自然語(yǔ)言表達(dá)形式的關(guān)注和集成多種語(yǔ)種資源的意向[7]。這說(shuō)明,本體的語(yǔ)言選擇雖然重視正式術(shù)語(yǔ)概念,但也同樣重視自然語(yǔ)言的多樣表達(dá)。因?yàn)槎鄻踊谋磉_(dá)是分布式數(shù)據(jù)環(huán)境的普遍現(xiàn)象。要建立一個(gè)表達(dá)能力強(qiáng)大的本體,必須考慮資源或知識(shí)多樣化背后的語(yǔ)言或表達(dá)符號(hào)的多樣化。所以本體的語(yǔ)言選擇至少應(yīng)把科學(xué)術(shù)語(yǔ)和自然語(yǔ)言、大眾標(biāo)記同等看待。

2.2用戶資源需求的變化與本體形成的原則

大眾分類是在資源形成同時(shí)或之后形成標(biāo)記符號(hào)的用戶的資源需求必須得到最充分的滿足。這種狀態(tài)為本體和知識(shí)系統(tǒng)的構(gòu)建開(kāi)啟了新的視域。

(1)非學(xué)科性分類需求。大眾標(biāo)注形成了一種新的分類需求,即非學(xué)科性分類需求。它追求的不一定是一個(gè)知識(shí)系統(tǒng),也許是一個(gè)日常的知識(shí)片斷或節(jié)點(diǎn),這符合一般群體的知識(shí)需求。因?yàn)橛脩羧翰豢赡苁侵R(shí)系統(tǒng)專家,他們熟悉的是某些或某個(gè)知識(shí)點(diǎn)。本體構(gòu)建雖然也是一個(gè)體系式的知識(shí)框架或系統(tǒng),然而不少本體的大部分用語(yǔ)是非學(xué)科的,即它可以構(gòu)建事務(wù)性的體系,或圍繞某一對(duì)象形成小型知識(shí)體系。所以,大部分本體可以滿足某個(gè)知識(shí)節(jié)點(diǎn)的細(xì)節(jié)性知識(shí)。例如,一個(gè)人及其朋友群,一個(gè)事物的關(guān)聯(lián)體,這使知識(shí)系統(tǒng)更加細(xì)化和具有日常性,從而能夠滿足人們工作性、事務(wù)性的需求。

(2)以達(dá)成用戶需求的目標(biāo)為宗旨。用戶標(biāo)注是資源形成的一部分,即標(biāo)簽是為了完成用戶表達(dá)個(gè)人觀點(diǎn)的這種視角使表達(dá)系統(tǒng)更貼近資源本身,成為資源的一部分。本體表達(dá)符號(hào)也應(yīng)該服從重視用戶表達(dá)的需求,使本體成為用戶群體樂(lè)意分享的概念和表達(dá)概念的工具。

(3)注重實(shí)用。用戶標(biāo)注主要是圍繞個(gè)人關(guān)注的事物或觀念對(duì)資源進(jìn)行標(biāo)記,即它是為了表達(dá)和描述對(duì)象而建立的知識(shí)體系,所以注重個(gè)人實(shí)用是他們創(chuàng)建資源和標(biāo)簽的目的。本體形成原則也應(yīng)以實(shí)用為目標(biāo),注重用戶關(guān)注和用戶應(yīng)用,以用戶組群的應(yīng)用為建模目標(biāo)。

(4)任務(wù)保障。用戶標(biāo)注是為了完成表達(dá)個(gè)人資源參閱和利用同類資源的任務(wù)而參與標(biāo)注活動(dòng)的,用標(biāo)簽表達(dá)個(gè)人的資源集,并聚合相關(guān)用戶的資源集,以實(shí)現(xiàn)任務(wù)因?yàn)橛脩粢呀?jīng)擁有了個(gè)人的資源集合了。本體構(gòu)造的原則,也應(yīng)圍繞領(lǐng)域任務(wù)進(jìn)行。按此原則,領(lǐng)域詞匯的選擇及資源考察,應(yīng)該成為建立本體的前提條件。在建立本體時(shí),類概念的選取、劃分符號(hào)的粒度(粗細(xì)或大小)選擇等,都要考慮是否有利于完成某個(gè)領(lǐng)域用戶的任務(wù)。

2.3多元語(yǔ)義表達(dá)

用戶標(biāo)注通常采用一件資源、多個(gè)標(biāo)簽的方式,多方面表達(dá)用戶對(duì)資源的觀點(diǎn)。而在用戶組中,同一資源,標(biāo)注的符號(hào)也可能完全不同。標(biāo)簽過(guò)濾雖然以趨同為目標(biāo)然而多用戶標(biāo)注的結(jié)果是一件資源一般都有數(shù)個(gè)甚至十余個(gè)標(biāo)簽(要依過(guò)濾后選取標(biāo)準(zhǔn)而定)。這意味著,多元表達(dá)是大眾分類的常態(tài)現(xiàn)象。多元表達(dá)也是分布式系統(tǒng)的基本特點(diǎn),語(yǔ)義網(wǎng)就是針對(duì)多元表達(dá)提出的解決方案之一,分類法和敘詞表也是為了解決多元歧義而產(chǎn)生的。不過(guò),傳統(tǒng)分類采取了“以一元代多元”的方案。敘詞法雖然把非敘詞關(guān)聯(lián)起來(lái),但它的自然語(yǔ)言概念是“非用詞”,即一個(gè)沒(méi)有資源的“空集”。本體采取的是不同概念體系的關(guān)聯(lián)方法,即對(duì)于多元表達(dá),本體技術(shù)采取了映射、集成、重用等方法,把異構(gòu)數(shù)據(jù)集成到一個(gè)目標(biāo)本體內(nèi)。這種集成實(shí)現(xiàn)了不同概念或資源的平等共享,而不是代替。例如,在細(xì)節(jié)上,OWL2本體語(yǔ)言采用了注釋(annotation)屬性、聲明(declaration)、擴(kuò)展等技術(shù),允許用戶添加自己的語(yǔ)義[8];SKOS除了擴(kuò)展外,還允許用戶建立自己的分類體系。這些支持多元表達(dá)的技術(shù)可以讓應(yīng)用軟件在處理時(shí),構(gòu)建具有語(yǔ)義集成功能的數(shù)據(jù)集。本體的多元語(yǔ)義是基于海量分布式數(shù)據(jù)大量存在的現(xiàn)實(shí)而產(chǎn)生的,這為處理大規(guī)模分布式數(shù)據(jù)集、為用戶找到內(nèi)容上關(guān)聯(lián)的有用資源建立了有利條件。多元表達(dá)在大眾分類中的優(yōu)勢(shì),是它能夠以平面結(jié)構(gòu)展示大量的概念路徑或查詢窗口,而在本體中,這應(yīng)成為一種集成概念或關(guān)聯(lián)資源的技術(shù)。

3 基于大眾分類的新型分類本體的構(gòu)建

基于大眾分類的本體,在某種意義上是一種新型本體,因?yàn)樗腔谟脩魟?chuàng)新的需求。也就是說(shuō),以大眾分類為基礎(chǔ)的分類本體需求要體現(xiàn)用戶標(biāo)注的某些新特征。大眾分類本體模型采用“浮出語(yǔ)義”方法,盡可能地保留用戶資源和標(biāo)記,只是在資源集、用戶組、標(biāo)簽集、標(biāo)注頻率等之間添加語(yǔ)義,在本體模型基礎(chǔ)上方便資源共享。新型分類本體也要保留用戶標(biāo)注的某些特征,采用用戶語(yǔ)言并加以提煉和“修正”,以便本體保留更多民俗特征或大眾分類的功能,同時(shí)又具有一般知識(shí)本體的特征,以便與一般知識(shí)系統(tǒng)實(shí)現(xiàn)語(yǔ)義連接。

3.1基于用戶標(biāo)注的詞語(yǔ)處理

(1)標(biāo)簽的概念抽取。用戶標(biāo)注的詞語(yǔ)有許多優(yōu)勢(shì),首先是語(yǔ)義豐富,關(guān)聯(lián)的資源多;其次是語(yǔ)料多樣,表達(dá)全面。所以分類本體應(yīng)在語(yǔ)言上擺脫過(guò)于學(xué)術(shù)化的傾向,盡量選取用戶標(biāo)簽又不拘于用戶標(biāo)簽,在原則上把用戶標(biāo)簽當(dāng)作抽取概念或類的“原料”。同時(shí),標(biāo)簽作為聯(lián)結(jié)資源的符號(hào),要盡可能與概念聯(lián)系起來(lái),這樣,類概念作為一個(gè)知識(shí)窗口,除了作為本體的一個(gè)知識(shí)實(shí)體(entitle)或節(jié)點(diǎn)(node)外,還可以是代表類資源的符號(hào)。

下頁(yè)圖1是豆瓣網(wǎng)上的一個(gè)經(jīng)過(guò)處理的標(biāo)簽云(tag cloud)頁(yè)面[9],筆者以此為例討論用戶標(biāo)簽的概念抽取問(wèn)題。首先,筆者對(duì)圖1用戶標(biāo)注的標(biāo)簽進(jìn)行了處理,把此頁(yè)面上截取的部分標(biāo)簽分為三大類:加波浪線的標(biāo)簽代表人名標(biāo)簽,可以抽取為“藝術(shù)家”的概念類;斜體字的標(biāo)簽代表“地區(qū)”或空間(spatial)類;加下劃線的標(biāo)簽代表類型或題材類。此外,我們?cè)跇?biāo)簽云頁(yè)面中,未截取的時(shí)間(temporality)標(biāo)簽也要被考慮作為立類的一個(gè)面(facet)。最后,還要考慮用戶對(duì)電影的標(biāo)記、介紹和評(píng)論資源,為此設(shè)一個(gè)類。這樣每部電影作為個(gè)體或本體類的一個(gè)實(shí)例,都具有空間、時(shí)間、題材(類型)、創(chuàng)作者、評(píng)論等屬性。這些屬性不但建構(gòu)了一部電影與各類概念的關(guān)系,而且全面描述了每部電影的拍攝國(guó)家、年代、演員和導(dǎo)演、題材(類型),這樣這個(gè)電影本體就全方位介紹了每部電影的全面知識(shí)。例如,《七宗罪》是大衛(wèi)·芬奇導(dǎo)演的作品,1995年上線,主要演員有布拉德·皮特、摩根·弗里曼、凱文·史派西、格溫妮斯·帕特洛、李·厄米、查爾斯·達(dá)頓,是美國(guó)制作的懸疑、驚悚、犯罪題材的經(jīng)典電影。不僅如此,每部電影根據(jù)題材可以歸入每個(gè)類型中,也可以集成到導(dǎo)演和明星名下,可以按國(guó)家、年代集成。這樣用戶無(wú)論從哪個(gè)角度查找,都可以找到想要的電影,而且都可以集成資源。這種優(yōu)勢(shì)是傳統(tǒng)分類技術(shù)無(wú)法比擬的。

由圖1可以觀察到:多元分類從查詢角度看,是為用戶開(kāi)啟了多個(gè)查詢窗口;從本體來(lái)看,多元表達(dá)是一種多方面特征的語(yǔ)義表達(dá),它不但為實(shí)體增加了多方面的、豐富的屬性關(guān)系,構(gòu)造了每個(gè)實(shí)體的集成資源,而且為每個(gè)實(shí)體添加了多方面的語(yǔ)義;應(yīng)用軟件在處理時(shí),會(huì)把語(yǔ)義描述的多方面資源集成到每個(gè)實(shí)體下。例如,每個(gè)導(dǎo)演實(shí)體,都集成了個(gè)人導(dǎo)演的作品;每個(gè)明星演員,都集成了他/她表演的個(gè)人作品。這在圖書分類時(shí)代幾乎是很難實(shí)現(xiàn)的,除非編制龐大的個(gè)人索引才能做到。而使用本體技術(shù),只要添加一些語(yǔ)義連接就可以實(shí)現(xiàn)大規(guī)模的知識(shí)集成[10]。

(2)標(biāo)簽細(xì)化處理。除了抽取概念類,用戶標(biāo)簽還需要?dú)w并、規(guī)范或添加語(yǔ)義,使標(biāo)簽概念明晰化和規(guī)范化。

圖1 用戶標(biāo)注的“電影”標(biāo)簽資料的處理

①標(biāo)簽歸并。大量的用戶標(biāo)簽和標(biāo)簽組成的標(biāo)簽云(一個(gè)大眾分類檢索窗口)是按照標(biāo)注頻率選取出來(lái)的,有些標(biāo)簽是重復(fù)的,有一個(gè)意思多種標(biāo)記的,這就需要整合和歸并。例如,“動(dòng)畫、動(dòng)畫片、動(dòng)畫短片、動(dòng)漫、卡通”“同志、同性”“童話、童年”“日劇、日本、日本電影、日本動(dòng)畫、日本動(dòng)漫、日劇、日影”等,都只能歸并為一個(gè)規(guī)范詞,其他詞作為同義詞關(guān)聯(lián)起來(lái)(因?yàn)槊總€(gè)標(biāo)簽都有資源)標(biāo)簽;兼有地區(qū)和題材特征的標(biāo)簽,一般要改變一下,使其既作為空間詞用,又作為題材(類型)用,如“美國(guó)動(dòng)畫”,就是既屬于地區(qū)類,又屬于題材類。

②標(biāo)簽規(guī)范并添加語(yǔ)義。標(biāo)簽規(guī)范即為有歧義或?yàn)槟承┛s寫的標(biāo)簽定義,或?yàn)闃?biāo)簽補(bǔ)足語(yǔ)義,有的還需要轉(zhuǎn)換概念。例如,“同性”指的“同性戀電影”,它與“同志”“gay”等同義又略有區(qū)別,“同志”“gay”均指男同性戀,但作為電影類型,區(qū)分不宜再細(xì)。再如,“3D”指“3D電影”或立體影片,“西部”特指美國(guó)的“西部電影”或以牛仔故事為題材的影片。某些簡(jiǎn)稱需要在本體注釋(annotation)中添加定義,如“l(fā)es”是英文Lesbian的簡(jiǎn)稱,即女同性戀;BBC是英國(guó)廣播公司拍攝的電影;OVA是原創(chuàng)動(dòng)畫錄影帶(Original Video Animation)的簡(jiǎn)稱,一般指通過(guò)DVD、藍(lán)光碟等影碟發(fā)行方式為主的劇集;HBO是Home Box Office的縮寫(直譯為家庭票房),是一家美國(guó)的付費(fèi)有線和衛(wèi)星聯(lián)播網(wǎng),為時(shí)代華納公司所擁有并由Home Box Office公司負(fù)責(zé)營(yíng)運(yùn)。這些資料都要在本體注釋中說(shuō)明,以幫助用戶和機(jī)器識(shí)別。

標(biāo)簽處理后,形成了類(包括子類)、個(gè)體和屬性(屬性即類、子類和個(gè)體間的關(guān)系)。處理結(jié)果如圖2所示。

圖2 標(biāo)簽處理后的類、個(gè)體和屬性

3.2本體框架與集成語(yǔ)法和語(yǔ)義

圖3是本體的基本框架及語(yǔ)義片斷。這個(gè)片斷的前三級(jí)表示等級(jí)關(guān)系,用“owl:subClassOf”語(yǔ)法描述子類和父類的關(guān)系,個(gè)體與類關(guān)系也可以用“owl:subClassOf”語(yǔ)法描述,不過(guò)Proé軟件允許在屬性中使用“type”語(yǔ)句將個(gè)體歸入父類;此外,對(duì)于個(gè)體與個(gè)體關(guān)系,用戶可以在Proté軟件的“objectProperty”中定義個(gè)體間的屬性關(guān)系。例如,在圖3中,“大衛(wèi)·芬奇”和“李安”分別導(dǎo)演(directs)了電影《七宗罪》和《色·戒》,“directs”就是關(guān)聯(lián)導(dǎo)演與其作品的屬性;我們還可以用“directed by”的“逆函數(shù)”(inverseOf)屬性把每部電影和它的導(dǎo)演聯(lián)系起來(lái)。同樣,每部電影可以關(guān)聯(lián)到“電影類型”中分別按地區(qū)、年代、題材劃分的類。這意味著,關(guān)于每部電影的制作地區(qū)、年代、類型、導(dǎo)演、演員、劇情等知識(shí),都集中在每部電影名下,推理器可以方便地推出這些知識(shí),這就是本體的作用之一,即它可以向用戶提供一個(gè)實(shí)體的全面知識(shí)[11]。另一方面,導(dǎo)演和演員也可以用屬性語(yǔ)法把每個(gè)人的電影作品集成到一起。同時(shí),由于電影作品個(gè)體(每部電影)可以分別描述地區(qū)、年代、題材(類型)等類型特征,這意味著在本體中,每部電影可以在語(yǔ)義工具中從多個(gè)角度實(shí)現(xiàn)語(yǔ)義聚類和查詢,為從不同角度理解一部電影作品的用戶提供了在不同檢索途徑中聚類的窗口。

此外,大量的用戶標(biāo)簽(見(jiàn)圖1)特別是同義和相關(guān)標(biāo)簽,在本體中可以在多個(gè)方面聯(lián)系起來(lái):一是同義標(biāo)簽代表相同或同類的資源,可以用本體語(yǔ)法聯(lián)系起來(lái)。這種語(yǔ)義集成的最終目標(biāo)是實(shí)現(xiàn)資源集成,這意味著,用戶不但可以查詢和共享自己的資源,而且可以分享別人標(biāo)注的同類資源。二是同義標(biāo)簽可以與本體概念類關(guān)聯(lián)起來(lái),以便在本體類下集成標(biāo)簽代表的用戶資源。例如,圖1中的“日劇”“日劇”“日本”“日本電影”“日影”都是同類或相近標(biāo)簽,其中的“日劇”和“日劇”是中文繁簡(jiǎn)體的不同表達(dá),標(biāo)注的資源是日本在電視上播放的電影,而“日本”指的是“日本電影”,與“日影”等是同義標(biāo)簽。

圖3 電影本體語(yǔ)義圖

3.3類、個(gè)體和資源多元集成

在大眾分類法中,每個(gè)標(biāo)簽都是一個(gè)查詢窗口,即每個(gè)標(biāo)簽都是一次劃分標(biāo)準(zhǔn)。例如,當(dāng)用戶給《七宗罪》標(biāo)注了“懸疑”“犯罪”“驚悚”等標(biāo)簽,這部作品就歸入了3個(gè)類型,即個(gè)體可以有多個(gè)“類”特征。而在本體中,雖然強(qiáng)調(diào)本體在概念上具有不同(difference)、清晰的特征,仍然定義了“等于類(equivalent classes)”“相同的個(gè)體(same individuals)”等語(yǔ)法,因?yàn)楸倔w的重要任務(wù)是要在分布式數(shù)據(jù)集這樣的復(fù)雜環(huán)境中,關(guān)聯(lián)不同形式的概念和實(shí)例(instance),把它們代表的資源集成起來(lái),實(shí)現(xiàn)共享和重用。對(duì)于大眾分類這樣的高度分布式環(huán)境,語(yǔ)義集成尤其重要,其有利于在語(yǔ)義意義上集成用戶標(biāo)注這樣的大規(guī)模分布式數(shù)據(jù)集,而語(yǔ)義關(guān)聯(lián)是主要方法。

在W3C的“酒本體”文件中,“wine(果酒)”這個(gè)概念在不同類中設(shè)立,而且出現(xiàn)了“wine=wine”這樣的類名;同時(shí),“酒本體”出現(xiàn)了許多邏輯交類[12]。這些例子說(shuō)明,多元關(guān)聯(lián)是一種重要的本體技術(shù),如“美國(guó)電影”這個(gè)概念就是“美國(guó)”這個(gè)地區(qū)類與“電影”這個(gè)類的交集,即相交類(intersectional classes),這種相交語(yǔ)義可以組配成許多相關(guān)的類,如“美國(guó)懸疑電影”“美國(guó)導(dǎo)演”“美國(guó)演員”等具有多種語(yǔ)義的類概念。多語(yǔ)義或多特征的子類或個(gè)體,不是要為多特征的實(shí)體分組,而是為了給實(shí)體賦予更多的語(yǔ)義特征性知識(shí)。更重要的是,要為一個(gè)實(shí)體集成各種特征,而這些特征關(guān)聯(lián)到不同的個(gè)體,并不違背不相交類(disjoint class)的建模原理,因?yàn)殛P(guān)聯(lián)的是對(duì)象(個(gè)體或其他實(shí)體)的屬性,而并非使實(shí)體歸到其他類。OWL等本體語(yǔ)言描述的公理(axiom),可以使之成為語(yǔ)義工具的處理對(duì)象,并非在本體中成為另一類的對(duì)象[13]。

4 結(jié) 語(yǔ)

大眾分類對(duì)知識(shí)組織系統(tǒng)和其他本體的影響體現(xiàn)在許多方面,而最深遠(yuǎn)的影響表現(xiàn)在3個(gè)方面:一是資源決定體系,即圍繞已有資源形成本體,數(shù)據(jù)狀態(tài)和數(shù)量以及本體任務(wù)、目標(biāo)等因素將全面支配本體的類型、大小和結(jié)構(gòu),也就是說(shuō),服務(wù)資源決定本體。過(guò)去“文獻(xiàn)保證原則”實(shí)際上難以做到,因?yàn)榇笮椭R(shí)體系是對(duì)學(xué)科和研究領(lǐng)域的粗略評(píng)估,很難全面貫徹這個(gè)原則。二是用戶因素,用戶將確定分類法、敘詞表等本體的類型和大小,因?yàn)楸倔w主要是為特定用戶服務(wù)的,所以自然語(yǔ)言、用戶標(biāo)注將成為知識(shí)組織的重要詞匯[14]。三是分布式資源和用戶標(biāo)注造成的語(yǔ)義難題,使語(yǔ)義聚合和集成變得越來(lái)越重要,成為處理分布數(shù)據(jù)和多樣表達(dá)的關(guān)鍵技術(shù);所以在本體中關(guān)聯(lián)不同標(biāo)簽,從而實(shí)現(xiàn)按語(yǔ)義規(guī)則聚合內(nèi)容成為關(guān)鍵的手段,而語(yǔ)義技術(shù)將成為新一代知識(shí)框架能夠?qū)崿F(xiàn)目標(biāo)的有力工具,它將改變知識(shí)組織系統(tǒng)的結(jié)構(gòu)、表達(dá)能力和規(guī)則,從而為它的創(chuàng)新奠定堅(jiān)實(shí)基礎(chǔ)。

[1]Subasi I, Berend B. Topical Structure Discovery in Folksonomies [EB/OL].[2015-06-08].http://www.kde.cs.uni-kassel.de/ws/ wbbtmine2008/pdf/3.pdf.

[2]王真星, 但唐仁, 葉長(zhǎng)青, 等.本體集成研究[J].計(jì)算機(jī)工程, 2007, 33(2):4-5,33.

[3]陳 遙, 李 珊, 厲 浩. 一種基于ontology的數(shù)據(jù)集成系統(tǒng)[J].計(jì)算機(jī)工程, 2007,33(23):90-93,64.

[4]W3C. SKOS Simple Knowledge Organization System Reference [EB/OL]. [2014-10-23].http://www.w3.org/TR/2009/REC-skos-reference-20090818/.

[5]John H, Matthew F, Ryan B, et al . Web3.0與Semantic Web編程[M]. 唐富年, 唐榮年, 譯. 北京:清華大學(xué)出版社, 2010:292-296, 298-306.

[6]W3C. OWL2 Web Ontology Language New Features and Rationale [EB/OL]. [2014-09-13]. http://www.w3.org/TR/2009/ REC-owl2-new-features-20091027.

[7]W3C. OWL2 Web Ontology Language Primer [EB/OL]. [2014-11-18]. http://www.w3.org/TR/2009/REC-owl2-primer-20091027/.

[8]W3C. SKOS Simple Knowledge Organization System Reference [EB/OL].[2014-06-09]. http://www.w3.org/TR/2009/REC-skos-refrence-20090818/.

[9]豆瓣網(wǎng). 電影標(biāo)簽云[EB/OL].[2015-07-21]. http://movie. douban.com/tag/?view=cloud.

[10]高小龍, 朱信忠, 趙建民,等. 電影本體的構(gòu)建與一致性分析[J].計(jì)算機(jī)應(yīng)用, 2014,34(8):2192-2196, 2201.

[11]Bouquet P, Serafini L, Zanobini S. Semantic Coordination: A New Approach and an Application[C]. Sanibel Island,Florida, USA:In Proceedings of ISWC, 2003:130-145.

[12]W3C.Wine Ontology[EB/OL].[2015-05-12].http://www.w3.org/ TR/2003/PR-owl-guide-20031209/wine/.

[13]薛春香, 喬曉東, 朱禮軍. 基于集成的領(lǐng)域知識(shí)組織系統(tǒng)構(gòu)建初探[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2009(11):29-33.

[14]毛 軍. 基于RDF的敘詞表研究[J]. 情報(bào)學(xué)報(bào), 2003(4): 163-168.

白 華 男,1955年生,博士,鄭州大學(xué)信息管理學(xué)院教授,主要研究方向?yàn)樾畔⒄Z(yǔ)義組織與本體。

Innovation Research on Ontology Framework and Knowledge Organization System Extracting from the User Tagging

In view of user tagging's weakness, constructing ontology framework and endowing lable with rich semantic based on the label, could help to improve the performance of knowledge organization system. With the support of a large number of tag data, the extraction of knowledge framework is an effective method to build ontology framework. The extraction methods mainly take the method of characteristic or attribute generalization. That is, in view of common features of a class of label extracting their upper concepts, and according to the relationship among the upper concepts the knowledge frame is established. Through analyzing compatible ontology which constructs based on the semantic analysis of the two systems and integrating labels and concept ontology, we could find that it absorbs characteristics of the user tagging of flexiblity, diversity and strong expression, improves organization skills and indexing functions of the knowledge organization system; meanwhile, it also improves the semantic ability of user tagging system which make it with rich structure and semantic expressive function.

User tagging; Ontology framework extracting; Knowledge organization system

G254.29

A

2015-08-06 ]

*本文系國(guó)家社會(huì)科學(xué)基金項(xiàng)目“大眾分類法本體構(gòu)建與集成映射研究”的成果之一,項(xiàng)目編號(hào):10BTQ017。

猜你喜歡
本體關(guān)聯(lián)語(yǔ)義
不懼于新,不困于形——一道函數(shù)“關(guān)聯(lián)”題的剖析與拓展
眼睛是“本體”
語(yǔ)言與語(yǔ)義
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
奇趣搭配
基于本體的機(jī)械產(chǎn)品工藝知識(shí)表示
智趣
批評(píng)話語(yǔ)分析中態(tài)度意向的鄰近化語(yǔ)義構(gòu)建
“社會(huì)”一詞的語(yǔ)義流動(dòng)與新陳代謝
“吃+NP”的語(yǔ)義生成機(jī)制研究
泰来县| 南江县| 武隆县| 泸定县| 闵行区| 息烽县| 汉沽区| 微山县| 乐东| 宁陵县| 丹棱县| 金昌市| 外汇| 怀安县| 张家港市| 曲靖市| 蒙山县| 叶城县| 乐都县| 射阳县| 东城区| 陇川县| 新安县| 无极县| 安龙县| 新郑市| 柏乡县| 化州市| 威宁| 缙云县| 岳阳县| 皮山县| 伊春市| 贡觉县| 浮山县| 东阿县| 德庆县| 封丘县| 乌拉特后旗| 桦川县| 乌苏市|