国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向用戶生成內(nèi)容的多粒度知識(shí)組織研究

2022-11-23 12:03:50王忠義鄭鑫王珂瑩
情報(bào)學(xué)報(bào) 2022年10期
關(guān)鍵詞:三元組粒度關(guān)聯(lián)

王忠義,鄭鑫,王珂瑩

(華中師范大學(xué)信息管理學(xué)院,武漢 430079)

1 引言

在大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)信息資源已經(jīng)成為了大數(shù)據(jù)的重要來(lái)源之一。作為網(wǎng)絡(luò)信息資源中的重要組成部分,用戶生成內(nèi)容(user generated content,UGC)也相應(yīng)地成為一種重要的大數(shù)據(jù)資源。UGC是指網(wǎng)絡(luò)用戶通過(guò)各種社交媒體平臺(tái)所發(fā)布的信息,包含了大量人們?cè)诠ぷ?、生活中總結(jié)出的經(jīng)驗(yàn)、訣竅等知識(shí)內(nèi)容,成為人們獲取知識(shí)的重要來(lái)源之一。與傳統(tǒng)信息資源不同,UGC以碎片化的形式廣泛地存在于各個(gè)社交媒體平臺(tái)。盡管這種碎片化的知識(shí)可以幫助人們精準(zhǔn)且快捷地獲取知識(shí),但就人類的認(rèn)知規(guī)律而言,不利于人們對(duì)知識(shí)的理解和有效使用以及構(gòu)建相應(yīng)的知識(shí)體系。從總體上看,人們的知識(shí)獲取行為符合從局部到整體、從低層概念到高層概念逐步構(gòu)建知識(shí)體系的認(rèn)知規(guī)律。處在不同認(rèn)知階段的用戶具有不同粒度的知識(shí)需求,處在高級(jí)認(rèn)知階段的領(lǐng)域?qū)<矣脩敉枰?xì)粒度的知識(shí)來(lái)優(yōu)化已有的知識(shí)結(jié)構(gòu),而處在低級(jí)認(rèn)知階段的普通用戶則更需要構(gòu)建較粗粒度的知識(shí)體系。因此,對(duì)碎片化的UGC知識(shí)進(jìn)行從點(diǎn)到面、從局部到整體的多粒度組織十分必要。

2 相關(guān)研究

2.1 大數(shù)據(jù)環(huán)境下的UGC研究

UGC這一概念在2005年由O'Reilly學(xué)者首次提出[1],隨后在國(guó)內(nèi)外受到了學(xué)者們的廣泛關(guān)注??傮w來(lái)說(shuō),可以將有關(guān)UGC的研究劃分為基礎(chǔ)理論研究、應(yīng)用研究以及“碎片化”研究等幾個(gè)方面。UGC基礎(chǔ)理論研究包括內(nèi)涵研究、生成動(dòng)機(jī)研究、傳播機(jī)制研究、質(zhì)量研究、內(nèi)容分析研究以及法律問(wèn)題研究等;UGC應(yīng)用研究主要涵蓋了教育、地理、電商、民主政治、公共媒體、圖書(shū)館、博物館等領(lǐng)域;UGC“碎片化”研究可以分為對(duì)UGC碎片化現(xiàn)象和內(nèi)容的研究?jī)蓚€(gè)部分,新聞傳播領(lǐng)域的學(xué)者主要針對(duì)“碎片化”現(xiàn)象進(jìn)行研究[2],計(jì)算機(jī)科學(xué)、圖書(shū)檔案和信息科學(xué)等領(lǐng)域的學(xué)者主要針對(duì)“碎片化”內(nèi)容進(jìn)行相關(guān)研究,以知識(shí)圖譜和知識(shí)地圖的形式結(jié)構(gòu)發(fā)現(xiàn)和揭示碎片化知識(shí)間的關(guān)聯(lián)[3-5]。總體來(lái)說(shuō),針對(duì)UGC碎片化的研究還相對(duì)較少,研究的方向較為單一。

2.2 基于知識(shí)元的知識(shí)組織研究

知識(shí)組織(knowledge organization)的概念最早由美國(guó)分類法專家布利斯在1929年提出[6]。在知識(shí)組織的過(guò)程中,組織單元的選擇至關(guān)重要。知識(shí)元是不可分割的最小知識(shí)單元。溫有奎[7]和姜永常等[8]通過(guò)系統(tǒng)論證,認(rèn)為知識(shí)元應(yīng)該是進(jìn)行知識(shí)組織的基本單位,姜永常等[8]還具體給出了基于知識(shí)元的知識(shí)組織流程,包括知識(shí)元抽取、知識(shí)分類與標(biāo)引、知識(shí)元庫(kù)和知識(shí)倉(cāng)庫(kù)構(gòu)建四個(gè)部分[7];陳果等[9-10]提出知識(shí)元可以是細(xì)粒度的具備語(yǔ)義完整性的知識(shí)組織單位[9],并且界定了具有一定領(lǐng)域性特征資源中知識(shí)元的概念[10];李銳等[11]以學(xué)科已有的層次結(jié)構(gòu)為基礎(chǔ)建立知識(shí)模塊,并將知識(shí)模塊進(jìn)一步劃分為多個(gè)子模塊,將子模塊看作一個(gè)知識(shí)元來(lái)建立知識(shí)組織體系,該方法有一定的參考價(jià)值,但對(duì)知識(shí)元的描述不夠準(zhǔn)確且適用范圍有限。還有部分學(xué)者提出了要對(duì)不同粒度的知識(shí)進(jìn)行多粒度組織。徐緒堪等[12]將客體知識(shí)通過(guò)分類和聚類的方式分為不同粒度的知識(shí),結(jié)合用戶需求對(duì)多粒度的知識(shí)進(jìn)行組織;馮儒佳等[13]對(duì)科技文獻(xiàn)進(jìn)行了多粒度知識(shí)組織建模,對(duì)科技文獻(xiàn)資源和知識(shí)元分別進(jìn)行了粗、中、細(xì)粒度的劃分,并建立了不同粒度資源和知識(shí)元之間的映射,實(shí)現(xiàn)了基于科技文獻(xiàn)的多粒度知識(shí)組織和集成。

2.3 面向UGC的知識(shí)組織研究

當(dāng)前面向UGC的知識(shí)組織研究相對(duì)較少,根據(jù)組織對(duì)象的不同,主要可以劃分為兩個(gè)部分:面向UGC文獻(xiàn)的知識(shí)組織和面向UGC內(nèi)容的知識(shí)組織。

面向UGC文獻(xiàn)的知識(shí)組織主要是借助相關(guān)的詞表或構(gòu)建相應(yīng)的領(lǐng)域本體知識(shí)庫(kù)對(duì)UGC文獻(xiàn)進(jìn)行知識(shí)組織。丁文姚等[14]結(jié)合FOAF(friend-of-afriend)詞表對(duì)UGC用戶信息進(jìn)行組織。么媛媛等[15]基于本體理論構(gòu)建UGC、用戶和發(fā)布平臺(tái)三個(gè)元概念及元關(guān)系構(gòu)建了一套UGC元數(shù)據(jù)標(biāo)準(zhǔn)模板。胡華[16]提出了結(jié)合UGC信息源中半結(jié)構(gòu)化的維基百科信息和UGC信息源中非結(jié)構(gòu)化的文本資源信息的本體構(gòu)建方法體系。陳果[9]在構(gòu)建領(lǐng)域知識(shí)庫(kù)的基礎(chǔ)上,結(jié)合知識(shí)庫(kù)中的語(yǔ)義關(guān)聯(lián)以及UGC資源中的共現(xiàn)相似度生成知識(shí)元鏈接,對(duì)UGC文檔中的知識(shí)元進(jìn)行了標(biāo)識(shí)并建立了和文檔資源的鏈接。唐曉波等[17]基于詞性規(guī)則和中心詞進(jìn)行概念和概念短語(yǔ)的抽取,應(yīng)用互信息和左右信息熵的統(tǒng)計(jì)方法進(jìn)行概念過(guò)濾,建立了基于UGC信息源的本體概念抽取模式。鄭姝雅等[18]提出了一套自動(dòng)構(gòu)建UGC本體的方法,完成了領(lǐng)域UGC本體的自動(dòng)構(gòu)建。

面向UGC內(nèi)容的知識(shí)組織主要從主題角度出發(fā)進(jìn)行知識(shí)組織,需要借助各種主題模型來(lái)確定文檔-主題以及主題-詞之間的概率關(guān)系。趙華[19]基于主題模型構(gòu)建了UGC主題層次體系,結(jié)合用戶建模和社區(qū)發(fā)現(xiàn)建立三維度關(guān)聯(lián)并對(duì)UGC進(jìn)行信息組織。金碧漪[20]對(duì)來(lái)自大眾普遍使用的社交媒體上的多種疾病數(shù)據(jù)進(jìn)行采集分析,提煉健康主題,提取特征詞匯及特征詞間關(guān)系,最終構(gòu)建了消費(fèi)者健康知識(shí)圖譜。陳曉威[21]以話題為基本知識(shí)單元,借助LDA(latent Dirichlet allocation)主題模型生成社會(huì)化問(wèn)答平臺(tái)“文檔-主題”概率矩陣,并通過(guò)二元圖投影構(gòu)建知識(shí)網(wǎng)絡(luò)模型。

綜上,通過(guò)對(duì)相關(guān)研究進(jìn)行梳理和分析后發(fā)現(xiàn),目前圖書(shū)情報(bào)學(xué)領(lǐng)域關(guān)于UGC的相關(guān)研究較少,特別是在UGC內(nèi)容組織方面,還缺乏較為系統(tǒng)和成熟的研究。已有的UGC知識(shí)組織研究多側(cè)重于從概念層次或利用主題模型來(lái)對(duì)UGC中的知識(shí)進(jìn)行組織,前者對(duì)知識(shí)的描述形式過(guò)于單一,粒度過(guò)粗,后者在海量的碎片化UGC內(nèi)容中存在很大的主題漂移風(fēng)險(xiǎn);且已有的面向UGC的知識(shí)組織研究中較少考慮人的認(rèn)知規(guī)律,難以提供個(gè)性化服務(wù)。為此,如何在已有組織方法的基礎(chǔ)上探尋新的符合UGC特點(diǎn)和用戶認(rèn)知規(guī)律的知識(shí)組織方法成為UGC知識(shí)組織研究的一種發(fā)展趨勢(shì)。

3 面向UGC的多粒度知識(shí)組織模型構(gòu)建

在上述分析的基礎(chǔ)上,本課題組提出了基于碎片化UGC的多粒度知識(shí)組織模型[22]。如圖1所示,該模型自下而上分為三個(gè)模塊:碎片化UGC知識(shí)元抽取、碎片化UGC多粒度關(guān)聯(lián)、碎片化UGC多粒度索引。①碎片化UGC知識(shí)元抽取。先借助知識(shí)要素抽取算法,從碎片化UGC中抽取組成知識(shí)元的知識(shí)要素,接著借助改進(jìn)的K-means方法對(duì)知識(shí)要素進(jìn)行聚類,得到知識(shí)元的屬性特征,最后根據(jù)知識(shí)元描述模型生成面向碎片化UGC的知識(shí)元。②碎片化UGC多粒度關(guān)聯(lián)。先借助概念匹配方法發(fā)現(xiàn)知識(shí)元之間的等同關(guān)聯(lián),然后利用多階關(guān)聯(lián)分析方法發(fā)現(xiàn)知識(shí)元之間的非等同關(guān)聯(lián)。③碎片化UGC多粒度索引。先基于RDF(resource description framework)描述框架建立面向UGC的細(xì)粒度的知識(shí)元索引,然后在此基礎(chǔ)上生成粗粒度的“概念→知識(shí)元”索引和概念索引,通過(guò)多粒度索引可以為UGC用戶提供多粒度的知識(shí)檢索服務(wù)。接下來(lái),本文將詳細(xì)論述各部分的具體實(shí)現(xiàn)過(guò)程。

圖1 碎片化UGC多粒度知識(shí)組織模型[22]

3.1 UGC知識(shí)元抽取

知識(shí)元的抽取是知識(shí)組織的基礎(chǔ),為從碎片化的UGC中抽取出能夠完整表達(dá)知識(shí)內(nèi)容的最小單元,本課題組結(jié)合UGC文本的特性,基于知識(shí)元抽取的相關(guān)理論提出了一種面向碎片化UGC的知識(shí)元抽取方法[23],具體的抽取流程如圖2所示。

圖2 碎片化UGC知識(shí)元抽取流程[23]

(1)語(yǔ)料預(yù)處理。此階段主要任務(wù)是對(duì)語(yǔ)料庫(kù)中的UGC文本進(jìn)行分詞和停用詞處理。UGC文本用詞隨意,因此包含很多無(wú)意義的特殊字符,如表情的轉(zhuǎn)換字符、錯(cuò)詞等,需要去除。

(2)基 于BTM(balise transmission module)的文本分割。先根據(jù)Gibbs采樣算法構(gòu)建BTM模型;接著由BTM模型推導(dǎo)出UGC文本的主題分布[24],即文本的主題向量;最后由主題向量的余弦相似度計(jì)算文本之間的相似度。對(duì)于相似度達(dá)到閾值m且與線索詞所在語(yǔ)句相鄰的文本,將其合并為一個(gè)文本片段,即知識(shí)要素的具體內(nèi)容;若未達(dá)到閾值m,則中止相關(guān)文本片段搜索,文本分割完成。

(3)基于改進(jìn)K-means方法的文本聚類。為了克服傳統(tǒng)TextRank方法存在的不足,本文選取中文維基百科數(shù)據(jù)作為GloVe(global vectors)詞向量訓(xùn)練的語(yǔ)料生成GloVe詞向量,基于GloVe詞向量[25]對(duì)文本片段進(jìn)行向量化表示。將文本片段的GloVe向量作為K-means輸入值,通過(guò)計(jì)算余弦相似度完成聚類中心初始化,然后進(jìn)行知識(shí)要素聚類并測(cè)試不同的K值以獲取最佳聚類個(gè)數(shù)。

(4)知識(shí)元生成。知識(shí)元生成包括兩個(gè)步驟:知識(shí)元模型構(gòu)建和知識(shí)元要素標(biāo)注。在知識(shí)元模型構(gòu)建中,本文定義了一個(gè)四元組來(lái)對(duì)知識(shí)元進(jìn)行描述,即<id,標(biāo)識(shí)詞,屬性,知識(shí)要素>。知識(shí)元要素標(biāo)注主要是基于知識(shí)元模型,對(duì)從碎片化UGC中識(shí)別的知識(shí)要素進(jìn)行標(biāo)注,進(jìn)而完成知識(shí)元的構(gòu)建。

3.2 碎片化UGC的多粒度關(guān)聯(lián)構(gòu)建

為實(shí)現(xiàn)碎片化UGC的多粒度關(guān)聯(lián)構(gòu)建,本文先借助概念匹配方法構(gòu)建知識(shí)元間等同關(guān)系關(guān)聯(lián),然后借助多階關(guān)聯(lián)分析方法構(gòu)建知識(shí)元間非等同關(guān)系關(guān)聯(lián),最終形成碎片化UGC的多粒度關(guān)聯(lián)體系。

3.2.1 知識(shí)元等同關(guān)系關(guān)聯(lián)

當(dāng)兩個(gè)知識(shí)元之間具有相同或相近的含義時(shí),判定這兩個(gè)知識(shí)元之間具有等同關(guān)系的關(guān)聯(lián)。本文借助概念匹配的方式識(shí)別知識(shí)元之間的等同關(guān)系,通過(guò)對(duì)兩個(gè)知識(shí)元中所包含概念進(jìn)行相似度計(jì)算來(lái)判斷。具體來(lái)說(shuō),本文借助已有的知識(shí)組織體系,將其中的等同和相近概念作為語(yǔ)料庫(kù),對(duì)知識(shí)元標(biāo)識(shí)詞進(jìn)行概念匹配,若兩個(gè)知識(shí)元標(biāo)識(shí)詞均匹配到同一概念,則判定這兩個(gè)知識(shí)元之間存在等同關(guān)系。在完成等同關(guān)系關(guān)聯(lián)后,對(duì)抽取后的UGC知識(shí)元描述模型加以擴(kuò)展,即為KS=(id,標(biāo)識(shí)詞,屬性,知識(shí)要素,概念關(guān)聯(lián)集),概念關(guān)聯(lián)集為上述操作后所形成的概念網(wǎng)絡(luò),具體可描述為概念關(guān)聯(lián)集=[(c1,c2,s1),(c1,c3,s2),…],其中c1、c2、c3為概念,s1、s2為關(guān)聯(lián),(c1,c2,s1)意為c1和c2以s1關(guān)系相關(guān)聯(lián)。然后進(jìn)行知識(shí)元間等同關(guān)聯(lián)的構(gòu)建。具體來(lái)說(shuō),是對(duì)UGC中存在等同關(guān)系的知識(shí)元建立等同關(guān)聯(lián)。相應(yīng)地,知識(shí)元模型中的知識(shí)要素和屬性共享,概念集中的標(biāo)識(shí)詞可互相替換。例如,設(shè)知識(shí)元A=(id1,標(biāo)識(shí)詞c,屬性a,知識(shí)要素kn1,概念關(guān)聯(lián)集=[(c,c1,s1),(c,c2,s2)]),知識(shí)元B=(id2,標(biāo)識(shí)詞c′,屬 性b,知 識(shí) 要 素kn2,概 念 關(guān) 聯(lián) 集=[(c′,c3,s3)]),如果標(biāo)識(shí)詞c和標(biāo)識(shí)詞c′概念匹配為等同關(guān)系,那么知識(shí)元A將具有知識(shí)要素kn2和屬性b,并在其概念關(guān)聯(lián)集中添加(c,c3,s3)。同理,對(duì)于知識(shí)元B而言,其也將具有知識(shí)要素kn1和屬性a,并在其概念關(guān)聯(lián)集中添加(c′,c1,s1)和(c′,c2,s2)。知識(shí)元A和知識(shí)元B的關(guān)聯(lián)如圖3所示。

圖3 UGC知識(shí)元等同關(guān)聯(lián)示例

3.2.2 知識(shí)元非等同關(guān)系關(guān)聯(lián)

當(dāng)兩個(gè)UGC知識(shí)元之間存在關(guān)聯(lián)但不滿足概念匹配的條件時(shí),即判斷這兩個(gè)知識(shí)元之間存在非等同關(guān)系。本文中對(duì)非等同關(guān)系的判斷借助于多階關(guān)聯(lián)分析的方式,該方法主要包括知識(shí)元標(biāo)識(shí)詞對(duì)提取、二階知識(shí)發(fā)現(xiàn)、三階知識(shí)發(fā)現(xiàn)和關(guān)聯(lián)強(qiáng)度計(jì)算等。知識(shí)元標(biāo)識(shí)詞對(duì)提取的主要任務(wù)是依據(jù)非相關(guān)知識(shí)元的知識(shí)表示模型,從非相關(guān)知識(shí)元中抽取出標(biāo)識(shí)詞,構(gòu)建主題詞對(duì)。二階和三階知識(shí)發(fā)現(xiàn)的主要功能是挖掘出非相關(guān)知識(shí)元之間可能存在的各種潛在關(guān)聯(lián)關(guān)系(圖4)。二階(實(shí)線部分)和三階(虛線部分)知識(shí)發(fā)現(xiàn)流程為:①以非相關(guān)知識(shí)元a為起始知識(shí)單元,發(fā)現(xiàn)所有與知識(shí)元a相關(guān)聯(lián)的中間知識(shí)元b;②將中間知識(shí)元b和目標(biāo)非相關(guān)知識(shí)元c的標(biāo)識(shí)詞組成主題詞對(duì)進(jìn)行共現(xiàn)匹配,若匹配結(jié)果不為空,則記錄知識(shí)元b和c之間的共現(xiàn)頻次;若匹配結(jié)果為空,則說(shuō)明知識(shí)元b和c之間不存在關(guān)聯(lián),返回,繼續(xù)以中間知識(shí)元b為起始點(diǎn),發(fā)現(xiàn)所有與知識(shí)元b存在共現(xiàn)關(guān)系的中間知識(shí)元d;③將中間知識(shí)元d和目標(biāo)知識(shí)元c的標(biāo)識(shí)詞組成主題詞對(duì)進(jìn)行共現(xiàn)匹配,若匹配結(jié)果不為空,則記錄知識(shí)元d和c之間的共現(xiàn)頻次;若為空,則說(shuō)明知識(shí)元d和c之間不存在關(guān)聯(lián),終止整個(gè)循環(huán);④依據(jù)二階和三階關(guān)聯(lián)發(fā)現(xiàn)的結(jié)果,構(gòu)建起始知識(shí)元a和目標(biāo)知識(shí)元c之間的鏈接,借助相關(guān)推理規(guī)則或公式分析出非相關(guān)知識(shí)元a和c之間的關(guān)聯(lián)類型。

圖4 多階關(guān)聯(lián)分析流程

關(guān)聯(lián)強(qiáng)度計(jì)算的主要功能是基于非相關(guān)知識(shí)元之間的共現(xiàn)關(guān)系,計(jì)算兩個(gè)非相關(guān)知識(shí)元之間的相關(guān)強(qiáng)度,即,

當(dāng)兩個(gè)非相關(guān)知識(shí)元的相關(guān)性程度低于閾值時(shí),舍棄;當(dāng)兩個(gè)非相關(guān)知識(shí)元的相關(guān)性程度超過(guò)一定的閾值時(shí),在它們之間建立關(guān)聯(lián)關(guān)系,從而實(shí)現(xiàn)非等同關(guān)系的發(fā)現(xiàn)。其中,n為中間知識(shí)元的個(gè)數(shù),n=1,表示二階知識(shí)發(fā)現(xiàn),n=2,表示三階知識(shí)發(fā)現(xiàn);li為中間知識(shí)元;f(x,y)表示知識(shí)元x和y的直接關(guān)聯(lián)度,其計(jì)算方法為

其中,pxy為標(biāo)識(shí)詞x和y在各種粒度大小的知識(shí)元中共現(xiàn)的概率;px、py分別表示標(biāo)識(shí)詞x和y出現(xiàn)的概率。pxy的計(jì)算方法為

其中,m為知識(shí)元粒度劃分的類別個(gè)數(shù);qxy為標(biāo)識(shí)詞x和y在相同粒度大小的知識(shí)元中共現(xiàn)的概率。

3.3 碎片化UGC多粒度索引

為實(shí)現(xiàn)對(duì)碎片化UGC建立語(yǔ)義層面的多粒度索引,本文依據(jù)語(yǔ)義索引模式提出了面向碎片化UGC的多粒度索引方式,如圖5所示。首先,以UGC知識(shí)元描述模型為基礎(chǔ)構(gòu)建細(xì)粒度的知識(shí)元索引,以多粒度關(guān)聯(lián)為基礎(chǔ)構(gòu)建粗粒度的概念-知識(shí)元索引和概念索引,三者結(jié)合構(gòu)成面向碎片化UGC的多粒度語(yǔ)義索引模式;其次,用戶在輸入檢索詞表達(dá)檢索需求后,先對(duì)檢索詞進(jìn)行基本處理,然后在知識(shí)元索引中搜尋相關(guān)知識(shí)元內(nèi)容,再根據(jù)概念-知識(shí)元索引獲取命中知識(shí)元的對(duì)應(yīng)概念,接著根據(jù)概念索引完成知識(shí)元概念層的定位;最后,返回命中知識(shí)元和其知識(shí)元概念層級(jí)結(jié)構(gòu),呈現(xiàn)詳細(xì)知識(shí)元語(yǔ)義信息,且在此基礎(chǔ)上用戶可點(diǎn)擊知識(shí)元結(jié)構(gòu)中的概念描述集和知識(shí)元關(guān)系關(guān)聯(lián)圖,將以在三種語(yǔ)義索引中搜尋的方式返回檢索結(jié)果,實(shí)現(xiàn)不同粒度知識(shí)元間的相互跳轉(zhuǎn),從而在語(yǔ)義層面上深入擴(kuò)展用戶檢索需求。

圖5 碎片化UGC多粒度索引

3.3.1 細(xì)粒度的知識(shí)元索引

知識(shí)元是UGC的基本知識(shí)單元,是細(xì)粒度的知識(shí)構(gòu)件,建立知識(shí)元索引將滿足對(duì)細(xì)粒度UGC知識(shí)的檢索需求。UGC知識(shí)元描述模型及其擴(kuò)展概念關(guān)聯(lián)集是構(gòu)建知識(shí)元索引的基礎(chǔ),RDF描述框架則為具體的索引實(shí)現(xiàn)提供描述方式。本文選擇以RDF為描述框架,依據(jù)UGC知識(shí)元描述模型對(duì)知識(shí)元建立索引,如圖6所示。

圖6 知識(shí)元索引

具體來(lái)說(shuō),UGC知識(shí)元模型表示為五元組,即(id,標(biāo)識(shí)詞,屬性,知識(shí)要素,概念關(guān)聯(lián)集),id、標(biāo)識(shí)詞、知識(shí)要素和屬性都可以直接表示為(主體,謂詞,客體)的三元組形式,其中屬性描述的是知識(shí)要素的特征,因此,其三元組形式為(知識(shí)元,屬性,知識(shí)要素)。概念關(guān)聯(lián)集是知識(shí)要素中的概念及其關(guān)聯(lián)的集合,因此,其三元組中的謂詞為概念關(guān)聯(lián)集類型,客體為概念關(guān)聯(lián)集,概念關(guān)聯(lián)集中又包含概念關(guān)聯(lián)所轉(zhuǎn)換的三元組,比如,若知識(shí)元G的概念關(guān)聯(lián)集為[(c,c1,s1),(c,c2,s2)],則概念關(guān)聯(lián)集所轉(zhuǎn)換的三元組為(知識(shí)元,概念關(guān)聯(lián)集,[(c,c1,s1),(c,c2,s2)])。綜上,基于RDF描述框架對(duì)UGC知識(shí)元完成三元組描述。

UGC知識(shí)元轉(zhuǎn)換為基于RDF的三元組描述方式后,就能夠根據(jù)主體、謂詞和客體建立知識(shí)元索引。一個(gè)UGC知識(shí)元可轉(zhuǎn)換為多個(gè)三元組,三元組屬性中含有知識(shí)元中的某個(gè)特征項(xiàng),將所有主體作為一個(gè)虛擬文檔索引單位建立倒排文檔,將主體里的內(nèi)容作為索引對(duì)象,謂詞和客體以同樣的方式建立索引。知識(shí)元索引除了對(duì)知識(shí)元模型參數(shù)建立索引之外,還需要對(duì)知識(shí)元的直接關(guān)聯(lián)知識(shí)元建立索引,例如,若知識(shí)元K1與知識(shí)元K2之間存在關(guān)聯(lián)s,則有三元組(K1,s,K2),建立索引時(shí)K1與K2為知識(shí)元唯一標(biāo)識(shí)符。

3.3.2 粗粒度的概念索引

知識(shí)元索引能夠?qū)GC知識(shí)元進(jìn)行三元組檢索,檢索知識(shí)元的各項(xiàng)屬性和特征,并且能夠索引與知識(shí)元直接關(guān)聯(lián)的其他知識(shí)元。但其從單個(gè)知識(shí)元出發(fā),對(duì)知識(shí)元關(guān)聯(lián)的特征標(biāo)引只考慮了直接關(guān)聯(lián),對(duì)整體知識(shí)元關(guān)聯(lián)結(jié)構(gòu)的標(biāo)引不充分。為了提升UGC多粒度關(guān)聯(lián)標(biāo)引的效率,本文提出了構(gòu)建粗粒度的概念索引來(lái)解決這一問(wèn)題。概念索引是UGC知識(shí)元在概念層的關(guān)聯(lián)索引。概念索引具體分為概念-知識(shí)元索引和概念索引兩部分,如圖7所示。

圖7 概念索引

概念-知識(shí)元索引所標(biāo)引的是一個(gè)概念與多個(gè)知識(shí)元之間的關(guān)系,即多個(gè)具有相同概念含義的知識(shí)元與概念之間的關(guān)系。概念-知識(shí)元索引提供兩個(gè)方面的檢索服務(wù),一是搜尋某一概念下的所有知識(shí)元,二是由某個(gè)知識(shí)元查詢其所屬概念,從而可以獲取與知識(shí)元相關(guān)的其他知識(shí)元,既可能包含直接關(guān)聯(lián)知識(shí)元,也可能包含間接關(guān)聯(lián)知識(shí)元,也可以根據(jù)知識(shí)元所屬概念層定位。概念-知識(shí)元索引同樣采用三元組形式,主體為概念,謂詞為包含,客體為概念所屬知識(shí)元。概念索引建立是在概念-知識(shí)元索引的基礎(chǔ)上所建立的概念層概念之間關(guān)聯(lián)的索引,概念索引反映的是概念之間的層級(jí)關(guān)聯(lián),而層級(jí)關(guān)聯(lián)來(lái)源于不同概念所包含的知識(shí)元間的關(guān)聯(lián)。概念層可視為粗粒度的知識(shí)關(guān)聯(lián)層,概念索引的三元組描述為(概念,層級(jí)關(guān)系,概念),層級(jí)關(guān)系為上下級(jí)關(guān)系。概念索引展現(xiàn)概念間粒度關(guān)系,可將概念分解為多個(gè)細(xì)粒度的概念,又可獲取更粗粒度的概念。

綜上,概念索引作為概念層結(jié)構(gòu)索引,提供總架構(gòu);概念-知識(shí)元索引將多個(gè)知識(shí)元與概念建立索引;知識(shí)元索引提供與知識(shí)元相關(guān)的各項(xiàng)屬性特征檢索,為最細(xì)粒度的知識(shí)單元索引。這三者結(jié)合起來(lái)既可以提供細(xì)粒度的知識(shí)元檢索,又可以根據(jù)粗粒度的概念檢索,不同粒度概念之間也可相互跳轉(zhuǎn),而概念又可由細(xì)粒度知識(shí)元集來(lái)揭示,從而滿足UGC的多粒度索引與檢索的需求。

4 實(shí)證研究

4.1 數(shù)據(jù)來(lái)源及處理

本文的實(shí)驗(yàn)數(shù)據(jù)分別來(lái)自CSDN(Chinese soft‐ware developer network)和博客園兩種專業(yè)博客。之所以選取這兩種博客作為實(shí)驗(yàn)數(shù)據(jù)的來(lái)源,其原因主要在于它們具有較高的知識(shí)密度[26],這有利于克服碎片化UGC多源分布性導(dǎo)致的知識(shí)內(nèi)容離散分布的問(wèn)題,進(jìn)而提高知識(shí)要素抽取和知識(shí)元生成的效率。具體而言,首先,借助網(wǎng)絡(luò)爬蟲(chóng)從CSDN和博客園中爬取與“檢索”這一主題相關(guān)的UGC文本片段;然后,借助NLPIR(natural language pro‐cessing and information retrieval)分 詞 工 具,融 合“檢索”相關(guān)的詞條,對(duì)爬取的UGC文本片段進(jìn)行分詞,并去除分詞結(jié)果中的停用詞。

4.2 UGC多粒度關(guān)聯(lián)實(shí)證

UGC多粒度關(guān)聯(lián)實(shí)證包括三個(gè)部分:生成知識(shí)元概念關(guān)聯(lián)集,獲取知識(shí)元等同關(guān)系,獲取知識(shí)元非等同關(guān)系。

4.2.1 概念關(guān)聯(lián)集創(chuàng)建

本文選擇分類-主題詞表和維基百科數(shù)據(jù)作為已有知識(shí)組織體系數(shù)據(jù),采用命名實(shí)體識(shí)別的技術(shù)方法,對(duì)UGC知識(shí)元知識(shí)要素進(jìn)行概念識(shí)別,在識(shí)別出的概念之間進(jìn)行關(guān)聯(lián)查找。關(guān)聯(lián)查找先是從已有知識(shí)組織體系中提取,若出現(xiàn)沖突則以分類-主題詞表為準(zhǔn),在此基礎(chǔ)上對(duì)于沒(méi)有識(shí)別出關(guān)聯(lián)的概念,再使用基于規(guī)則和句法結(jié)構(gòu)的方法提取部分關(guān)系。表1為“搜索引擎”下的部分知識(shí)元概念關(guān)聯(lián)集。

表1 “搜索引擎”標(biāo)識(shí)詞下的部分知識(shí)元概念關(guān)聯(lián)集

4.2.2 知識(shí)元等同關(guān)聯(lián)構(gòu)建

等同關(guān)聯(lián)實(shí)證分為兩步。首先,在已有知識(shí)組織體系中查詢兩個(gè)知識(shí)元標(biāo)識(shí)詞之間是否為等同概念,若滿足條件,則將兩個(gè)知識(shí)元視為等同關(guān)聯(lián)知識(shí)元;否則,計(jì)算兩個(gè)知識(shí)元的知識(shí)要素的相似度,再根據(jù)相似度進(jìn)行判斷。具體而言,先以知識(shí)元抽取中所構(gòu)建的BTM+GloVe的語(yǔ)義向量作為知識(shí)要素向量,計(jì)算向量余弦值,若其大于閾值,則視為知識(shí)要素相關(guān)性強(qiáng);然后進(jìn)入知識(shí)元概念關(guān)聯(lián)集相似度的判斷,比較概念關(guān)聯(lián)集中關(guān)聯(lián)邊,每條邊以完全匹配的方式判斷,即節(jié)點(diǎn)及節(jié)點(diǎn)間的關(guān)系都需要完全相匹配才能判定兩條邊一致;具有等同概念關(guān)系的節(jié)點(diǎn)視為相同節(jié)點(diǎn),若關(guān)聯(lián)集相似度高于閾值,則判定知識(shí)元具備等同關(guān)系。本文共構(gòu)建了56對(duì)等同關(guān)聯(lián),其中與“倒排索引”等同關(guān)聯(lián)的知識(shí)元及關(guān)聯(lián)判定依據(jù)如表2所示。

表2 與“倒排索引”等同關(guān)聯(lián)的知識(shí)元及關(guān)聯(lián)判定依據(jù)

若知識(shí)組織體系匹配為1,則表示在已有知識(shí)組織中有匹配到等同關(guān)系;若為0,則表示沒(méi)有,需要進(jìn)行下一步;Null表示不需要進(jìn)行下一步便可判定有等同關(guān)聯(lián)。為了便于直觀查看,這里的知識(shí)元直接用概念標(biāo)識(shí)詞表示,實(shí)際是指概念標(biāo)識(shí)詞中的某個(gè)知識(shí)元,省略了知識(shí)元id。需要注意的是,若知識(shí)元具有等同關(guān)系,則其各自所屬的概念標(biāo)識(shí)詞之間也具備等同關(guān)系;但若概念標(biāo)識(shí)詞具有等同關(guān)系,則其下屬知識(shí)元之間不能認(rèn)為有等同關(guān)系。

4.2.3 知識(shí)元非等同關(guān)聯(lián)構(gòu)建

關(guān)于非等同關(guān)聯(lián)的判定,首先在已有知識(shí)組織體系中查詢兩個(gè)知識(shí)元標(biāo)識(shí)詞之間是否存在除等同關(guān)系以外的其他關(guān)聯(lián)關(guān)系,如層級(jí)和相關(guān)關(guān)系。若有,則作為兩個(gè)知識(shí)元間的關(guān)聯(lián)關(guān)系;若無(wú),則基于概念關(guān)聯(lián)集,借助于多階關(guān)聯(lián)分析的方式來(lái)識(shí)別知識(shí)元之間的非等同關(guān)聯(lián)關(guān)系。本實(shí)驗(yàn)共構(gòu)建了274對(duì)非等同關(guān)聯(lián),其中部分非等同關(guān)聯(lián)的知識(shí)元及關(guān)聯(lián)如表3所示。

從表3可以看出,“檢索”和“圖像檢索”之間存在層級(jí)關(guān)系,“音樂(lè)檢索”和“哼唱檢索”存在包含關(guān)系,“模糊檢索”和“精確匹配”、“查準(zhǔn)率”和“召回率”、“創(chuàng)建索引”和“分詞器”、“布爾檢索”和“布爾邏輯”之間存在相關(guān)關(guān)系。

表3 非等同關(guān)聯(lián)的知識(shí)元及關(guān)聯(lián)關(guān)系(部分)

4.3 碎片化UGC多粒度索引及服務(wù)實(shí)證

4.3.1 UGC多粒度索引創(chuàng)建

對(duì)于上文所得到的UGC知識(shí)元和知識(shí)元關(guān)聯(lián),將其以知識(shí)元語(yǔ)義描述模型的方法存儲(chǔ)到數(shù)據(jù)庫(kù)中,本節(jié)選擇關(guān)系型數(shù)據(jù)庫(kù)MySQL存儲(chǔ)數(shù)據(jù),調(diào)用lucene架包實(shí)現(xiàn)索引創(chuàng)建。從數(shù)據(jù)庫(kù)中讀取出數(shù)據(jù),根據(jù)上述內(nèi)容創(chuàng)建知識(shí)元索引、概念-知識(shí)元索引和概念索引,生成倒排文檔。其中,對(duì)知識(shí)元索引的主體和客體采用Field.Store.YES,Field.Index.TOKENIZED索引,既存儲(chǔ)也分詞;謂詞采用Field.Store.YES,Field.Index.UN_TOKENIZED索引但不分詞;對(duì)于概念-知識(shí)元索引和概念索引,三元組均采用索引但不分詞方式創(chuàng)建索引。每個(gè)索引生成相應(yīng)索引文件。

4.3.2 UGC多粒度知識(shí)組織檢索服務(wù)

本文實(shí)證的最終模塊是為用戶提供檢索服務(wù)。用戶輸入檢索詞,如圖8所示,在生成的索引文件中進(jìn)行檢索,并返回結(jié)果。為直觀展示檢索結(jié)果,本文選擇以可視化的方式顯示檢索結(jié)果界面,如圖9所示,其主要包含四個(gè)部分內(nèi)容,左上為與檢索式相匹配的知識(shí)元整體模型顯示,點(diǎn)擊其中的概念標(biāo)識(shí)詞會(huì)返回同一標(biāo)識(shí)詞下的所有知識(shí)元,左下為知識(shí)元對(duì)應(yīng)知識(shí)要素,右上為該知識(shí)元所在的概念上下層級(jí)結(jié)構(gòu),點(diǎn)擊可進(jìn)行不同粒度概念跳轉(zhuǎn),右下為與該知識(shí)元直接相關(guān)聯(lián)的其他知識(shí)元,點(diǎn)擊將跳轉(zhuǎn)為該知識(shí)元可視化界面。

圖8 輸入“搜索引擎”關(guān)鍵詞查詢

圖9 查詢返回可視化界面

5 總結(jié)與展望

本文以知識(shí)元作為知識(shí)組織的基本單位,首先,借助知識(shí)要素的抽取和聚類生成面向UGC內(nèi)容的知識(shí)元;其次,通過(guò)概念匹配和多階關(guān)聯(lián)分析的方法構(gòu)建UGC知識(shí)元間的多粒度關(guān)聯(lián)關(guān)系;最后,以RDF三元組描述框架構(gòu)建UGC知識(shí)元索引、概念-知識(shí)元索引和概念索引,實(shí)現(xiàn)對(duì)碎片化UGC的多粒度知識(shí)組織。在此基礎(chǔ)上,以CSDN和博客園為UGC數(shù)據(jù)來(lái)源進(jìn)行實(shí)證研究,研究結(jié)果證明了本文所提出的對(duì)碎片化UGC進(jìn)行知識(shí)組織流程的有效性。雖然本文提出了一種面向UGC的多粒度知識(shí)組織的方法,但本文對(duì)面向UGC的多粒度知識(shí)服務(wù)的討論不夠深入,如何根據(jù)用戶需求構(gòu)建個(gè)性化知識(shí)服務(wù)尚需深入討論。為此,未來(lái)將基于用戶認(rèn)知和行為特征進(jìn)一步探究面向UGC的多粒度融合知識(shí)服務(wù)問(wèn)題。

猜你喜歡
三元組粒度關(guān)聯(lián)
基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
粉末粒度對(duì)純Re坯顯微組織與力學(xué)性能的影響
特征標(biāo)三元組的本原誘導(dǎo)子
基于矩陣的多粒度粗糙集粒度約簡(jiǎn)方法
關(guān)于余撓三元組的periodic-模
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
基于粒度矩陣的程度多粒度粗糙集粒度約簡(jiǎn)
三元組輻射場(chǎng)的建模與仿真
塘沽区| 宁化县| 东光县| 内黄县| 塘沽区| 琼海市| 常宁市| 南宫市| 穆棱市| 连平县| 庆城县| 奉化市| 项城市| 大理市| 星子县| 安龙县| 伊宁市| 普洱| 天长市| 垦利县| 武邑县| 壤塘县| 内乡县| 双鸭山市| 襄汾县| 泸州市| 灵石县| 凯里市| 鄱阳县| 临猗县| 开平市| 河东区| 东山县| 简阳市| 施甸县| 和顺县| 拉孜县| 北辰区| 北川| 泸西县| 信阳市|