肖璐 孫建軍
摘要:[目的/意義]目前已有多個(gè)國家項(xiàng)目圍繞知識(shí)聚合開展了一系列深入研究?;诟黜?xiàng)目已發(fā)表論文.以項(xiàng)目為粒度系統(tǒng)化地歸納已有知識(shí)聚合研究進(jìn)展,不僅可以揭示國內(nèi)主要項(xiàng)目團(tuán)隊(duì)的研究特色,還能歸納出知識(shí)聚合在研究開展層面上的一般共性。[方法/過程]本文對2011年以來我國圖書情報(bào)領(lǐng)域涉及知識(shí)聚合的國家項(xiàng)目所發(fā)的多篇論文進(jìn)行了比較分析,歸納出9個(gè)國家項(xiàng)目在概念關(guān)聯(lián)(含領(lǐng)域本體)、關(guān)聯(lián)數(shù)據(jù)、分眾分類、用戶、社會(huì)網(wǎng)絡(luò)分析、文獻(xiàn)計(jì)量6種視角下的特色。[結(jié)果/結(jié)論]從研究共性上看,知識(shí)聚合的資源、方法及其所依據(jù)的知識(shí)關(guān)聯(lián)均呈多維化發(fā)展,知識(shí)聚合所依據(jù)的知識(shí)關(guān)聯(lián)向領(lǐng)域化與細(xì)粒度化發(fā)展。
關(guān)鍵詞:知識(shí)聚合;項(xiàng)目分析;圖書情報(bào)學(xué);研究視角;研究進(jìn)展
DOl:10.3969/j.issn.1008-0821.2019.01.004
[中圖分類號]G254 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號]1008-0821(2019)01-0029-08
網(wǎng)絡(luò)信息技術(shù)的發(fā)展,促進(jìn)了資源的增長與流動(dòng),但同時(shí)加劇了資源的“碎片化”利用問題,嚴(yán)重制約了用戶獲取與利用資源的效率。知識(shí)聚合旨在以資源內(nèi)外部特征的語義揭示為基礎(chǔ),充分挖掘資源內(nèi)部知識(shí)單元的關(guān)聯(lián),從而重新組織資源使之符合用戶認(rèn)知習(xí)慣與知識(shí)利用規(guī)律。在當(dāng)前網(wǎng)絡(luò)環(huán)境下,知識(shí)聚合是解決資源利用問題的重要方法。
知識(shí)聚合是圖書情報(bào)領(lǐng)域(下文稱“圖情”)的核心問題,已連續(xù)多年有國家級科研項(xiàng)目圍繞知識(shí)聚合開展,其中不乏重大、重點(diǎn)級項(xiàng)目。盡管目前已有不少學(xué)者對圖情領(lǐng)域知識(shí)聚合相關(guān)研究進(jìn)行梳理,但對于項(xiàng)目團(tuán)隊(duì)粒度的研究特色揭示尚未有人開展。實(shí)際上,以項(xiàng)目為粒度進(jìn)行分析,更有助于從整體層面上厘清我國當(dāng)前圖情領(lǐng)域知識(shí)聚合研究特點(diǎn),探析領(lǐng)域內(nèi)重要研究團(tuán)隊(duì)在研究思路和問題解決上的特色,由此與已有綜述研究所側(cè)重的微觀分析形成互補(bǔ)?;陧?xiàng)目特色這一新視角,本文以國家自然科學(xué)基金(下文稱“自科”)與國家社會(huì)科學(xué)基金(下文稱“社科”)項(xiàng)目為對象,以項(xiàng)目已發(fā)表論文為基礎(chǔ),對其研究特色進(jìn)行梳理和分析,以期明晰該領(lǐng)域國內(nèi)研究現(xiàn)狀與特點(diǎn)。
1知識(shí)聚合國家級項(xiàng)目統(tǒng)計(jì)及其研究視角歸納
國家自科與社科基金項(xiàng)目代表國內(nèi)高水平研究,對其中相關(guān)項(xiàng)目統(tǒng)計(jì)分析可初步探析知識(shí)聚合在圖情領(lǐng)域受關(guān)注程度及主要研究方向;對其已發(fā)論文進(jìn)行反推分析,則可歸納各項(xiàng)目的研究視角,進(jìn)而作為厘清我國知識(shí)聚合研究主要模式與特點(diǎn)的基礎(chǔ)。
1.1知識(shí)聚合國家項(xiàng)目統(tǒng)計(jì)
綜合利用國家社科基金項(xiàng)目數(shù)據(jù)庫與科學(xué)基金網(wǎng)絡(luò)信息系統(tǒng),查詢國家社科與自科項(xiàng)目題目中包含“聚合”+“知識(shí)”、“聚合”+“資源”、“聚合”+“信息”的項(xiàng)目,考慮自科項(xiàng)目查詢系統(tǒng)特點(diǎn),檢索類目包括“信息資源管理”、“圖書情報(bào)檔案管理”、“科學(xué)計(jì)量學(xué)與科技評價(jià)”、“信息系統(tǒng)與管理”、“信息系統(tǒng)及其管理”、“知識(shí)管理”、“數(shù)據(jù)挖掘與商務(wù)分析”,得到如表1所示的結(jié)果。根據(jù)表1可知,自2011年,每年都有關(guān)于知識(shí)聚合的國家級項(xiàng)目立項(xiàng),共16個(gè),包括3個(gè)社科重大、1個(gè)社科重點(diǎn)、2個(gè)社科年度、6個(gè)社科青年、3個(gè)自科與1個(gè)自科青年。
1.2知識(shí)聚合國家項(xiàng)目研究視角歸納
知識(shí)聚合的開展需要一定的聚合依據(jù),例如用戶關(guān)系、資源語義關(guān)聯(lián)等。已有研究項(xiàng)目的聚合依據(jù)存在差異,即使采用同類聚合依據(jù)的不同項(xiàng)目之間,其關(guān)注的側(cè)重點(diǎn)也可能不一樣。因此可將項(xiàng)目研究中知識(shí)聚合開展的依據(jù)作為探析項(xiàng)目特色的研究視角。以研究視角為切入點(diǎn),對項(xiàng)目進(jìn)行歸納統(tǒng)計(jì),有助厘清領(lǐng)域研究脈絡(luò),發(fā)現(xiàn)各研究項(xiàng)目的特色和一般共性。對表1所列項(xiàng)目發(fā)表的論文進(jìn)行歸納,可得到表2所示結(jié)果。由于論文發(fā)表具有滯后性,這里僅對2014年之前立項(xiàng)項(xiàng)目的研究視角分析。此外,論文包含多個(gè)項(xiàng)目時(shí),將論文作者與項(xiàng)目負(fù)責(zé)人匹配,計(jì)入最為匹配項(xiàng)目的成果。
2知識(shí)聚合國家項(xiàng)目的研究特色視角分析
利用中國知網(wǎng)與萬方數(shù)據(jù)庫檢索表2中9個(gè)項(xiàng)目所發(fā)表論文,按照6個(gè)主要研究視角進(jìn)行詳細(xì)分析,以梳理知識(shí)聚合研究現(xiàn)狀、明晰相關(guān)研究的重點(diǎn)與趨勢。
2.1基于概念關(guān)聯(lián)(含領(lǐng)域本體)視角的知識(shí)聚合研究
概念關(guān)聯(lián)可從不同角度表征知識(shí)語義關(guān)系.為知識(shí)語義聚合提供背景知識(shí),輔助資源語義化描述、語義相似度計(jì)算、潛在關(guān)聯(lián)挖掘等。相關(guān)項(xiàng)目研究主要集中在:概念抽取與概念關(guān)聯(lián)挖掘;概念關(guān)聯(lián)網(wǎng)絡(luò)分析;領(lǐng)域本體構(gòu)建:基于領(lǐng)域本體的資源語義化與聚合策略設(shè)計(jì)。具體如表3所示。
1)概念抽取與概念關(guān)聯(lián)挖掘。概念抽取方面,項(xiàng)目8中夏立新等改進(jìn)了傳統(tǒng)基于形式概念分析與描述邏輯的概念提取方法。項(xiàng)目11中胡昌平等采用定量方法論證共詞分析中僅利用詞頻抽取的關(guān)鍵詞難以全面表征領(lǐng)域知識(shí)。基于此,胡昌平等與陳果等考慮將分析領(lǐng)域融入更大背景學(xué)科中,分別提出采用詞語貢獻(xiàn)度與領(lǐng)域度、熱度指標(biāo)抽取特征。項(xiàng)目10中蔣婷等綜合利用語言學(xué)與統(tǒng)計(jì)學(xué)方法,先利用語言學(xué)知識(shí)挖掘語術(shù)詞性組合模板,并采用支持向量回歸機(jī)構(gòu)建術(shù)語概率預(yù)測模型。項(xiàng)目14中余凡等基于概念相關(guān)性、上下文與領(lǐng)域特性設(shè)計(jì)三層遞進(jìn)概念篩選流程,從文本與敘詞表中提取領(lǐng)域概念。顏端武等提出利用N-gram復(fù)合分詞抽取領(lǐng)域概念。
概念關(guān)聯(lián)挖掘方面,項(xiàng)目10中王昊等采用形式概念分析抽取術(shù)語層次關(guān)系。蔣婷等根據(jù)文獻(xiàn)結(jié)構(gòu)特點(diǎn)挖掘概念非等級關(guān)系,并且設(shè)計(jì)包含術(shù)語類型提取、等級關(guān)系概念對識(shí)別等步驟在內(nèi)的本體概念等級關(guān)系抽取方法。項(xiàng)目15中夏立薪等利用敘詞表改進(jìn)詞間關(guān)聯(lián)度計(jì)算算法。項(xiàng)目14中余凡等分別采用改進(jìn)的相似度計(jì)算方法與自定義語法規(guī)則、改進(jìn)關(guān)聯(lián)規(guī)則進(jìn)行文本等級關(guān)系與非等級關(guān)系抽取。
2)概念關(guān)聯(lián)網(wǎng)絡(luò)分析。項(xiàng)目11中陳果等以“數(shù)字圖書館”、“信息服務(wù)”與“知識(shí)管理”3個(gè)領(lǐng)域?yàn)槔?,分析科研領(lǐng)域關(guān)鍵詞網(wǎng)絡(luò)的整體結(jié)構(gòu)與節(jié)點(diǎn)特征。胡昌平等利用社會(huì)網(wǎng)絡(luò)分析中的K-core值對知識(shí)網(wǎng)絡(luò)進(jìn)行層次劃分,實(shí)現(xiàn)知識(shí)網(wǎng)絡(luò)微觀層次分析。
3)領(lǐng)域本體構(gòu)建。領(lǐng)域本體構(gòu)建研究開展較早,資源聚合項(xiàng)目中較少直接涉及。但針對館藏資源語義化與聚合,項(xiàng)目14的學(xué)者提出計(jì)量本體與資源本體概念,解決領(lǐng)域本體僅涉及某一領(lǐng)域內(nèi)概念,無法滿足館藏資源多學(xué)科聚合需求。除此之外,張玉峰等利用本體工程與敘詞表技術(shù),復(fù)用已有本體,構(gòu)建軟件企業(yè)領(lǐng)域本體。項(xiàng)目12中畢強(qiáng)等利用維基百科中類別信息進(jìn)行計(jì)算機(jī)科學(xué)的領(lǐng)域本體構(gòu)建。項(xiàng)目9中張晗等以圖書館服務(wù)性資源為對象構(gòu)建服務(wù)本體。
4)基于領(lǐng)域本體的資源語義化與聚合策略。資源語義化方面,項(xiàng)目12中徐坤等利用本體對科學(xué)數(shù)據(jù)進(jìn)行語義化描述與組織,提高數(shù)據(jù)的機(jī)器可讀與可理解性。鮑玉來等利用領(lǐng)域本體對分散、異構(gòu)的開放存取資源進(jìn)行語義集成檢索。
聚合策略方面,項(xiàng)目12中畢強(qiáng)等、14中何超等與項(xiàng)目15中李勁等分別基于領(lǐng)域本體與集成本體開展了館藏資源深度語義聚合研究。
2.2基于關(guān)聯(lián)數(shù)據(jù)視角的知識(shí)聚合研究
由于關(guān)聯(lián)數(shù)據(jù)采用RDF對資源本身及其關(guān)聯(lián)進(jìn)行描述,在一定程度上實(shí)現(xiàn)資源及其關(guān)聯(lián)的語義化,有學(xué)者認(rèn)為可將關(guān)聯(lián)數(shù)據(jù)看作是高度規(guī)范的“本體”。相關(guān)項(xiàng)目研究主要集中在:關(guān)聯(lián)數(shù)據(jù)創(chuàng)建、發(fā)布與本體映射;基于關(guān)聯(lián)數(shù)據(jù)的資源聚合策略。具體如表4所示:
1)關(guān)聯(lián)數(shù)據(jù)創(chuàng)建、發(fā)布與本體映射。傳統(tǒng)粗粒度對象關(guān)聯(lián)數(shù)據(jù)創(chuàng)建與發(fā)布研究較為成熟,資源聚合項(xiàng)目主要針對細(xì)粒度對象開展。項(xiàng)目15中王忠義等分別對數(shù)字圖書中層與深層關(guān)聯(lián)數(shù)據(jù)創(chuàng)建與發(fā)布開展分析,前者以目錄數(shù)據(jù)為對象,綜合利用主題詞映射、文本匹配等技術(shù)進(jìn)行資源結(jié)構(gòu)化表示與關(guān)聯(lián)挖掘;后者基于分布式人類計(jì)算構(gòu)建對應(yīng)架構(gòu)與平臺(tái),促進(jìn)不同地域?qū)<覅f(xié)同工作。此外,針對數(shù)據(jù)集關(guān)聯(lián)數(shù)據(jù)創(chuàng)建主要考慮數(shù)據(jù)集之間關(guān)聯(lián)而忽略數(shù)據(jù)集內(nèi)部關(guān)聯(lián),王忠義等提出利用推導(dǎo)傳遞法挖掘內(nèi)部關(guān)聯(lián),該方法對于多類型關(guān)聯(lián)挖掘有較高適用性。項(xiàng)目8中夏立新等利用BIBFRAME對科技報(bào)告進(jìn)行關(guān)聯(lián)數(shù)據(jù)化處理。
基于關(guān)聯(lián)數(shù)據(jù)的數(shù)據(jù)集常利用本體進(jìn)行數(shù)據(jù)描述,導(dǎo)致數(shù)據(jù)集之間異構(gòu)嚴(yán)重,關(guān)聯(lián)表征受到影響,項(xiàng)目13中潘有能等考慮采用本體映射技術(shù)解決該問題,提出以WordNet為外部知識(shí)庫輔助計(jì)算概念相似度,并通過設(shè)定閾值完成概念到本體的映射。
2)基于關(guān)聯(lián)數(shù)據(jù)的資源聚合策略。項(xiàng)目12中牟冬梅等總結(jié)關(guān)聯(lián)數(shù)據(jù)在數(shù)字資源多維度、多層次及深度聚合上的優(yōu)勢,提出包含系統(tǒng)內(nèi)外資源、多粒度資源等在內(nèi)的資源聚合策略。項(xiàng)目8中夏立新等將關(guān)聯(lián)數(shù)據(jù)集抽象為分析單元,構(gòu)建對應(yīng)網(wǎng)絡(luò),采用復(fù)雜網(wǎng)絡(luò)理論分析其網(wǎng)絡(luò)結(jié)構(gòu)以提高關(guān)聯(lián)數(shù)據(jù)利用效率。項(xiàng)目10中孫建軍等在對關(guān)聯(lián)數(shù)據(jù)應(yīng)用于學(xué)科網(wǎng)絡(luò)資源深度聚合可行性分析基礎(chǔ)上,提出具體聚合框架,設(shè)計(jì)關(guān)聯(lián)數(shù)據(jù)發(fā)布流程。項(xiàng)目13中丁楠等基于關(guān)聯(lián)數(shù)據(jù)構(gòu)建了包含數(shù)據(jù)層、聚合層與應(yīng)用層在內(nèi)的政府信息聚合模型,以美國政府關(guān)聯(lián)數(shù)據(jù)集為基礎(chǔ)進(jìn)行驗(yàn)證實(shí)驗(yàn)。
2.3基于分眾分類視角的知識(shí)聚合研究
分眾分類是一種以用戶為中心的分類方法,對數(shù)量巨大、碎片化程度高的網(wǎng)絡(luò)資源有較高適用性,是網(wǎng)絡(luò)資源組織與聚合研究中常用數(shù)據(jù)源。標(biāo)簽是分眾分類重要元素,為資源語義描述與關(guān)聯(lián)挖掘提供數(shù)據(jù)基礎(chǔ),相關(guān)項(xiàng)目大多以其為研究對象,主要包括:標(biāo)簽語義關(guān)聯(lián)研究;基于標(biāo)簽網(wǎng)絡(luò)的研究;基于標(biāo)簽的資源聚合研究。具體如表5所示:
1)標(biāo)簽語義關(guān)聯(lián)研究。項(xiàng)目12中黃微等利用共現(xiàn)原理設(shè)計(jì)關(guān)聯(lián)標(biāo)簽語義距離計(jì)算算法,通過逐層統(tǒng)計(jì)目標(biāo)標(biāo)簽與關(guān)聯(lián)標(biāo)簽共現(xiàn)關(guān)系,定量衡量標(biāo)簽語義關(guān)聯(lián)。畢強(qiáng)等將關(guān)聯(lián)標(biāo)簽思想引入標(biāo)簽云,通過對用戶標(biāo)簽網(wǎng)絡(luò)定量分析,挖掘網(wǎng)絡(luò)子群,構(gòu)建具有表征語義關(guān)聯(lián)能力的標(biāo)簽云。項(xiàng)目15中程秀峰等綜合利用標(biāo)簽與社會(huì)網(wǎng)絡(luò)分析技術(shù)改進(jìn)計(jì)算舞蹈類非物質(zhì)文化遺產(chǎn)資源關(guān)系強(qiáng)度,挖掘資源潛在關(guān)聯(lián)。
2)基于標(biāo)簽網(wǎng)絡(luò)的研究。項(xiàng)目12中滕廣青等利用復(fù)雜網(wǎng)絡(luò)中心性指標(biāo)研究用戶標(biāo)簽網(wǎng)絡(luò)緊密性。項(xiàng)目15中夏立新等通過對非遺圖片關(guān)聯(lián)標(biāo)簽與共標(biāo)簽網(wǎng)絡(luò)中心性與群聚性分析,挖掘資源主題特征。
3)基于標(biāo)簽的資源聚合研究。項(xiàng)目12中畢強(qiáng)等綜合運(yùn)用標(biāo)簽云與社會(huì)網(wǎng)絡(luò)分析對社會(huì)化標(biāo)注系統(tǒng)進(jìn)行資源聚合研究,并引入本體與主題詞表描述標(biāo)簽語義與層級關(guān)聯(lián)。
2.4基于用戶視角的知識(shí)聚合研究
用戶視角主要用于網(wǎng)絡(luò)社區(qū)資源,通過對用戶行為與關(guān)系分析,獲取知識(shí)認(rèn)知與利用規(guī)律,實(shí)現(xiàn)知識(shí)利用角度的資源聚合。由于加入用戶因素,該類聚合有助于資源潛在關(guān)聯(lián)挖掘。相關(guān)項(xiàng)目研究主要集中在:用戶行為與關(guān)系研究;知識(shí)服務(wù)與共享研究。具體如表6所示:
1)用戶行為與關(guān)系研究。項(xiàng)目11中胡昌平等利用結(jié)構(gòu)方程模型對高校圖書館信息共享空間的用戶交互學(xué)習(xí)行為與虛擬知識(shí)社區(qū)中用戶關(guān)系對知識(shí)共享行為的影響進(jìn)行分析,前者運(yùn)用了擴(kuò)展技術(shù)接受模型,后者構(gòu)建了包含個(gè)人、情境、知識(shí)及成員行為4個(gè)維度的影響因素模型。林鑫等分析用戶認(rèn)知對標(biāo)簽使用的影響,實(shí)證得出認(rèn)知難度與認(rèn)知風(fēng)格都會(huì)對標(biāo)簽使用行為產(chǎn)生顯著影響。胡潛等對比社會(huì)化標(biāo)注系統(tǒng)中基于用戶標(biāo)簽與基于用戶行為兩種興趣建模方式,認(rèn)為基于行為的傳統(tǒng)興趣建模效果優(yōu)于基于標(biāo)簽的建模。
2)知識(shí)服務(wù)與共享研究。知識(shí)服務(wù)方面,相關(guān)研究主要集中在用戶滿意度與使用意向上。除此之外,項(xiàng)目11中王鵬程等將社交網(wǎng)絡(luò)服務(wù)融入圖書館信息服務(wù)平臺(tái)中,構(gòu)建包含圖書評價(jià)與學(xué)科建設(shè)交流模塊在內(nèi)的系統(tǒng)架構(gòu)。胡昌平等基于技術(shù)接受模型與“感知交互性”設(shè)計(jì)了可用于社會(huì)化推薦服務(wù)的用戶體驗(yàn)?zāi)P汀?/p>
知識(shí)共享方面,項(xiàng)目16中張敏等與程莉等分別對微信中知識(shí)共享行為與威客中知識(shí)共享模式進(jìn)行分析。蔡小筱等從個(gè)人、人際與社區(qū)人手綜合分析影響虛擬學(xué)術(shù)社區(qū)知識(shí)共享的各種因素。
2.5基于社會(huì)網(wǎng)絡(luò)分析視角的知識(shí)聚合研究
社會(huì)網(wǎng)絡(luò)分析以社會(huì)網(wǎng)絡(luò)中的結(jié)點(diǎn)及其關(guān)系為研究對象,通過定量分析,探析網(wǎng)絡(luò)整體結(jié)構(gòu)、挖掘關(guān)鍵結(jié)點(diǎn)、發(fā)現(xiàn)子群網(wǎng)絡(luò)。構(gòu)建不同粒度資源網(wǎng)絡(luò)是資源聚合基礎(chǔ),重點(diǎn)關(guān)注網(wǎng)絡(luò)關(guān)聯(lián)結(jié)構(gòu)的社會(huì)網(wǎng)絡(luò)分析方法則為基于資源網(wǎng)絡(luò)的多維度語義聚合研究提供新視角。具體如表7所示:
社會(huì)網(wǎng)絡(luò)分析直接應(yīng)用于資源聚合研究時(shí)間較晚,涉及該視角的研究較少。首先,項(xiàng)目12中鄧君等以數(shù)字資源聚合領(lǐng)域的關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)為基礎(chǔ)對社會(huì)網(wǎng)絡(luò)分析工具Ucinet與Gephi對比分析,認(rèn)為Ucinet在多重關(guān)系的大量數(shù)據(jù)上適用性更高,Gephi在動(dòng)態(tài)數(shù)據(jù)處理方面性能更強(qiáng)。其次,姜毓鋒等以專利說明書中的“發(fā)明名稱”為數(shù)據(jù)源挖掘?qū)@g關(guān)聯(lián),構(gòu)建專利關(guān)聯(lián)網(wǎng)絡(luò),利用社會(huì)網(wǎng)絡(luò)分析中的網(wǎng)絡(luò)結(jié)構(gòu)、節(jié)點(diǎn)度及結(jié)構(gòu)洞分析對其進(jìn)行聚合研究。再者,黃微等通過用戶顯性知識(shí)挖掘用戶關(guān)系,利用社會(huì)網(wǎng)絡(luò)分析方法挖掘用戶子群與核心用戶,完成用戶隱性知識(shí)發(fā)現(xiàn)與推送。項(xiàng)目8中易明等認(rèn)為網(wǎng)絡(luò)分析包含網(wǎng)絡(luò)結(jié)構(gòu)計(jì)量分析與網(wǎng)絡(luò)動(dòng)態(tài)演化分析,通過對社會(huì)化標(biāo)簽系統(tǒng)中社會(huì)網(wǎng)絡(luò)進(jìn)行內(nèi)生與外生演化動(dòng)力分析,構(gòu)建對應(yīng)網(wǎng)絡(luò)知識(shí)推送網(wǎng)絡(luò)演化模型。夏立新等基于用戶、資源的異質(zhì)網(wǎng)絡(luò)關(guān)聯(lián),綜合考慮情感分析等其他方法,進(jìn)行用戶與資源的多維度推薦研究。
2.6基于文獻(xiàn)計(jì)量視角的知識(shí)聚合研究
由于文獻(xiàn)計(jì)量主要以文獻(xiàn)內(nèi)外部特征為分析對象,因此該方法主要運(yùn)用于館藏資源聚合研究。該視角研究主要由項(xiàng)目14的研究團(tuán)隊(duì)采用。
共現(xiàn)與耦合是該視角資源聚合最??紤]的兩種關(guān)聯(lián)。首先,邱均平等分別利用作者共被引及文獻(xiàn)作者、關(guān)鍵詞之間單一與交叉共現(xiàn)關(guān)系開展館藏資源深度聚合研究,設(shè)計(jì)具體聚合流程與模型。瞿輝等利用共詞分析技術(shù)進(jìn)行館藏資源聚合,引入主題圖來提高傳統(tǒng)共詞分析的語義化程度。其次,邱均平等與趙蓉英等基于耦合關(guān)聯(lián)進(jìn)行資源聚合研究。邱均平等綜合考慮共現(xiàn)與耦合兩種關(guān)聯(lián)構(gòu)建包含數(shù)據(jù)層、分析層、聚合層與表示層在內(nèi)的針對8種館藏資源的聚合模型。
值得一提的是,除了上述6個(gè)主要研究視角,學(xué)者還嘗試?yán)闷渌暯情_展聚合研究,由于這些視角下的研究論文尚未形成體系,這里不再詳述。
3知識(shí)聚合研究的共性特點(diǎn)分析
分析表1中所列項(xiàng)目研究成果,總結(jié)當(dāng)前知識(shí)聚合共性特點(diǎn),主要包括:
3.1知識(shí)聚合向多維度方向發(fā)展
網(wǎng)絡(luò)環(huán)境下資源生產(chǎn)方式與交流渠道增加,為深入知識(shí)服務(wù)提供了數(shù)據(jù)保障,但傳統(tǒng)單一維度的聚合方式無法有效將多源數(shù)據(jù)轉(zhuǎn)化成可為用戶直接利用的知識(shí),影響知識(shí)服務(wù)效果。多維度聚合以用戶需求為基礎(chǔ),考慮資源類別、關(guān)聯(lián)類型、聚合方法之間差異,從不同維度聚合分析,綜合多維度分析結(jié)果,滿足新環(huán)境下知識(shí)服務(wù)需求。經(jīng)總結(jié)筆者將其歸為3類:1)聚合資源的多維化。聚合資源除了包括文本數(shù)據(jù)外還包括網(wǎng)頁鏈接、用戶行為等非本文數(shù)據(jù),綜合挖掘可提高知識(shí)聚合的廣度。2)聚合方法的多維化。概念關(guān)聯(lián)、關(guān)聯(lián)數(shù)據(jù)、社會(huì)網(wǎng)絡(luò)分析等聚合方法有各自優(yōu)點(diǎn)與缺點(diǎn),綜合運(yùn)用優(yōu)勢互補(bǔ),可提高知識(shí)聚合的深度。3)聚合所依據(jù)知識(shí)關(guān)聯(lián)的多維化。類型多樣的知識(shí)關(guān)聯(lián)從不同角度表征資源語義關(guān)系,例如標(biāo)簽共現(xiàn)關(guān)聯(lián)與領(lǐng)域本體等級關(guān)聯(lián)分別從用戶角度與客觀角度表征知識(shí)關(guān)聯(lián)。融合多種關(guān)聯(lián)構(gòu)建更全面知識(shí)關(guān)聯(lián)網(wǎng)絡(luò),可提高知識(shí)聚合的語義程度。
3.2知識(shí)聚合的語義關(guān)聯(lián)向領(lǐng)域化與細(xì)粒度化發(fā)展
基于資源內(nèi)在關(guān)聯(lián)的語義聚合解決了傳統(tǒng)關(guān)注資源內(nèi)外部特征,無法從知識(shí)關(guān)聯(lián)層面聚合資源的不足。構(gòu)建關(guān)系明晰的概念關(guān)聯(lián)網(wǎng)絡(luò)是知識(shí)語義聚合基礎(chǔ),人工構(gòu)建工程浩大、費(fèi)時(shí)費(fèi)力,利用語法規(guī)則或機(jī)器學(xué)習(xí)的半自動(dòng)化構(gòu)建成為研究主流。設(shè)計(jì)適用于多數(shù)領(lǐng)域的概念關(guān)聯(lián)網(wǎng)絡(luò)自動(dòng)或半自動(dòng)構(gòu)建方法是圖情領(lǐng)域研究熱點(diǎn)。但隨著研究深入發(fā)現(xiàn),不同領(lǐng)域之間資源結(jié)構(gòu)差異較大,根據(jù)領(lǐng)域特點(diǎn)設(shè)計(jì)針對性關(guān)聯(lián)網(wǎng)絡(luò)構(gòu)建方案更為可靠,與之對應(yīng)相關(guān)項(xiàng)目中逐漸出現(xiàn)融入學(xué)科背景的概念與概念關(guān)聯(lián)抽取方法,取得較好效果。
已有項(xiàng)目的開展中.概念的共現(xiàn)關(guān)系是挖掘概念關(guān)聯(lián)的重要依據(jù),通過統(tǒng)計(jì)共現(xiàn)次數(shù)可定量計(jì)算概念關(guān)聯(lián)強(qiáng)度,但僅根據(jù)共現(xiàn)關(guān)系無法獲取概念關(guān)聯(lián)類型,基于此構(gòu)建的關(guān)聯(lián)網(wǎng)絡(luò)無法真實(shí)反映客觀世界知識(shí)關(guān)聯(lián)。有學(xué)者提出將具有明確關(guān)聯(lián)類型的概念網(wǎng)絡(luò)(如本體)與概念共現(xiàn)網(wǎng)絡(luò)相融合的方法,將共現(xiàn)網(wǎng)絡(luò)轉(zhuǎn)化為有明確關(guān)聯(lián)類型表征能力的知識(shí)網(wǎng)絡(luò),支持知識(shí)細(xì)粒度語義聚合。
4小結(jié)
網(wǎng)絡(luò)環(huán)境下資源數(shù)量迅速增長,知識(shí)聚合研究重要性更加突顯。近年來學(xué)者嘗試了多種聚合方法,研究成果較為零散,有必要對其進(jìn)行梳理與總結(jié)。國家自科與社科項(xiàng)目代表國內(nèi)高水平研究,目前已連續(xù)多年均有國家級科研項(xiàng)目圍繞知識(shí)聚合開展。本文首先對2011年以來我國圖情領(lǐng)域與知識(shí)聚合相關(guān)的國家項(xiàng)目進(jìn)行統(tǒng)計(jì)分析,總結(jié)出6個(gè)項(xiàng)目特色視角;其次重點(diǎn)分析2014之前立項(xiàng)的9個(gè)國家項(xiàng)目,根據(jù)其所發(fā)表論文,分析各個(gè)項(xiàng)目研究視角,探析主要項(xiàng)目團(tuán)隊(duì)的研究特色;然后以知識(shí)聚合的特色視角為維度,對9個(gè)國家項(xiàng)目的多篇論文進(jìn)行歸納分析,明晰6個(gè)特色視角下知識(shí)聚合研究現(xiàn)狀;最后總結(jié)已有知識(shí)聚合研究的共性特征,認(rèn)為聚合內(nèi)容、方法及依據(jù)知識(shí)關(guān)聯(lián)呈多維化,知識(shí)聚合所依據(jù)的知識(shí)關(guān)聯(lián)呈領(lǐng)域化與細(xì)粒度化。