国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于主題圖的多元資源整合模型研究

2021-02-04 07:19:16崔欣卉
中國集體經(jīng)濟 2021年2期
關(guān)鍵詞:電子圖書賽珍珠關(guān)聯(lián)

崔欣卉

摘要:數(shù)字化、網(wǎng)絡(luò)化、智能化等新起的信息技術(shù)驅(qū)動數(shù)字中國建設(shè)向縱深邁進,以數(shù)字媒介和人工智能為基礎(chǔ)的新興文化形態(tài)和知識生產(chǎn)體系正日見雛形,并展現(xiàn)出廣闊的發(fā)展前景。文章提出一種基于主題圖的多元資源整合模型,從資源收集到資源關(guān)聯(lián)可視化,構(gòu)建了基于主題圖的多元資源組織模型,并以賽珍珠研究資源為具體案例展示,為其他領(lǐng)域整合多元模型提供參考。

關(guān)鍵詞:主題圖;多元資源

一、引言

在全面推進我國數(shù)據(jù)強國和數(shù)字中國的建設(shè)過程中,互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等技術(shù)普遍適用于社會各領(lǐng)域,引發(fā)了信息資源收集、分析、組織、運用模式的變革,驅(qū)動多元主體從多方視角、多個維度對信息資源展開多層次分析與應(yīng)用。在此背景下,眾多學(xué)者越來越關(guān)注各研究領(lǐng)域下分布在不同系統(tǒng)中且種類多樣的資源合理轉(zhuǎn)化與關(guān)聯(lián)問題,并希望在此基礎(chǔ)上實現(xiàn)資源關(guān)聯(lián)可視化服務(wù)。本文以賽珍珠研究資源為例,旨在構(gòu)建多元資源整合模型,探究各領(lǐng)域研究資源的組織管理模式,選取多來源、多種類的不同研究資源,通過主題圖資源組織方式,揭示賽珍珠研究資源的語義內(nèi)容主題結(jié)構(gòu),探尋多元資源整合方式。

二、相關(guān)研究

大數(shù)據(jù)環(huán)境下多元資源的多樣性為各學(xué)科的研究提供了巨大空間。目前常見研究資源來源渠道有中國知網(wǎng)、百度學(xué)術(shù)、萬方、網(wǎng)絡(luò)資源等,來源渠道分散且單一,主要方法還是文獻計量學(xué)。在多元資源整合方面,如將期刊文獻和專利文本的整合、基金項目和數(shù)據(jù)的整合等,都為較成功的實踐。但如何對于整合不同平臺、不同維度、不同類型等的多元資源,進行主題發(fā)現(xiàn)與關(guān)聯(lián),從而實現(xiàn)更全面、深入的資源整合研究較少。

主題圖作為一種知識管理和信息導(dǎo)航的技術(shù),在信息資源關(guān)聯(lián)聚合的應(yīng)用上引起了廣泛的關(guān)注。Steve在《尋求全球知識交換點》(A Perspective on the Quest for Global Knowledge Interchange)的文章中詳細描述了主題圖的歷史,在這之后,主題圖的開發(fā)者在數(shù)據(jù)模型、TAO模型與XTM技術(shù)規(guī)范等文檔中對主題圖的結(jié)構(gòu)要素、技術(shù)標(biāo)準(zhǔn)等做了詳細介紹;主題圖技術(shù)在引入我國后,艾丹祥、黃曉斌、秦鐵輝等學(xué)者對主題圖技術(shù)的核心概念、基本結(jié)構(gòu)和功能做了詳細介紹,趙金海等對開源主題圖引擎TM4J技術(shù)工具做了分析,李清茂對開源主題圖引擎Ontopia的工作機制做了詳細分析;郭黎等利用主題圖技術(shù)對多源地理空間數(shù)據(jù)做了有效關(guān)聯(lián)和查詢;王文寧等學(xué)者基于主題圖技術(shù)構(gòu)建了洪災(zāi)應(yīng)急信息的關(guān)聯(lián)場景模型;張云中基于主題圖技術(shù)提出了數(shù)字檔案的標(biāo)注系統(tǒng)資源聚合研究。由此可見,運用主題圖技術(shù)對于整合不同平臺、不同維度、不同類型的多元資源具有可行性。

三、多元資源整合主題圖構(gòu)建

(一)構(gòu)建方法

構(gòu)建一個成功的多元研究資源庫是一項龐大的工程。在模型的設(shè)計前期,需要研究者設(shè)計模型的構(gòu)建流程,對資源的種類和來源進行梳理,反復(fù)確認資源收集渠道,更新逐漸成熟的計算機技術(shù),才有可能構(gòu)建出較完善、讓用戶滿意的知識資源共享庫。

從宏觀上來看,主題圖是一個多維度的空間模型。資源和主題分為上下兩層。在資源層,可以上傳信息資源,也可以加入動態(tài)鏈接,將網(wǎng)絡(luò)資源和已有的資源放入資源層中,為多元資源的收集和存儲提供了便利;在主題層,通過對資源的外部特征和語義特征進行描述,提取出主題詞,從主題的角度建立關(guān)聯(lián)關(guān)系,另外還可以構(gòu)建獨立的主題,既實現(xiàn)了資源之間的關(guān)聯(lián)性,也可以描述資源的獨立性。

從微觀來看,在主題圖這個多維的主題空間中,主題層中有不同的主題,每個主題代表一個結(jié)點,分別指向不同的資源。兩個主題結(jié)點之間的距離可以用資源的關(guān)聯(lián)次數(shù)來表示。在主題間相互關(guān)聯(lián)的過程中形成了一個巨大的立體網(wǎng)狀網(wǎng)絡(luò),網(wǎng)絡(luò)中有錯綜復(fù)雜的關(guān)系,通過關(guān)聯(lián)關(guān)系的設(shè)定,系統(tǒng)地梳理了資源和主題間的關(guān)系,也挖掘了資源之間更大的潛在價值。

(二)構(gòu)建過程

主題(Topic)、關(guān)聯(lián)(Association)、資源出處(Occurrence)為主題圖(TAO)的三個主要元素,對構(gòu)建主題圖模型起到了引領(lǐng)的作用,在進行合理設(shè)置前,首先要梳理它們的涵義與關(guān)系。T就是主題。主題可以是任何“事物”,無論是實體還是概念,它可以具有任何特征;Association 為關(guān)聯(lián)的意思,主題在設(shè)置好后,需要描述多個主題間的關(guān)系,通常情況下,主題與主題間有多重關(guān)系來關(guān)聯(lián),并通過關(guān)聯(lián)的次數(shù)實現(xiàn)主題間的聚合;Occurrence 就是資源實體,也稱為資源出處,這就是主題圖的資源層,功能是存儲資源,將資源與主題相關(guān)聯(lián)。主題和一個或多個與該主題相關(guān)的信息資源以某種關(guān)聯(lián)關(guān)系相關(guān)聯(lián)。

本文依據(jù)主題圖的基本組成要素(TAO)即主題(T)、關(guān)聯(lián)(A)和資源實體(O),分析設(shè)計了基于主題圖的賽珍珠研究資源關(guān)聯(lián)聚合模型與構(gòu)建過程,如圖1。該模型由3個層次構(gòu)成:

領(lǐng)域研究資源層,該層主要目的是建立研究資源庫,選擇合理有效的資源集,反映領(lǐng)域研究資源的主題特點;基于領(lǐng)域多元研究資源的特點,可從幾個方面開展:文獻信息資源:包括期刊文獻、電子圖書、會議文獻等;網(wǎng)絡(luò)信息資源:利用搜索引擎得到的檢索結(jié)果,包括文本、新聞、數(shù)據(jù)、圖像、視頻等多種類型資源; 專業(yè)數(shù)據(jù)庫:包括書目數(shù)據(jù)庫、文摘數(shù)據(jù)庫與全文數(shù)據(jù)庫等。研究領(lǐng)域?qū)<遥喊ㄑ芯繉<业乃讲刈髌放c研究資源。

主題生成層,在本文主題圖的主題層的設(shè)置中,需要依次從資源中提取主題、編輯主題和合并主題??紤]到在對某研究資源檢索的過程中,大多數(shù)學(xué)者可通過研究資源的名稱、作者、機構(gòu)或者關(guān)鍵詞字段進行檢索,因此本文在一級主題的設(shè)置中,將研究學(xué)者、研究機構(gòu)、研究資源設(shè)為一級主題,根據(jù)文本的外在特征和內(nèi)在特征建立資源間的關(guān)聯(lián),如圖2,包括資源的種類、日期、作者等,內(nèi)在特征能夠描述資源內(nèi)容含義的一些特征,可用標(biāo)題、摘要、關(guān)鍵詞等表示。

功能層,主要實現(xiàn)的功能有研究資源導(dǎo)航、用戶資源檢索以及資源推薦、后期的資源庫更新等功能。

四、實例分析

上文分析了多元研究資源整合的主題圖模型,本部分以賽珍珠研究多元資源的為例,構(gòu)建賽珍珠研究資源整合模型,實現(xiàn)資源主題關(guān)聯(lián)可視化服務(wù)。

(一)資源收集

通過不同平臺獲取賽珍珠研究的資源,首先通過學(xué)術(shù)數(shù)據(jù)庫平臺CNKI中國知網(wǎng)收集當(dāng)前賽珍珠研究的期刊文獻,另外通過讀秀學(xué)術(shù)搜索平臺補充賽珍珠研究的電子圖書,最后,為獲取時事新聞與相關(guān)報道,選擇人民日報網(wǎng)等平臺作為數(shù)據(jù)來源,使用NLPIR大數(shù)據(jù)語義智能系統(tǒng)自動收集資源,三類平臺分別以“賽珍珠”為主題進行檢索與收集,時間統(tǒng)一為近十年,檢索后對不相關(guān)結(jié)果的資源,如“賽珍珠鐵觀音”、“八馬茶葉”等進行刪減和合并,最終得到的檢索結(jié)果為期刊899條、電子圖書67本、新聞報道40條。

(二)主題確定

對資源深層次分析,需要進一步的對外在特征和內(nèi)在特征分析,根據(jù)設(shè)置的一級主題:研究學(xué)者庫,共抽取到期刊文獻作者1185名,圖書作者57名(含主編),新聞報道記者18名;研究機構(gòu)庫收集到賽珍珠研究領(lǐng)域期刊366種、電子圖書出版機構(gòu)43個和新聞報道出版機構(gòu)22個。研究主題庫的收集由期刊文獻的電子圖書和新聞報道的主題詞組成。在本研究中,由于期刊文獻的作者已為文獻標(biāo)引了關(guān)鍵詞,可直接使用關(guān)鍵詞反映文獻的主題;本文直接從899條題錄中抽取關(guān)鍵詞,剔除重復(fù)不相關(guān)的關(guān)鍵詞,如“研究”、“學(xué)報”等,合并具有相同含義的關(guān)鍵詞,共得到關(guān)鍵詞2911個;電子圖書的編輯也相應(yīng)為圖書標(biāo)引了主題詞,但主題詞過于寬泛,故電子圖書保留標(biāo)題、關(guān)鍵詞(主題詞)、摘要(對于部分缺少摘要電子圖書選取目錄部分)三部分內(nèi)容,利用平臺所提供功能自動下載其相關(guān)信息;新聞報道由于篇幅較少,缺少關(guān)鍵詞、主題詞和摘要等標(biāo)引內(nèi)容,保留標(biāo)題、作者(平臺)、文章內(nèi)容三部分內(nèi)容。采用中科院開發(fā)的NLPIR自然語言處理系統(tǒng)。具體的操作步驟為:首先對每一本圖書的標(biāo)題、摘要和每一篇新聞報道的新聞漢語分詞,繼而去除停用詞,如“的”、“一個”、“和”、“與”等,提取高頻詞與特征詞,根據(jù)分詞和頻次統(tǒng)計結(jié)果,同時人工輔助,每篇選取3~5個高頻關(guān)鍵詞作為該篇文檔的關(guān)鍵詞,剔除重復(fù),最終得到新聞報道57個關(guān)鍵詞,電子圖書72個關(guān)鍵詞。

(三)主題關(guān)聯(lián)

在構(gòu)建賽珍珠研究資源主題圖中,根據(jù)資源的外在特征和內(nèi)在語義特征可以定義三種主要的關(guān)聯(lián)類型,即出版/發(fā)表關(guān)聯(lián)、著作關(guān)聯(lián)、語義關(guān)聯(lián),三種特征用賽珍珠研究資源(R)、題名(T)、作者(A)、作者機構(gòu)(O)、出版物/發(fā)表網(wǎng)址(P)、關(guān)鍵詞(K)等元素來體現(xiàn),三種關(guān)聯(lián)關(guān)系在一定程度上揭示了資源間的關(guān)系。

(四)整合實現(xiàn)

在完成主題關(guān)聯(lián)后,需要對賽珍珠研究資源進行關(guān)聯(lián)聚合。目前主題圖組件中OKS知識組件在各領(lǐng)域中應(yīng)用比較廣泛,主要用于創(chuàng)建、維護和管理主題圖,其核心組件包括主題圖引擎、主題圖編輯框架、導(dǎo)航框架、可視化框架。

依據(jù)前文描述的對賽珍珠研究資源的主題及關(guān)聯(lián)分析,在Ontology編輯器中完成的主題類型定義,如圖3所示,將賽珍珠研究資源庫的主題設(shè)置為賽珍珠研究資源主題庫、賽珍珠研究資源庫、賽珍珠研究學(xué)者庫、賽珍珠研究機構(gòu)庫。

前文分析了賽珍珠研究資源的外在特征和語義特征,根據(jù)此特征又分析了不同的關(guān)系,主要設(shè)置了以下相關(guān)關(guān)系,分別為相關(guān)作者、相關(guān)學(xué)術(shù)圖書、相關(guān)新聞報道、相關(guān)期刊文獻和相關(guān)機構(gòu)。

在主題和關(guān)聯(lián)關(guān)系設(shè)置好后,可對其可視化。主題圖的可視化采用知識圖譜的方式來展現(xiàn)主題之間的關(guān)聯(lián)和網(wǎng)絡(luò)關(guān)系,用戶不需要在網(wǎng)頁中查詢,而是直接在新的窗口進行查看,如圖4和圖5分別展示了賽珍珠研究學(xué)者和資源的關(guān)聯(lián)。在賽珍珠研究領(lǐng)域范圍內(nèi),不同種類、不同主題的資源通過相同的特征或其他關(guān)系互相關(guān)聯(lián)在一起,利用主題圖技術(shù)不僅識別這些關(guān)聯(lián),導(dǎo)航知識,還可以識別潛在的關(guān)系,如學(xué)者的潛在合作關(guān)系、資源間的主題聯(lián)系等。

五、經(jīng)驗啟示

本文以賽珍珠研究多元資源為例,利用主題圖工具Ontopia構(gòu)建賽珍珠研究主題圖,構(gòu)建主題圖之后利用其可視化工具實現(xiàn)了賽珍珠研究多元主題圖的可視化,驗證了主題圖技術(shù)應(yīng)用于多元研究資源的可行性。

利用主題圖技術(shù)將多元資源整合,用于描述多元資源之間的關(guān)聯(lián)關(guān)系,其不僅有導(dǎo)航功能,還提供了語義檢索和語義挖掘的等功能,便于用戶深層次挖掘資源的主題,既集成了傳統(tǒng)信息組織方式的優(yōu)勢,在主題表達和關(guān)聯(lián)的層次也做了突破,進一步的實現(xiàn)了資源間的共享與語義挖掘,實現(xiàn)了資源的集成性、關(guān)聯(lián)性和語義化需求。

參考文獻:

[1]張玲玲,張宇娥,杜麗.基于期刊文獻與專利文獻的科學(xué)技術(shù)互關(guān)聯(lián)研究方法對比分析[J].情報雜志,2017,36(07):116-121.

[2]劉博文,白如江,周彥廷,王效岳.基金項目數(shù)據(jù)和論文數(shù)據(jù)融合視角下科學(xué)研究前沿主題識別——以碳納米管領(lǐng)域為例[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(08):114-122.

[3]艾丹祥,張玉峰.利用主題圖建立概念知識庫[J].圖書情報知識,2003(02):48-50+53.

[4]黃曉斌.網(wǎng)絡(luò)主題圖的原理及應(yīng)用[J].情報理論與實踐,2004(03):305-307.

[5]秦鐵輝,郭延吉,孫琳.信息時代的“全球定位系統(tǒng)”——主題地圖[J].江西圖書館學(xué)刊,2005(01):1-3+7.

[6]趙金海,滿紅芳,張嘯宇.開源主題圖搜索引擎(TM4J)及結(jié)構(gòu)研究[J].信息系統(tǒng)工程,2010(11):51-53.

[7]李清茂.開源主題圖Ontopia引擎工作機制研究[J].西昌學(xué)院學(xué)報(自然科學(xué)版),2010,24(02):40-44.

[8]郭黎,姜晶莉,李豪,王云閣.基于主題圖的多源地理空間數(shù)據(jù)關(guān)聯(lián)關(guān)系表達[J].地理信息世界,2019,26(06):1-5+13.

[9]王文寧,劉濤,杜萍,邵達青,楊國林.面向洪災(zāi)全生命周期的應(yīng)急場景模型[J].測繪科學(xué),2018,43(12):44-49.

[10]張云中,馮雙雙.基于主題圖的數(shù)字檔案標(biāo)注系統(tǒng)資源聚合研究[J].圖書情報工作,2018,62(14):116-124.

[11]劉丹. 主題圖在圖書館特色數(shù)據(jù)庫構(gòu)建中的應(yīng)用研究[D].南京:南京農(nóng)業(yè)大學(xué),2008.

(作者單位:江蘇大學(xué)科技信息研究所)

猜你喜歡
電子圖書賽珍珠關(guān)聯(lián)
“苦”的關(guān)聯(lián)
賽珍珠:我在鎮(zhèn)江有個家
華人時刊(2020年17期)2020-12-14 08:13:00
賽珍珠受到錢鐘書斥責(zé)原因探析
鎮(zhèn)江高等??茖W(xué)校賽珍珠研究所簡介
21世紀(jì)中國賽珍珠研究述評
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
出版社紙質(zhì)圖書與電子圖書出版的價值鏈比較
新聞傳播(2016年11期)2016-07-10 12:04:01
電子書是否會取代傳統(tǒng)圖書?
語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動
绥宁县| 永昌县| 永济市| 无棣县| 仙桃市| 阿勒泰市| 罗山县| 兰坪| 德州市| 望都县| 商水县| 玛多县| 青岛市| 五华县| 清原| 拜泉县| 邵阳县| 台山市| 独山县| 丽江市| 四会市| 马鞍山市| 滦南县| 和田市| 崇阳县| 新泰市| 石狮市| 济南市| 称多县| 郎溪县| 普定县| 黔东| 阿巴嘎旗| 文昌市| 灵寿县| 郑州市| 湾仔区| 永城市| 济阳县| 鹰潭市| 友谊县|