国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

科技報告中的知識發(fā)現(xiàn)研究

2017-11-14 13:41
圖書館界 2017年5期
關鍵詞:語義關聯(lián)報告

(常州信息職業(yè)技術學院圖書館,江蘇 常州 213164)

科技報告中的知識發(fā)現(xiàn)研究

(常州信息職業(yè)技術學院圖書館,江蘇 常州 213164)

科技報告作為國家重要的戰(zhàn)略性資源,其蘊含的知識內容具有極大的科研價值??蒲谢顒酉嚓P要素、科技報告主題內容、科技報告使用記錄及科技報告與其他資源的集成關聯(lián)都是科技報告中知識發(fā)現(xiàn)的研究內容。通過語義組織關聯(lián)數(shù)據(jù),構建多維度、多層次的科技報告體系實現(xiàn)科技報告中的知識發(fā)現(xiàn),確??萍紙蟾鎯r值的深度挖掘。

科技報告;知識發(fā)現(xiàn);語義組織

自2014年3月國家科技報告服務系統(tǒng)正式上線運行后,科技報告的共享及應用日漸進入更多的社會公眾和專業(yè)人員的視線。隨著全國性的“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”浪潮的開展,以及智庫建設的蓬勃發(fā)展,對科技報告中的知識挖掘、知識發(fā)現(xiàn)研究越顯重要性。科技報告作為一種重要的科技信息資源,其對知識的創(chuàng)造和知識的應用有著重要的應用價值,所以,其形成、收集、在線瀏覽和檢索只是科技報告利用的起點,更為重要的是科技報告價值的深度挖掘和有效利用。這不僅關系到科技報告制度建設的意義和價值,更關系到科技報告作為戰(zhàn)略性資源的價值發(fā)揮。

1 科技報告中知識發(fā)現(xiàn)的內涵及意義

科技報告中的知識發(fā)現(xiàn)是指全方位應用各類知識組織工具,對大量科技報告知識資源進行采集加工、知識要素描述、標注,通過主題鏈接、本體鏈接、交叉鏈接等多種模式建立起科技報告之間、科技報告與其他科技資源之間、知識元、科研實體、知識要素之間的多重關聯(lián),進而滿足不同人員多層次、多樣化的知識服務要求。

科技報告本身是一種高度知識含量的知識產(chǎn)品,對科技報告的學科主題進行知識發(fā)現(xiàn)研究,不僅可檢測和發(fā)現(xiàn)某一學科主題的研究熱點、演化特點、前沿態(tài)勢和發(fā)展水平,為相關部門制定和優(yōu)化科技規(guī)劃項目提供課題指南和參考,為社會公眾快速了解某一學科領域國家的科技投入和產(chǎn)出狀況提供途徑。還可通過學科主題內在的知識關聯(lián)分析和揭示,將關聯(lián)知識集成反饋給使用者,在啟迪使用者思維和靈感的同時,減輕使用者的認知負擔,節(jié)省其時間成本,且可為其后續(xù)研究提供可靠的智力支撐。還可通過知識“黏結劑”的特性黏結科學研究群體,促進形成各種科學活動群體,便于群體成員開展科研交流,避開重復研究,加快科研進程和科研產(chǎn)出。

再者,充分進行科技報告知識關聯(lián)的研究和利用,促進科技報告從文獻組織向知識組織轉型,不僅可實現(xiàn)科技報告價值的提升和發(fā)揮,促進服務自主創(chuàng)新,還可提高科技報告管理人員的知識服務能力,通過知識集成和關聯(lián)分析,為用戶提供高層次的知識服務,提升公共科技資源服務形象。

最后,進行科技報告發(fā)現(xiàn)研究,有助推動國家科技報告服務系統(tǒng)的功能完善。目前,我國上線的國家科技報告服務系統(tǒng)仍有些問題需改進,如開放程度不高,被網(wǎng)絡搜索引擎索引的程度較低;服務顆粒度過大,缺少基于事物本身的細顆粒度服務,通常以一本科技報告為單元,用戶若要獲取所需的知識,還需對科技報告做進一步閱讀才能定位到他們所需知識;集成度不高,未能充分揭示知識之間的內在聯(lián)系,不便于用戶一站式獲取所需知識。

2 科技報告中知識發(fā)現(xiàn)的內容

2.1 科研活動相關要素的知識發(fā)現(xiàn)

科技報告與其他文獻資源相比,著錄時相對要求內容較多、較完善,包含大量的科研活動相關要素,即科研活動的基本信息和科研實體相關信息,如科研人員組成及概況、項目/課題名稱、項目/課題起止日期、科研計劃類別、科研項目承擔單位、科技報告館藏信息等。通過上述科技報告外部特征的要素統(tǒng)計分析,可了解科研項目的地區(qū)分布、機構分布、部門分布、人員分布等,還便于對科研活動進行全面評估,利于發(fā)現(xiàn)核心和優(yōu)秀研究人員及團隊。

2.2 科技報告主題內容的知識發(fā)現(xiàn)

科技報告中主題內容的知識發(fā)現(xiàn)是科技報告知識發(fā)現(xiàn)研究的主要內容,包括三個層面:一是學科領域層面的知識發(fā)現(xiàn),二是學科主題層面的知識發(fā)現(xiàn),三是知識元層面的知識發(fā)現(xiàn)。學科領域的知識發(fā)現(xiàn)是指通過學科分類體系對科技報告進行學科領域的劃分和統(tǒng)計,分析哪些學科領域研究相對薄弱,哪些學科領域研究相對活躍,不同學科領域研究情況的變化如何,不同學科領域的科學研究交叉情況如何等,進行形成分析報告,為科研主管部門制定和優(yōu)選學科領域課題資助提供決策依據(jù)和參考。

學科主題層面的知識發(fā)現(xiàn)是指通過學科主題挖掘,發(fā)現(xiàn)哪些主題研究相對薄弱,哪些主題研究相對活躍,某一主題現(xiàn)有研究狀態(tài)如何、未來發(fā)展趨勢如何、如何演變,同一學科不同主題之間的關聯(lián)性如何等,進而發(fā)現(xiàn)某一學科主題研究的技術成果,結合社會經(jīng)濟發(fā)展所需的重大技術和薄弱技術,助力科研人員識別技術發(fā)展的新趨勢、發(fā)現(xiàn)研究中的新問題,為科研人員后續(xù)研究提供導向,為科研管理部門優(yōu)選資助研究主題提供智慧參考。

科技報告中的圖表、數(shù)據(jù)、參數(shù)、公式、產(chǎn)品技術等都是顯著的知識要素,對其進行知識發(fā)現(xiàn)研究,即通過知識本體等工具對科技報告中的知識要素進行標引和著錄,形成知識地圖、知識節(jié)點、知識網(wǎng)絡圖等,進而厘清某一知識元的發(fā)展脈絡,預測知識元研究熱點,實現(xiàn)隱形知識的顯性化等,為科研人員進行探索性知識研究提供知識顆粒度細小化服務和知識智力支撐。

2.3 科技報告使用記錄的知識發(fā)現(xiàn)

科技報告使用記錄的知識發(fā)現(xiàn)利于掌握和了解科技報告的利用情況和用戶需求及滿意度情況。通過對注冊用戶的數(shù)量、科技報告網(wǎng)站訪問記錄、收藏和下載頻次、訪問時間等進行統(tǒng)計分析,研究科技報告的使用狀況,預測科技報告的社會效益和經(jīng)濟效益。通過對網(wǎng)絡注冊用戶的評論、自定義標簽、討論交流記錄等數(shù)據(jù)內容的分析,研究用戶行為、需求特點,進而知曉用戶關注熱點,掌握用戶使用習慣和需求內容,了解用戶存疑和使用期望及滿意度,發(fā)現(xiàn)核心用戶群體,利于科技報告服務系統(tǒng)的進一步完善,利于發(fā)現(xiàn)科研價值大的科技報告內容,利于從用戶角度發(fā)現(xiàn)研究熱點形成科技報告知識的拓撲結構,進而與前面從知識元方面形成的知識拓撲結構進行對比分析。目前,我國已上線使用的國家科技報告服務系統(tǒng)還未開展用戶討論交流的相關應用實踐。美國的國家技術信息服務局(NTIS)在高級用戶范圍內實現(xiàn)了在線筆記管理、用戶評論等功能,這些將為我國科技報告社會網(wǎng)絡管理提供借鑒。

2.4 科技報告與其他資源的集成關聯(lián)和知識發(fā)現(xiàn)

將科技報告與期刊論文、會議論文、專利等科技文獻進行語義關聯(lián),利用不同資源的不同特點,如科技報告描述科研活動過程、結果,期刊論文和會議論文相對側重理論問題的探討,專利側重技術產(chǎn)品的研發(fā)等。進行科技報告與期刊論文、會議論文和專利等科技文獻的集成關聯(lián),從整體上對科研要素進行統(tǒng)計分析、對比分析,利于全面深入掌握整個科研活動的過程與產(chǎn)出。對幾大類不同科技文獻進行粗顆粒度(如文摘)、中顆粒度(如章節(jié))、細顆粒度(如知識單元)的主題關聯(lián)知識發(fā)現(xiàn),實現(xiàn)不同科技資源之間的學科領域層面、主題內容層面和知識元層面的對接。也可通過用戶搭建不同科技資源之間的鏈接,即同一用戶利用同一賬號訪問不同科技資源,產(chǎn)生不同的訪問記錄和評論、交流信息等,針對這類數(shù)據(jù)挖掘和分析從用戶角度發(fā)現(xiàn)用戶對不同資源的利用偏好、對不同資源的情感依賴、不同資源的關注熱點等。

3 科技報告中知識發(fā)現(xiàn)的實現(xiàn)

知識的有效組織是知識發(fā)現(xiàn)的起點和基點,為確保科技報告價值的深度挖掘,可以以科技報告的數(shù)據(jù)為對象,選取關聯(lián)數(shù)據(jù),以語義網(wǎng)技術實現(xiàn)科技報告的多維度聚合,從而構建一個相互關聯(lián)、多維度、多層次的科技報告資源體系,并與其他資源建立廣泛的語義互聯(lián),從而實現(xiàn)科技報告的知識發(fā)現(xiàn)。

3.1 科技報告語義組織框架設計

根據(jù)關聯(lián)數(shù)據(jù)是語義網(wǎng)的最佳實踐,進行關聯(lián)數(shù)據(jù)的語義組織,建立不同數(shù)據(jù)之間的關聯(lián),形成集概念主題、知識內容為一體的科技報告資源集,為用戶方便快捷利用科技報告創(chuàng)造平臺和便利條件。

(1)資源數(shù)據(jù)層:包括按內部主題特征分類的科技報告數(shù)據(jù)庫和按外部特征分類的科技報告數(shù)據(jù)庫,如科研人員數(shù)據(jù)庫、機構數(shù)據(jù)庫、項目數(shù)據(jù)庫等。

(2)語義描述層:基于概念模型進行科技報告的語義描述??杉毞譃椋?)主題元素,描述說明科技報告的內容主題,如標題、關鍵詞、摘要等;2)管理元素,描述科技報告的管理數(shù)據(jù),如密級、頁碼等;3)作者元素,記錄科技報告的撰寫者及其參與者信息,如第一作者、第二作者等;4)項目元素,描述科技報告所屬的科研計劃或科研項目類型;5)機構元素,描述科研項目承擔單位及參與單位的信息,如中科院、北京大學等。

(3)語義關聯(lián)層:關聯(lián)數(shù)據(jù)是語義網(wǎng)的最佳實踐,基于唯一標識符的多維關聯(lián)方法進行資源間的語義互聯(lián),實現(xiàn)人員的關聯(lián)、主題的關聯(lián)、機構的關聯(lián)、項目的關聯(lián),以及以上元素之間的相互關聯(lián)。

(4)語義服務層:基于SPARQL進行關聯(lián)數(shù)據(jù)的瀏覽、檢索,以及其他應用。

3.2 科技報告語義組織的實現(xiàn)步驟

第一步,確定關聯(lián)組織范圍。在以科技報告題錄數(shù)據(jù),如人員、機構、項目等為主要組織對象時,還需考慮用戶的利用需求及使用習慣增設組織元素,如“關鍵詞”“主題詞”“題名”等作為具體關聯(lián)對象,使關聯(lián)組織范圍盡可能大些,這樣可避免無關聯(lián)的產(chǎn)生。

第二步,進行語義描述。通過復用或創(chuàng)建相關規(guī)范詞匯集或本體,如主題詞表、分類表等,實現(xiàn)科技報告的規(guī)范化語義描述。如“題目:Title”規(guī)范化描述為“dc:title”,“作者:author”規(guī)范化描述為“foaf:maker”,“項目/課題名稱:project”規(guī)范化描述為“swrc:project”,“項目/課題承擔單位:organization”規(guī)范化描述為“foaf:Organization”。規(guī)范化的語義描述為語義關聯(lián)降低或減少障礙。

第三步,建立數(shù)據(jù)之間的動態(tài)關聯(lián)。數(shù)據(jù)發(fā)布是數(shù)據(jù)關聯(lián)的前提和基礎。數(shù)據(jù)的發(fā)布模式目前有靜態(tài)發(fā)布、批量存儲、調用時生成、事后轉換(D2R)等方式。而D2R自動生成的關聯(lián)數(shù)據(jù),其URI(統(tǒng)一資源定位符)并不是嚴格意義上的唯一,而是D2R自動分配的。為了實現(xiàn)科技報告與其他資源有效的語義鏈接,盡可能地復用已有的、成熟的、通用的各類本體語言,如DC、FOAF、SWRC等,以實現(xiàn)表內關聯(lián)的鏈接、表間關系的鏈接以及數(shù)據(jù)庫之間關系的鏈接。

第四步,提供接口服務。不僅能支持用戶利用SPARQL語言進行數(shù)據(jù)庫檢索,還能讓用戶進行基于html的瀏覽、關聯(lián)數(shù)據(jù)的瀏覽等,以滿足不同用戶對科技報告的多樣化需求。

在具體的語義組織工作中,還需注意以下問題:1)D2R發(fā)布的關聯(lián)數(shù)據(jù)并沒實現(xiàn)真正有效的語義關聯(lián),必須對自動產(chǎn)生的映射文件進行改寫,建立實際關聯(lián);2)SPARQL語言雖然可以實現(xiàn)各類關系的挖掘,如合作著者的查詢,但是其前提是必須將各類資源關聯(lián)數(shù)據(jù)之間的鏈接進行有效的關聯(lián);3)空白節(jié)點問題。在數(shù)據(jù)的動態(tài)關聯(lián)和科技報告與其他科技資源的關聯(lián)中,對沒有全部定義命名域的URI,會有空鏈,即空白節(jié)點。在語義關聯(lián)組織中,要盡量避免這種情況。

4 結 語

科技報告作為重要的戰(zhàn)略新興資源,蘊含極大的科研價值,尤其是對科研過程的描述、對失敗教訓的記錄成為科技報告獨有的特色與價值。通過對科技報告中所蘊含的科研要素知識、科研主題內容以及科技報告的使用數(shù)據(jù)進行分析與挖掘,將極大可能地發(fā)現(xiàn)科技報告中蘊藏的知識金塊,進而助力科研創(chuàng)新和知識創(chuàng)新。然而,目前我國科技報告制度建立不久,關于科技報告的知識發(fā)現(xiàn)研究相對較少,上線兩年的國家科技報告服務系統(tǒng)還有不少待完善的地方,如缺少科技報告多顆粒度的規(guī)范化表示,缺少用戶評論、標注、在線交流功能,缺少用戶使用記錄的檔案管理,缺少科技報告與其他科技資源之間的引文鏈接、主題鏈接、科研實體鏈接、知識要素鏈接等。這些問題希望能引起業(yè)界專業(yè)人員的關注,使其成為研究內容和研究熱點,助推科技報告服務系統(tǒng)的日趨完善和服務能力的提升。

[1]賀德方.科技報告的內涵、作用與管理機制[J].情報學報,2014(8):788—792.

[2]陳傳夫,代鈺珠,曾建勛.科技報告開發(fā)利用與知識產(chǎn)權問題研究[J].情報學報,2014(8):793—799.

[3]國家科技報告服務系統(tǒng)[EB/OL].[2016-3-28]http:∥www.nstrs.cn/index2.aspx.

[4]呂元智.基于關聯(lián)數(shù)據(jù)的電子政務信息資源語義組織研究[J].圖書情報工作,2012(21):143—146,150.

[5]夏翠娟,劉 煒,趙 亮,等.關聯(lián)數(shù)據(jù)發(fā)布技術及其實現(xiàn)——以Drupal為例[J].中國圖書館學報,2012(1):49—57.

G255

文獻識別碼

B

1005-6041(2017)05-0082-03

2017-05-05

袁 艷(1975—),女,碩士,館員,常州信息職業(yè)技術學院圖書館。

猜你喜歡
語義關聯(lián)報告
韓國語“容入-離析”關系表達及認知語義解釋
奇趣搭配
拼一拼
智趣
報告
報告
報告
試論棋例裁決難點——無關聯(lián)①