劉崢 孫坦 張建勇
(1. 中國科學(xué)院文獻(xiàn)情報(bào)中心,北京 100190;2. 中國農(nóng)業(yè)科學(xué)院,北京 100081)
科技文獻(xiàn)信息是科技知識的重要載體,知識組織是對其深度組織和揭示,將無序或分散的特定知識,根據(jù)一定的原則與方法,使之有序、集中、定位,以方便知識的提供、利用和傳播。知識組織的內(nèi)容包括知識描述和元數(shù)據(jù)、知識組織過程和知識組織體系。知識組織是圖書館和信息科學(xué)的核心能力,也是圖書館、檔案館、博物館等信息服務(wù)機(jī)構(gòu)的一項(xiàng)基礎(chǔ)性工作。
NSTL作為國家科技文獻(xiàn)信息戰(zhàn)略保障服務(wù)系統(tǒng)和國家科技文獻(xiàn)信息資源的服務(wù)基地,一直將知識組織工作作為一項(xiàng)重要的任務(wù)。在不同時(shí)期,根據(jù)NSTL的建設(shè)任務(wù),在知識組織建設(shè)不同方面開展了長期卓有成效的工作。本文通過回顧不同時(shí)期知識組織建設(shè)的內(nèi)容與重點(diǎn),總結(jié)了知識組織發(fā)展變化,以厘清未來方向。
NSTL的知識組織發(fā)展歷程可以分為兩個(gè)階段。①基礎(chǔ)建設(shè)階段(2000—2009年)。以科技文獻(xiàn)資源的記錄描述為主,主要開展元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范研究,以科技部科技基礎(chǔ)性工作專項(xiàng)基金重大項(xiàng)目“數(shù)字圖書館標(biāo)準(zhǔn)規(guī)范建設(shè)”為代表。②穩(wěn)步發(fā)展階段(2010年至今)。以科技文獻(xiàn)資源內(nèi)容揭示、語義互操作應(yīng)用為主,主要開展知識組織體系的建設(shè),并對科技文獻(xiàn)的深度加工索引,以“十三五”國家科技支撐計(jì)劃“外文超級科技文獻(xiàn)的知識組織體系建設(shè)”項(xiàng)目為代表。
NSTL為實(shí)現(xiàn)我國外文文獻(xiàn)資源保障的戰(zhàn)略安全,突破我國文獻(xiàn)資源保障體系布局仿照蘇聯(lián)模式按行業(yè)、系統(tǒng)建設(shè)的瓶頸,打破管理體制部門分割、共建共享困難,避免印本資源的重復(fù)建設(shè),實(shí)現(xiàn)全國性普惠服務(wù)。在資源建設(shè)上,按照“統(tǒng)一規(guī)劃、統(tǒng)籌協(xié)調(diào)、增量調(diào)控、盤活存量”的原則,收藏和開發(fā)理、工、農(nóng)、醫(yī)各學(xué)科領(lǐng)域的科技文獻(xiàn)資源,構(gòu)建基于印本文獻(xiàn)的國家科技文獻(xiàn)戰(zhàn)略保障系統(tǒng)。為適應(yīng)數(shù)字環(huán)境新形勢,以國家授權(quán)為主要采購方式、以回溯數(shù)據(jù)庫建設(shè)為重點(diǎn)、以長期擁有利用為前提,加強(qiáng)網(wǎng)絡(luò)版的數(shù)字資源建設(shè)[1]。在資源服務(wù)上,以文獻(xiàn)傳遞服務(wù)為根本,在2005年開通NSTL網(wǎng)絡(luò)服務(wù),形成集中外文科技期刊、會(huì)議錄、學(xué)位論文、科技報(bào)告、專利、標(biāo)準(zhǔn)和計(jì)量規(guī)程于一體的服務(wù)系統(tǒng);并自主開發(fā)了國際科學(xué)引文服務(wù)系統(tǒng),免費(fèi)服務(wù)全國。
在這個(gè)階段,NSTL知識組織工作的重點(diǎn)是資源描述,通過研究和制訂一系列資源描述的標(biāo)準(zhǔn)規(guī)范,實(shí)現(xiàn)對NSTL科技文獻(xiàn)的描述,形成一套規(guī)范化、科學(xué)化的管理流程,研發(fā)和建設(shè)了文獻(xiàn)綜合管理系統(tǒng)、聯(lián)合編目系統(tǒng)、數(shù)據(jù)聯(lián)合加工系統(tǒng)、網(wǎng)絡(luò)服務(wù)系統(tǒng)、回溯數(shù)據(jù)庫服務(wù)系統(tǒng)、引文服務(wù)系統(tǒng)[2]。
以虹橋系統(tǒng)和NSTL聯(lián)機(jī)聯(lián)合編目標(biāo)準(zhǔn)規(guī)范為起點(diǎn),對NSTL訂購文獻(xiàn)資源(如期刊、會(huì)議文獻(xiàn)等),以MARC21機(jī)讀目錄格式為基礎(chǔ)進(jìn)行書目數(shù)據(jù)的規(guī)范化和標(biāo)準(zhǔn)化。開展文獻(xiàn)信息加工和制訂《NSTL文獻(xiàn)資源加工規(guī)范》,對文獻(xiàn)資源的期刊目次、文摘和引文進(jìn)行規(guī)范,充分考慮元數(shù)據(jù)創(chuàng)建者、管理者和使用者各方的多層次需求,參考DC元數(shù)據(jù)的組織體系,結(jié)合資源對象特征,以XML作為交換格式。文獻(xiàn)綜合管理系統(tǒng)提供持續(xù)更新西文期刊、會(huì)議文獻(xiàn)備選數(shù)據(jù)庫和定量評價(jià)指標(biāo)體系,備選文獻(xiàn)數(shù)據(jù)庫元數(shù)據(jù)既含有國家層面保障情況和學(xué)科分布分析,又含有國際科技文獻(xiàn)供給狀況等動(dòng)態(tài)指標(biāo)數(shù)據(jù)。據(jù)此,NSTL的資源描述,在品種上實(shí)現(xiàn)對西文科技期刊、西文會(huì)議文獻(xiàn)、日俄科技期刊、外文科技報(bào)告、中文學(xué)位論文、西文學(xué)位論文、西文文集匯編、計(jì)量檢定規(guī)程、國內(nèi)外標(biāo)準(zhǔn)等的揭示;在內(nèi)容深度上實(shí)現(xiàn)從聯(lián)合目錄到期刊目次、從文摘加工到引文加工的描述和揭示。
2002年10月,NSTL倡導(dǎo)啟動(dòng)了科技部科技基礎(chǔ)性工作專項(xiàng)基金重大項(xiàng)目“我國數(shù)字圖書館標(biāo)準(zhǔn)規(guī)范建設(shè)”。由NSTL成員單位中國科學(xué)技術(shù)信息研究所、中國科學(xué)院文獻(xiàn)情報(bào)中心聯(lián)合中國國家圖書館共同發(fā)起,17個(gè)參加單位針對數(shù)字圖書館系統(tǒng)的數(shù)字資源建設(shè)與服務(wù),制定了我國數(shù)字圖書館建設(shè)標(biāo)準(zhǔn)規(guī)范發(fā)展戰(zhàn)略與標(biāo)準(zhǔn)規(guī)范框架和數(shù)字圖書館核心標(biāo)準(zhǔn)規(guī)范體系,開展了數(shù)字圖書館元數(shù)據(jù)加工標(biāo)準(zhǔn)、各類專門元數(shù)據(jù)標(biāo)準(zhǔn)、檢索服務(wù)標(biāo)準(zhǔn)、服務(wù)登記標(biāo)準(zhǔn)、唯一標(biāo)識符等技術(shù)標(biāo)準(zhǔn)和規(guī)范的研究,建立了數(shù)字圖書館標(biāo)準(zhǔn)規(guī)范建設(shè)開放應(yīng)用機(jī)制,促進(jìn)了我國數(shù)字圖書館的可持續(xù)發(fā)展[3]。先后研制發(fā)布了89個(gè)標(biāo)準(zhǔn)規(guī)范,為全國數(shù)字圖書館建設(shè)奠定了基礎(chǔ)。
2010年,NSTL初步建成一個(gè)面向全國、外文科技文獻(xiàn)最多、功能先進(jìn)、在國內(nèi)外享有廣泛聲譽(yù)、國內(nèi)最大的科技文獻(xiàn)信息戰(zhàn)略保障服務(wù)系統(tǒng),但數(shù)字出版、開放獲取、來自學(xué)術(shù)信息服務(wù)市場的競爭等一系列信息環(huán)境的變化,又給NSTL帶來新的機(jī)遇和挑戰(zhàn)。數(shù)字文獻(xiàn)成為用戶首選使用的資源,網(wǎng)絡(luò)搜索引擎和信息門戶成為用戶文獻(xiàn)獲取的主流渠道,企業(yè)用戶所需要的不再是簡單的文獻(xiàn),而是可靠、具體、可被直接利用的信息[4]。在這樣的背景下,NSTL在資源建設(shè)上,鞏固外文紙本科技期刊和會(huì)議錄的國家基礎(chǔ)保障,積極推進(jìn)數(shù)字科技文獻(xiàn)保障,從文獻(xiàn)保障為主積極向知識服務(wù)基礎(chǔ)支撐保障轉(zhuǎn)型;在服務(wù)上,增強(qiáng)知識組織能力,提升國家科技文獻(xiàn)平臺的系統(tǒng)服務(wù)能力,擴(kuò)大國家平臺資源的普惠服務(wù)能力,從文獻(xiàn)傳遞服務(wù)為主向資源發(fā)現(xiàn)服務(wù)、分析評價(jià)服務(wù)轉(zhuǎn)型[5]。
在此階段,NSTL知識組織重點(diǎn)是資源內(nèi)容深度揭示和整合,主要體現(xiàn)在開展的研究和工作兩個(gè)方面。制訂NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn),解決了NSTL從采購、加工、發(fā)布到服務(wù)的數(shù)字化業(yè)務(wù)流程上各子系統(tǒng)使用的元數(shù)據(jù)不盡相同,難以實(shí)現(xiàn)資源的深度挖掘問題。形成能夠支持多種數(shù)據(jù)的統(tǒng)一描述和一致的數(shù)據(jù)描述體系,推進(jìn)科技文獻(xiàn)信息深度組織和揭示,為NSTL數(shù)據(jù)集成融合、數(shù)據(jù)分析和數(shù)據(jù)挖掘,以及為不同應(yīng)用服務(wù)系統(tǒng)間的互操作打下數(shù)據(jù)基礎(chǔ),從而給科技決策和知識服務(wù)提供支撐[6]。
2011年,NSTL負(fù)責(zé)組織實(shí)施了科技部“十二五”科技支撐項(xiàng)目“面向外文科技文獻(xiàn)信息的知識組織體系建設(shè)與應(yīng)用示范”(STKOS),建成了以面向外文科技文獻(xiàn)信息組織為主要應(yīng)用目標(biāo)的數(shù)字化科技知識組織體系。STKOS為我國海量外文科技文獻(xiàn)信息的組織和利用提供支撐,有助于實(shí)現(xiàn)國家科技文獻(xiàn)信息戰(zhàn)略資源的有效組織、深度揭示和知識關(guān)聯(lián),提供知識檢索服務(wù),推進(jìn)基于國家科技文獻(xiàn)信息戰(zhàn)略資源的知識發(fā)現(xiàn)、知識挖掘和知識計(jì)算應(yīng)用示范,整體提升我國科技文獻(xiàn)信息機(jī)構(gòu)的知識服務(wù)能力[7]。
面向外文科技文獻(xiàn)的知識組織體系建設(shè)涵蓋知識組織體系內(nèi)容建設(shè),加工協(xié)作平臺建設(shè),開放服務(wù)平臺建設(shè),自動(dòng)處理、智能檢索的應(yīng)用,知識服務(wù)的應(yīng)用示范和關(guān)鍵技術(shù)研究6個(gè)部分內(nèi)容。STKOS建成了一個(gè)涵蓋理工農(nóng)醫(yī)的科技術(shù)語倉儲系統(tǒng),包括素材庫、基礎(chǔ)詞庫、范疇到本體4個(gè)部分。素材庫收集了來自975部詞表的1438萬個(gè)術(shù)語;基礎(chǔ)詞庫從201部高質(zhì)量科技詞表中遴選232萬個(gè)術(shù)語,形成了61.5萬個(gè)概念;范疇體系共含1.2萬個(gè)類目名稱,規(guī)定概念所屬的學(xué)科;本體庫包括4個(gè)領(lǐng)域本體和1個(gè)科研本體。
20年來,計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)飛速發(fā)展,互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)到大數(shù)據(jù)和人工智能,使科研信息環(huán)境發(fā)生深刻變革,出版模式從訂購為主的商業(yè)模式向訂購、開放獲取等多種模式共存轉(zhuǎn)變,圖書館服務(wù)從印本文獻(xiàn)服務(wù)模式向數(shù)字化服務(wù)保障模式轉(zhuǎn)變。為適應(yīng)這些發(fā)展和變革,NSTL知識組織的研究和建設(shè)也隨之發(fā)生了相應(yīng)的變化:在知識描述和揭示上,揭示的內(nèi)容從聯(lián)合目錄到期刊目錄、從文摘加工到引文加工,揭示的深度從資源品種的描述發(fā)展到知識內(nèi)容、實(shí)體結(jié)構(gòu)關(guān)系的揭示;在知識組織方法和使用工具上,從單一的學(xué)科分類到詞表、本體,組織維度從二維的表結(jié)構(gòu)到多維的圖結(jié)構(gòu);在使用范圍上,從獨(dú)立單個(gè)系統(tǒng)的知識描述到多系統(tǒng)使用元數(shù)據(jù)的統(tǒng)一,從NSTL各服務(wù)系統(tǒng)的知識描述和索引“各自為政”到統(tǒng)一規(guī)范。
NSTL作為國家科技文獻(xiàn)信息戰(zhàn)略保障服務(wù)系統(tǒng),形成了從采購、加工、發(fā)布到服務(wù)的數(shù)字化業(yè)務(wù)流程。為實(shí)現(xiàn)科技信息資源業(yè)務(wù)流程的數(shù)字化操作,NSTL根據(jù)不同業(yè)務(wù)需求,先后制訂了多種科技文獻(xiàn)描述采集加工標(biāo)準(zhǔn)規(guī)范,其中包括聯(lián)合編目系統(tǒng)參考新版《MARC21機(jī)讀目錄格式》,制訂了各種文獻(xiàn)類型的書目記錄標(biāo)準(zhǔn);加工系統(tǒng)為了文摘和引文數(shù)據(jù)的加工,參考DC元數(shù)據(jù)的組織體系,結(jié)合資源對象特征,制訂了《NSTL文獻(xiàn)資源加工規(guī)范》;針對開放資源服務(wù)任務(wù),根據(jù)不同文獻(xiàn)類型(如開放會(huì)議、開放課件),制訂了相應(yīng)的元數(shù)據(jù)標(biāo)準(zhǔn)[8]。
一系列NSTL科技文獻(xiàn)描述采集加工標(biāo)準(zhǔn)規(guī)范的制訂,保證了NSTL不同服務(wù)系統(tǒng)所需文獻(xiàn)信息的準(zhǔn)確性、完備性。但這些資源內(nèi)容的標(biāo)準(zhǔn)規(guī)范,都依托各自系統(tǒng),以單條文獻(xiàn)記錄為基礎(chǔ),如同一系列的會(huì)議文獻(xiàn),因出版方式不同,NSTL業(yè)務(wù)流程會(huì)根據(jù)訂購和開放獲取采用不同的處理流程、文獻(xiàn)描述標(biāo)準(zhǔn)進(jìn)行加工。以單條文獻(xiàn)記錄為基本單元的處理方式,造成記錄中的數(shù)據(jù)元素與記錄的高度綁定;記錄中的單個(gè)數(shù)據(jù)元素,也難以成為一個(gè)獨(dú)立的實(shí)體,相互關(guān)聯(lián)和跨系統(tǒng)重用、重組。
為了實(shí)現(xiàn)數(shù)據(jù)的靈活使用,NSTL通過聯(lián)合目錄系統(tǒng)元數(shù)據(jù)、NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)的制訂,將以記錄條目為基礎(chǔ)的數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)變?yōu)橐詫?shí)體為基礎(chǔ)的數(shù)據(jù)結(jié)構(gòu)。這兩個(gè)標(biāo)準(zhǔn)采用了模塊化設(shè)計(jì)的思路,用元素集來表示實(shí)體,注重實(shí)體關(guān)系的揭示。NSTL聯(lián)合目錄系統(tǒng)元數(shù)據(jù)設(shè)計(jì),根據(jù)科技期刊、會(huì)議文獻(xiàn)、科技叢書、文集匯編、工具書、科技報(bào)告、學(xué)位論文、科技專著8種類型,每種類型的元數(shù)據(jù)由一個(gè)元數(shù)據(jù)框架支撐,元數(shù)據(jù)中包含多個(gè)元素集,也包含元素集之間的關(guān)系。每種類型文獻(xiàn)元數(shù)據(jù)的元素集包含其描述信息元素集(一般包括編碼標(biāo)識元素、外部特征元素、內(nèi)容特征元素)、館藏信息元素集和管理信息元素集。同時(shí)根據(jù)每種文獻(xiàn)類型的特點(diǎn)形成具有該文獻(xiàn)類型特色的元素集,如科技期刊的“歷史變革元素集”、科技叢書的“叢編信息元素集”等[9]。NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)制訂設(shè)計(jì)進(jìn)一步綜合對各類型文獻(xiàn)進(jìn)行研究和分析,形成了12個(gè)元素集(包括來源元素集、論文元素集、全文元素集、引文元素集、圖表元素集、附加資源元素集、Agent元素集、主題元素集、基金元素集、會(huì)議元素集、獲取管理元素集和操作信息元素集),以及5種元素集之間的關(guān)系(組成關(guān)系、相關(guān)關(guān)系、規(guī)范關(guān)系、沿革關(guān)系、引用關(guān)系)。
從文獻(xiàn)外部特征的描述到數(shù)據(jù)實(shí)體關(guān)系揭示的轉(zhuǎn)變,可方便將人類閱讀轉(zhuǎn)變?yōu)橹C(jī)器理解、機(jī)器可執(zhí)行。將記錄條目作為計(jì)算處理單元,進(jìn)一步細(xì)化到以元素集為實(shí)體的計(jì)算處理單元,使得數(shù)據(jù)的分析、重組的能力加強(qiáng),為NSTL向知識服務(wù)基礎(chǔ)設(shè)施平臺發(fā)展,未來在整個(gè)互聯(lián)網(wǎng)上方便地交換、發(fā)布和共享奠定數(shù)據(jù)結(jié)構(gòu)基礎(chǔ)。
科技文獻(xiàn)元數(shù)據(jù)的描述完成了從文獻(xiàn)書目、期刊目次、文章題錄、文摘、引文和全文等不同層次的基本數(shù)據(jù)結(jié)構(gòu)與關(guān)系的揭示,而對于文獻(xiàn)內(nèi)容中知識對象的描述、揭示、分析、計(jì)算和挖掘,以及知識關(guān)聯(lián)、推理和發(fā)現(xiàn),則依賴科技知識組織體系的構(gòu)建。
NSTL在基礎(chǔ)建設(shè)階段,采用《中國圖書館分類法》進(jìn)行學(xué)科分類,主要提供期刊或書目為單元的瀏覽導(dǎo)航和檢索服務(wù);而隨著NSTL擁有科技文獻(xiàn)數(shù)量的增加,知識服務(wù)深度擴(kuò)展,NSTL通過組織實(shí)施“面向外文科技文獻(xiàn)信息的知識組織體系建設(shè)與應(yīng)用示范”項(xiàng)目,構(gòu)建了STKOS知識組織體系,實(shí)現(xiàn)了從科技術(shù)語、概念、范疇到本體的多層級知識組織能力。
STKOS知識組織體系包括超級科技詞表和本體兩部分。超級科技詞表通過統(tǒng)一結(jié)構(gòu)對多源異構(gòu)的來源知識組織體系中的科學(xué)術(shù)語進(jìn)行同義歸并,形成以概念為單位的同義詞群,關(guān)聯(lián)不同來源知識組織體系的術(shù)語;通過范疇對概念進(jìn)行所屬學(xué)科分類,形成從科技術(shù)語、概念到范疇的三級詞網(wǎng)絡(luò)。超級詞表為實(shí)現(xiàn)科技文獻(xiàn)信息自動(dòng)標(biāo)注、智能檢索、知識導(dǎo)航,以及后續(xù)本體的發(fā)展奠定了基礎(chǔ)。借助STKOS知識組織體系,NSTL文獻(xiàn)發(fā)現(xiàn)系統(tǒng)從基于“查詢請求與文獻(xiàn)特征的簡單匹配來獲取查詢結(jié)果”,升級為“對文獻(xiàn)資源進(jìn)行語義標(biāo)注,建立基于概念的文獻(xiàn)索引,同時(shí)對用戶檢索條件分析準(zhǔn)確的信息需求”,從而改善檢索效果與增強(qiáng)用戶體驗(yàn)[10]。
STKOS知識組織體系中的本體建設(shè),是通過研究形成適合科技文獻(xiàn)知識內(nèi)容組織的本體網(wǎng)絡(luò)方法論和構(gòu)建相應(yīng)的工具集,開展示范應(yīng)用來帶動(dòng)整個(gè)知識語義發(fā)現(xiàn)、關(guān)聯(lián)和推理。STKOS本體的方法,是根據(jù)本體建設(shè)的目標(biāo)場景和本體的生命周期,確定本體建設(shè)需要路徑和活動(dòng),并根據(jù)本體活動(dòng)來構(gòu)建相應(yīng)的工具集以支持本體網(wǎng)絡(luò)建設(shè);在科技文獻(xiàn)知識內(nèi)容的發(fā)現(xiàn)和揭示上,設(shè)計(jì)了將通用的科研本體與領(lǐng)域本體相結(jié)合形成本體網(wǎng)絡(luò)的方法。通用的科研本體是一種揭示科研活動(dòng)各參與方的實(shí)體和實(shí)體間關(guān)系的本體模型,旨在分析科研活動(dòng)參與方的相互關(guān)系、合作關(guān)系,支持對科研產(chǎn)出效果的評價(jià)分析,主要的實(shí)體對象包括科研人員(作者)、論文、文獻(xiàn)(期刊或會(huì)議論文集)、圖書、基金、科研機(jī)構(gòu);領(lǐng)域本體根據(jù)研究領(lǐng)域、研究對象以及需求目標(biāo)來揭示領(lǐng)域中實(shí)體對象之間的關(guān)系。在基于STKOS的知識服務(wù)應(yīng)用示范系統(tǒng)建設(shè)上,在植物多樣性、可再生能源、水稻、呼吸系統(tǒng)腫瘤4個(gè)學(xué)科領(lǐng)域創(chuàng)建了領(lǐng)域本體,通過領(lǐng)域本體和科研本體對科技文獻(xiàn)中的知識對象、知識對象之間的關(guān)系進(jìn)行識別和標(biāo)注,構(gòu)成了一個(gè)可供分析和挖掘的知識庫系統(tǒng),從而實(shí)現(xiàn)學(xué)科領(lǐng)域科技監(jiān)測、學(xué)術(shù)關(guān)系網(wǎng)絡(luò)、知識結(jié)構(gòu)與知識演化等應(yīng)用分析。
STKOS知識組織體系構(gòu)建,實(shí)現(xiàn)了從科技術(shù)語到本體的多層級的數(shù)據(jù)內(nèi)容架構(gòu),為語義檢索、知識對象分析、計(jì)算和服務(wù)積累了方法、數(shù)據(jù)、工具,為構(gòu)建知識服務(wù)的支撐體系奠定了數(shù)據(jù)內(nèi)容基礎(chǔ)。
NSTL作為國家科技文獻(xiàn)信息戰(zhàn)略保障服務(wù)系統(tǒng),適應(yīng)國家科技創(chuàng)新、數(shù)字信息環(huán)境和科技信息需求的變革,不斷拓展科技文獻(xiàn)信息服務(wù)的范圍和方式。從自建的聯(lián)機(jī)聯(lián)合編目數(shù)據(jù)、國際科技引文服務(wù)到開放獲取資源,從訂購的外文現(xiàn)刊數(shù)據(jù)庫、外文回溯期刊全文庫到擬南芥數(shù)據(jù)庫,這些資源服務(wù)系統(tǒng)都是作為獨(dú)立系統(tǒng)來設(shè)計(jì)和建設(shè)的,采用的元數(shù)據(jù)標(biāo)準(zhǔn)和知識組織體系也有所差異。因此,形成了NSTL內(nèi)部數(shù)據(jù)孤島和用戶使用的不便,乃至困惑。
為解決系統(tǒng)間的這一問題,NSTL從數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)內(nèi)容揭示兩個(gè)角度實(shí)現(xiàn)了內(nèi)部數(shù)據(jù)的規(guī)范,減少系統(tǒng)間數(shù)據(jù)傳遞損失,增強(qiáng)系統(tǒng)間的協(xié)同能力。一方面,NSTL制訂了《NSTL統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)》,該標(biāo)準(zhǔn)適用于NSTL通過購買、交換、贈(zèng)予等方式獲取的所有科技類資源,NSTL加工系統(tǒng)采用此標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)加工處理,NSTL文獻(xiàn)服務(wù)系統(tǒng)通過元數(shù)據(jù)映射進(jìn)行數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換,以支持NSTL文獻(xiàn)發(fā)現(xiàn)系統(tǒng)的數(shù)據(jù)挖掘、分析評估功能實(shí)現(xiàn);另一方面,搭建了NSTL數(shù)據(jù)管理和計(jì)算平臺,匯聚NSTL數(shù)據(jù)書目元數(shù)據(jù)、全文數(shù)據(jù)、引文數(shù)據(jù)、規(guī)范數(shù)據(jù)文檔、STKOS知識組織體系數(shù)據(jù),并在此平臺統(tǒng)一采用STKOS知識組織體系對所有科技類文獻(xiàn)資源進(jìn)行加工標(biāo)引,實(shí)現(xiàn)了內(nèi)容標(biāo)引范圍和細(xì)節(jié)的標(biāo)準(zhǔn)化控制,并應(yīng)用于NSTL資源發(fā)現(xiàn)系統(tǒng)建設(shè)和其他服務(wù)系統(tǒng)。
在NSTL與第三方信息服務(wù)機(jī)構(gòu)間,為使各類信息服務(wù)機(jī)構(gòu)的用戶能夠像使用本機(jī)構(gòu)的服務(wù)系統(tǒng)一樣利用NSTL資源和服務(wù),將NSTL資源嵌入用戶主體本身的信息環(huán)境中,并與這些用戶所屬機(jī)構(gòu)提供的全文下載、原文傳遞、參考咨詢等服務(wù)和過程無縫連接,構(gòu)建了“面向信息機(jī)構(gòu)的嵌入式NSTL資源集成服務(wù)系統(tǒng)”[11]。
通過20年的發(fā)展,NSTL已經(jīng)累積海量的科技文獻(xiàn)信息資源,研制了適用NSTL訂購、采集和交換的所有科技文獻(xiàn)資源的元數(shù)據(jù)標(biāo)準(zhǔn),初步構(gòu)建了從科學(xué)術(shù)語、科學(xué)概念、分類范疇到本體的多層次的知識組織體系。但面對中美貿(mào)易戰(zhàn)、保護(hù)主義、單邊主義的外部環(huán)境壓力,5G、物聯(lián)網(wǎng)(IoT)、大數(shù)據(jù)、云服務(wù)和人工智能等科技創(chuàng)新發(fā)展,現(xiàn)有的知識組織建設(shè)工作,尚不能夠產(chǎn)出形成支撐大數(shù)據(jù)環(huán)境、智能應(yīng)用和知識服務(wù)的數(shù)據(jù)架構(gòu)和基礎(chǔ)設(shè)施,需要加快步伐,提速發(fā)展。
NSTL要在前期建設(shè)的基礎(chǔ)上,對內(nèi)部數(shù)據(jù)進(jìn)行拉通,形成NSTL數(shù)據(jù)網(wǎng)絡(luò)。NSTL擁有大量的科技文獻(xiàn)書目元數(shù)據(jù)和全文元數(shù)據(jù)記錄,加快書目記錄轉(zhuǎn)化為數(shù)據(jù)的過程,對文獻(xiàn)元數(shù)據(jù)中實(shí)體結(jié)構(gòu)進(jìn)行抽取、轉(zhuǎn)換和融合,形成實(shí)體數(shù)據(jù)及關(guān)系;進(jìn)一步消除NSTL系統(tǒng)間的數(shù)據(jù)孤島,加強(qiáng)數(shù)據(jù)融合治理,提升數(shù)據(jù)質(zhì)量,如與NSTL已建成的名稱規(guī)范控制文檔、期刊規(guī)范文檔、會(huì)議規(guī)范文檔融合,與NSTL用戶基本數(shù)據(jù)(姓名、單位、學(xué)科等)、NSTL文獻(xiàn)傳遞數(shù)據(jù)、NSTL使用數(shù)據(jù)(檢索、瀏覽數(shù)據(jù))、NSTL國際引文數(shù)據(jù)庫的引文數(shù)據(jù)相結(jié)合。
將NSTL科技文獻(xiàn)數(shù)據(jù)以開放關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布,致力于生成語義鏈接、機(jī)器可讀的數(shù)據(jù),從“在互聯(lián)網(wǎng)上”轉(zhuǎn)成為“在互聯(lián)網(wǎng)中”,從只能通過NSTL系統(tǒng)訪問到開放第三方、搜索引擎直接利用,嵌入到數(shù)字化科研環(huán)境。NSTL數(shù)據(jù)與外部開放的科技數(shù)據(jù)結(jié)合使用,如網(wǎng)上開放知識圖譜,包括清華大學(xué)Aminer知識圖譜、微軟學(xué)術(shù)圖譜(Microsoft Academic Graph,MAG)等。微軟利用機(jī)器學(xué)習(xí)、語義推理和知識發(fā)現(xiàn)方面的能力,創(chuàng)建每周更新的MAG,涵蓋資助者、研究項(xiàng)目、會(huì)議、機(jī)構(gòu)和出版物等實(shí)體類型及實(shí)體間關(guān)系[12];與逐步開放的科研管理機(jī)構(gòu)、科研資助機(jī)構(gòu)、科研機(jī)構(gòu)的科技數(shù)據(jù)相關(guān)聯(lián),如科技部、國家自然科學(xué)基金委的項(xiàng)目數(shù)據(jù)、政策、科研儀器設(shè)備數(shù)據(jù)、科學(xué)數(shù)據(jù)等,形成國家科技大數(shù)據(jù)。
數(shù)據(jù)治理、提升數(shù)據(jù)質(zhì)量、數(shù)據(jù)的融合和關(guān)聯(lián),無論是在NSTL內(nèi)部服務(wù)系統(tǒng)之間,還是NSTL與外部第三方系統(tǒng),都有著重要的意義,既能充分發(fā)揮大數(shù)據(jù)的優(yōu)勢,獲取多維度的信息,發(fā)現(xiàn)信息中相關(guān)性“互信息”和實(shí)現(xiàn)交叉驗(yàn)證;也能實(shí)現(xiàn)科技大數(shù)據(jù)的共建共享,避免重復(fù)建設(shè),發(fā)揮NSTL在大數(shù)據(jù)環(huán)境下作為國家科技文獻(xiàn)保障體系的重要使命。
STKOS知識組織系統(tǒng)整合理工農(nóng)醫(yī)領(lǐng)域常用的知名知識組織體系,如數(shù)學(xué)分類表、工程敘詞表、航空航天敘詞表、醫(yī)學(xué)敘詞表、國際糧農(nóng)組織多語種農(nóng)業(yè)主題詞表等,建成了一個(gè)覆蓋理工農(nóng)醫(yī)全領(lǐng)域的科技術(shù)語倉儲系統(tǒng)。該系統(tǒng)可提供不少于61.5萬個(gè)概念的中英文優(yōu)選表達(dá)、232萬個(gè)術(shù)語英文表達(dá)形式以及概念在不同知識組織體系中的關(guān)系。而且,STKOS還開發(fā)了處理術(shù)語原型化的工具、使用STKOS術(shù)語進(jìn)行文本抽取工具、分類表敘詞表轉(zhuǎn)換本體工具、本體裁切和合并工具等工具集以促進(jìn)定制應(yīng)用。
STKOS知識組織系統(tǒng)作為我國具有獨(dú)立知識產(chǎn)權(quán)的語義知識庫,對于文本處理以提取概念、關(guān)系和知識,促進(jìn)術(shù)語之間的映射,開發(fā)信息檢索系統(tǒng),從STKOS知識組織系統(tǒng)中提取特定術(shù)語,創(chuàng)建和維護(hù)本地的術(shù)語,開發(fā)術(shù)語服務(wù),研究術(shù)語或本體,都有著重要的作用;并可支持科技信息資源,如文獻(xiàn)、科學(xué)數(shù)據(jù)、人才數(shù)據(jù)、產(chǎn)業(yè)事實(shí)數(shù)據(jù)等多種信息,從出版、存儲管理、應(yīng)用的深層次揭示和處理。
持續(xù)建設(shè)STKOS知識組織系統(tǒng),加大對科技領(lǐng)域基礎(chǔ)術(shù)語的累積,除了從新出版審校的詞典、主題詞表收集外,還需要從科技文獻(xiàn)題名和文摘數(shù)據(jù)中進(jìn)行抽取,可采用包括句法模式、聚類方法、基于機(jī)器可讀詞典的方法以及詞嵌入方法;可參考微軟亞洲研究院利用基于句法模式的迭代學(xué)習(xí)算法,從Web文本中提取詞對,進(jìn)而構(gòu)建了數(shù)百萬個(gè)細(xì)粒度的概念及其關(guān)系的語義網(wǎng)絡(luò)Probase的方法[13];更要結(jié)合NSTL科技文獻(xiàn)揭示和利用的需要,把科技文獻(xiàn)中的科技術(shù)語共現(xiàn)頻次作為科技術(shù)語之間關(guān)系的一部分,來擴(kuò)展科技概念的關(guān)系。
將STKOS知識組織系統(tǒng)作為NSTL的一項(xiàng)數(shù)據(jù)服務(wù),將其從服務(wù)于NSTL資源發(fā)現(xiàn)系統(tǒng)的內(nèi)部系統(tǒng)和工具,變成NSTL提供的一項(xiàng)公益服務(wù),用來支持科研人員、研究團(tuán)隊(duì)、研究機(jī)構(gòu),并以授權(quán)許可的形式免費(fèi)使用。立足用戶立場,以用戶使用場景對現(xiàn)有數(shù)據(jù)和工具進(jìn)行適配及改造,來發(fā)展最佳實(shí)踐,推進(jìn)STKOS數(shù)據(jù)使用。在現(xiàn)有STKOS知識組織系統(tǒng)的基礎(chǔ)上,建立持續(xù)運(yùn)營和維護(hù)機(jī)制,融入STKOS數(shù)據(jù)工作流程中。
在系統(tǒng)中搜索可用知識源尋找到可用的知識,是知識發(fā)現(xiàn)的基本要求,但知識發(fā)現(xiàn)遠(yuǎn)不止于此。根據(jù)Google基于知識圖譜的知識發(fā)現(xiàn)總結(jié),知識發(fā)現(xiàn)可以抽象為3種類型。①實(shí)體中新關(guān)系。如發(fā)現(xiàn)藥品的新的副作用,作為收購目標(biāo)或銷售對象的潛在新興公司,用于關(guān)系預(yù)測、關(guān)系發(fā)現(xiàn)、關(guān)系排名。②領(lǐng)域中新的潛在重要實(shí)體。如顯示技術(shù)中的新材料、特定投資領(lǐng)域的新投資者,用于實(shí)體發(fā)現(xiàn)、實(shí)體推薦、實(shí)體排名。③更改現(xiàn)有實(shí)體的重要性。主要是關(guān)系、屬性或指標(biāo)的變化,如投資者股權(quán)的變更、銷售者對特定產(chǎn)品/服務(wù)投訴量的減少,用于趨勢分析、分布分析、異常檢測[14]。知識圖譜以結(jié)構(gòu)化的形式描述客觀世界中概念、實(shí)體及其之間的關(guān)系,將互聯(lián)網(wǎng)信息內(nèi)容表達(dá)成更接近人類認(rèn)知世界的形式,從而使計(jì)算機(jī)具備類腦推理能力,主要用于支持自然語言理解、語義搜索、智能問答等。
STKOS知識組織系統(tǒng)現(xiàn)已用于支持NSTL文獻(xiàn)發(fā)現(xiàn)系統(tǒng)進(jìn)行文檔索引和用戶檢索用語的處理,有效提升了知識發(fā)現(xiàn)的查全率和檢準(zhǔn)率。NSTL還應(yīng)在STKOS本體建設(shè)的基礎(chǔ)上進(jìn)一步發(fā)展,深入挖掘科技文獻(xiàn)數(shù)據(jù)中的語義關(guān)系,發(fā)展基于科技文獻(xiàn)的知識圖譜,提升NSTL下一代知識服務(wù)系統(tǒng)的服務(wù)能力。知識圖譜深度語義關(guān)系的建設(shè)主要分為兩個(gè)方面:一是通過對文獻(xiàn)資源元數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換、治理和融匯,與外部數(shù)據(jù)關(guān)聯(lián),能夠形成基于通用科研本體的知識圖譜,這部分的難點(diǎn)在于人名消歧,識別出哪些同名作者的論文屬于同一個(gè)人;二是對于學(xué)術(shù)研究領(lǐng)域或科研任務(wù)的知識圖譜,要通過對文獻(xiàn)資源元數(shù)據(jù)的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行模型構(gòu)建、實(shí)體識別、抽取和關(guān)系構(gòu)建,領(lǐng)域本體構(gòu)建在數(shù)據(jù)模型和實(shí)例數(shù)據(jù)構(gòu)建的難度高于通用科研本體創(chuàng)建。其中最困難的領(lǐng)域本體的建模,要面向應(yīng)用,采用以點(diǎn)帶面的方式,注重復(fù)用已有的本體,并與國家重點(diǎn)研發(fā)領(lǐng)域、NSTL下一代服務(wù)系統(tǒng)相結(jié)合,逐步擴(kuò)展領(lǐng)域知識圖譜的范圍。
總而言之,為了支撐大數(shù)據(jù)環(huán)境和智能應(yīng)用,需要多層次多角度來開展知識組織的建設(shè)和研究工作。在數(shù)據(jù)層面,要持續(xù)進(jìn)行理工農(nóng)醫(yī)領(lǐng)域的科技術(shù)語和科技概念的累積,并在數(shù)據(jù)治理的基礎(chǔ)上建成大規(guī)模科研本體和領(lǐng)域本體為基礎(chǔ)的知識圖譜;在服務(wù)層面,要建設(shè)NSTL數(shù)據(jù)管理和數(shù)據(jù)計(jì)算平臺,以支持NSTL系統(tǒng)和第三系統(tǒng)的不同應(yīng)用服務(wù)對知識圖譜、科學(xué)術(shù)語詞庫的調(diào)用;在技術(shù)層面,要繼續(xù)加大機(jī)器學(xué)習(xí)、自然語言處理的核心技術(shù)應(yīng)用,以提升知識組織數(shù)據(jù)處理的效率和準(zhǔn)確性;在應(yīng)用層面,要圍繞提升檢索、瀏覽、個(gè)性化定制、推薦和總結(jié)的語義應(yīng)用能力,來發(fā)展最佳實(shí)踐,為我國科技信息服務(wù)提供示范,起到引領(lǐng)帶頭作用。