孫坦 鮮國(guó)建 黃永文 劉崢
(1. 中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100181;2. 農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,北京 100081;3. 中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心,北京 100190)
在當(dāng)今互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算等技術(shù)不斷發(fā)展的環(huán)境下,各類應(yīng)用層出不窮,因此產(chǎn)生了海量的數(shù)據(jù)資源。面對(duì)海量信息,如何從傳統(tǒng)圖書(shū)館基于文獻(xiàn)的知識(shí)組織方法向適應(yīng)計(jì)算機(jī)海量信息處理的基于概念單元或知識(shí)單元方向發(fā)展,如何從資源鏈接的整合向提供深入知識(shí)內(nèi)容的整合,成為信息服務(wù)商或信息服務(wù)機(jī)構(gòu)需要解決的關(guān)鍵問(wèn)題。近年來(lái),西方發(fā)達(dá)國(guó)家、組織、企業(yè)(如歐盟、美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館、聯(lián)合國(guó)糧食及農(nóng)業(yè)組織等)紛紛開(kāi)展知識(shí)組織開(kāi)放應(yīng)用的研發(fā)項(xiàng)目,來(lái)推動(dòng)信息基礎(chǔ)平臺(tái)建設(shè)的創(chuàng)新性實(shí)踐和技術(shù)改善。如美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館建設(shè)了統(tǒng)一醫(yī)學(xué)語(yǔ)言系統(tǒng)(Unified Medical Language System,UMLS)[1];谷歌收購(gòu)了語(yǔ)義搜索公司Metaweb,利用其主打產(chǎn)品Freebase——大規(guī)模的開(kāi)放結(jié)構(gòu)化信息數(shù)據(jù)庫(kù),推出基于知識(shí)圖譜的語(yǔ)義知識(shí)發(fā)現(xiàn)服務(wù)[2]。
面向建設(shè)創(chuàng)新型國(guó)家對(duì)外文科技文獻(xiàn)的戰(zhàn)略需求,亟需突破一系列外文科技文獻(xiàn)信息組織與利用“卡脖子”技術(shù),建設(shè)我國(guó)具有自主知識(shí)產(chǎn)權(quán)的大規(guī)模、高質(zhì)量科技知識(shí)組織體系,開(kāi)展支撐科技知識(shí)組織系統(tǒng)構(gòu)建及其深度應(yīng)用的方法、技術(shù)、系統(tǒng)工具和應(yīng)用示范研究,為整體推進(jìn)國(guó)家外文科技文獻(xiàn)自主安全戰(zhàn)略保障和科技信息公共服務(wù)事業(yè)向知識(shí)化、智能化轉(zhuǎn)型提供基礎(chǔ)。因此在“十二五”期間,NSTL牽頭組織實(shí)施了國(guó)家科技支撐計(jì)劃“面向外文科技文獻(xiàn)信息的知識(shí)組織體系建設(shè)和示范應(yīng)用”項(xiàng)目(以下簡(jiǎn)稱“項(xiàng)目”),來(lái)構(gòu)建我國(guó)面向外文科技文獻(xiàn)的知識(shí)組織體系,以支持語(yǔ)義層面上的信息揭示、組織和發(fā)現(xiàn),提供科技知識(shí)組織體系和共性關(guān)鍵技術(shù)支撐。
構(gòu)建“面向外文科技文獻(xiàn)的知識(shí)組織體系”,開(kāi)展應(yīng)用示范的總目標(biāo)是在“十二五”期間基本建成適應(yīng)計(jì)算機(jī)應(yīng)用的,以面向外文科技文獻(xiàn)信息組織為主要目標(biāo)的科技知識(shí)組織體系,為我國(guó)海量外文科技文獻(xiàn)信息的組織和利用提供支撐,實(shí)現(xiàn)國(guó)家科技文獻(xiàn)信息戰(zhàn)略資源的有效組織、深度揭示和知識(shí)關(guān)聯(lián),提供知識(shí)檢索服務(wù),有力促進(jìn)我國(guó)科技文獻(xiàn)信息機(jī)構(gòu)知識(shí)服務(wù)能力的整體提升。項(xiàng)目采用國(guó)際先進(jìn)的知識(shí)組織技術(shù)和方法,借鑒國(guó)內(nèi)外知識(shí)組織系統(tǒng)建設(shè)成果與應(yīng)用經(jīng)驗(yàn),構(gòu)建面向計(jì)算機(jī)應(yīng)用的科技知識(shí)組織體系(Scientific& Technological Knowledge Organization Systems,STKOS),推進(jìn)基于國(guó)家科技文獻(xiàn)信息戰(zhàn)略資源的知識(shí)發(fā)現(xiàn)、知識(shí)挖掘和知識(shí)計(jì)算應(yīng)用示范。項(xiàng)目總體實(shí)現(xiàn)思路如圖1所示。
圖1 項(xiàng)目總體實(shí)現(xiàn)思路
項(xiàng)目主要從以下5個(gè)方面開(kāi)展深入研究和探索。
(1)建設(shè)涵蓋理、工、農(nóng)、醫(yī)4個(gè)學(xué)科領(lǐng)域面向外文科技文獻(xiàn)的知識(shí)組織體系。融合術(shù)語(yǔ)表、敘詞表、用戶檢索詞、作者關(guān)鍵詞等各種知識(shí)組織素材,經(jīng)過(guò)原型化處理、詞形規(guī)范、語(yǔ)義聚類、術(shù)語(yǔ)優(yōu)選、術(shù)語(yǔ)合并等,建成以科技術(shù)語(yǔ)為基本單元,以概念為核心,以來(lái)源詞表的原有關(guān)系為依托,通過(guò)概念與來(lái)源詞表術(shù)語(yǔ)進(jìn)行語(yǔ)義關(guān)系的詞網(wǎng)絡(luò),并在此基礎(chǔ)上根據(jù)本體生命周期模型和不同的本體建設(shè)場(chǎng)景構(gòu)建領(lǐng)域本體和科研本體。面向外文科技文獻(xiàn)的超級(jí)科技詞表和本體建設(shè)技術(shù)路線如圖2和圖3所示。
(2)開(kāi)發(fā)科技知識(shí)組織體系協(xié)同工作系統(tǒng),構(gòu)建集素材、超級(jí)科技詞表(包括基礎(chǔ)詞庫(kù)、規(guī)范概念和范疇體系3個(gè)子層面)和本體構(gòu)建與管理為一體的多層次、跨領(lǐng)域的知識(shí)組織系統(tǒng)協(xié)同工作系統(tǒng),以及能夠進(jìn)行形式規(guī)范、語(yǔ)義規(guī)范,并支持術(shù)語(yǔ)、概念和科研對(duì)象主動(dòng)發(fā)現(xiàn)的輔助建設(shè)工具。針對(duì)STKOS內(nèi)容建設(shè)的復(fù)雜性,重點(diǎn)解決資源一體化存儲(chǔ)、管理、共享與利用問(wèn)題,實(shí)現(xiàn)多來(lái)源多類型的術(shù)語(yǔ)、詞表、本體等統(tǒng)一集成管理,提供貫穿全過(guò)程的規(guī)范控制和質(zhì)量檢測(cè)手段,建立多重審校機(jī)制,建立科技知識(shí)組織體系的可持續(xù)發(fā)展機(jī)制。保證用戶無(wú)障礙地協(xié)同構(gòu)建知識(shí),并對(duì)科技知識(shí)組織體系進(jìn)行維護(hù)更新、測(cè)評(píng)和升級(jí)。STKOS協(xié)同工作系統(tǒng)技術(shù)框架如圖4所示。
圖2 面向外文科技文獻(xiàn)的超級(jí)科技詞表技術(shù)路線
圖3 面向外文科技文獻(xiàn)的本體建設(shè)技術(shù)路線
圖4 STKOS協(xié)同工作系統(tǒng)技術(shù)框架
(3)建設(shè)跨領(lǐng)域、跨地域的科技知識(shí)組織體系共享服務(wù)平臺(tái)和研制開(kāi)放服務(wù)引擎,重點(diǎn)解決術(shù)語(yǔ)探索、查詢推理、大規(guī)模語(yǔ)義存儲(chǔ)、知識(shí)組織體系相關(guān)工具集成等問(wèn)題,實(shí)現(xiàn)多個(gè)STKOS版本的發(fā)布、管理和應(yīng)用支持,提供STKOS概念與術(shù)語(yǔ)檢索、STKOS概念與術(shù)語(yǔ)瀏覽、特定領(lǐng)域的知識(shí)組織片段的定制功能,支持本體發(fā)布、本體可視化檢索、文本標(biāo)注、本體管理等。為了更清晰直觀地揭示STKOS豐富的語(yǔ)義關(guān)系,設(shè)計(jì)與實(shí)現(xiàn)多維可視化分析功能,并為用戶提供STKOS系統(tǒng)服務(wù)的統(tǒng)一認(rèn)證服務(wù)。支持面向全國(guó)科技信息服務(wù)機(jī)構(gòu)的開(kāi)放應(yīng)用服務(wù),使科技知識(shí)組織體系成為支撐國(guó)內(nèi)各類信息機(jī)構(gòu)和科研機(jī)構(gòu)開(kāi)展知識(shí)服務(wù)的信息基礎(chǔ)設(shè)施。STKOS共享服務(wù)平臺(tái)技術(shù)框架如圖5所示。
圖5 STKOS共享服務(wù)平臺(tái)技術(shù)框架
(4)研發(fā)基于科技知識(shí)組織體系的海量文獻(xiàn)信息自動(dòng)處理和智能檢索技術(shù),對(duì)海量科技文獻(xiàn)信息資源中的知識(shí)點(diǎn)(如科技術(shù)語(yǔ)、內(nèi)容主題和相關(guān)科研對(duì)象等)進(jìn)行自動(dòng)標(biāo)注,通過(guò)計(jì)算提取知識(shí)對(duì)象之間的關(guān)系,實(shí)現(xiàn)對(duì)科技文獻(xiàn)信息資源的結(jié)構(gòu)化深度整序和潛在語(yǔ)義關(guān)系挖掘,建立科技文獻(xiàn)信息的知識(shí)關(guān)聯(lián)網(wǎng)絡(luò),實(shí)現(xiàn)國(guó)家科技文獻(xiàn)戰(zhàn)略資源的有效組織、深度揭示和知識(shí)化關(guān)聯(lián)。建立新型的索引機(jī)制、建立檢索結(jié)果的交互式立體性揭示機(jī)制、建立海量科技文獻(xiàn)知識(shí)導(dǎo)航和分面分析機(jī)制等,實(shí)現(xiàn)語(yǔ)義檢索、知識(shí)導(dǎo)航、檢索結(jié)果的知識(shí)化關(guān)聯(lián)、檢索結(jié)果的多維化聚類、雙語(yǔ)查詢、個(gè)性化知識(shí)定制等功能,將科技文獻(xiàn)的檢索過(guò)程變成一個(gè)基于語(yǔ)義檢索、能夠支持智能檢索推理的知識(shí)發(fā)現(xiàn)過(guò)程,提升我國(guó)科技信息資源整體的知識(shí)化組織程度,使國(guó)家科技文獻(xiàn)信息資源得到充分揭示和利用?;诤A课墨I(xiàn)信息自動(dòng)處理及智能檢索技術(shù)框架如圖6所示。
圖6 基于海量文獻(xiàn)信息自動(dòng)處理及智能檢索技術(shù)框架
(5)依托STKOS和NSTL資源體系,發(fā)揮STKOS超級(jí)科技詞表、領(lǐng)域本體以及科研本體在知識(shí)組織、知識(shí)關(guān)聯(lián)、語(yǔ)義推理、知識(shí)挖掘等方面優(yōu)勢(shì),開(kāi)展科技監(jiān)測(cè)、領(lǐng)域知識(shí)結(jié)構(gòu)及其演化分析、領(lǐng)域?qū)W術(shù)關(guān)系網(wǎng)絡(luò)分析、領(lǐng)域科研信息環(huán)境構(gòu)建和科技信息資源的關(guān)聯(lián)數(shù)據(jù)服務(wù)等深層次知識(shí)服務(wù)應(yīng)用研究與建設(shè),并面向不同專業(yè)領(lǐng)域進(jìn)行應(yīng)用示范。基于STKOS的知識(shí)服務(wù)應(yīng)用技術(shù)框架如圖7所示。
圖7 基于STKOS的知識(shí)服務(wù)應(yīng)用技術(shù)框架
知識(shí)組織體系是大數(shù)據(jù)智能環(huán)境下開(kāi)發(fā)利用科技信息不可或缺的基礎(chǔ)設(shè)施,項(xiàng)目面向國(guó)家創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略對(duì)外文科技文獻(xiàn)信息的迫切需求,圍繞高效組織和有效利用海量外文科技文獻(xiàn)信息的科學(xué)問(wèn)題與現(xiàn)實(shí)挑戰(zhàn),以知識(shí)組織體系建設(shè)與應(yīng)用示范為主線開(kāi)展了系統(tǒng)深入的科學(xué)研究、技術(shù)攻關(guān)與應(yīng)用示范,形成了一系列的成果,并進(jìn)行了應(yīng)用示范和推廣,取得了顯著的成果。研究成果在工業(yè)和信息化部、國(guó)家新聞出版廣電總局、華為、中國(guó)科學(xué)院、北京理工大學(xué)、中國(guó)民生銀行等機(jī)構(gòu)得到轉(zhuǎn)化。面向北京市多家高新技術(shù)企業(yè)、國(guó)家級(jí)科研院校、信息服務(wù)機(jī)構(gòu)及重點(diǎn)醫(yī)院等開(kāi)展了應(yīng)用推廣,顯著改善了應(yīng)用單位獲取科技信息與知識(shí)服務(wù)的相關(guān)平臺(tái)的功能。
目前,國(guó)際上著名的詞表有美國(guó)醫(yī)學(xué)主題詞表(MeSH)[3]、美國(guó)農(nóng)業(yè)圖書(shū)館敘詞表(NALT)[4]和聯(lián)合國(guó)糧食及農(nóng)業(yè)組織多語(yǔ)種農(nóng)業(yè)敘詞表AGROVOC[5]等,大部分詞表都聚焦到一定的專業(yè)領(lǐng)域,收錄的術(shù)語(yǔ)、概念和語(yǔ)義關(guān)系的領(lǐng)域和規(guī)模在幾萬(wàn)或幾十萬(wàn)個(gè)不等,即使是覆蓋各領(lǐng)域的綜合性詞表,如美國(guó)國(guó)會(huì)圖書(shū)館標(biāo)題表(LCSH)[6],詞表規(guī)模也不足9萬(wàn)個(gè)。而在詞表映射方面,AGROVOC與NALT等十多個(gè)詞表初步建立了語(yǔ)義映射,不同詞表間的映射結(jié)果數(shù)據(jù)最多在2萬(wàn)條。項(xiàng)目構(gòu)建的STKOS詞表,在繼承、整合、映射等基礎(chǔ)上,建立的目前覆蓋領(lǐng)域最廣、規(guī)模領(lǐng)先的大型超級(jí)外文科技詞表體系,填補(bǔ)了我國(guó)大型外文知識(shí)組織體系的空白。
(1)在超級(jí)科技詞表建設(shè)方面,首先建立了術(shù)語(yǔ)遴選加工、概念歸并提煉、關(guān)系梳理的知識(shí)組織體系建設(shè)標(biāo)準(zhǔn)規(guī)范,如知識(shí)組織體系素材遴選標(biāo)準(zhǔn)、超級(jí)詞表元數(shù)據(jù)標(biāo)準(zhǔn)、概念遴選規(guī)范、規(guī)范概念名稱和范疇類名漢譯名生成規(guī)則、敘詞表的本體化流程和規(guī)范、知識(shí)內(nèi)容表示標(biāo)準(zhǔn)、數(shù)據(jù)交換模型等;形成了從術(shù)語(yǔ)、概念到超級(jí)科技詞表,再到本體的外文科技文獻(xiàn)處理方法;提出術(shù)語(yǔ)細(xì)粒度映射的方法,解決了知識(shí)體系映射過(guò)程中概念大規(guī)模計(jì)算的難題。
遵循上述系列標(biāo)準(zhǔn)規(guī)范,基于國(guó)際上975部來(lái)源詞表中的1438萬(wàn)個(gè)來(lái)源科技術(shù)語(yǔ),以及千萬(wàn)級(jí)外文科技文獻(xiàn)作者關(guān)鍵詞和用戶檢索關(guān)鍵詞,采用詞形還原、詞義傳導(dǎo)、顆粒度控制相結(jié)合的概念歸并原則,對(duì)來(lái)源術(shù)語(yǔ)、科技概念和概念的同義表達(dá)、優(yōu)選詞、范疇類別、釋義、中文譯名等進(jìn)行遴選、多重審校和計(jì)算機(jī)輔助質(zhì)量控制,建成涵蓋理、工、農(nóng)、醫(yī)四大領(lǐng)域,擁有609萬(wàn)個(gè)基礎(chǔ)術(shù)語(yǔ)和61萬(wàn)個(gè)概念的外文超級(jí)科技詞表1部,其中包含理學(xué)領(lǐng)域科技概念24萬(wàn)條、工學(xué)領(lǐng)域20萬(wàn)條、醫(yī)學(xué)領(lǐng)域27萬(wàn)條、農(nóng)學(xué)領(lǐng)域8萬(wàn)條(各領(lǐng)域之間有交叉)。建成的超級(jí)科技詞表,為大規(guī)模的語(yǔ)義知識(shí)計(jì)算、大數(shù)據(jù)智能應(yīng)用提供了基礎(chǔ)語(yǔ)義知識(shí)庫(kù),具有較為廣泛的應(yīng)用前景。
(2)在本體知識(shí)庫(kù)建設(shè)方面,研發(fā)了一套根據(jù)情景設(shè)計(jì)和構(gòu)建網(wǎng)絡(luò)化本體的方法和工具,構(gòu)建輕量型本體,實(shí)現(xiàn)超級(jí)科技詞表及其他知識(shí)組織體系的本體化表示。采用從零創(chuàng)建、非本體資源重用、本體資源重用相結(jié)合的3種本體構(gòu)建場(chǎng)景,構(gòu)建了10個(gè)工具集,包括本體生命周期規(guī)劃、非本體資源轉(zhuǎn)化、本體搜索與獲取、本體實(shí)例擴(kuò)充、本體評(píng)估及推理、本體裁切、本體映射、本體合并、本體豐富、本體可視化,以支持本體的構(gòu)建和應(yīng)用。面向“十二五”國(guó)家科技重大專項(xiàng)的需求,分別以植物多樣性、可再生與可替代能源技術(shù)、水稻、呼吸系統(tǒng)腫瘤為研究對(duì)象,建成4個(gè)面向領(lǐng)域應(yīng)用的本體網(wǎng)絡(luò)和1個(gè)科研本體知識(shí)庫(kù),包含理、工、農(nóng)、醫(yī)四大領(lǐng)域的科研人員、科研活動(dòng)、科研機(jī)構(gòu)、科研項(xiàng)目、科研成果等65萬(wàn)個(gè)實(shí)例。
(3)在詞表映射研究與實(shí)踐方面,研究了漢英詞表概念映射方法,制定了映射規(guī)則,開(kāi)發(fā)了面向多單位協(xié)同工作的詞表映射加工平臺(tái),將《漢語(yǔ)主題詞表》(工程技術(shù)版)的約20萬(wàn)個(gè)專業(yè)概念與英文超級(jí)科技詞表的工程技術(shù)類規(guī)范概念,按照國(guó)際通用的標(biāo)準(zhǔn)規(guī)范進(jìn)行了映射,探索了中英文詞表映射技術(shù)路線和研究方法,并基于映射成果對(duì)《漢語(yǔ)主題詞表》進(jìn)行了完善與擴(kuò)展。
知識(shí)組織體系協(xié)同構(gòu)建與管理工作平臺(tái)是在網(wǎng)絡(luò)環(huán)境下對(duì)多領(lǐng)域、多類型知識(shí)組織體系協(xié)同構(gòu)建與集成管理的一種新的探索,實(shí)現(xiàn)了對(duì)素材、超級(jí)科技詞表(包括基礎(chǔ)詞庫(kù)、概念和范疇體系3個(gè)層面)和本體的協(xié)同構(gòu)建與統(tǒng)一管理,功能靈活、完善,可為國(guó)內(nèi)外科技信息服務(wù)行業(yè)科技知識(shí)組織系統(tǒng)和相關(guān)工具研制提供共性技術(shù)支撐,在世界范圍內(nèi)處于先進(jìn)水平,具有較好的推廣應(yīng)用前景。
(1)攻克了海量、多源、異構(gòu)知識(shí)組織體系在形式、語(yǔ)義互操作和多領(lǐng)域多機(jī)構(gòu)分布式協(xié)同構(gòu)建中的難題,解決了海量多來(lái)源知識(shí)組織體系統(tǒng)一描述與存儲(chǔ)問(wèn)題。分別以詞表和術(shù)語(yǔ)為中心設(shè)計(jì)統(tǒng)一元數(shù)據(jù)框架、數(shù)據(jù)描述模型和物理存儲(chǔ)格式,研發(fā)可交互式元數(shù)據(jù)適配器組件,實(shí)現(xiàn)異構(gòu)詞表術(shù)語(yǔ)、優(yōu)選術(shù)語(yǔ)、層級(jí)關(guān)系、相關(guān)關(guān)系和釋義元數(shù)據(jù)的同構(gòu)化表示與存儲(chǔ),支撐了理、工、農(nóng)、醫(yī)四大領(lǐng)域975部來(lái)源詞表、1438萬(wàn)科技術(shù)語(yǔ)統(tǒng)一描述與存儲(chǔ)。
(2)研究提出了一套可交互的適用于多部知識(shí)組織體系同時(shí)進(jìn)行概念整合的同義語(yǔ)義互操作方法。針對(duì)因多源異構(gòu)詞表概念粒度不一致導(dǎo)致傳統(tǒng)同義歸并結(jié)果語(yǔ)義粒度不可控的問(wèn)題,建立了同義詞歸并與概念優(yōu)先術(shù)語(yǔ)推薦的方法。其中,以詞表角色為基礎(chǔ),綜合相似度計(jì)算、同義傳導(dǎo)和處理規(guī)則的知識(shí)組織體系術(shù)語(yǔ)同義關(guān)系發(fā)現(xiàn)方法,歸并準(zhǔn)確率高達(dá)93.1%,歸全率達(dá)92.5%;基于詞表等級(jí)、術(shù)語(yǔ)類型、術(shù)語(yǔ)表達(dá)形式等語(yǔ)言特征,提出整合概念優(yōu)選術(shù)語(yǔ)計(jì)算機(jī)自動(dòng)推薦方法,準(zhǔn)確率超過(guò)99.0%。
(3)構(gòu)建了包含形式、邏輯和語(yǔ)義3個(gè)層面的知識(shí)組織體系構(gòu)建質(zhì)量控制體系。其中,形式控制指詞形規(guī)范性、重復(fù)性、一致性、完整性等,邏輯控制指詞表內(nèi)部關(guān)系一致性與不同知識(shí)單元層次之間的一致性,語(yǔ)義控制包括概念粒度、語(yǔ)義分類和歧義性控制。在服務(wù)模式方面,提供形式和邏輯一致性異常檢測(cè)、評(píng)估服務(wù),并通過(guò)質(zhì)檢報(bào)表、實(shí)時(shí)對(duì)話框、異常數(shù)據(jù)過(guò)濾面板等方式與用戶交互,實(shí)現(xiàn)超級(jí)科技詞表內(nèi)容質(zhì)量控制目標(biāo)。
(4)建立了一套適用于多領(lǐng)域、多用戶協(xié)同構(gòu)建知識(shí)組織體系的協(xié)同管理技術(shù)體系。在RBAC(Rolebased Access Control)模型基礎(chǔ)上改進(jìn)實(shí)現(xiàn)了規(guī)范概念協(xié)同工作平臺(tái)中權(quán)限的靈活配置以及任務(wù)的自動(dòng)分發(fā)流轉(zhuǎn),建立了一套靈活的權(quán)限和任務(wù)管理機(jī)制,使用戶在其權(quán)限及任務(wù)范圍內(nèi)對(duì)來(lái)源詞表、科技術(shù)語(yǔ)、概念及其關(guān)系和屬性等不同知識(shí)單元進(jìn)行定向編輯和審核操作。建立了資源沖突控制機(jī)制,有效避免多人協(xié)同工作時(shí)的資源沖突問(wèn)題,尤其是多人同時(shí)對(duì)同一數(shù)據(jù)發(fā)出編輯(如合并和拆分某個(gè)概念)請(qǐng)求時(shí)可能產(chǎn)生的沖突。
與Term Tree[7]、MultiTes Pro[8]、WebChoir[9]、Poolparty[10]、Protégé[11]等現(xiàn)有主流知識(shí)組織體系編制工具定位于單個(gè)詞表或本體編制相比,本成果定位于為詞表語(yǔ)義互操作,支撐多來(lái)源異構(gòu)詞表在語(yǔ)義內(nèi)容層面的概念整合,進(jìn)而更好地支撐架構(gòu)在其之上的各類應(yīng)用系統(tǒng)軟件實(shí)現(xiàn)內(nèi)容互聯(lián)互通。同時(shí),在技術(shù)方面突破了海量數(shù)據(jù)處理、異構(gòu)術(shù)語(yǔ)互操作、網(wǎng)絡(luò)協(xié)同等新型知識(shí)組織體系構(gòu)建模式支持不足方面的限制。
自主研發(fā)的科技知識(shí)組織體系開(kāi)放共享服務(wù)平臺(tái),面向全國(guó)科技信息服務(wù)機(jī)構(gòu)提供知識(shí)組織體系數(shù)據(jù)服務(wù),支持用戶根據(jù)自身應(yīng)用需要,進(jìn)行定制、下載和嵌入科技知識(shí)組織體系,大力提升了我國(guó)科技信息服務(wù)機(jī)構(gòu)的知識(shí)組織、內(nèi)容揭示、知識(shí)發(fā)現(xiàn)和知識(shí)服務(wù)等能力,對(duì)促進(jìn)全國(guó)范圍內(nèi)的科技知識(shí)組織體系建設(shè)、服務(wù)模式與方法創(chuàng)新發(fā)揮了重要作用。
(1)構(gòu)建了基于STKOS的知識(shí)查詢和推理引擎,創(chuàng)新性集成應(yīng)用大規(guī)模詞表語(yǔ)義表示、語(yǔ)義轉(zhuǎn)換、語(yǔ)義存儲(chǔ)、多維可視化呈現(xiàn)等關(guān)鍵技術(shù),將知識(shí)組織體系轉(zhuǎn)化開(kāi)放的動(dòng)態(tài)數(shù)據(jù)服務(wù),并提供標(biāo)準(zhǔn)化的檢索查詢和語(yǔ)義推理接口,支持第三方系統(tǒng)對(duì)STKOS的深度開(kāi)發(fā)和集成利用。
(2)實(shí)現(xiàn)了概念與術(shù)語(yǔ)檢索、概念與術(shù)語(yǔ)瀏覽、內(nèi)容的多版本揭示、集成嵌入第三方知識(shí)組織體系,以及機(jī)構(gòu)用戶、個(gè)人用戶的定制等服務(wù)功能。提供第三方知識(shí)組織體系的上載、嵌入和集成功能,支持?jǐn)?shù)據(jù)導(dǎo)入、發(fā)布、存檔多項(xiàng)管理功能,支持用戶權(quán)限管理,提供了STKOS瀏覽、審核、對(duì)比顯示等工具,方便用戶管理知識(shí)組織體系。
(3)構(gòu)建了基于OSGI的插件型STKOS相關(guān)工具集成服務(wù)系統(tǒng),創(chuàng)新性提出將一些重要知識(shí)組織工具封裝為可控、可管理的插件,并集成到系統(tǒng)之中,形成知識(shí)組織工具插件庫(kù),用戶可以根據(jù)需要組配工作流,完成某項(xiàng)知識(shí)組織體系建設(shè)的需要,提升了本成果的共享度。
(1)開(kāi)發(fā)了國(guó)內(nèi)首個(gè)從語(yǔ)法、語(yǔ)義到領(lǐng)域知識(shí)的多層次標(biāo)注平臺(tái)。通過(guò)結(jié)構(gòu)化和非結(jié)構(gòu)化計(jì)算,為概念體系建設(shè)和領(lǐng)域知識(shí)庫(kù)建設(shè)提供自動(dòng)化方法和工具支持。設(shè)計(jì)并實(shí)現(xiàn)了國(guó)內(nèi)首個(gè)科技領(lǐng)域大規(guī)模語(yǔ)義計(jì)算的組件架構(gòu)和體系結(jié)構(gòu)框架,為同時(shí)處理大規(guī)模非結(jié)構(gòu)化資源和結(jié)構(gòu)化語(yǔ)義資源提供一個(gè)通用的平臺(tái),集成滿足接口標(biāo)準(zhǔn)的詞匯、概念層面的結(jié)構(gòu)化計(jì)算、句子、篇章層面的語(yǔ)義角色標(biāo)注、語(yǔ)義深層次標(biāo)注等組件,形成較為完整的面向大規(guī)??萍嘉墨I(xiàn)真實(shí)文本的語(yǔ)義計(jì)算工具包。
(2)提出了專業(yè)領(lǐng)域語(yǔ)義詞典和詞義標(biāo)注語(yǔ)料庫(kù)的互動(dòng)構(gòu)建方法。在基于STKOS和語(yǔ)義詞典對(duì)語(yǔ)料庫(kù)進(jìn)行詞義標(biāo)注的基礎(chǔ)上,依據(jù)詞語(yǔ)在語(yǔ)料庫(kù)中的命中結(jié)果進(jìn)一步修改、擴(kuò)充和調(diào)整語(yǔ)義詞典的相關(guān)信息,實(shí)現(xiàn)了語(yǔ)義詞典和詞義標(biāo)注語(yǔ)料庫(kù)構(gòu)建的迭代完善,最終達(dá)到語(yǔ)義詞典和詞義標(biāo)注語(yǔ)料庫(kù)的同步優(yōu)化。
(3)通過(guò)知識(shí)與數(shù)據(jù)驅(qū)動(dòng)結(jié)合的語(yǔ)義計(jì)算方法,綜合應(yīng)用詞、句、篇章的語(yǔ)義標(biāo)注語(yǔ)料庫(kù)及統(tǒng)計(jì)學(xué)習(xí)模型,建立了快速構(gòu)建領(lǐng)域知識(shí)圖譜的技術(shù)方法體系。該項(xiàng)成果在山西醫(yī)學(xué)期刊社、山東中醫(yī)藥大學(xué)等機(jī)構(gòu)的領(lǐng)域知識(shí)庫(kù)構(gòu)建中均得到應(yīng)用推廣。
(4)研發(fā)了基于語(yǔ)義標(biāo)注和計(jì)算分析技術(shù)的問(wèn)答系統(tǒng),集成并優(yōu)化了知識(shí)抽取、結(jié)構(gòu)識(shí)別、文本檢索、問(wèn)答匹配、語(yǔ)義去噪等關(guān)鍵技術(shù)。在知識(shí)抽取方面提出“基于先驗(yàn)知識(shí)的關(guān)鍵詞抽取方法”,取得了優(yōu)于同類方法的F1@5、F1@10值;還提出“Rel-TNG”和“Type-TNG”方法,比國(guó)內(nèi)外同類型方法具有更高的穩(wěn)定性;在問(wèn)答匹配中提出“一種基于注意力機(jī)制的BiGRU問(wèn)答匹配算法”,性能提升0.18%;在結(jié)構(gòu)識(shí)別中提出的“基于章節(jié)標(biāo)題的識(shí)別”方法,在F值上相較于通用方法和Parscit方法,提升幅度分別為3.22%和3.65%。
開(kāi)發(fā)了基于科技知識(shí)組織體系和海量文獻(xiàn)的信息自動(dòng)處理系統(tǒng),提供包括語(yǔ)義檢索和個(gè)性化知識(shí)服務(wù)功能的智能檢索系統(tǒng),具備了面向全國(guó)用戶提供技術(shù)和系統(tǒng)支撐服務(wù)的能力。
(1)以STKOS為基礎(chǔ),融合詞頻統(tǒng)計(jì)、句法分析、語(yǔ)法分析等多種技術(shù)方法,實(shí)現(xiàn)了大規(guī)??鐚W(xué)科的海量外文科技文獻(xiàn)的自動(dòng)標(biāo)引,有效地促進(jìn)了NSTL文獻(xiàn)信息資源的揭示和利用,是國(guó)內(nèi)外首次開(kāi)展大規(guī)模、跨學(xué)科的科技文獻(xiàn)信息工程化落地應(yīng)用。實(shí)現(xiàn)了文獻(xiàn)揭示內(nèi)容從單純的文本向細(xì)粒度知識(shí)單元的轉(zhuǎn)變,綜合應(yīng)用STKOS、領(lǐng)域本體和科研本體,研究突破了從海量科技文獻(xiàn)中自動(dòng)識(shí)別與抽取多類型知識(shí)對(duì)象和知識(shí)關(guān)系計(jì)算的關(guān)鍵技術(shù),有效解決傳統(tǒng)知識(shí)揭示的單一性問(wèn)題,有效提高知識(shí)發(fā)現(xiàn)的準(zhǔn)確率。
(2)突破了大規(guī)模知識(shí)對(duì)象組織和管理的技術(shù)方法,實(shí)現(xiàn)了海量知識(shí)對(duì)象的有機(jī)組織和存儲(chǔ),使其形成可供語(yǔ)義挖掘的知識(shí)網(wǎng)絡(luò)。該網(wǎng)絡(luò)既是知識(shí)服務(wù)和智能檢索的支撐平臺(tái),又可以通過(guò)智能接口提供基于任意知識(shí)節(jié)點(diǎn)的檢索和關(guān)聯(lián)發(fā)布。以知識(shí)數(shù)據(jù)為樞紐實(shí)現(xiàn)了知識(shí)組織系統(tǒng)與科技文獻(xiàn)實(shí)例的集成與相互連接映射,將語(yǔ)義知識(shí)模型與實(shí)例數(shù)據(jù)相分離,構(gòu)建了相互分離、支持整合、動(dòng)態(tài)協(xié)同的管理維護(hù)機(jī)制。
(3)基于科技知識(shí)組織體系構(gòu)建了新型的智能檢索平臺(tái),實(shí)現(xiàn)了STKOS的工程化應(yīng)用。該智能檢索機(jī)制有別于傳統(tǒng)純文本檢索,通過(guò)集成內(nèi)容對(duì)象挖掘、共現(xiàn)分析、相關(guān)關(guān)系計(jì)算、影響力指標(biāo)計(jì)算等技術(shù)方法,進(jìn)行了更深入的語(yǔ)義揭示與發(fā)掘,為用戶提供了語(yǔ)義相關(guān)性更強(qiáng)的檢索結(jié)果,解決了單純依靠關(guān)鍵詞匹配造成的語(yǔ)義歧義、語(yǔ)義不完整等缺陷;依托知識(shí)組織體系,突破了以往全文檢索簡(jiǎn)單排序的局限,對(duì)檢索結(jié)果進(jìn)行多維度的分析展示,讓用戶能夠更加全面、高效地鑒別檢索結(jié)果中的知識(shí)內(nèi)容;通過(guò)交互式啟發(fā),讓系統(tǒng)能夠更準(zhǔn)確地了解用戶的檢索意圖,提供更符合用戶真實(shí)需求的檢索結(jié)果。
(1)在科技信息監(jiān)測(cè)方面,利用STKOS優(yōu)化改進(jìn)了監(jiān)測(cè)模型,以可視化形式向用戶展示檢索結(jié)果,包括熱點(diǎn)主題、突發(fā)主題、概念隨時(shí)間的變化趨勢(shì)等,提供藥物、疾病、基因等不同類型概念的熱點(diǎn)、突發(fā)指數(shù),有利于提高研究人員判斷、識(shí)別、追蹤領(lǐng)域內(nèi)研究熱點(diǎn)和突發(fā)內(nèi)容的能力,降低獲取科研知識(shí)的成本,提高科研工作的效率。
(2)知識(shí)結(jié)構(gòu)和知識(shí)演化分析方面,完成了知識(shí)結(jié)構(gòu)與知識(shí)演化可視化功能模塊的研發(fā)和分析系統(tǒng)研發(fā),以水稻領(lǐng)域?yàn)槔_(kāi)展了知識(shí)結(jié)構(gòu)與知識(shí)演化分析應(yīng)用示范。
(3)基于文獻(xiàn)知識(shí)網(wǎng)絡(luò)的領(lǐng)域?qū)W術(shù)關(guān)系方面,建立了多種學(xué)術(shù)關(guān)系網(wǎng)絡(luò),深度揭示了領(lǐng)域研究進(jìn)展、活躍研究方向、主題變化趨勢(shì)、科研主體的合作等。開(kāi)展了科研主體分析、國(guó)際合作與科研交流的結(jié)構(gòu)分析、社團(tuán)識(shí)別及結(jié)構(gòu)分析,以及科學(xué)影響傳播關(guān)系揭示分析、社團(tuán)演化的探測(cè)和文獻(xiàn)追蹤、重要科研主體學(xué)術(shù)關(guān)系網(wǎng)絡(luò)的演化追蹤分析研究。
(4)領(lǐng)域科研信息環(huán)境建設(shè)方面,基于構(gòu)建的科研本體主體類與屬性關(guān)系,開(kāi)發(fā)了領(lǐng)域科研信息環(huán)境支撐技術(shù)平臺(tái),實(shí)現(xiàn)了面向特定領(lǐng)域快速搭建科研信息環(huán)境,建立了水稻領(lǐng)域科研信息環(huán)境應(yīng)用示范系統(tǒng)。
(5)科技信息資源關(guān)聯(lián)數(shù)據(jù)服務(wù)應(yīng)用示范方面,完成了水稻領(lǐng)域的期刊論文、專利文獻(xiàn)與水稻專家、水稻產(chǎn)品信息等的知識(shí)關(guān)聯(lián)網(wǎng)絡(luò)構(gòu)建、存儲(chǔ)、組織、集成和發(fā)布。完成了關(guān)聯(lián)數(shù)據(jù)構(gòu)建及服務(wù)的相關(guān)工具開(kāi)發(fā)及服務(wù)平臺(tái)的構(gòu)建,實(shí)現(xiàn)了科技資源關(guān)聯(lián)數(shù)據(jù)檢索與獲取、基于關(guān)聯(lián)數(shù)據(jù)的資源擴(kuò)展服務(wù),支持語(yǔ)義查詢、動(dòng)態(tài)分面、多維瀏覽等服務(wù)。
綜上所述,與國(guó)內(nèi)外同類知識(shí)服務(wù)技術(shù)方法相比,項(xiàng)目創(chuàng)新性地融合應(yīng)用了科技詞表和領(lǐng)域本體等語(yǔ)義知識(shí),優(yōu)化了領(lǐng)域科技信息監(jiān)測(cè)、領(lǐng)域知識(shí)結(jié)構(gòu)和知識(shí)演化分析、領(lǐng)域科研信息環(huán)境等知識(shí)服務(wù)關(guān)鍵技術(shù)方法,利用概念層級(jí)關(guān)系、屬性關(guān)系將離散的、碎片化事實(shí)信息實(shí)現(xiàn)知識(shí)化組織、關(guān)聯(lián)和匯聚,為領(lǐng)域?qū)W術(shù)關(guān)系網(wǎng)絡(luò)和知識(shí)演化的揭示分析探索了新路徑,提高了各類知識(shí)挖掘算法模型分析結(jié)果的科學(xué)性和客觀性,面向腫瘤、水稻、植物多樣性等多個(gè)學(xué)科領(lǐng)域進(jìn)行了應(yīng)用示范,有效提高了我國(guó)科技信息機(jī)構(gòu)在領(lǐng)域知識(shí)發(fā)現(xiàn)、戰(zhàn)略情報(bào)研究和決策支持等方面的知識(shí)服務(wù)能力和智能化水平。
科技文獻(xiàn)信息是提升科技創(chuàng)新能力的支撐和保障,而知識(shí)組織體系是大數(shù)據(jù)智能環(huán)境下開(kāi)發(fā)利用科技信息不可或缺的基礎(chǔ)設(shè)施。項(xiàng)目在研究大規(guī)??萍贾R(shí)組織體系構(gòu)建及協(xié)同管理、開(kāi)放共享與智能知識(shí)服務(wù)平臺(tái)等方面取得了集成性創(chuàng)新成果,這些成果以公益共享的方式提供給國(guó)內(nèi)其他文獻(xiàn)信息機(jī)構(gòu)使用,為科技信息服務(wù)業(yè)提供了堅(jiān)實(shí)的語(yǔ)義知識(shí)庫(kù)支撐,有力提升我國(guó)基于語(yǔ)義層面的信息處理、知識(shí)組織和知識(shí)服務(wù)的能力,提高我國(guó)科技文獻(xiàn)知識(shí)組織內(nèi)容建設(shè)效率,以及各類科技信息資源利用率和內(nèi)容揭示程度,有效降低了我國(guó)科技文獻(xiàn)知識(shí)組織體系內(nèi)容的構(gòu)建、管理和維護(hù)成本。項(xiàng)目成果具有借鑒示范作用和較廣泛的推廣應(yīng)用前景。
為適應(yīng)國(guó)家科技創(chuàng)新主戰(zhàn)場(chǎng)和重大戰(zhàn)略的迫切需求,鞏固“十二五”科技支撐計(jì)劃項(xiàng)目研究成果,同時(shí)圍繞NSTL下一代國(guó)家科技創(chuàng)新開(kāi)放知識(shí)服務(wù)建設(shè)目標(biāo),NSTL將進(jìn)一步開(kāi)展STKOS超級(jí)科技詞表內(nèi)容建設(shè)與共享技術(shù)研究,研究基于文本挖掘與知識(shí)計(jì)算的知識(shí)組織體系自動(dòng)構(gòu)建、多源異構(gòu)科技文獻(xiàn)大數(shù)據(jù)知識(shí)表示與深度融合、基于STKOS的知識(shí)發(fā)現(xiàn)與深度挖掘分析等關(guān)鍵技術(shù),引入人工智能技術(shù)手段,提升大數(shù)據(jù)驅(qū)動(dòng)的知識(shí)化服務(wù)。
(1)在現(xiàn)有英文超級(jí)科技詞表的基礎(chǔ)上,完善STKOS超級(jí)科技詞表內(nèi)容體系。以概念為單位,進(jìn)一步審定同義關(guān)系、中英文詞形規(guī)范、概念學(xué)科歸類,同時(shí)增加《中國(guó)圖書(shū)館分類法》和《杜威十進(jìn)分類法》的類目類號(hào)。開(kāi)展入口詞(同義詞)的翻譯,以及基于文獻(xiàn)關(guān)鍵詞和用戶檢索詞進(jìn)行新詞發(fā)現(xiàn)與擴(kuò)充。
(2)面向海量結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化文本數(shù)據(jù),探索機(jī)器學(xué)習(xí)、認(rèn)知計(jì)算、文本挖掘等大數(shù)據(jù)及人工智能技術(shù)在新詞發(fā)現(xiàn)、語(yǔ)義關(guān)系發(fā)現(xiàn)與規(guī)范等詞表自動(dòng)構(gòu)建中的應(yīng)用。建立用戶檢索日志采集和分析研究機(jī)制,為STKOS建設(shè)提供一線用戶需求及素材。
(3)深化基于STKOS的文本主題概念標(biāo)引、分類研究,開(kāi)展特定領(lǐng)域的語(yǔ)義標(biāo)注和索引示范系統(tǒng)建設(shè),開(kāi)展文本所涉領(lǐng)域?qū)嶓w、科研實(shí)體、概念關(guān)系、科研關(guān)系、圖表內(nèi)容等語(yǔ)義內(nèi)容特征揭示技術(shù)研究。
(4)基于STKOS詞表、科研本體等開(kāi)展自然語(yǔ)言理解、中英雙語(yǔ)檢索、科研實(shí)體檢索、語(yǔ)義關(guān)聯(lián)搜索、語(yǔ)義知識(shí)關(guān)聯(lián)、檢索結(jié)果智能過(guò)濾、排序優(yōu)化等語(yǔ)義智能搜索關(guān)鍵技術(shù)研究,進(jìn)一步深化STKOS應(yīng)用。
(5)研究分析大數(shù)據(jù)智能環(huán)境下知識(shí)服務(wù)的需求,開(kāi)展下一代開(kāi)放知識(shí)服務(wù)平臺(tái)體系架構(gòu)和技術(shù)路線研究與設(shè)計(jì),集成并優(yōu)化深度學(xué)習(xí)、認(rèn)知計(jì)算等人工智能技術(shù),基于STKOS、知識(shí)圖譜等高質(zhì)量知識(shí)組織體系,構(gòu)建面向公眾的開(kāi)放知識(shí)服務(wù)平臺(tái)。