[摘 要] 指出領(lǐng)域知識庫是對知識單元進行管理、存儲和關(guān)聯(lián)利用的有效工具,是專業(yè)出版機構(gòu)開展語義出版服務(wù)的基礎(chǔ)性工程。提出語義出版領(lǐng)域知識庫的知識單元可劃分為出版載體與文獻類型模塊、母體要素模塊、科學(xué)陳述模塊、知識形態(tài)模塊和外部關(guān)聯(lián)模塊,通過書目關(guān)聯(lián)關(guān)系、概念關(guān)聯(lián)關(guān)系、引證關(guān)聯(lián)關(guān)系、論證關(guān)聯(lián)關(guān)系、科研本體關(guān)聯(lián)關(guān)系構(gòu)建適用于出版業(yè)的資源語義網(wǎng)絡(luò)。闡釋面向集成揭示和智能推理兩種語義出版形態(tài),并提出采用“眾包”模式建設(shè)領(lǐng)域知識庫和推動開放知識組織體系共享利用的建議,以期對我國語義出版領(lǐng)域知識庫構(gòu)建及其應(yīng)用提供借鑒。
[關(guān)鍵詞] 語義出版 領(lǐng)域知識庫 知識單元 服務(wù)形態(tài) 數(shù)字出版
[中圖分類號] G237[文獻標(biāo)識碼] A[文章編號] 1009-5853 (2020) 05-0091-09
[Abstract] The domain knowledge base is an effective tool for managing, storing and associating knowledge units, and it is the groundwork for professional publishing institutions to develop semantic publishing services. The knowledge units of the domain knowledge bases in the field of semantic publishing can be divided into publication media and document type module, parent element module, scientific statement module, knowledge type module and external association module. Meanwhile, these knowledge units can be built into content resource semantic networks suitable for the publishing industry through bibliographic associations, conceptual associations, citation associations, argument associations and research ontology associations. Based on the above analysis, it first explained two forms of semantic publishing oriented to integral showcase and intelligent reasoning respectively; then put forward the suggestions of using the‘crowdsourcing model to construct domain knowledge bases and sharing open knowledge organization systems, in order to provide references for the development of semantic publishing and its application in China.
[Key words] Semantic publishing Domain knowledge base Knowledge unit Service form Digital publishing
1 引 言
由于海量的異構(gòu)數(shù)字資源仍呈現(xiàn)指數(shù)式增長,人們傾向于讓計算代理執(zhí)行信息資源發(fā)現(xiàn)和集成任務(wù)。然而,當(dāng)前數(shù)字出版服務(wù)更多依賴于傳統(tǒng)文獻資源的元數(shù)據(jù)檢索,而其中的關(guān)鍵詞匹配機制較少考慮關(guān)鍵詞的多義性、組合關(guān)鍵詞的復(fù)雜性和被用于不同語境時的差異性[1],因此,其結(jié)果難以滿足高效率、知識性、體系化的用戶服務(wù)需求。作為數(shù)字出版的高級形態(tài),語義出版旨在將可發(fā)現(xiàn)、可引用并可重用的信息資源有序關(guān)聯(lián)和發(fā)布,這對提升出版業(yè)知識服務(wù)能力具有重要意義。
目前,在語義出版形態(tài)的設(shè)計與應(yīng)用研究方面,主要集中在:(1)學(xué)術(shù)期刊的內(nèi)容增強研究,如基于本體和關(guān)聯(lián)數(shù)據(jù)等方法的學(xué)術(shù)期刊數(shù)字資源聚合模型[2]、利用XML實現(xiàn)學(xué)術(shù)期刊數(shù)據(jù)交換與集成[3];(2)不同粒度知識單元的發(fā)布模型研究,如納米出版物[4]、液體出版物、微型出版物等;(3)語義出版服務(wù)功能分析,如語義索引、按需檢索[5]、本體導(dǎo)航等基本功能,主題知識聚類與演化、知識推理分析等知識管理功能[6],以及科研實體影響力可視化分析、科技熱點監(jiān)測、學(xué)科預(yù)測與規(guī)劃等定制功能[7][8];(4)面向語義出版的結(jié)構(gòu)化工具研究,如基于科研論文引文關(guān)系的智能信息檢索工具CIRRA,可提供引用文本時間軸、追溯引文原始表達、集中展示核心關(guān)鍵詞所在文本等功能[9],或提供從素材收集、數(shù)字對象制作、自動標(biāo)引參考文獻、按期刊版式呈現(xiàn)到Word文檔格式轉(zhuǎn)換等一系列功能的論文寫作工具DPaper [10],以及面向作者服務(wù)的學(xué)術(shù)論文語義注釋自動增強工具CISE [11]等。
其中,領(lǐng)域知識庫是對領(lǐng)域知識單元進行管理、存儲和關(guān)聯(lián)利用的有效工具,是發(fā)揮語義出版價值的主要發(fā)力點,是專業(yè)出版機構(gòu)開展語義出版服務(wù)的基礎(chǔ)性工程。因此,本文通過描述領(lǐng)域知識庫的構(gòu)建元素及其關(guān)聯(lián)關(guān)系,構(gòu)建適用于出版業(yè)的資源語義網(wǎng)絡(luò),并提出兩種基于領(lǐng)域知識庫的語義出版形態(tài),以期為我國語義出版領(lǐng)域知識庫構(gòu)建及應(yīng)用提供借鑒。
2 領(lǐng)域知識庫構(gòu)建:適用于語義出版的資源網(wǎng)絡(luò)框架
在傳統(tǒng)出版機構(gòu)特別是專業(yè)出版機構(gòu)數(shù)字化轉(zhuǎn)型升級過程中,領(lǐng)域知識庫構(gòu)建是發(fā)揮已有內(nèi)容資源優(yōu)勢、實現(xiàn)語義內(nèi)容開發(fā)、開拓知識服務(wù)范圍的可行路徑。通過對原始內(nèi)容資源進行知識單元的精細化抽取、標(biāo)識和分類,并以機器可理解、可處理的方式來表示,進而根據(jù)語義關(guān)系構(gòu)建多維知識網(wǎng)絡(luò),可以探索語義出版服務(wù)新形態(tài)。因此,下文主要從內(nèi)容組織視角入手,識別知識單元并揭示其間的關(guān)聯(lián)關(guān)系,構(gòu)建適用于語義出版形態(tài)的資源網(wǎng)絡(luò)框架。
2.1 基于知識單元識別的資源模塊
知識單元是指客觀知識系統(tǒng)中有實際意義的基本單位,如一個明確的語詞概念、具體觀點、科學(xué)定理、數(shù)學(xué)公式等;數(shù)字內(nèi)容中每一個層次的信息都可以作為具體的知識單元被解析、被描述、被重組[12][13]。知識單元的識別是開展語義出版內(nèi)容服務(wù)的基礎(chǔ),有助于后端借助知識單元的語義邏輯關(guān)系構(gòu)建知識網(wǎng)絡(luò)。領(lǐng)域知識庫的知識單元不僅蘊含于圖書、期刊、報紙、音頻、視頻等傳統(tǒng)文獻和載體中,也存在于開放出版、數(shù)據(jù)倉儲[14][15]、社交網(wǎng)絡(luò)等新型科學(xué)交流與出版平臺。此外,領(lǐng)域知識庫往往圍繞某一知識主題形成對知識單元的有效識別和有序集成,以快速構(gòu)建面向某一主題、結(jié)構(gòu)完整的知識體系。例如,圍繞某一農(nóng)作物對象,關(guān)聯(lián)該農(nóng)作物的分布地圖、相關(guān)統(tǒng)計數(shù)據(jù)、科學(xué)研究產(chǎn)出、維基百科事實、世界銀行數(shù)據(jù)、瀕危生物數(shù)據(jù)等;采用Mesh語義本體集中某一藥物的臨床試驗數(shù)據(jù)、正式發(fā)布的藥物數(shù)據(jù)、副作用記錄、使用報道等,知識單元的表現(xiàn)形態(tài)則涵蓋數(shù)據(jù)、文檔、網(wǎng)絡(luò)鏈接、圖片、軟件、項目、出版物、研究活動、新聞等[16]。
綜合新型科學(xué)交流環(huán)境下知識單元的產(chǎn)生渠道、外部出版特征和內(nèi)容資源內(nèi)涵,梳理適用于語義出版的關(guān)聯(lián)要素,領(lǐng)域知識庫知識單元可分5個模塊進行識別和集成,如圖1所示:(1)出版載體與文獻類型模塊,如圍繞某一知識主題的期刊論文、學(xué)位論文、科技報告、標(biāo)準(zhǔn)、圖書等,有利于跨出版物載體提供主題服務(wù)。(2)母體要素模塊,如期刊名稱、會議名稱、作者、發(fā)表機構(gòu)、關(guān)鍵詞、基金項目、發(fā)表時間、參考文獻等書目元素,有利于梳理知識主題的研究熱點與發(fā)展趨勢,及時展現(xiàn)某一學(xué)科領(lǐng)域中信息吸收與知識擴散的發(fā)展演變。(3)科學(xué)陳述模塊,是指經(jīng)過自然語言處理,由文獻自動抽取的觀點、理論、原理、指標(biāo)和方法等,有利于根據(jù)規(guī)則對上述要素的權(quán)威性、影響力和前沿性進行評價和篩選,形成基于科學(xué)陳述要素的自動綜述等。(4)知識形態(tài)模塊,即從文獻內(nèi)部提取的軟件、工具、公式、視頻、表格、圖片、數(shù)據(jù)集等具有獨立表現(xiàn)形態(tài)的知識單元。(5)外部關(guān)聯(lián)模塊,是對原有文獻內(nèi)容的語義化、交互式、概念性擴展,如DBpedia、SemSur [17]、漢語主題詞表等知識組織工具,權(quán)威機構(gòu)發(fā)布的財經(jīng)數(shù)據(jù)、地理數(shù)據(jù)、生物數(shù)據(jù)等,或是某一知識主題的專業(yè)軟件、專家釋義、典型案例和新聞等知識對象。這有利于在服務(wù)層結(jié)構(gòu)化展示主題與體系內(nèi)上下位類目、相關(guān)類目的關(guān)系,以及向用戶立體化地展現(xiàn)可交互的三維圖像數(shù)據(jù)。
值得注意的是,知識單元有可分解與不可分解兩類;也有學(xué)者將不可分解的知識單元稱之為“知識元”[18],它在分類和索引實踐中極為有用。上述知識單元中的概念、理論、圖表、數(shù)據(jù)等,也隸屬于知識元的概念范疇。因此,語義出版應(yīng)側(cè)重于知識元釋義和知識元關(guān)系建設(shè),強化對文章、篇、章、節(jié)、段落等獨立、完整的文字內(nèi)容進行的碎片化加工、標(biāo)引標(biāo)注、主題詞創(chuàng)建等技術(shù)處理,完善知識元修改、標(biāo)引、超鏈、備注、標(biāo)簽等流程環(huán)節(jié)的專業(yè)編輯,提升面向多元應(yīng)用場景的圖標(biāo)、公式、表格矢量化處理的專業(yè)能力。
2.2 基于關(guān)聯(lián)揭示的知識單元網(wǎng)絡(luò)
語義出版中的領(lǐng)域知識庫,可大致從書目關(guān)聯(lián)關(guān)系、概念關(guān)聯(lián)關(guān)系、引證關(guān)聯(lián)關(guān)系、論證關(guān)聯(lián)關(guān)系、科研本體關(guān)聯(lián)關(guān)系5個維度加以構(gòu)建。結(jié)果既可包括知識主題本身的結(jié)構(gòu)屬性,也能涵蓋時間序列下的知識主題演進網(wǎng)絡(luò),此外還涉及知識主題與其他相關(guān)資源的關(guān)聯(lián)關(guān)系。
(1)書目關(guān)聯(lián)關(guān)系。書目是以“記錄”為單位,由描述書目實體內(nèi)容與形式特征的各項書目元素及其數(shù)據(jù)組成。書目元素包括題名、責(zé)任者、出版社、出版日期、版本、ISBN、主題/關(guān)鍵詞、格式、標(biāo)識符、權(quán)限、語種等。書目關(guān)聯(lián)關(guān)系可從兩方面加以揭示:一是書目實體與書目實體的關(guān)聯(lián)關(guān)系,如等同、修訂、改編、翻譯、描述、整體與部分、附屬、連續(xù)等;二是書目實體與其書目元素的關(guān)聯(lián)關(guān)系,通過對書目實體的元素值進行識別、提取和對比,以都柏林核心(Dublin Core,DC)元數(shù)據(jù)描述方式可發(fā)現(xiàn)實體間的潛在書目關(guān)聯(lián)關(guān)系。如圖2所示,Resource1(資源1)和Resource3(資源3)可通過DC元數(shù)據(jù)元素creator(創(chuàng)建者)的屬性值構(gòu)建書目關(guān)聯(lián)關(guān)系,Resource1(資源1)和Resource2(資源2)可通過DC元數(shù)據(jù)元素language(語種)的屬性值構(gòu)建書目關(guān)聯(lián)關(guān)系。
(2)概念關(guān)聯(lián)關(guān)系。同一概念可以有多種表達形式,而這些表達形式又可以被劃分為人們公認的、能夠代表概念的優(yōu)先術(shù)語(也可稱為優(yōu)選詞、敘詞)和若干個非優(yōu)先術(shù)語(也可稱為非優(yōu)選詞)。如“馬鈴薯”即為優(yōu)先術(shù)語,與其對應(yīng)的非優(yōu)先術(shù)語包括“土豆”“洋芋”等。概念關(guān)聯(lián)關(guān)系可以把不同詞語表述的完全相同或相近主題的文獻信息聚集在一個信息集合之內(nèi),有利于概念的集成存儲、關(guān)聯(lián)與發(fā)布。具體來看,可包括以下3種關(guān)系:一是基于術(shù)語結(jié)構(gòu)的語義關(guān)系,即基于概念關(guān)系類型實現(xiàn)內(nèi)容資源的語義表達,主要包括等同關(guān)系、等級關(guān)系和相關(guān)關(guān)系。二是基于術(shù)語映射關(guān)聯(lián)的語義關(guān)系,即通過映射揭示基于不同知識組織體系描述的內(nèi)容資源之間的語義關(guān)聯(lián)關(guān)系。如兩個術(shù)語含義完全相同的精確等同,目標(biāo)概念是源概念上位詞的向上等同,含義基本相同或只有部分相同的近義等同,以及與某一概念雖既不具有同義或準(zhǔn)同義關(guān)系,亦不具有向上匹配與向下匹配關(guān)系,但在語義上或使用中與其有密切聯(lián)系的相關(guān)等同。三是基于術(shù)語分類關(guān)聯(lián)的語義關(guān)系,即依據(jù)學(xué)科、主題、詞性等分類描述,從不同語義層次揭示術(shù)語的語義關(guān)聯(lián)關(guān)系。
(3)引證關(guān)聯(lián)關(guān)系。主要指以引文鏈接為基礎(chǔ),通過人工規(guī)范、自動規(guī)范和數(shù)字對象標(biāo)識符(Digital Object Identifier,DOI)關(guān)聯(lián),形成作者、機構(gòu)、基金和引文題名等信息對象的關(guān)系聚合,以識別核心學(xué)術(shù)主體、揭示科學(xué)結(jié)構(gòu)、描繪科學(xué)發(fā)展歷程。具體而言,可劃分為4種語義關(guān)系類型:一是耦合關(guān)系聚合,通過文獻耦合來客觀測度文獻的相關(guān)性;二是引證路徑聚合,通過引證關(guān)系網(wǎng)絡(luò)圖來量化文獻的相似性;三是引證強度聚合,通過引證關(guān)系的強度計算文獻之間的相關(guān)性;四是引證擴展聚合,文獻的引證關(guān)系可擴展至作者、機構(gòu)等科研實體的相互引證,這樣能夠揭示科研實體之間的相關(guān)性。
(4)論證關(guān)聯(lián)關(guān)系。論證的基礎(chǔ),即為論點和論據(jù)。論證關(guān)聯(lián)關(guān)系,是基于邏輯衍推的關(guān)系構(gòu)建過程??筛鶕?jù)邏輯學(xué)的一般原理,在自然語言處理的基礎(chǔ)上提取特定情境下的論點和論據(jù)(claim-evidence-context)[19],形成智能化、自動化語義推理框架,以用于后期在內(nèi)容層面構(gòu)建具有某種邏輯關(guān)系的語義出版服務(wù)產(chǎn)品。例如,根據(jù)科學(xué)文獻自身的論證結(jié)構(gòu)形成自動文摘;根據(jù)科學(xué)文獻描述內(nèi)容的因果關(guān)系形成如“癥狀-疾病”語義推理產(chǎn)品;根據(jù)某一主題和論證本體動態(tài)形成基于該主題的智能綜述。其中,科學(xué)論文的論據(jù)覆蓋范圍較為廣泛,既包括數(shù)據(jù)、圖片、表格、公式、情境,又包括本體、工具、軟件代碼等,以及理論、原理、方法(試驗方法、調(diào)查方法、數(shù)據(jù)分析方法等)或技術(shù)。由此,本研究的論據(jù)可以被定義為:凡是對論點和結(jié)論具有支撐作用的客觀事物均可作為論據(jù)加以使用;事物單位涵蓋篇章、段落、詞句及其蘊含的知識單元。在關(guān)聯(lián)關(guān)系表現(xiàn)方面,需依據(jù)論點、論據(jù)和論證構(gòu)建語義邏輯。其中,科學(xué)論文的觀點或結(jié)論可以直接被視為論點。支撐論點的論據(jù)應(yīng)是根據(jù)邏輯關(guān)系(如“時間、目的、原因”等關(guān)系明顯的主謂賓詞對關(guān)系),從出版內(nèi)容資源直接抽取的知識單元或知識片段,主要包括理論論據(jù)(如定理、公式)和事實論據(jù)(如具體事實、概括事實和數(shù)字/數(shù)據(jù)集),具體對象可參照上述論據(jù)的覆蓋范圍。同時,在支撐論點、組織論據(jù)的論證過程中,可以優(yōu)先選擇以歸納法和比較法的形式系統(tǒng)羅列論據(jù)的論證結(jié)構(gòu)。歸納法以案例集、自動文摘等例證或概括的形式有序化地羅列知識單元;比較法則對知識單元的差異性進行對比和類比。例如,對某一觀點的引用就可采用對比法,從正面引用和負面引用兩個方面全面揭示對某一觀點的統(tǒng)一或多方對立認知。
(5)科研本體關(guān)聯(lián)關(guān)系。通過對科研項目、科研人員、科研機構(gòu)、科研活動和科研成果5大科研對象進行本體化語義關(guān)系描述,全面、系統(tǒng)地反映科研本體的屬性與關(guān)系。首先,對規(guī)?;目蒲袑ο髷?shù)據(jù)集進行采集、匹配、歸一,將同一科研對象的相關(guān)屬性信息和所有名稱形式進行關(guān)聯(lián),以形成確保唯一性和穩(wěn)定性的規(guī)范文檔,從而實現(xiàn)科研對象的有序集成。其次,根據(jù)科研本體層級關(guān)系、組織結(jié)構(gòu)和屬性特征,對科研對象進行語義推理和可視化展示。如借助等級層次分明的科研本體分析和計算科研對象之間關(guān)聯(lián)關(guān)系的強弱程度,以便為后期語義出版服務(wù)提供強關(guān)聯(lián)的科研實體推薦功能。以科研機構(gòu)關(guān)聯(lián)關(guān)系為例,可分為基于科研機構(gòu)內(nèi)部關(guān)聯(lián)的語義關(guān)系和基于機構(gòu)外部關(guān)聯(lián)的語義關(guān)系。前者指某一機構(gòu)實體自身產(chǎn)生的關(guān)聯(lián)關(guān)系如用代關(guān)聯(lián)、參照關(guān)聯(lián)、屬分關(guān)聯(lián)等,包括單一機構(gòu)實體各個名稱之間的關(guān)聯(lián)關(guān)系和機構(gòu)整體與其內(nèi)在各部門的上下級關(guān)系。后者指多個機構(gòu)實體通過某種共性或者活動而產(chǎn)生的關(guān)聯(lián)關(guān)系,如地域關(guān)聯(lián)、行業(yè)關(guān)聯(lián)、學(xué)科關(guān)聯(lián)、合作關(guān)聯(lián)、從屬關(guān)聯(lián)等。為揭示科研機構(gòu)關(guān)聯(lián)關(guān)系,需要描述科研機構(gòu)的屬性特征。這主要包括機構(gòu)唯一標(biāo)識符、規(guī)范名稱、交替名稱、所屬行業(yè)、學(xué)科主題等。
3 基于領(lǐng)域知識庫的語義出版形態(tài)
依據(jù)知識單元識別及其關(guān)聯(lián)關(guān)系構(gòu)建的差異,語義出版形態(tài)既可以是一種基于知識主題本體的出版資源知識體系集成揭示模型,又可以是一種面向評價和推理的知識主題出版資源自動化發(fā)布平臺。它的功能特征可包括發(fā)掘并豐富文獻內(nèi)部的知識內(nèi)涵和表現(xiàn)形式,提供可供網(wǎng)絡(luò)自動發(fā)現(xiàn)的外部顯示數(shù)據(jù)、可自動鏈接與之相關(guān)的篇級文獻、數(shù)據(jù)等材料,支持訪問、可操作和結(jié)果再現(xiàn),以及面向科學(xué)計量的知識圖譜構(gòu)建和科研實體評價等。
3.1 面向集成揭示的語義出版形態(tài)
面向集成揭示的語義出版形態(tài),以領(lǐng)域知識主題挖掘為核心,由文獻結(jié)構(gòu)、篇章、段落、詞句、圖表、引文、公式等構(gòu)成復(fù)合數(shù)字對象,突破文獻類型的界限,實現(xiàn)知識聚合、知識演化、科研關(guān)系展示和學(xué)術(shù)評價等功能。它不僅能夠滿足語義檢索需求,還能高效地為用戶提供觀點提煉和語義網(wǎng)絡(luò)節(jié)點評價等服務(wù)能力。
當(dāng)前,出版機構(gòu)可圍繞自身優(yōu)質(zhì)出版資源和優(yōu)勢出版資源,從建設(shè)經(jīng)典閱讀、精品閱讀語義出版服務(wù)投送平臺入手,圍繞某一主題或知識點實現(xiàn)文獻整合及其所蘊含知識單元要素的動態(tài)重組,形成如圖書集成、文本綜述、主題監(jiān)測和追蹤等知識網(wǎng)絡(luò)產(chǎn)品。為此,本文設(shè)計了物理學(xué)語義出版服務(wù)平臺中知識主題集成揭示系統(tǒng)的相關(guān)功能,如圖3所示。
其中,圖書集成服務(wù)是指以書目關(guān)聯(lián)關(guān)系為核心,通過詞條檢索功能,運用語義搜索技術(shù)將傳統(tǒng)關(guān)鍵詞匹配檢索提升至規(guī)范詞、篇章、語用、邏輯等語義檢索層次。它運用語義碎片化技術(shù),識別和提取出版內(nèi)容資源的結(jié)構(gòu)化信息碎片,根據(jù)用戶或者行業(yè)需求特征,將圖書、文本、多媒體資源等進行個性化整合及專題服務(wù),從而以百科閱讀、主題閱讀等形式對外呈現(xiàn),實現(xiàn)對多載體檢索內(nèi)容的按需聚合。自動綜述服務(wù)是指以概念關(guān)聯(lián)關(guān)系和引證關(guān)聯(lián)關(guān)系為核心,形成如簡介、理化性質(zhì)、制備方法、分類與應(yīng)用、發(fā)展前景等主題對象知識集合。它支持文本過濾與內(nèi)容對比分析功能;支持用戶自定義語義出版服務(wù)的內(nèi)容組織結(jié)構(gòu);支持高被引文獻的核心觀點/概念展示;支持多媒體資源、結(jié)構(gòu)化公式的有機融合;支持不同知識元之間的關(guān)聯(lián)與跳轉(zhuǎn)。主題監(jiān)測服務(wù)是指以科研本體關(guān)聯(lián)關(guān)系為核心的學(xué)術(shù)主體評價服務(wù)。該服務(wù)可圍繞知識主題,對相關(guān)機構(gòu)、作者、項目和管理決策進行數(shù)據(jù)處理和信息運算,實現(xiàn)立體化的實體計量和對某個知識單元的有效評價,凸顯某學(xué)科領(lǐng)域的核心或潛在作者、機構(gòu)、期刊、會議、項目等知識要素及其相關(guān)關(guān)系,動態(tài)展示學(xué)科發(fā)展現(xiàn)狀與趨勢。
3.2 面向智能推理的語義出版形態(tài)
面向智能推理的語義出版形態(tài),是指在碎片化、結(jié)構(gòu)化、語義化的底層數(shù)據(jù)基礎(chǔ)上,根據(jù)用戶設(shè)置的問題,運用自然語言處理技術(shù)、可視化技術(shù)、人工智能技術(shù)等,借助前期預(yù)設(shè)的推理機制在底層數(shù)據(jù)中尋找符合條件的內(nèi)容資源,以可視化、體系化的形式為用戶提供面向問題的自動問答解決方案,滿足用戶的知識需求。具體展現(xiàn)方式可以是基于知識單元的自動問答;也可以是預(yù)測研究模式與規(guī)律的自動系統(tǒng),如針對某一問題如何開展實驗、相關(guān)步驟有哪些、所需設(shè)備型號、實驗數(shù)據(jù)庫建設(shè)框架等;還可以是輔助疾病診斷的治療措施推薦,等等。
需要注意的是,面向智能推理的語義出版服務(wù),需要在提供解決方案的同時,特別標(biāo)明產(chǎn)生方案的出版來源和鏈接來源,以說明方案的真實性和科學(xué)性。以基于電腦醫(yī)學(xué)專家系統(tǒng)的語義出版服務(wù)為例,可由一個醫(yī)學(xué)領(lǐng)域知識庫、數(shù)據(jù)庫、推理庫、解釋機制以及知識獲取5部分構(gòu)成。它要求能夠準(zhǔn)確地模擬醫(yī)學(xué)專家的記憶、聯(lián)想、推理以及判斷等思維過程,即讓電腦模擬醫(yī)學(xué)專家診治各類疾病的思想和思路,讓其起到醫(yī)學(xué)專家的作用,以隨時隨地地為廣大用戶診斷各種疾病并開出相應(yīng)藥方。其中,醫(yī)學(xué)領(lǐng)域知識庫是將專家的專業(yè)知識和經(jīng)驗存儲在其中,通過建立疾病診斷樹而實現(xiàn);數(shù)據(jù)庫存放該系統(tǒng)處理對象的初始信息(包括患者姓名、年齡、癥狀、診斷結(jié)果、病情程度以及治療方案等);推理機是一組程序,根據(jù)輸入的數(shù)據(jù)(如患者的病史、癥狀與檢查結(jié)果)調(diào)用知識庫的知識,進行各種方式的推理;解釋機制以規(guī)則隊列方式記錄推理軌跡,對這種物理形式的規(guī)則進行分析,并將分析結(jié)果用中文予以表述;知識獲取部分,會幫助修改知識庫中原有不合理的知識和擴充新知識。
目前,出版機構(gòu)可以根據(jù)在某一行業(yè)領(lǐng)域的專業(yè)優(yōu)勢,研發(fā)、打造行業(yè)針對性強、用戶需求度高的語義出版服務(wù)產(chǎn)品,將專業(yè)出版內(nèi)容資源與現(xiàn)代信息技術(shù)相融合,提供面向金融決策的語義出版平臺、面向醫(yī)學(xué)診療的語義出版平臺等。為此,本文以農(nóng)業(yè)領(lǐng)域語義出版服務(wù)平臺為例,以概念關(guān)聯(lián)關(guān)系和論證關(guān)聯(lián)關(guān)系為核心設(shè)計農(nóng)作物病害診斷系統(tǒng),著重從物種屬性關(guān)系、整體與部分關(guān)系、癥狀與處方關(guān)系、因果關(guān)系4個方面構(gòu)建語義網(wǎng)絡(luò)架構(gòu),系統(tǒng)可通過用戶選擇的病害發(fā)生時間、病害發(fā)生位置、癥狀和相似性圖片推薦等碎片化信息,智能化、自動化推理水稻病害名稱,并同時提供病害簡介、癥狀識別方法、發(fā)生規(guī)律和防治方法等語義關(guān)聯(lián)內(nèi)容,具體如圖4所示。
4 結(jié)論與展望
互聯(lián)網(wǎng)、數(shù)字技術(shù)、語義技術(shù)等已經(jīng)深入出版業(yè)數(shù)字轉(zhuǎn)型工作中,出版產(chǎn)品的構(gòu)成、內(nèi)容模式和載體形態(tài)等也在發(fā)生深刻變化,基于用戶需求創(chuàng)造高效、精準(zhǔn)的基于語義的閱讀體驗逐漸成為新興趨勢[20]。領(lǐng)域知識庫構(gòu)建是開展語義出版服務(wù)的前端環(huán)節(jié),是在深度開發(fā)已有出版內(nèi)容資源的基礎(chǔ)上,借助多元關(guān)聯(lián)關(guān)系將不同的知識單元對象有序分類和多維集成。同時,面向集成揭示和智能推理的語義出版形態(tài),是基于領(lǐng)域知識庫的數(shù)字出版語義服務(wù)形式,能夠?qū)崿F(xiàn)圍繞某一主題的知識體系全方位展示以及基于用戶知識需求的自動解答。
其中,領(lǐng)域知識庫開發(fā)是完善知識單元識別和關(guān)系揭示、構(gòu)建知識體系結(jié)構(gòu)、優(yōu)化語義出版形態(tài)的基礎(chǔ)建設(shè)工作,具體可采用以下方式進行:一是應(yīng)用“眾包”模式,探索“分布建設(shè)、集成應(yīng)用”的領(lǐng)域知識庫發(fā)展新模式。所謂“眾包”模式,是指部分專業(yè)出版機構(gòu)按照服務(wù)領(lǐng)域既分工、又聯(lián)合地開展專業(yè)數(shù)字內(nèi)容資源知識庫建設(shè)的模式。各個出版機構(gòu)須依據(jù)內(nèi)容資源的相關(guān)規(guī)律和特征,研制數(shù)據(jù)存儲標(biāo)準(zhǔn),開展語義分析和知識挖掘,設(shè)計知識庫功能并構(gòu)建相應(yīng)層級等。一家獨大的局面并不適合當(dāng)下國內(nèi)語義出版發(fā)展,因其更需要發(fā)揮中小出版機構(gòu)的多方優(yōu)勢,探索多方分散型出版資源的數(shù)據(jù)加工和集群管理模式。對于中小型出版機構(gòu)而言,采用“眾包”模式是參與語義出版建設(shè)、降低轉(zhuǎn)型升級風(fēng)險、挖掘優(yōu)勢資源價值的重要舉措。只有這樣,才能夠充分保留出版內(nèi)容資源的“延展性”權(quán)利,即出版機構(gòu)具有先占權(quán),一旦內(nèi)容資源或領(lǐng)域知識庫被利用而產(chǎn)生商業(yè)價值,出版機構(gòu)都能從中分取相應(yīng)利益。由此,基于“眾包”模式的領(lǐng)域知識庫建設(shè)能夠創(chuàng)建出有特色、專業(yè)性強的本地化知識庫,并在此基礎(chǔ)上由大型出版機構(gòu)為主導(dǎo),開發(fā)領(lǐng)域知識庫集成與服務(wù)平臺。二是推動已有開放知識組織體系的共享利用,擴充領(lǐng)域本體的知識架構(gòu)。知識組織體系具有范疇分類、概念關(guān)聯(lián)、定義注釋等功能,可以有效地輔助領(lǐng)域本體的構(gòu)建。20世紀(jì)80年代以來,我國已編制出版多個大型綜合性或?qū)I(yè)性知識組織體系。其中,敘詞表是重要組成部分。目前,有代表性的綜合性敘詞表如《漢語主題詞表》《中國分類主題詞表》等,2000年以來專業(yè)性敘詞表有《中國中醫(yī)藥學(xué)主題詞表》《海軍主題詞表》《地質(zhì)學(xué)漢語敘詞表》《電力主題詞表》《測繪學(xué)敘詞表》等。可見,現(xiàn)有的知識組織體系成果較為豐碩,涉及專業(yè)領(lǐng)域較多,并且已逐漸呈現(xiàn)網(wǎng)絡(luò)化、數(shù)字化、開放化的應(yīng)用特征。出版業(yè)可引入這些開放的知識組織體系,將之用于切詞、信息抽取、聚類、詞頻統(tǒng)計等文本信息處理流程,使之與出版內(nèi)容資源或其他相關(guān)資源互聯(lián)互通,以服務(wù)于領(lǐng)域知識庫構(gòu)建過程中的計算語言學(xué)應(yīng)用;可以建立領(lǐng)域知識庫自動分類系統(tǒng),實現(xiàn)對海量內(nèi)容資源進行自動標(biāo)注、知識關(guān)聯(lián)、知識組織、知識揭示等服務(wù)功能;可以通過詞族知識概念體系,推進“分類(類目詞)-主題詞-關(guān)鍵詞”的主題分類一體化應(yīng)用,達到領(lǐng)域知識庫內(nèi)學(xué)科導(dǎo)航的服務(wù)目的;從自身本質(zhì)就屬于知識本體的意義上來說,還可進行智能推理、語義聚類和跨語言檢索的服務(wù)項目。
當(dāng)前,我國出版業(yè)正朝向技術(shù)、知識、服務(wù)密集型的方向加快發(fā)展,出版機構(gòu)的集團化結(jié)構(gòu)調(diào)整也提升了出版內(nèi)容資源的整合規(guī)模,拓展了語義出版的資源基礎(chǔ),而語義出版的服務(wù)形態(tài)和應(yīng)用場景仍處于檢驗階段。下一步研究方向,將在明確用戶需求的基礎(chǔ)上,面向科研全生命周期,提出強調(diào)以傳統(tǒng)出版物內(nèi)容資源為核心,通過海量數(shù)字資源的組織、關(guān)聯(lián)、聚合、評價和推薦,開展實現(xiàn)精準(zhǔn)服務(wù)的語義出版形態(tài)研究。
注 釋
[1] 孫坦.數(shù)字出版與數(shù)字圖書館:面向語義知識服務(wù)的融合歸一[EB/OL]. [2019-12-17]. https://max.book118.com/html/2016/0811/51067082.shtm
[2] 許鑫,江燕青,翟姍姍.面向語義出版的學(xué)術(shù)期刊數(shù)字資源聚合研究[J].圖書情報工作,2016,60(17):122-129
[3] 朱琳峰,李楠.學(xué)術(shù)期刊數(shù)字出版內(nèi)容增強模式探索[J].編輯學(xué)報,2019,31(4):421-423,427
[4] 王曉光,宋寧遠.語義出版物的內(nèi)容組織架構(gòu)研究:基于納米出版物和微型出版物的比較分析[J].出版科學(xué),2017,25(4):20-27
[5] 王莉莉,欒冠楠.英國廣播公司(BBC)動態(tài)語義出版模式研究[J].圖書情報工作,2017,61(8): 126-132
[6] Senderov V, Simov K, Franz N,et al. OpenBiodiv-O: ontology of the OpenBiodiv knowledge management system[J]. Journal of Biomedical Semantics, 2018(9):5,11
[7] 徐雷,潘珺.科學(xué)出版物語義數(shù)據(jù)及其應(yīng)用研究[J].中國科技期刊研究,2018,29(7): 704-710
[8] 蘇靜.面向科學(xué)交流的語義出版體系建設(shè)研究[J].數(shù)字圖書館論壇,2018(11):58-64
[9] Angrosh M A, Cranefield S, Stanger N. Contextual information retrieval in research articles: Semantic publishing tools for the research community[J]. Semantic Web, 2014, 5(4): 261-293
[10] 樂小虬,王子璇,張曉林,等. DPaper:一種面向語義出版的結(jié)構(gòu)化論文寫作工具設(shè)計與實現(xiàn)[J].現(xiàn)代圖書情報技術(shù),2016(11):76-81
[11] Peroni S. Automating semantic publishing [J]. Data Science,2017(1):155-173
[12]彭希珺,張曉林.國際學(xué)術(shù)期刊的數(shù)字化發(fā)展趨勢[J].中國科技期刊研究,2013,24(6): 1033-1038
[13]王子舟,王碧瀅.知識的基本組分:文獻單元和知識單元[J].中國圖書館學(xué)報,2003, 29(143):5-11
[14] 關(guān)聯(lián)數(shù)據(jù)云(LOD Cloud) [EB/OL].[2019-12-17]. https://lod-cloud.net/#about
[15] Dryad[EB/OL]. [2019-12-17].https://datadryad.org/stash/our_mission
[16] Ettorre M, Pontieri P, Ruffolo M, et al. A prototypal environment for collaborative work within a research organization[C]// International Workshop on Database and Expert Systems Applications,2003:274-279
[17] Fathalla S, Vahdati S, Auer S, et al. SemSur: A Core Ontology for the Semantic Representation of Research Findings[J]. Procedia Computer Science, 2018, 137:151-162
[18] 溫有奎.基于“知識元”的知識組織與檢索[J].計算機工程與應(yīng)用,2005,41(1):55-57,91
[19] Ciccarese P, Ocana M, Clark T. Open semantic annotation of scientific publications using DOMEO[J]. Journal of Biomedical Semantics, 2012, 3(1):1-14
[20] 徐麗芳,叢挺.數(shù)據(jù)密集、語義、可視化與互動出版:全球科技出版發(fā)展趨勢研究[J].出版科學(xué),2012,20(4):73-80
(收稿日期:2020-03-17)