摘要:科技文獻(xiàn)的細(xì)粒度知識(shí)挖掘?qū)τ诳茖W(xué)的發(fā)展起著至關(guān)重要的作用。文章在分析科技文獻(xiàn)知識(shí)挖掘的基礎(chǔ)上,構(gòu)建出本體與關(guān)聯(lián)數(shù)據(jù)融合驅(qū)動(dòng)的科技文獻(xiàn)知識(shí)挖掘模型,最后基于研究成果,以人工智能領(lǐng)域科技文獻(xiàn)為例進(jìn)行案例分析,詮釋了本體與關(guān)聯(lián)數(shù)據(jù)融合驅(qū)動(dòng)下科技文獻(xiàn)的細(xì)粒度知識(shí)挖掘所具有的特征。
關(guān)鍵詞:本體;關(guān)聯(lián)數(shù)據(jù);科技文獻(xiàn);知識(shí)挖掘
中圖分類號(hào):G207.6?? 文獻(xiàn)標(biāo)識(shí)碼:A
DOI:10.13897/j.cnki.hbkjty.2023.0006
近年來(lái),隨著科技發(fā)展,作為知識(shí)主要載體的科技文獻(xiàn)成
為人們獲取知識(shí)的重要來(lái)源。在科技文獻(xiàn)不斷激增的同時(shí),
文獻(xiàn)資源不斷的豐富與其利用率之間不可避免地會(huì)產(chǎn)生一定的矛盾,
知識(shí)挖掘是知識(shí)開(kāi)發(fā)的重要工具,為知識(shí)服務(wù)創(chuàng)新提供新的方法與技術(shù),大大提高了知識(shí)管理的效率,所以對(duì)于科技文獻(xiàn)進(jìn)行知識(shí)挖掘至關(guān)重要。大數(shù)據(jù)環(huán)境下,為了更好地對(duì)海量的科技文獻(xiàn)進(jìn)行利用,需要更細(xì)粒度的對(duì)其潛在的知識(shí)內(nèi)容進(jìn)行深入挖掘?;诖?,本文在本體與關(guān)聯(lián)數(shù)據(jù)的融合驅(qū)動(dòng)下,面向科技文獻(xiàn)進(jìn)行細(xì)粒度知識(shí)挖掘研究。通過(guò)研究探求能夠挖掘出更具價(jià)值的信息,以助力科技文獻(xiàn)的開(kāi)發(fā)利用。
1 相關(guān)研究概述
1.1 本體
本體的概念源自于哲學(xué),由Neches等學(xué)者提出,其認(rèn)為本體是術(shù)語(yǔ)、關(guān)系和規(guī)則的集合[1]。在不斷的研究中,其中Gruber學(xué)者認(rèn)為本體是具有邏輯理論的陳述性描述,通過(guò)形式化的描述來(lái)對(duì)特定領(lǐng)域的術(shù)語(yǔ)、關(guān)系和規(guī)則進(jìn)行解釋與使用,這也是本體的經(jīng)典定義[2]。隨后,在計(jì)算機(jī)技術(shù)的不斷發(fā)展下,各大領(lǐng)域均逐漸引入本體,并對(duì)其進(jìn)行了不同的詮釋,盡管目前并沒(méi)有對(duì)本體這一概念進(jìn)行具體規(guī)范,但普遍認(rèn)為本體具備形式化的特點(diǎn),并對(duì)共享的概念體系具有明確且詳細(xì)的說(shuō)明[3]。后期,一些國(guó)外學(xué)者便將本體與技術(shù)進(jìn)行融合應(yīng)用到信息資源的研究中,本體充分利用到元數(shù)據(jù)的思想與結(jié)構(gòu)化的知識(shí),對(duì)異構(gòu)信息資源進(jìn)行語(yǔ)義化的標(biāo)注,建立起標(biāo)準(zhǔn)的元數(shù)據(jù)知識(shí)存儲(chǔ)庫(kù),充分實(shí)現(xiàn)語(yǔ)義的檢索。知識(shí)組織工具是本體的本質(zhì),這便使數(shù)字資源的語(yǔ)義化標(biāo)注
和互操具有可能性,并在一定的范圍內(nèi)消除了數(shù)字資源語(yǔ)義異構(gòu)等問(wèn)題,但局限是一定與領(lǐng)域相關(guān),針對(duì)某一個(gè)領(lǐng)域進(jìn)行融合[4]。
1.2 關(guān)聯(lián)數(shù)據(jù)
關(guān)聯(lián)數(shù)據(jù)是指互聯(lián)網(wǎng)上進(jìn)行發(fā)布、共享并連接各種不同類型的數(shù)據(jù)、信息以及知識(shí)的一種方式。
它不但克服了本體針對(duì)于某一領(lǐng)域的局限性,并且對(duì)于數(shù)據(jù)間開(kāi)放性的無(wú)縫互聯(lián)進(jìn)行了實(shí)現(xiàn)[5],其核心在于通過(guò)統(tǒng)一的資源描述框架(Resource Description Framework,RDF)對(duì)資源數(shù)據(jù)進(jìn)行描述并對(duì)其中所蘊(yùn)含的信息進(jìn)行解析,利用超文本協(xié)議來(lái)對(duì)資源數(shù)據(jù)進(jìn)行獲取并揭示關(guān)聯(lián),有效減少了其孤島效應(yīng)的產(chǎn)生。其本質(zhì)是在數(shù)據(jù)標(biāo)準(zhǔn)化識(shí)別的基礎(chǔ)上,用以構(gòu)建出能夠被所有機(jī)器理解的具有結(jié)構(gòu)化的數(shù)據(jù)網(wǎng)絡(luò),從而使本并不具備任何關(guān)聯(lián)的有關(guān)數(shù)據(jù)信息產(chǎn)生出相應(yīng)的關(guān)聯(lián)關(guān)系,進(jìn)而才能對(duì)更高層次上的智能檢索進(jìn)行有關(guān)探索
[6]。這是一種簡(jiǎn)化版的語(yǔ)義網(wǎng)模型對(duì)于不同領(lǐng)域、來(lái)源及系統(tǒng)間的知識(shí)資源進(jìn)行關(guān)聯(lián)以實(shí)現(xiàn)多維關(guān)聯(lián)及開(kāi)放獲取。
1.3 知識(shí)挖掘
從知識(shí)挖掘出現(xiàn)至今,不同領(lǐng)域的學(xué)者對(duì)其定義的詮釋也有所差異,現(xiàn)在廣泛使用的為:知識(shí)挖掘是從數(shù)據(jù)集當(dāng)中對(duì)有效或具有潛在價(jià)值的信息進(jìn)行識(shí)別,并最終轉(zhuǎn)化為可被大家所理解的一種模式的全過(guò)程[7]。當(dāng)前,關(guān)于科技文獻(xiàn)的知識(shí)挖掘已經(jīng)進(jìn)入到了細(xì)粒度的層面,更強(qiáng)調(diào)了對(duì)知識(shí)單元以及知識(shí)關(guān)聯(lián)的識(shí)別與利用。其中,知識(shí)單元是具有特定意義的并且能夠進(jìn)行獨(dú)立使用的知識(shí)單位,其對(duì)科技文獻(xiàn)的知識(shí)點(diǎn)進(jìn)行抽取,是在信息抽取的基礎(chǔ)上的進(jìn)一步深化應(yīng)用
[8]。除此之外,在知識(shí)挖掘的過(guò)程中知識(shí)關(guān)聯(lián)對(duì)于完整知識(shí)體系的形成至關(guān)重要,其表示可以從任一維度出發(fā)與知識(shí)單元建立相應(yīng)的關(guān)聯(lián)。
2 科技文獻(xiàn)細(xì)粒度知識(shí)挖掘的特征分析
2.1 知識(shí)提取準(zhǔn)確性高
當(dāng)對(duì)科技文獻(xiàn)進(jìn)行細(xì)粒度知識(shí)挖掘時(shí),通過(guò)對(duì)本體的引入可有效提高細(xì)粒度知識(shí)挖掘過(guò)程中的知識(shí)單元與知識(shí)關(guān)聯(lián)抽取的可靠性。與此同時(shí),通過(guò)本體的特征能夠有效實(shí)現(xiàn)對(duì)科技文獻(xiàn)中同一語(yǔ)義而不同表述的知識(shí)提取,進(jìn)而增加提取的準(zhǔn)確性。此外,關(guān)聯(lián)數(shù)據(jù)也能夠通過(guò)對(duì)復(fù)雜關(guān)系進(jìn)行掃描的資源描述框(RDN)對(duì)資源進(jìn)行描述,使關(guān)聯(lián)數(shù)據(jù)能夠通過(guò)統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行語(yǔ)義關(guān)系的描述,經(jīng)過(guò)語(yǔ)義描述的資源具備機(jī)器可讀以及高度的結(jié)構(gòu)化等特點(diǎn),這也使“資源孤島”之間不斷地產(chǎn)生語(yǔ)義關(guān)聯(lián),將碎片化的資源充分連接成龐大的資源網(wǎng)絡(luò)以供用戶使用,這也大大提高了知識(shí)提取的準(zhǔn)確性[9]。
2.2 知識(shí)重用率高
本體與關(guān)聯(lián)數(shù)據(jù)融合驅(qū)動(dòng)下的科技文獻(xiàn)細(xì)粒度知識(shí)挖掘,能夠?qū)χR(shí)間的語(yǔ)義信息進(jìn)行清晰準(zhǔn)確的描述,這成為系統(tǒng)中不可或缺的支持可重用并且能夠共享的組件之一。在進(jìn)行系統(tǒng)升級(jí)或不同的系統(tǒng)間進(jìn)行數(shù)據(jù)交換時(shí)知識(shí)整合平臺(tái)
對(duì)于不同系統(tǒng)之間的交叉與融合不會(huì)受到影響,并緩解了系統(tǒng)集成時(shí)開(kāi)發(fā)周期長(zhǎng)的相關(guān)問(wèn)題,使知識(shí)重用率顯著提高。
2.3 知識(shí)共享無(wú)障礙
在本體與關(guān)聯(lián)數(shù)據(jù)的融合下,通過(guò)共同的關(guān)聯(lián)描述,能夠?qū)ν徽Z(yǔ)義間的知識(shí)表達(dá)的差異性進(jìn)行消除,對(duì)統(tǒng)一資源標(biāo)識(shí)符(Uniform Resource Identifier,URI)進(jìn)行充分運(yùn)用,使互聯(lián)網(wǎng)中的任一資源都能夠得到充分描述,包括圖片、聲音以及文檔等,相同的標(biāo)準(zhǔn)化描述對(duì)資源的異構(gòu)性顯著降低,而使用本體與關(guān)聯(lián)數(shù)據(jù)相融合的方式可以顯著提高其信息資源數(shù)據(jù)的傳播、分享以及發(fā)布等。通過(guò)本體與關(guān)聯(lián)數(shù)據(jù)融合驅(qū)動(dòng)下所發(fā)布的資源不但能夠在不同的數(shù)據(jù)集之間產(chǎn)生互聯(lián)互通,并且搜索相應(yīng)信息時(shí),也能夠發(fā)現(xiàn)其搜索的相關(guān)內(nèi)容,從而對(duì)知識(shí)的認(rèn)識(shí)性與理解性進(jìn)行增強(qiáng),實(shí)現(xiàn)知識(shí)的無(wú)障礙交流。
3 本體與關(guān)聯(lián)數(shù)據(jù)融合驅(qū)動(dòng)的科技文獻(xiàn)細(xì)粒度知識(shí)挖掘模型構(gòu)建
本研究提出了一個(gè)基于本體與關(guān)聯(lián)數(shù)據(jù)融合驅(qū)動(dòng)的科技文獻(xiàn)細(xì)粒度知識(shí)挖掘模型,該模型具有3個(gè)層級(jí)架構(gòu),分別是基于本體、關(guān)聯(lián)數(shù)據(jù)以及本體與關(guān)聯(lián)數(shù)據(jù)融合驅(qū)動(dòng)的模型架構(gòu)。
3.1 基于本體的細(xì)粒度知識(shí)挖掘
該架構(gòu)囊括目標(biāo)決策、規(guī)則抽取、知識(shí)挖掘以及服務(wù)反饋四個(gè)層面。在目標(biāo)決策階段,進(jìn)行挖掘?qū)ο蟮闹付ê屯诰蚍秶拇_定,其中,挖掘?qū)ο笮枰倍嗟姆治鑫臋n及反饋信息,并在本體所具備的強(qiáng)大的邏輯推理的基礎(chǔ)上將其顯性化,而挖掘范圍還包括目標(biāo)區(qū)域與挖掘權(quán)重的確定,例如,在本體所在領(lǐng)域內(nèi)具有典型代表性的特定數(shù)據(jù)庫(kù)等。在挖掘約束中,其借助于本體的概念與實(shí)例,對(duì)于相同概念卻不同實(shí)例的情況,也可依據(jù)屬性值進(jìn)行描述,也就是其檢索中所查找到的關(guān)鍵字,這便能夠發(fā)現(xiàn)關(guān)鍵詞頻次高的區(qū)域從而進(jìn)行深度挖掘,提升效率。在知識(shí)存儲(chǔ)中,其格式與內(nèi)容都有明確的規(guī)定,包括字段、標(biāo)注以及邏輯推理等。而知識(shí)清理相當(dāng)于一種基于本體邏輯的合法性檢驗(yàn),消除錯(cuò)誤,并排序?qū)傩灾怠VR(shí)提煉同樣基于本體邏輯進(jìn)行推理,從而對(duì)實(shí)際問(wèn)題進(jìn)行解決。在知識(shí)服務(wù)與反饋中,所獲取的數(shù)據(jù)呈現(xiàn)出了其潛在聯(lián)系與發(fā)展趨勢(shì),但其仍不易閱讀,所以知識(shí)服務(wù)中便能依據(jù)不同需求進(jìn)行知識(shí)的深加工。在反饋分析中,可以進(jìn)行最終結(jié)果與最初目標(biāo)偏離程度的衡量,從而進(jìn)行及時(shí)的優(yōu)化和更新,提高細(xì)粒度知識(shí)挖掘的效率。
3.2 基于關(guān)聯(lián)數(shù)據(jù)的細(xì)粒度知識(shí)挖掘
基于關(guān)聯(lián)數(shù)據(jù)的架構(gòu)是在上述本體架構(gòu)基礎(chǔ)上形成的,包括本體知識(shí)庫(kù)、關(guān)聯(lián)數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及實(shí)體屬性選擇等。在實(shí)體屬性選擇中,在確認(rèn)目標(biāo)后,需要結(jié)合科技文獻(xiàn)相關(guān)專家們的建議,并針對(duì)不同領(lǐng)域的不同屬性對(duì)實(shí)體產(chǎn)生關(guān)聯(lián),例如,數(shù)據(jù)與對(duì)象屬性,其中對(duì)象屬性是在本體構(gòu)建中所產(chǎn)生的關(guān)系屬性等。在關(guān)聯(lián)數(shù)據(jù)中,主要包括類及屬性的構(gòu)建、實(shí)例的創(chuàng)建、關(guān)系構(gòu)建圖以及一致性檢驗(yàn)等步驟,其中需要使用到Protégé等構(gòu)建工具,將所選實(shí)體以及屬性分別進(jìn)行構(gòu)建,其產(chǎn)生的數(shù)據(jù)可以直接作為實(shí)例進(jìn)行構(gòu)建,并通過(guò)各類關(guān)聯(lián)關(guān)系建立起關(guān)聯(lián)數(shù)據(jù),在進(jìn)行一致性檢驗(yàn)后將構(gòu)建出的關(guān)聯(lián)數(shù)據(jù)用OWL格式進(jìn)行本體知識(shí)庫(kù)存儲(chǔ)。
3.3 本體與關(guān)聯(lián)數(shù)據(jù)融合驅(qū)動(dòng)的細(xì)粒度知識(shí)挖掘
在科技文獻(xiàn)的細(xì)粒度知識(shí)挖掘中,針對(duì)于不同類型與來(lái)源的更細(xì)化的文獻(xiàn)資源,所采用的元數(shù)據(jù)描述規(guī)范也不盡相同,致使同一科技文獻(xiàn)內(nèi)部常常存在著多種不同的元數(shù)據(jù)規(guī)范,而不同科技文獻(xiàn)間其元數(shù)據(jù)規(guī)范更是差異化顯著。元數(shù)據(jù)所提供的語(yǔ)義基礎(chǔ)并不能有效解決文獻(xiàn)資源異構(gòu)性等問(wèn)題,這種局限性則需要在元數(shù)據(jù)基礎(chǔ)上進(jìn)行某種特定機(jī)制的構(gòu)建,用以實(shí)現(xiàn)格式化不同以及類型不同的差異化元數(shù)據(jù)間的語(yǔ)義性互操,這也充分體現(xiàn)出本體所具備的特征。本文中所采用的是混合法,針對(duì)不同科技文獻(xiàn),先構(gòu)建出其知識(shí)挖掘的核心本體,此元數(shù)據(jù)本體并不包含任何規(guī)范性元素,而是以一種形式化的方式對(duì)其核心元素進(jìn)行描述,針對(duì)特定的核心挖掘文獻(xiàn),其相關(guān)屬性以及特定關(guān)系便能夠以動(dòng)態(tài)的形式進(jìn)行添加,從而形成定制化的拓展,以生成專門的挖掘本體。在上述基于本體的知識(shí)挖掘的研究中,雖然實(shí)現(xiàn)了科技文獻(xiàn)資源語(yǔ)義關(guān)系上描述分析的挖掘,但是由于本體所具有的局限性,這種挖掘僅局限于其整體與部分間的顯性關(guān)系間體現(xiàn),而對(duì)于深層次隱形關(guān)系的挖掘卻無(wú)法實(shí)現(xiàn),比如同一主題下的資源信息等,更沒(méi)辦法實(shí)現(xiàn)資源的延展挖掘。除此之外,對(duì)于不同資源集合的訪問(wèn)則需要自有的Web API,而在不同本體域間建立起關(guān)聯(lián)關(guān)系可以使科技文獻(xiàn)資源統(tǒng)一成一個(gè)整體,使每一個(gè)資源數(shù)據(jù)都能通過(guò)HTTP協(xié)議進(jìn)行訪問(wèn),并通過(guò)RDF鏈接訪問(wèn)相關(guān)資源并實(shí)現(xiàn)自由切換,揭示了資源間的相互關(guān)系。同時(shí),其關(guān)聯(lián)數(shù)據(jù)能夠與外界相關(guān)聯(lián),進(jìn)而成為數(shù)據(jù)云的一部分,以達(dá)到最大利用率。
4 本體與關(guān)聯(lián)數(shù)據(jù)融合驅(qū)動(dòng)的科技文獻(xiàn)知識(shí)挖掘模型應(yīng)用場(chǎng)景分析
本研究以人工智能領(lǐng)域的科技文獻(xiàn)的元數(shù)據(jù)為數(shù)據(jù)源,并構(gòu)建出實(shí)驗(yàn)?zāi)P停M(jìn)而進(jìn)行知識(shí)挖掘的可視化展現(xiàn)。
4.1 人工智能領(lǐng)域科技文獻(xiàn)元數(shù)據(jù)識(shí)別
人工智能領(lǐng)域的科技文獻(xiàn),其摘要涵蓋了重點(diǎn)研究問(wèn)題及實(shí)驗(yàn)方法,是精華之所在?;诖?,在實(shí)驗(yàn)過(guò)程中,便以所研究的問(wèn)題與實(shí)驗(yàn)所用方法的實(shí)體抽取為人工智能領(lǐng)域科技文獻(xiàn)摘要的實(shí)際實(shí)驗(yàn)對(duì)象。首先,有目的性地進(jìn)行題錄數(shù)據(jù)的文章摘要及標(biāo)點(diǎn)符號(hào)的抽?。黄浯?,對(duì)實(shí)體中的識(shí)別任務(wù)進(jìn)行考慮,部分不引注意的特征也可能對(duì)識(shí)別的結(jié)果產(chǎn)生較大影響,例如,詞向量和詞性等文本特征,故抽取特征至關(guān)重要;最后,對(duì)實(shí)驗(yàn)研究對(duì)象的識(shí)別其實(shí)質(zhì)也屬于監(jiān)督學(xué)習(xí)的一種形式,需要人為的文本標(biāo)注作為模型的語(yǔ)料。
4.2 基于本體與關(guān)聯(lián)數(shù)據(jù)融合驅(qū)動(dòng)的實(shí)驗(yàn)?zāi)P驮O(shè)計(jì)
在人工智能領(lǐng)域科技文獻(xiàn)的實(shí)驗(yàn)?zāi)P椭?,分為知識(shí)挖掘管理、用戶查詢及推理等三個(gè)模塊,如圖1所示。其中,知識(shí)挖掘管理與推理是管理模塊,而查詢是操作模塊能夠?qū)Ρ倔w和關(guān)聯(lián)數(shù)據(jù)以及潛在知識(shí)的結(jié)果進(jìn)行展示。有關(guān)本體與關(guān)聯(lián)數(shù)據(jù),其對(duì)本體技術(shù)進(jìn)行了充分有效地使用,并能夠建立起相應(yīng)的語(yǔ)義關(guān)系,其關(guān)聯(lián)數(shù)據(jù)也能夠?qū)崿F(xiàn)直接在相對(duì)應(yīng)的數(shù)據(jù)庫(kù)當(dāng)中進(jìn)行存儲(chǔ)。同時(shí),在知識(shí)挖掘前需要對(duì)本體數(shù)據(jù)庫(kù)與關(guān)聯(lián)數(shù)據(jù)庫(kù)中的相關(guān)信息進(jìn)行相應(yīng)的預(yù)處理,以方便分類科技文獻(xiàn)數(shù)據(jù)以及實(shí)現(xiàn)知識(shí)挖掘的目標(biāo)。關(guān)聯(lián)數(shù)據(jù)查詢中能夠?qū)⑷斯ぶ悄茴I(lǐng)域科技文獻(xiàn)本體與關(guān)聯(lián)數(shù)據(jù)中有關(guān)顯性知識(shí)的部分進(jìn)行顯示。并對(duì)推理機(jī)進(jìn)行恰當(dāng)?shù)倪\(yùn)用,實(shí)現(xiàn)實(shí)體與關(guān)聯(lián)數(shù)據(jù)的推理效果,得到相對(duì)應(yīng)的目標(biāo)結(jié)果。知識(shí)挖掘主要針對(duì)的是使用部分查詢解析器,進(jìn)行關(guān)鍵字標(biāo)注理解,并調(diào)動(dòng)其后臺(tái)的RDF的連接進(jìn)行分類算法的實(shí)現(xiàn),挖掘出其深層次的潛在知識(shí),同時(shí)在JDBC接口處與知識(shí)庫(kù)連接,通過(guò)挖掘引擎將人工智能領(lǐng)域科技文獻(xiàn)的細(xì)粒度知識(shí)挖掘結(jié)果得以實(shí)現(xiàn)。
4.3 人工智能領(lǐng)域科技文獻(xiàn)細(xì)粒度知識(shí)挖掘分析
基于上述實(shí)驗(yàn)?zāi)P?,在進(jìn)行人工智能領(lǐng)域科技文獻(xiàn)細(xì)粒度知識(shí)挖掘時(shí),選定人工智能領(lǐng)域的“computer vision”實(shí)體作為實(shí)例。本研究選取“computer vision”為主題的科技文獻(xiàn)作為文本的實(shí)驗(yàn)數(shù)據(jù)集,在CNKI專業(yè)檢索搜索框中以“su=computer vision”為檢索式,對(duì)檢索結(jié)果進(jìn)行分析。通過(guò)對(duì)CNKI中進(jìn)行實(shí)體的抽取與定位,并將所抽取的文獻(xiàn)信息資源運(yùn)用相關(guān)解析器進(jìn)行語(yǔ)義以及語(yǔ)義關(guān)系的相應(yīng)提取,能夠有效體現(xiàn)出本體與關(guān)聯(lián)數(shù)據(jù)融合下所具有的知識(shí)重用率高等特征,運(yùn)用自然語(yǔ)言處理等技術(shù)進(jìn)行分割,同時(shí)采用RDF進(jìn)行描述并運(yùn)用子挖掘算法將人工智能領(lǐng)域科技文獻(xiàn)中的隱形信息剖析出來(lái),其結(jié)果具有可靠性和準(zhǔn)確性,最后運(yùn)用數(shù)據(jù)庫(kù)顯示其關(guān)聯(lián)關(guān)系(見(jiàn)圖2-3)?!癱omputer vision”等人工智能領(lǐng)域的實(shí)體能夠反映出主題與主題間的相似度,以共現(xiàn)矩陣的形式將主題、知識(shí)單元以及它們之間的關(guān)聯(lián)構(gòu)建科技文獻(xiàn)細(xì)粒度知識(shí)組織,進(jìn)一步建立起語(yǔ)義知識(shí)庫(kù)以及推理知識(shí)庫(kù),從而方便人們進(jìn)行閱讀,同時(shí)也為科技文獻(xiàn)細(xì)粒度知識(shí)挖掘提供了保障。
5 結(jié)語(yǔ)
隨著科技文獻(xiàn)的不斷增多,其帶來(lái)豐富信息的同時(shí)也產(chǎn)生了一定的問(wèn)題。通過(guò)分析科技文獻(xiàn)細(xì)粒度知識(shí)挖掘的準(zhǔn)確性高、重用率高以及共享無(wú)障礙等特征,并構(gòu)建出本體與關(guān)聯(lián)數(shù)據(jù)融合驅(qū)動(dòng)的科技文獻(xiàn)知識(shí)挖掘模型,包括基于本體融合的架構(gòu)、基于關(guān)聯(lián)數(shù)據(jù)融合的架構(gòu)以及本體與關(guān)聯(lián)數(shù)據(jù)融合驅(qū)動(dòng)的架構(gòu),最后基于上述研究成果,以人工智能領(lǐng)域科技文獻(xiàn)為例進(jìn)行案例分析??萍嘉墨I(xiàn)細(xì)粒度知識(shí)挖掘需要本體與關(guān)聯(lián)數(shù)據(jù)的融合驅(qū)動(dòng),方能提高知識(shí)挖掘效率。
參考文獻(xiàn)
[1]黎霞,張凌云.《資本論》漢英術(shù)語(yǔ)知識(shí)庫(kù)知識(shí)本體建設(shè)[J].圖書(shū)館工作與研究,2022(2):5-14.
[2]曾楨,趙浩宇.基于文獻(xiàn)的中國(guó)近代史知識(shí)圖譜構(gòu)建與實(shí)證研究[J].數(shù)字圖書(shū)館論壇,2022(4):35-42.
[3]馬翠嫦,曹樹(shù)金.網(wǎng)絡(luò)學(xué)術(shù)文檔細(xì)粒度聚合本體構(gòu)建研究[J].圖書(shū)情報(bào)工作,2019,63(24):107-118.
[4]張修文,張曉梅,付佳,等.基于本體和關(guān)聯(lián)數(shù)據(jù)的館藏資源融合模型[J].中華醫(yī)學(xué)圖書(shū)情報(bào)雜志,2015,24(8):50-54.
[5]趙龍文,羅力舒.基于關(guān)聯(lián)數(shù)據(jù)的政府?dāng)?shù)據(jù)開(kāi)放:模式、方法與實(shí)現(xiàn)——以上海市政府開(kāi)放數(shù)據(jù)為例[J].圖書(shū)情報(bào)工作,2017,61(19):102-112.
[6]楊選輝,龍帆.關(guān)聯(lián)數(shù)據(jù)與本體在圖書(shū)館資源服務(wù)模式中的應(yīng)用研究[J].圖書(shū)館理論與實(shí)踐,2016(12):97-100.
[7]羅希瑩,王俊瑛,胡笳.基于知識(shí)挖掘的高校機(jī)構(gòu)知識(shí)庫(kù)的信息服務(wù)研究[J].教育教學(xué)論壇,2019(39):66-67.
[8]秦春秀,劉杰,劉懷亮,等.基于知識(shí)元的科技文本內(nèi)容描述框架研究[J].圖書(shū)情報(bào)工作,2017,61(10):116-124.
[9]陳氫,劉文梅.基于關(guān)聯(lián)數(shù)據(jù)的企業(yè)數(shù)據(jù)治理可視化框架研究[J].現(xiàn)代情報(bào),2021,41(6):76-87.
作者簡(jiǎn)介:閆麗(1975-),女,肥城市圖書(shū)館館員。研究方向:文獻(xiàn)學(xué)。
(收稿日期:2022-10-28 責(zé)任編輯:張曉霞)
Research on Fine-grained Knowledge Mining of Scientific and Technological
Documents Driven by Ontology and Association Data Fusion
Yan Li
Abstract:
The fine-grained knowledge mining of scientific and technological documents plays a vital role in the development of science. Based on the analysis of the knowledge mining of scientific and technological documents, this paper constructs a mode of scientific and technological documents knowledge mining driven by the fusion of ontology and associated data. Finally, based on the research results, taking the scientific and technological literature in the field of artificial intelligence as an example, the paper fully explains the characteristics of fine-grained knowledge mining of scientific and technological documents driven by ontology and association data fusion.
Keywords:
Ontology; Related Data;Scientific and Technological Documents; Knowledge Mining