国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

農(nóng)業(yè)領(lǐng)域知識發(fā)現(xiàn)工具的構(gòu)建與應(yīng)用*——以農(nóng)知搜索為例

2021-04-19 14:33:58張潔趙瑞雪寇遠(yuǎn)濤鮮國建
數(shù)字圖書館論壇 2021年1期
關(guān)鍵詞:檢索工具學(xué)術(shù)

張潔 趙瑞雪,2 寇遠(yuǎn)濤,2 鮮國建,2

技術(shù)與應(yīng)用

農(nóng)業(yè)領(lǐng)域知識發(fā)現(xiàn)工具的構(gòu)建與應(yīng)用*——以農(nóng)知搜索為例

張潔1趙瑞雪1,2寇遠(yuǎn)濤1,2鮮國建1,2

(1. 中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081;2. 農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,北京 100081)

本文通過闡述新形勢下農(nóng)業(yè)知識發(fā)現(xiàn)需求特征,明確農(nóng)知搜索的建設(shè)目標(biāo),提出農(nóng)知搜索建設(shè)框架,詳細(xì)介紹其“六位一體”的核心功能,并從資源收錄、檢索功能、檢索效果及個(gè)性化服務(wù)4個(gè)維度測評農(nóng)知搜索的應(yīng)用效果,其研建與發(fā)布是國際農(nóng)業(yè)領(lǐng)域知識發(fā)現(xiàn)工具的重要補(bǔ)充。

學(xué)術(shù)知識發(fā)現(xiàn);農(nóng)知搜索;領(lǐng)域知識服務(wù)

據(jù)美國科學(xué)基金會統(tǒng)計(jì),一個(gè)科學(xué)研究人員花費(fèi)在查找和消化學(xué)術(shù)資料上的時(shí)間需占全部科研時(shí)間的51%[1],由此可見,科技文獻(xiàn)準(zhǔn)確查找及知識提取對于科學(xué)研究的重要性。隨著電子學(xué)術(shù)資源規(guī)模的日趨龐大、分散及快速增長,用戶全面發(fā)現(xiàn)及快速定位所需資源面臨挑戰(zhàn)。學(xué)術(shù)搜索引擎可通過單一訪問點(diǎn)實(shí)現(xiàn)對書目、期刊、等異構(gòu)學(xué)術(shù)資源的訪問[2],可滿足用戶Google like的檢索體驗(yàn),已成為科研用戶搜集科技資源的必備工具之一。隨著數(shù)據(jù)驅(qū)動智慧時(shí)代的到來,學(xué)術(shù)搜索引擎逐漸整合多種服務(wù)模式并朝著知識發(fā)現(xiàn)工具進(jìn)化已成為一種普遍趨勢。自2016年起,在中國工程科技知識中心的統(tǒng)一管理和規(guī)劃下,中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所開展了農(nóng)業(yè)領(lǐng)域知識發(fā)現(xiàn)工具——農(nóng)知搜索的研建。該工具基于大規(guī)模農(nóng)業(yè)科技文獻(xiàn)、國內(nèi)外農(nóng)業(yè)項(xiàng)目、科學(xué)數(shù)據(jù)、行業(yè)報(bào)告、農(nóng)業(yè)專利、專家學(xué)者、科研機(jī)構(gòu)等各類農(nóng)業(yè)知識資源,提供一站式知識發(fā)現(xiàn)、揭示及獲取服務(wù)。

1 相關(guān)研究

知識發(fā)現(xiàn)(Knowledge Discovery in Database)是指從大量繁雜的數(shù)據(jù)中獲取有價(jià)值的、未知的、創(chuàng)新的并最終以可理解的形式呈現(xiàn)出來的非平凡的處理過程[3]。目前國內(nèi)外學(xué)者開展的相關(guān)研究,大致可分為理論模型構(gòu)建與實(shí)踐研究兩個(gè)方面。

理論模型構(gòu)建方面,劉江玲[4]認(rèn)為大數(shù)據(jù)時(shí)代的知識發(fā)現(xiàn)系統(tǒng)應(yīng)該實(shí)現(xiàn)資源整合、知識發(fā)現(xiàn)和信息推送3個(gè)功能點(diǎn)。張晗等[3]將知識發(fā)現(xiàn)系統(tǒng)分為核心層、知識服務(wù)層及用戶交互層:核心層實(shí)現(xiàn)數(shù)據(jù)的有序化組織和數(shù)據(jù)的知識化組織;知識服務(wù)層除為用戶提供檢索、參考咨詢、期刊訂閱、學(xué)科服務(wù)等核心服務(wù)外,也應(yīng)提供論文檢測、論文選題、開題分析、創(chuàng)新助手等科研輔助服務(wù);用戶交互層則通過支持評價(jià)、轉(zhuǎn)發(fā)、分享及推薦等操作實(shí)現(xiàn)用戶間的交互。陸韡[5]提出的OA資源知識發(fā)現(xiàn)系統(tǒng)框架包括用戶層、數(shù)據(jù)源、檢索器、結(jié)果處理器、索引器和排列算法。Li等[6]以CiteSeer為對象,將知識發(fā)現(xiàn)系統(tǒng)的結(jié)構(gòu)劃分為存儲層、應(yīng)用層及交互層:存儲層解決數(shù)據(jù)對象的組織與管理問題;應(yīng)用層則是日志、網(wǎng)絡(luò)采集、檢索、索引及個(gè)性化等多項(xiàng)服務(wù)的集合;交互層以門戶的形式提供用戶與各項(xiàng)服務(wù)模塊的交互渠道。Fatima等[7]認(rèn)為語義網(wǎng)環(huán)境下的搜索引擎應(yīng)該包括入口詞優(yōu)化器、檢索優(yōu)化器、本體處理器、搜索引擎、索引器、排序器、文件識別器、結(jié)果優(yōu)化器8項(xiàng)組件。Choochaiwattana[8]提出基于個(gè)性化檢索排序機(jī)制的學(xué)術(shù)搜索引擎框架并將該框架劃分為信息檢索詞處理、信息檢索及輔助信息服務(wù)3個(gè)層次。

實(shí)踐研究方面,按照應(yīng)用領(lǐng)域,知識發(fā)現(xiàn)工具可大致分為泛在領(lǐng)域及垂直領(lǐng)域兩類,其中泛在領(lǐng)域知識發(fā)現(xiàn)工具主要包括傳統(tǒng)學(xué)術(shù)搜索引擎及新型知識發(fā)現(xiàn)工具兩類。前者以谷歌學(xué)術(shù)、BASE、微軟學(xué)術(shù)、百度學(xué)術(shù)等為代表,它們以提供資源整合檢索為主要服務(wù)內(nèi)容;后者則主要包括中國知網(wǎng)KDN平臺、維普智立方、中國科學(xué)院慧科研平臺、Yenwo、AI2 semantic search及Connected Papers等,這類平臺均超越了資源搜索服務(wù),附加了知識關(guān)聯(lián)揭示、個(gè)性化推送等增值服務(wù)。目前泛在信息環(huán)境下,傳統(tǒng)學(xué)術(shù)搜索引擎有發(fā)展并過渡至綜合性知識發(fā)現(xiàn)工具的趨勢。垂直領(lǐng)域知識發(fā)現(xiàn)工具則以PubMed、AGRICOLA、AGRIS為代表,其中前者由美國醫(yī)學(xué)圖書館建設(shè),主要面向生物醫(yī)學(xué)領(lǐng)域;后兩者則分別由美國國家農(nóng)業(yè)圖書館和聯(lián)合國糧食及農(nóng)業(yè)組織建設(shè),主要面向農(nóng)業(yè)科學(xué)領(lǐng)域,核心索引體量均在百萬級別,收錄資源以期刊為主。

總的來說,目前泛在領(lǐng)域工具存在領(lǐng)域無關(guān)噪聲資源多及知識揭示專業(yè)化程度低的問題,而已有垂直領(lǐng)域工具則存在資源覆蓋類型少或資源來源受限的問題;此外,新型知識發(fā)現(xiàn)工具均基于機(jī)器學(xué)習(xí)、知識圖譜等新技術(shù)給出了學(xué)術(shù)查詢的革新式體驗(yàn),但這類工具因?yàn)槌闪r(shí)間較短而不同程度上存在資源覆蓋范圍有限,且在農(nóng)業(yè)領(lǐng)域?qū)嵱眯暂^差的問題。因此,有必要?jiǎng)?chuàng)建一種專門針對農(nóng)業(yè)垂直領(lǐng)域的新型知識發(fā)現(xiàn)工具,這便是開發(fā)農(nóng)知搜索的重要原因。

2 農(nóng)知搜索的設(shè)計(jì)思路

產(chǎn)品設(shè)計(jì)的成功首先要滿足用戶需求,農(nóng)知搜索在設(shè)計(jì)之初就重點(diǎn)分析了農(nóng)業(yè)領(lǐng)域的知識發(fā)現(xiàn)需求。根據(jù)Huurdeman[9]及甘利人等[10]的學(xué)術(shù)信息查詢模型,用戶與學(xué)術(shù)搜索工具的交互是個(gè)多次重復(fù)、逐漸聚焦的過程。在大數(shù)據(jù)與算法時(shí)代的背景下,一方面學(xué)術(shù)資源呈爆炸式增長,知識成果發(fā)表及傳播的頻率加快,知識更新速度快;另一方面,人工智能、云計(jì)算等技術(shù)生態(tài)體系的逐漸完善,為實(shí)時(shí)化、自動化、智能化處理大規(guī)模數(shù)字資源并實(shí)現(xiàn)深度挖掘與分析提供了工具級支撐。這種新形勢下,農(nóng)業(yè)領(lǐng)域用戶在資源發(fā)現(xiàn)渠道選擇、知識獲取、知識利用及領(lǐng)域偏好上呈現(xiàn)出新的需求特征,對這些需求的滿足決定了農(nóng)知搜索建設(shè)框架和核心功能的設(shè)計(jì)。

2.1 資源發(fā)現(xiàn)多渠道一體化

新媒體及融媒體技術(shù)的不斷發(fā)展帶動了音視頻及網(wǎng)絡(luò)文獻(xiàn)等更多類學(xué)術(shù)知識載體的出現(xiàn)。與此同時(shí),數(shù)字化手段及互聯(lián)網(wǎng)技術(shù)的發(fā)展,論文、專利、報(bào)告等各類學(xué)術(shù)資源的出版源、流通源及保存源的低門檻化現(xiàn)象普遍,學(xué)術(shù)信息孤島問題依然存在。楊剛等[11]針對高校研究者信息行為的實(shí)證分析表明,近70%高校研究者認(rèn)為有效信息資源匱乏、有效途徑掌握不全面、檢索方式掌握不全面是獲取科研信息資源的最大障礙。新形勢下,學(xué)術(shù)資源類型繁雜且源頭分散使得用戶傾向于使用一體化的資源發(fā)現(xiàn)渠道,資源收錄范圍及來源的全面性成為用戶選用知識發(fā)現(xiàn)工具的重要考慮因素。

2.2 知識獲取便捷化

學(xué)術(shù)資源全文是知識的最終呈現(xiàn)形態(tài),獲取全文是學(xué)術(shù)用戶使用知識發(fā)現(xiàn)工具的核心目的。按照來源劃分,學(xué)術(shù)資源主要包括訂購資源、開放資源及自建資源。對應(yīng)地,其全文獲取方式主要包括訂閱授權(quán)、開放獲取及專業(yè)服務(wù)渠道等,其中專業(yè)服務(wù)渠道是指由圖書情報(bào)機(jī)構(gòu)提供的專業(yè)資源保障服務(wù),包括文獻(xiàn)傳遞、館際互借及到館下載等。時(shí)間、物資投入、注意力及信息服務(wù)支付是用戶資源獲取的4項(xiàng)成本[12],在線下載相比于文獻(xiàn)傳遞等方式具有較低的獲取成本。Deng[13]和Boukacem-Zeghmouri等[14]的實(shí)證研究均證明,近年來學(xué)術(shù)用戶通過在線下載獲取的全文數(shù)量在快速增長。泛在知識環(huán)境下用戶的期望在不斷提高,相比于利用數(shù)據(jù)庫進(jìn)行深入檢索,用戶更樂于通過搜索引擎、移動通信工具等簡單便捷的途徑直接獲取學(xué)術(shù)資源全文[15-16]。

2.3 知識利用細(xì)粒度關(guān)聯(lián)化

目前的學(xué)術(shù)用戶大都為數(shù)字原生代,他們天生習(xí)慣于使用各種數(shù)字時(shí)代的技術(shù)和工具來獲取知識和解決問題[17]。學(xué)術(shù)資源數(shù)量冗余及資源質(zhì)量不均衡的問題使得用戶遴選、識別知識對象及發(fā)現(xiàn)有效關(guān)聯(lián)線索變得困難。隨著人工智能等新技術(shù)在知識發(fā)現(xiàn)工具上的應(yīng)用,Yewno、AI2 Semantic Search、Connected papers等AI驅(qū)動的新型知識發(fā)現(xiàn)工具一經(jīng)問世就收獲諸多關(guān)注。用戶迫切需要除單純展示原始檢索條目外,通過自動化手段實(shí)現(xiàn)對目標(biāo)文獻(xiàn)的主題及關(guān)鍵知識點(diǎn)等細(xì)粒度揭示,同時(shí)提供關(guān)聯(lián)知識的跳轉(zhuǎn)鏈接,減少手動再次檢索時(shí)間,提高學(xué)術(shù)知識獲取效率。

2.4 領(lǐng)域資源權(quán)威性

農(nóng)業(yè)學(xué)科屬于自然科學(xué)類研究,在科研第四范式背景下,其科學(xué)研究呈現(xiàn)數(shù)據(jù)驅(qū)動、跨領(lǐng)域縱深融合等特征,以農(nóng)作物全基因組選擇育種、作物病蟲害遙感檢測與預(yù)測為例,這類科研活動需要極大規(guī)模數(shù)據(jù)資源來提供支撐[18]。作為研究客體,各類數(shù)據(jù)集規(guī)范性和準(zhǔn)確度直接影響領(lǐng)域科研成果的質(zhì)量。此外,論文、報(bào)告等其他類學(xué)術(shù)資源作為科學(xué)研究的重要資料,其質(zhì)量和領(lǐng)域相關(guān)度也尤為重要。因此,通過領(lǐng)域知識發(fā)現(xiàn)工具有效收集領(lǐng)域內(nèi)權(quán)威來源的各類學(xué)術(shù)資源,同時(shí)要求這些學(xué)術(shù)資源是高質(zhì)量、高時(shí)效且規(guī)范完整的,便是用戶對農(nóng)業(yè)知識發(fā)現(xiàn)工具的重要訴求。

3 農(nóng)知搜索的建設(shè)框架

通過對農(nóng)業(yè)領(lǐng)域知識發(fā)現(xiàn)需求的分析,中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所在研建農(nóng)知搜索時(shí)將資源收錄全面性、知識揭示細(xì)粒度、全文保障可靠度及領(lǐng)域資源權(quán)威性作為總體設(shè)計(jì)目標(biāo),基于對Solr開放框架的二次開發(fā)研建了該工具。其建設(shè)框架可被劃分為四層:資源匯聚層、預(yù)索引層、核心模型層及交互服務(wù)層(見圖1)。

3.1 資源匯聚層

資源匯聚層主要實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的獲取、組織及長期保存,包括資源獲取、資源規(guī)范化及資源融合3項(xiàng)工作。資源獲取是通過明確科技期刊、圖書、會議論文、特色報(bào)告及行業(yè)資訊等多類農(nóng)業(yè)領(lǐng)域科技資源的權(quán)威來源,采用自建加工、合作采購及網(wǎng)絡(luò)爬取等多種方式實(shí)現(xiàn)對大規(guī)模資源的定期自動化獲取。資源規(guī)范化是指遵循數(shù)據(jù)規(guī)范完成各類資源數(shù)據(jù)的去重、異常條目清洗及關(guān)鍵字段補(bǔ)齊。資源融合則是針對多源數(shù)據(jù),通過關(guān)鍵字段比對等規(guī)則實(shí)現(xiàn)資源的數(shù)據(jù)級融合及有效溯源。

3.2 預(yù)索引層

預(yù)索引層以solr IKAnalyzer和schema xml為依據(jù),通過文本分詞、知識標(biāo)引及倒排索引實(shí)現(xiàn)多維語義索引群的構(gòu)建。文本分詞是指為IKAnalyzer配置同義、擴(kuò)展及停用詞庫,通過IKAnalyzer分詞器將資源關(guān)鍵字段文本中的連續(xù)字序列切分為詞序列。知識標(biāo)引包括主題標(biāo)引與量化值標(biāo)引。主題標(biāo)引是指通過主題抽取及文本補(bǔ)齊方法完成對資源的核心主題標(biāo)注;量化值標(biāo)引是將按照結(jié)果排序規(guī)則設(shè)計(jì)中參與計(jì)算的字段的量化分值預(yù)先寫入資源字段中。進(jìn)行文本分詞和知識標(biāo)引后,遴選各類資源的索引、檢索、分面字段及分詞器調(diào)用信息寫入schema xml文件,完成資源索引規(guī)范設(shè)計(jì)及分析器配置,將資源索引文本進(jìn)行正向迭代最細(xì)粒度切分并生成倒排索引庫,該庫以反向索引的形式存儲全文中某個(gè)單詞對資源文檔的映射關(guān)系。

3.3 核心模型層

核心模型層集成了支撐農(nóng)知搜索各項(xiàng)知識服務(wù)的關(guān)鍵工具與算法,主要包括推理擴(kuò)展、實(shí)體命中、多因子排序、情景敏感及關(guān)聯(lián)發(fā)現(xiàn)5項(xiàng)模型。

3.3.1 基于詞表本體的推理擴(kuò)展模型

領(lǐng)域敘詞表是可以將文獻(xiàn)、標(biāo)引人員或用戶的自然語言轉(zhuǎn)換成規(guī)范化語言的術(shù)語控制工具。敘詞表的本體化是指將知識組織體系進(jìn)行語義化表達(dá),以幫助計(jì)算機(jī)理解自然語言輸入,保證詞間關(guān)系可被計(jì)算機(jī)理解,從而實(shí)現(xiàn)對原始輸入的建模、推理及擴(kuò)展。通過識別農(nóng)業(yè)領(lǐng)域知識敘詞間的同義、相關(guān)及歸屬關(guān)系,將敘詞及詞間關(guān)系批量轉(zhuǎn)化為owl/xml形式并封裝成CAT-DIC詞典配置進(jìn)Lucece-SKOS的分析插件,構(gòu)建農(nóng)知搜索推理擴(kuò)展模型[19]。該模型實(shí)現(xiàn)原理如圖2所示,其可被solr IKAnalyzer調(diào)用,以支持跨語種、智能擴(kuò)展的語義檢索效果。

3.3.2 基于名稱規(guī)范庫的實(shí)體命中模型

實(shí)體命中主要解決人物、地點(diǎn)及機(jī)構(gòu)等多類實(shí)體的邊界確定及類型識別問題。農(nóng)業(yè)知識發(fā)現(xiàn)場景中,常見命名實(shí)體包括領(lǐng)域?qū)<?、專業(yè)機(jī)構(gòu)、領(lǐng)域期刊及人畜共患病等。農(nóng)知搜索通過對資源池的關(guān)鍵字段識別、數(shù)據(jù)抽取合并及規(guī)范化構(gòu)建命名實(shí)體名稱規(guī)范庫,并設(shè)計(jì)識別規(guī)則,在檢索觸發(fā)時(shí)自動識別用戶輸入文本中的命名實(shí)體,推理用戶可能的檢索意圖,提供引導(dǎo)式檢索效果以幫助用戶完成檢索,該模型實(shí)現(xiàn)原理如圖3所示。

3.3.3 基于位置和詞頻加權(quán)的多因子排序模型

農(nóng)知搜索應(yīng)用詞頻和位置加權(quán)算法設(shè)計(jì)了多因子排序模型,適應(yīng)資源特點(diǎn),將農(nóng)業(yè)知識資源劃分為文獻(xiàn)類、專利類、專家類及數(shù)據(jù)類,使用詞頻和位置加權(quán)算法為對應(yīng)類型資源設(shè)計(jì)了定制化排序模型(見表1),之后調(diào)用solr框架中edismax查詢解析器寫入自定義的排序計(jì)算模型,根據(jù)相關(guān)度得分結(jié)果降序呈現(xiàn)檢索命中結(jié)果集。

3.3.4 支撐智能獲取的情景敏感模型

農(nóng)知搜索的情景敏感模型主要基于本地情景敏感和OpenURL雙層框架實(shí)現(xiàn)適應(yīng)實(shí)時(shí)情景給出可訪問全文路徑。首先通過本地情景敏感調(diào)用資源調(diào)度知識庫定位當(dāng)前訪客可用服務(wù),之后將目標(biāo)資源參數(shù)傳送至遵循OpenURL協(xié)議的鏈接解析器,由其返回可用鏈接。該模型實(shí)現(xiàn)原理如圖4所示,包括一庫兩流程,其中一庫為資源調(diào)度知識庫,兩大流程則是本地情景敏感判定和鏈接解析。資源調(diào)度知識庫主要登記保存用戶、IP策略、服務(wù)開通范圍與方式、權(quán)限設(shè)置等信息,同時(shí)預(yù)置了資源的全文解析策略、資源與服務(wù)的優(yōu)先提供規(guī)則。本地情景敏感判定以當(dāng)前點(diǎn)擊資源信息及實(shí)時(shí)情景數(shù)據(jù)作為輸入,調(diào)用知識庫中預(yù)存規(guī)則,給出適應(yīng)當(dāng)前用戶及訪問情景的全文可用渠道及方式。鏈接解析是指基于OpenURL框架,調(diào)用情景敏感給出的電子全文目標(biāo)庫,輸入目標(biāo)資源的文獻(xiàn)參數(shù),給出適應(yīng)訪客權(quán)限及上下文的資源全文服務(wù)鏈接集合,并推送至前端。

3.3.5 跨域關(guān)聯(lián)發(fā)現(xiàn)模型

跨域關(guān)聯(lián)發(fā)現(xiàn)是指在資源檢索基礎(chǔ)上根據(jù)用戶檢索需求返回專業(yè)知識應(yīng)用、自建??瓤珙愋椭R資源,以實(shí)現(xiàn)細(xì)粒度及關(guān)聯(lián)化的知識發(fā)現(xiàn)效果。農(nóng)知搜索的關(guān)聯(lián)發(fā)現(xiàn)模型通過預(yù)先設(shè)計(jì)的命中優(yōu)先級別與觸發(fā)詞支持特定輸入對專業(yè)知識應(yīng)用等多類型資源的召回需求,根據(jù)知識映射關(guān)系,在前端頁面的框計(jì)算位置對應(yīng)呈現(xiàn)知識應(yīng)用、自建??鞍倏频鹊年P(guān)聯(lián)檢索效果。

3.4 交互服務(wù)層

交互服務(wù)層是農(nóng)知搜索與終端用戶的交互媒介,該層以統(tǒng)一檢索、智能獲取、框計(jì)算及輔助服務(wù)等形式為用戶提供一站式領(lǐng)域知識發(fā)現(xiàn)服務(wù)。統(tǒng)一檢索是指以一體化檢索文本框?yàn)槿肟?,接收用戶檢索詞,并觸發(fā)農(nóng)知搜索的多類型資源整合檢索效果;智能獲取是指通過實(shí)時(shí)情景判定,自適應(yīng)式給出目標(biāo)資源的備選獲取渠道;框計(jì)算是指以框的形式呈現(xiàn)跨應(yīng)用、百科及資源等多類型知識的關(guān)聯(lián)發(fā)現(xiàn)效果;輔助服務(wù)則是提供包括智能分面、引文導(dǎo)出、檢索報(bào)告、學(xué)術(shù)趨勢分析、收藏分析、檢索歷史等多項(xiàng)服務(wù)。

4 農(nóng)知搜索的核心功能

農(nóng)知搜索遴選領(lǐng)域權(quán)威數(shù)據(jù)源,整合了包括中外文期刊、科學(xué)數(shù)據(jù)、行業(yè)資訊、政策法規(guī)、基金項(xiàng)目、行業(yè)報(bào)告等10余類資源,通過核心模型的挖掘和組織,為農(nóng)業(yè)領(lǐng)域?qū)W術(shù)用戶提供包括語義檢索、智能獲取、框計(jì)算、檢索報(bào)告、引導(dǎo)式發(fā)現(xiàn)及可視化分析六位一體的核心知識發(fā)現(xiàn)功能。

4.1 基于受控詞表的語義檢索功能

農(nóng)知搜索基于領(lǐng)域敘詞表調(diào)用Lucene-skos組件實(shí)現(xiàn)對檢索文本中主題詞的實(shí)時(shí)翻譯,同義及上下位等語義關(guān)系詞擴(kuò)展,以此提供跨語種、自動擴(kuò)展的語義檢索服務(wù);此外,農(nóng)知搜索基于領(lǐng)域敘詞表CAT封裝主題詞查詢接口,在檢索結(jié)果頁提供對檢索詞的語義關(guān)系詞的智能推薦。以“protein”為例,農(nóng)知搜索可給出譯詞“蛋白質(zhì)”及同義詞的擴(kuò)展檢索結(jié)果,此外,在檢索結(jié)果列表的上方給出語義相關(guān)詞的推薦結(jié)果。

4.2 基于情景敏感的智能獲取功能

農(nóng)知搜索基于情景敏感模型提供多種全文獲取途徑的自適應(yīng)發(fā)現(xiàn)及推薦。根據(jù)用戶訪問IP與身份信息,明確用戶所屬機(jī)構(gòu)及當(dāng)前訪問環(huán)境信息,并根據(jù)預(yù)設(shè)匹配規(guī)則從情景敏感知識庫中查找目標(biāo)文獻(xiàn)信息的來源渠道,調(diào)用三方鏈接解析工具,給出目標(biāo)文獻(xiàn)的在線獲取渠道,同時(shí)組合文獻(xiàn)傳遞及代查代借等多種渠道,自適應(yīng)地給出資源獲取的多源快捷入口。

4.3 支撐關(guān)聯(lián)揭示的框計(jì)算功能

框計(jì)算是指以“框”來接收服務(wù)需求,系統(tǒng)能明確識別這種需求,并將該需求分配給最優(yōu)的內(nèi)容資源或應(yīng)用提供商處理,最終精準(zhǔn)高效地返回給用戶相匹配的結(jié)果[8]。農(nóng)知搜索基于框計(jì)算概念,整合農(nóng)業(yè)專業(yè)領(lǐng)域各類結(jié)構(gòu)化數(shù)據(jù)及知識應(yīng)用,識別檢索需求,返回與該需求最相關(guān)的資源及應(yīng)用服務(wù)的入口,目前框計(jì)算已支持的數(shù)據(jù)服務(wù)包括自建知識專題、自建產(chǎn)業(yè)專題及農(nóng)業(yè)百科;已支持的應(yīng)用服務(wù)包括國際農(nóng)產(chǎn)品貿(mào)易分析、畜禽飼料分析、經(jīng)濟(jì)統(tǒng)計(jì)分析等。通過對數(shù)據(jù)及應(yīng)用的主題標(biāo)引及觸發(fā)規(guī)則設(shè)計(jì),當(dāng)目標(biāo)檢索詞命中主題時(shí)觸發(fā)框計(jì)算服務(wù)效果。

4.4 支持一鍵生成的檢索報(bào)告功能

農(nóng)知搜索以檢索報(bào)告的形式為用戶提供檢索結(jié)果的快速導(dǎo)出及報(bào)告一鍵生成,該服務(wù)基于預(yù)設(shè)模板,自動抽取、合并各類資源檢索結(jié)果的關(guān)鍵字段,快速生成報(bào)告文本,可為農(nóng)業(yè)領(lǐng)域?qū)W術(shù)用戶批量導(dǎo)出檢索結(jié)果集,為進(jìn)一步的數(shù)據(jù)分析與應(yīng)用提供媒介支撐。

4.5 基于實(shí)體命中的引導(dǎo)式發(fā)現(xiàn)功能

目前農(nóng)知搜索基于命名實(shí)體識別模型支持對農(nóng)業(yè)領(lǐng)域?qū)<翌惣皺C(jī)構(gòu)類實(shí)體的識別與引導(dǎo)式發(fā)現(xiàn),農(nóng)知搜索以用戶檢索詞為輸入,實(shí)時(shí)查詢自建命名實(shí)體規(guī)范庫,根據(jù)返回結(jié)果給出結(jié)論,如當(dāng)前檢索詞觸發(fā)了實(shí)體命中效果,則農(nóng)知搜索的默認(rèn)檢索結(jié)果列表上方給出對應(yīng)類型的引導(dǎo)式發(fā)現(xiàn)提示。

4.6 基于實(shí)時(shí)計(jì)算的可視化分析功能

農(nóng)知搜索實(shí)現(xiàn)了對興趣主題的學(xué)術(shù)趨勢分析,以檢索結(jié)果集為輸入,通過內(nèi)嵌的文本及數(shù)值計(jì)算引擎實(shí)現(xiàn)對檢索結(jié)果的計(jì)量分析及可視化呈現(xiàn)。其中文本可視化以檢索結(jié)果集的主題詞集為對象,通過詞頻統(tǒng)計(jì)及主題共現(xiàn)關(guān)系,提供目標(biāo)檢索相關(guān)的研究熱點(diǎn)及主題網(wǎng)絡(luò)的可視化;數(shù)值可視化是以檢索結(jié)果集在發(fā)表年份、研究機(jī)構(gòu)、作者、收錄期刊及基金項(xiàng)目等維度上的數(shù)值分布為對象,可視化呈現(xiàn)主題內(nèi)發(fā)文趨勢及高產(chǎn)實(shí)體。

5 農(nóng)知搜索的應(yīng)用效果評價(jià)

學(xué)界已有不少針對知識發(fā)現(xiàn)系統(tǒng)和學(xué)術(shù)搜索引擎的測評。王悅辰[20]從整合資源、發(fā)現(xiàn)知識、知識關(guān)聯(lián)與預(yù)測、文獻(xiàn)獲取方便度、個(gè)性化服務(wù)及系統(tǒng)聯(lián)機(jī)幫助6個(gè)方面對比測評了中國學(xué)術(shù)搜索、超星發(fā)現(xiàn)系統(tǒng)、智立方發(fā)現(xiàn)系統(tǒng)及學(xué)知搜索4款知識發(fā)現(xiàn)系統(tǒng);王新才[21]從元數(shù)據(jù)收錄、檢索功能、數(shù)據(jù)挖掘與個(gè)性化服務(wù)3個(gè)維度對比了知識發(fā)現(xiàn)系統(tǒng)超星發(fā)現(xiàn)與學(xué)術(shù)搜索引擎百度學(xué)術(shù);劉敏[22]從文獻(xiàn)來源、檢索功能、檢索結(jié)果和個(gè)性化服務(wù)4方面對比了4款中外學(xué)術(shù)搜索引擎;Brophy等[23]從索引規(guī)模、檢索準(zhǔn)確率、結(jié)果數(shù)量及可獲得性等維度測評了谷歌搜索與圖書館學(xué)術(shù)搜索系統(tǒng); Gusenbauer[24]測評了谷歌學(xué)術(shù)等12款學(xué)術(shù)搜索引擎的索引規(guī)模;Ortega[25]從功能、結(jié)構(gòu)、索引規(guī)模和檢索效果4個(gè)維度對比測評了CiteSeer、微軟學(xué)術(shù)等6款學(xué)術(shù)搜索引擎;韓小莉等[26]從關(guān)鍵詞檢索、作者檢索等方面詳細(xì)測評了谷歌學(xué)術(shù)與中國知網(wǎng)的檢索功能;侯躍芳等[27]從檢索方法、檢索結(jié)果及結(jié)果輸出格式3個(gè)維度對比了PubMed及谷歌學(xué)術(shù)等的檢索功能??傊槍χR發(fā)現(xiàn)系統(tǒng)的測評體系較為綜合,針對學(xué)術(shù)搜索引擎的測評則相對細(xì)致,更側(cè)重圍繞檢索功能設(shè)計(jì)測評指標(biāo)。本文在借鑒前人相關(guān)測評的基礎(chǔ)上,結(jié)合農(nóng)知搜索的功能定位,綜合考量各因素提出學(xué)術(shù)搜索引擎的測評標(biāo)準(zhǔn)(見表2)。以下選定泛在學(xué)術(shù)搜索引擎谷歌學(xué)術(shù)與農(nóng)業(yè)領(lǐng)域知識發(fā)現(xiàn)系統(tǒng)AGRICOLA和AGRIS作為參照對象,依次開展了上述4個(gè)維度的對比以測評農(nóng)知搜索的整體應(yīng)用效果。

5.1 資源收錄表現(xiàn)

資源收錄上,4種工具的對比表現(xiàn)如表3所示,只有谷歌學(xué)術(shù)索引規(guī)模為上億級別,農(nóng)知搜索的索引規(guī)模遠(yuǎn)超過AGRICOLA和AGRIS。資源類型上,4種工具均以文獻(xiàn)類資源為核心,在不同程度上拓展了科學(xué)報(bào)告及科學(xué)數(shù)據(jù)等類型資源,農(nóng)知搜索則涵蓋了文獻(xiàn)類、專利類、數(shù)據(jù)類及資訊類資源,資源多元化程度更高。資源來源遴選上,谷歌學(xué)術(shù)采集了所有符合爬取規(guī)則的全球全學(xué)科的學(xué)術(shù)網(wǎng)絡(luò)資源;AGRICOLA的資源以美國國家農(nóng)業(yè)圖書館館藏資源為主;AGRIS數(shù)據(jù)來自于全球500余家各類數(shù)據(jù)供應(yīng)者,只要滿足其數(shù)據(jù)提供條件即可申請成為AGRIS的數(shù)據(jù)供應(yīng)者;農(nóng)知搜索在國家科技圖書文獻(xiàn)中心及國家農(nóng)業(yè)圖書館館藏資源基礎(chǔ)上,遴選確定了全球上千個(gè)領(lǐng)域權(quán)威信息源。

5.2 檢索功能表現(xiàn)

檢索功能主要測評檢索工具是否提供多種備選資源檢索模式以響應(yīng)不同的檢索需求。檢索功能上,農(nóng)知搜索與AGRIS均基于專業(yè)詞表支持跨語言的檢索效果。谷歌學(xué)術(shù)、AGRICOLA與AGRIS的整體檢索功能以資源一鍵檢索功能為主,農(nóng)知搜索則考慮了一些附加功能,其通過瀏覽式檢索功能以滿足無目的性知識發(fā)現(xiàn)需求是其他3種檢索工具都不具備的。

5.3 檢索效果表現(xiàn)

檢索效果主要測評檢索性能及返回結(jié)果的有效性,該維度以量化指標(biāo)為主。選擇國家農(nóng)業(yè)圖書館歷史檢索數(shù)據(jù)中使用頻率最高的10個(gè)中文檢索詞(大豆、水稻、小麥、玉米、瓜葉菊、秸稈還田、棉花、辣椒、馬鈴薯、草莓)及對照英文檢索詞作為測試詞集。

4種工具在檢索效果各項(xiàng)指標(biāo)上的測評結(jié)果如表4所示。以谷歌學(xué)術(shù)作為查全率測試基準(zhǔn),農(nóng)知搜索在查全率表現(xiàn)上遠(yuǎn)優(yōu)于AGRICOLA和AGRIS兩種知識發(fā)現(xiàn)工具;通過人工核對前3頁檢索結(jié)果與檢索主題的相關(guān)性來確定查準(zhǔn)率,結(jié)果農(nóng)知搜索優(yōu)于AGRIS、谷歌學(xué)術(shù)、AGRICOLA;同時(shí)農(nóng)知搜索以免費(fèi)在線下載+快速文獻(xiàn)傳遞服務(wù)的方式保證了目標(biāo)資源的全文可獲取率,谷歌學(xué)術(shù)與AGRIS以免費(fèi)在線下載的方式提供部分資源的全文可獲取,全文保障率均不足50%,AGRICOLA則是只允許館內(nèi)注冊用戶獲取全文,未面向泛在用戶提供服務(wù);農(nóng)知搜索與谷歌學(xué)術(shù)目前僅只支持日期或相關(guān)度降序排列檢索結(jié)果,同時(shí)均結(jié)合資源的內(nèi)容屬性對相關(guān)度排序策略進(jìn)行了改造。

5.4 個(gè)性化服務(wù)表現(xiàn)

個(gè)性化服務(wù)主要測評工具的易用性及輔助功能的完備性,其主要測評指標(biāo)包括相關(guān)推薦、引文數(shù)據(jù)展示、引用導(dǎo)出、分面篩選、檢索歷史、WEB2.0及關(guān)聯(lián)發(fā)現(xiàn)等。綜合來看,農(nóng)知搜索提供較全面的個(gè)性化服務(wù)功能,在檢索結(jié)果頁關(guān)聯(lián)呈現(xiàn)包括應(yīng)用及百科等多類知識對象的關(guān)聯(lián)揭示,提供相關(guān)資源及知識應(yīng)用推薦、檢索歷史功能,支持常見格式的引用導(dǎo)出及分面篩選,并在資源詳情頁提供引文數(shù)據(jù)展示及收藏、分享等系列WEB2.0功能。谷歌學(xué)術(shù)、AGRICOLA、AGRIS 3種工具則是均提供引用導(dǎo)出及WEB2.0等常規(guī)功能,對特色個(gè)性化服務(wù)功能的支持有限。

6 結(jié)論

通過資源收錄、檢索功能、檢索效果及個(gè)性化服務(wù)4個(gè)維度的對比,農(nóng)知搜索在資源收錄全面性、資源檢索智能性、全文有效保障率及輔助功能完備性等方面可達(dá)到應(yīng)用級知識發(fā)現(xiàn)工具的一般標(biāo)準(zhǔn),而且其在中文資源的收錄和檢索功能設(shè)計(jì)上具有明顯的優(yōu)勢,因此其研建與發(fā)布可成為國際農(nóng)業(yè)領(lǐng)域?qū)W術(shù)知識發(fā)現(xiàn)與供給的有效補(bǔ)充。

由于跨域關(guān)聯(lián)功能及輔助檢索功能的加載使得其響應(yīng)速度相對較慢,性能問題是農(nóng)知搜索下一步優(yōu)化與升級的重點(diǎn);此外,緊跟新型知識發(fā)現(xiàn)工具的發(fā)展趨勢,推進(jìn)深度學(xué)習(xí)等新技術(shù)在檢索排序、意圖識別等學(xué)術(shù)知識發(fā)現(xiàn)關(guān)鍵環(huán)節(jié)的應(yīng)用與工程化實(shí)現(xiàn)可以進(jìn)一步提升農(nóng)知搜索的語義化、智能化發(fā)現(xiàn)水平,也是農(nóng)知搜索的重點(diǎn)任務(wù)之一。

[1] 李明. 創(chuàng)新思維與文獻(xiàn)驅(qū)動[M]. 北京:科學(xué)出版社,2017.

[2] LOSSAU N,SUMMANN F. Search engine technology and digital libraries-Moving from theory to practice[J]. D-Lib Magazine,2004(9):1-5.

[3] 張晗,畢強(qiáng),許鵬程. 圖書館知識發(fā)現(xiàn)系統(tǒng)與用戶交互模型構(gòu)建[J]. 情報(bào)資料工作,2018(4):15-23.

[4] 劉江玲. 面向大數(shù)據(jù)的知識發(fā)現(xiàn)系統(tǒng)研究[J]. 情報(bào)科學(xué),2014,32(3):90-92.

[5] 陸韡. 面向OA資源的圖書館知識發(fā)現(xiàn)系統(tǒng)應(yīng)用研究[J]. 圖書館工作與研究,2019,1(10):83-88.

[6] LI H,COUNCILL I,LEE W C,et al. CiteSeerx:an architecture and web service design for an academic document search engine[C]//Proceedings of the 15th International Conference on World Wide Web. 2006:883-884.

[7] FATIMA A,LUCA C,WILSON G. New framework for semantic search engine[C]//2014 UKSim-AMSS 16th International Conference on Computer Modelling and Simulation. IEEE,2014:446-451.

[8] CHOOCHAIWATTANA W. An Architecture of an Academic Search Engine with Personalized Search Result Ranking Mechanism[C]//Proceedings of the 5th International Conference on Network,Communication and Computing. 2016:161-165.

[9] HUURDEMAN H C,KAMPS J. Designing multistage search systems to support the information seeking process[M]//Understanding and Improving Information Search. Springer,2020:113-137.

[10] 甘利人,岑詠華. 科技用戶信息搜索行為影響因素研究[J]. 情報(bào)理論與實(shí)踐,2007,30(2):156-160.

[11] 楊剛,袁功名,徐韻影. 新媒體環(huán)境下科研信息行為與特征分析[J]. 圖書情報(bào)工作,2018,62(3):78-85.

[12] 鄧靈斌,東方. 信息資源獲取的成本和策略研究[J]. 情報(bào)科學(xué),2006,24(12):1828-1831,1840.

[13] DENG H P. Emerging patterns and trends in utilizing electronic resources in a higher education environment[J]. New Library World,2010,111(3/4):87-103.

[14] BOUKACEM-ZEGHMOURI C,SCH?PFEL J. On the usage of e-journals in French universities[J]. Serials The Journal for the Serials Community,2008,21(2):121-126.

[15] LO P,CHO A,LAW B K K,et al. Progressive trends in electronic resources management among academic libraries in Hong Kong[J]. Library Collections,Acquisitions & Technical Services,2017,40(1/2):28-37.

[16] 何雪梅,羅藝,鄧發(fā)云,等. 泛在知識環(huán)境下大學(xué)生信息檢索行為特征分析[J]. 四川圖書館學(xué)報(bào),2016(3):46-49.

[17] SELWYN N. The digital native-myth and reality[C]//Aslib proceedings. Emerald Group Publishing Limited,2009.

[18] 周國民:中國農(nóng)科院科研管理信息化的思考[EB/OL].[2020-12-31]. http://caas.cn/xwzx/zjgd/296615.html.

[19] 鮮國建,趙瑞雪,寇遠(yuǎn)濤,等. 農(nóng)業(yè)科學(xué)敘詞表關(guān)聯(lián)數(shù)據(jù)構(gòu)建研究與實(shí)踐[J]. 現(xiàn)代圖書情報(bào)技術(shù),2013(11):8-14.

[20] 王悅辰. 國內(nèi)四大中文知識發(fā)現(xiàn)系統(tǒng)比較分析[J]. 圖書館工作與研究,2015(9):42-45.

[21] 王新才. 知識發(fā)現(xiàn)系統(tǒng)與通用學(xué)術(shù)搜索引擎文獻(xiàn)資源比較研究——以超星發(fā)現(xiàn)和百度學(xué)術(shù)為例[J]. 福建論壇(人文社會科學(xué)版),2018(4):164-172.

[22] 劉敏. 中英文學(xué)術(shù)搜索引擎的對比研究[J]. 圖書館學(xué)研究,2014(24):29-35.

[23] BROPHY J,BAWDEN D. Is Google enough? Comparison of an internet search engine with academic library resources[C]//Aslib Proceedings. Emerald Group Publishing Limited,2005.

[24] GUSENBAUER M. Google Scholar to overshadow them all? Comparing the sizes of 12 academic search engines and bibliographic databases[J]. Scientometrics,2019,118:177-214.

[25] ORTEGA J L. Academic search engines:a quantitative outlook[M]. Amsterdam:Elsevier,2014.

[26] 韓小莉,李恩科,康延興,等. Google學(xué)術(shù)搜索及其與CNKI檢索功能的對比[J]. 情報(bào)雜志,2009,28(S2):182-183,199.

[27] 侯躍芳,趙玉虹,龔黛琛. Google Scholar,Scirus及PubMed檢索功能對比研究[J]. 醫(yī)學(xué)信息學(xué)雜志,2009,30(7):12-16.

Construction and Application of Nongzhi Search: An Agricultural Knowledge Discovery Tool

ZHANG Jie1ZHAO RuiXue1,2KOU YuanTao1,2XIAN GuoJian1,2

( 1. Agricultural Information Institute of Chinese Academy of Agricultural Sciences, Beijing 100081, China; 2. Key Laboratory of Key Laboratory of Agricultural Big Data, Ministry of Agriculture and Rural Affairs, Beijing 100081, China )

This article pinpoints the construction goals of Nongzhi Search through elaboration of agricultural knowledge discovery demands under new situation, puts forward the construction framework of Nongzhi Search and introduces its “Six in One” functions in detail. Finally, this article verifies the application effect of Nongzhi Search from four dimensions of resource collection, retrieval function, retrieval results and personalized service. The construction and release of Nongzhi Search is an important supplement of knowledge discovery tools within the international agricultural domain.

Academic Knowledge Discovery; Nongzhi Search; Domain Knowledge Service

G252.7

10.3772/j.issn.1673-2286.2021.01.006

張潔,趙瑞雪,寇遠(yuǎn)濤,等. 農(nóng)業(yè)領(lǐng)域知識發(fā)現(xiàn)工具的構(gòu)建與應(yīng)用——以農(nóng)知搜索為例[J]. 數(shù)字圖書館論壇,2021(1):38-46.

*本研究得到中國工程科技知識中心建設(shè)子項(xiàng)目“農(nóng)業(yè)專業(yè)知識服務(wù)系統(tǒng)”(編號:CKCEST-2019-1-1)資助。

張潔,女,1991年生,碩士,館員,研究方向:數(shù)字圖書館構(gòu)建關(guān)鍵技術(shù)。

趙瑞雪,女,1968年生,博士,研究員,通信作者,研究方向:農(nóng)業(yè)信息管理,E-mail:zhaoruixue@caas.cn。

寇遠(yuǎn)濤,男,1982年生,博士,研究員,研究方向:信息系統(tǒng)與數(shù)字圖書館關(guān)鍵技術(shù)。

鮮國建,男,1982年生,博士,研究員,研究方向:知識組織與知識服務(wù)。

(收稿日期:2021-01-01)

猜你喜歡
檢索工具學(xué)術(shù)
波比的工具
波比的工具
如何理解“Curator”:一個(gè)由翻譯引發(fā)的學(xué)術(shù)思考
中國博物館(2019年2期)2019-12-07 05:40:44
2019年第4-6期便捷檢索目錄
對學(xué)術(shù)造假重拳出擊
商周刊(2019年2期)2019-02-20 01:14:22
“巧用”工具
讀者(2017年18期)2017-08-29 21:22:03
專利檢索中“語義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
學(xué)術(shù)
國際標(biāo)準(zhǔn)檢索
國際標(biāo)準(zhǔn)檢索
瑞金市| 广州市| 泊头市| 永德县| 泸溪县| 徐水县| 祁连县| 当涂县| 潼关县| 邳州市| 宜宾县| 彰化县| 抚宁县| 密山市| 湖南省| 陇南市| 吐鲁番市| 大同县| 乌海市| 珲春市| 鄱阳县| 文登市| 泸溪县| 浮梁县| 潞城市| 尚义县| 和林格尔县| 临猗县| 葵青区| 阆中市| 罗山县| 霍州市| 昌宁县| 汝城县| 曲周县| 修水县| 铜梁县| 米易县| 贵港市| 孟津县| 宁都县|