姚遠(yuǎn) 徐世東 郝群 盧建秋
摘要:大數(shù)據(jù)時代,數(shù)據(jù)成為一種重要的生產(chǎn)因素。高校圖書館運(yùn)用大數(shù)據(jù)技術(shù),深入挖掘?qū)W術(shù)科研數(shù)據(jù)和讀者學(xué)術(shù)行為數(shù)據(jù),幫助讀者獲得學(xué)術(shù)資源中的隱性知識、掌握前瞻性的研究視野、建立完善的知識結(jié)構(gòu)、提升讀者的知識創(chuàng)新能力,從而將圖書館演變?yōu)橹R創(chuàng)新服務(wù)中心。該文將這種大數(shù)據(jù)驅(qū)動下的知識服務(wù)定義為高校圖書館的知識創(chuàng)新服務(wù),梳理了目前知識服務(wù)的現(xiàn)狀,提出高校圖書館知識創(chuàng)新服務(wù)平臺的功能模型,利用大數(shù)據(jù)技術(shù)提供對海量數(shù)據(jù)的實時分析和挖掘能力、語義網(wǎng)技術(shù)提供計算機(jī)理解和處理事務(wù)的能力和判斷與推理能力、人工智能技術(shù)持續(xù)提高自我性能以幫助人類完成那些一開始無法明確定義的任務(wù)的能力,來實現(xiàn)八大創(chuàng)新功能:利用可視化知識圖譜,呈現(xiàn)知識網(wǎng)絡(luò)全貌;智能摘要,幫助讀者粗加工大量的文本信息;智能構(gòu)建個人知識專題;關(guān)鍵詞聯(lián)想,激發(fā)思維聯(lián)想;個性化、精準(zhǔn)化智能推薦;個人學(xué)術(shù)軌跡管理與“我的關(guān)注領(lǐng)域”呈現(xiàn);統(tǒng)一檢索與全文檢索;開放學(xué)科語義維護(hù)功能。由此,高校圖書館的知識服務(wù)將站在全數(shù)據(jù)和智能化的起點(diǎn)上,可望打造為一個創(chuàng)新的服務(wù)體系,提供一種全新的服務(wù)生態(tài)。
關(guān)鍵詞:大數(shù)據(jù);知識創(chuàng)新服務(wù);語義網(wǎng):人工智能;知識圖譜;知識關(guān)聯(lián)網(wǎng)絡(luò)
中圖分類號:G434 文獻(xiàn)標(biāo)識碼:A
大數(shù)據(jù)時代的到來,顛覆了工業(yè)界、學(xué)術(shù)界對傳統(tǒng)數(shù)據(jù)的認(rèn)知。2007年,圖靈獎的獲得者吉姆·格雷發(fā)表了專著《第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》,將科學(xué)范式從三種擴(kuò)展為四種,即:實驗科學(xué)、理論科學(xué)、計算科學(xué)和數(shù)據(jù)密集型科學(xué),這標(biāo)志著數(shù)據(jù)思維時代的到來。高校圖書館因提供文獻(xiàn)信息服務(wù)和知識服務(wù)而擁有和保存的學(xué)術(shù)科研大數(shù)據(jù),為圖書館的發(fā)展提供了新機(jī)遇。高校圖書館應(yīng)樹立數(shù)據(jù)觀,運(yùn)用大數(shù)據(jù)技術(shù)、語義網(wǎng)技術(shù),自動化完成數(shù)據(jù)的獲取、整理、統(tǒng)計和呈現(xiàn),建立文獻(xiàn)信息資源自動化元數(shù)據(jù)采集與挖掘的大數(shù)據(jù)倉儲;重新組織圖書館各種類型的文獻(xiàn)資源和信息資源,建立知識關(guān)聯(lián)網(wǎng)絡(luò),建立語義網(wǎng)絡(luò)(學(xué)科知識圖譜),可視化呈現(xiàn)知識網(wǎng)絡(luò);追蹤研究熱點(diǎn)、梳理發(fā)展脈絡(luò);建立個人學(xué)術(shù)空間,構(gòu)建讀者學(xué)術(shù)畫像,提供知識管理工具,感知和挖掘讀者的隱性學(xué)術(shù)需求,智能學(xué)術(shù)推薦。圖書館通過搭建知識創(chuàng)新服務(wù)平臺,幫助讀者挖掘?qū)W術(shù)資源中隱含的知識、掌握更具前瞻性的研究視野、建立完善的知識結(jié)構(gòu),從而提升讀者的知識創(chuàng)新能力。高校圖書館也從文獻(xiàn)信息服務(wù)中心、學(xué)術(shù)交流中心、文化傳承中心,而真正演變?yōu)橹R創(chuàng)新服務(wù)中心。
一、基于大數(shù)據(jù)的知識服務(wù)現(xiàn)狀
(一)知識服務(wù)的概念
以傳播知識為主要任務(wù)的圖書館,從最初的文獻(xiàn)服務(wù)到信息服務(wù)再到如今的知識服務(wù),為滿足用戶的需求而不斷發(fā)展用戶服務(wù)的實踐。通過對各種知識服務(wù)概念的梳理,我們可以提取這樣3個屬性:面向創(chuàng)新、知識挖掘、知識管理。透過這3個關(guān)鍵詞總結(jié)大數(shù)據(jù)背景下知識服務(wù)的概念,即:圖書館提供通過知識挖掘和知識管理的方式,提供給讀者促進(jìn)其知識創(chuàng)新的服務(wù)。
(二)基于大數(shù)據(jù)的知識服務(wù)的概念
傳統(tǒng)的知識服務(wù)概念是指從各種顯性或隱形資源中提煉知識和信息內(nèi)容,并進(jìn)行挖掘、重組、濃縮、變形,從而提供知識內(nèi)容或解決方案的服務(wù)過程。知識服務(wù)的內(nèi)涵隨著大數(shù)據(jù)的驅(qū)動而發(fā)生變化,它將對眾多分散、異構(gòu)資源的知識進(jìn)行加工,通過知識融合、匹配、挖掘等方式,獲取隱含的知識需求與創(chuàng)新,提供新型的知識服務(wù)。
(三)高校圖書館基于大數(shù)據(jù)的知識服務(wù)現(xiàn)狀
高校圖書館主要通過知識導(dǎo)航服務(wù)、知識培訓(xùn)服務(wù)、問答咨詢服務(wù)、情報服務(wù)、學(xué)科服務(wù)平臺及學(xué)科服務(wù)平臺等方式進(jìn)行自己的知識服務(wù)。以武漢大學(xué)圖書館的學(xué)科服務(wù)平臺為例,圖書館向讀者提供各個學(xué)科的整合專業(yè)文獻(xiàn)資源,提供館藏文獻(xiàn)和數(shù)字資源導(dǎo)航,提供學(xué)科服務(wù)咨詢、科研分析與評價,以及學(xué)術(shù)熱點(diǎn)追蹤與評估等服務(wù)內(nèi)容。
在基于大數(shù)據(jù)的知識服務(wù)研究中,高校圖書館界的研究更多地集中在對知識服務(wù)創(chuàng)新模式的探討、對大數(shù)據(jù)知識服務(wù)平臺體系架構(gòu)和關(guān)鍵技術(shù)的討論上。胡蓮香和張新娜認(rèn)為大數(shù)據(jù)知識服務(wù)不僅是面向海量數(shù)據(jù)處理的知識服務(wù),更是基于大數(shù)據(jù)的智慧圖書館的系統(tǒng)建設(shè),并提出要構(gòu)建基于大數(shù)據(jù)的下一代圖書館知識服務(wù)平臺;李晨暉等論述了建構(gòu)大數(shù)據(jù)知識服務(wù)平臺的關(guān)鍵技術(shù),并對實施大數(shù)據(jù)知識服務(wù)模式的思路和發(fā)展提出了建議;張娟等以養(yǎng)生領(lǐng)域內(nèi)的領(lǐng)域本體、文獻(xiàn)信息等知識資源為基礎(chǔ),構(gòu)建養(yǎng)生單元信息知識服務(wù)系統(tǒng),提供語義檢索、知識瀏覽、知識推理和知識發(fā)現(xiàn)等服務(wù),實現(xiàn)大數(shù)據(jù)環(huán)境下“單元信息知識組織體系”的有效利用;劉慶麟梳理了重點(diǎn)學(xué)科知識智慧服務(wù)的創(chuàng)新策略,提出Web3.0下圖書館重點(diǎn)學(xué)科知識服務(wù)門戶建設(shè)的原則和架構(gòu);范興豐以云計算和大數(shù)據(jù)為基礎(chǔ),討論了知識服務(wù)平臺內(nèi)容架構(gòu)和深層資源定制服務(wù);陳川討論了學(xué)科元數(shù)據(jù)中心架構(gòu),學(xué)科元數(shù)據(jù)中心的應(yīng)用特點(diǎn),提出了基于學(xué)科元數(shù)據(jù)中心的知識服務(wù)平臺建設(shè)思路,并做了應(yīng)用實踐分析;余傳明等從解決規(guī)??缍葐栴}、領(lǐng)域跨度問題、語言跨度問題等方面進(jìn)行了研究,從而提出了觀點(diǎn)檢索的方法。
除此之外,一些高校圖書館還進(jìn)行了具有特色的知識服務(wù)平臺建設(shè)研究。以清華大學(xué)圖書館為例,他們嘗試從元數(shù)據(jù)倉儲中提取關(guān)鍵詞并進(jìn)行數(shù)據(jù)挖掘,分析作者與合作者的關(guān)系,建立知識關(guān)聯(lián)網(wǎng)絡(luò);重慶大學(xué)圖書館建設(shè)了“智慧門戶”,可實現(xiàn)用戶、資源、服務(wù)以數(shù)據(jù)為中介的交互,能準(zhǔn)確預(yù)測用戶行為和需求。這些理論研究和實踐探索,都為大數(shù)據(jù)知識服務(wù)平臺的進(jìn)一步發(fā)展提供了有益的嘗試和參考。
(四)數(shù)據(jù)庫服務(wù)商基于大數(shù)據(jù)的知識服務(wù)現(xiàn)狀
國內(nèi)文獻(xiàn)數(shù)據(jù)庫服務(wù)商除了提供大量優(yōu)質(zhì)、及時的原始文獻(xiàn),還借助公司積累的大量資源和元數(shù)據(jù),開始提供數(shù)據(jù)關(guān)聯(lián)和計量可視化等知識服務(wù)。例如同方知網(wǎng)提供知識網(wǎng)絡(luò)節(jié)點(diǎn)鏈接技術(shù),實現(xiàn)對節(jié)點(diǎn)文獻(xiàn)的各種知識鏈接。同時,同方知網(wǎng)還提供計量可視化分析服務(wù),對選定的200篇以內(nèi)的文獻(xiàn)提供在線分析其發(fā)文總體趨勢、文獻(xiàn)互引網(wǎng)絡(luò)、關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)、作者合作網(wǎng)絡(luò)、資源類型分布、學(xué)科分布、來源分布、基金分布、作者分布、機(jī)構(gòu)分布做計量可視化服務(wù)。萬方數(shù)據(jù)知識服務(wù)平臺的萬方智搜,可以根據(jù)輸入的檢索詞而提供研究趨勢和相關(guān)熱詞的可視化呈現(xiàn),對每一篇文獻(xiàn)都提供相關(guān)主題、相關(guān)機(jī)構(gòu)、相關(guān)學(xué)者以及相關(guān)文獻(xiàn)和媒體資源的推薦閱讀,并支持讀者對該篇文獻(xiàn)標(biāo)注標(biāo)簽。維普推出了情報分析視角的知識服務(wù)平臺:維普智立方,可以利用360°網(wǎng)絡(luò)圖,獲得多種文獻(xiàn)特征的網(wǎng)絡(luò)關(guān)系圖,建立關(guān)聯(lián)網(wǎng)絡(luò)。超星統(tǒng)一檢索系統(tǒng)對每一篇文獻(xiàn)提供相關(guān)文獻(xiàn)、相同作者的文獻(xiàn)、相同單位的文獻(xiàn)等推薦,并對檢索后的一組文獻(xiàn)進(jìn)行數(shù)據(jù)分析和可視化呈現(xiàn),包括學(xué)術(shù)發(fā)展趨勢、地區(qū)統(tǒng)計、基金統(tǒng)計、刊種統(tǒng)計、作者統(tǒng)計、中文學(xué)科分類統(tǒng)計等。此外,超星移動圖書館和超星學(xué)習(xí)通平臺還提供讀者空間服務(wù)和建立討論小組等功能。
SpringerLink數(shù)據(jù)庫運(yùn)用主題詞表進(jìn)行規(guī)范化標(biāo)引。對于任何一篇文獻(xiàn),都標(biāo)引出研究包含的主題、產(chǎn)業(yè)領(lǐng)域及其相關(guān)文獻(xiàn)。此外,湯森路透集團(tuán)提供三大學(xué)科服務(wù)的統(tǒng)計分析工具InCites、ESI和TDA。Elsevier研發(fā)了基于Scopus數(shù)據(jù)庫的SciVal分析工具,以學(xué)術(shù)機(jī)構(gòu)為對象,展示機(jī)構(gòu)的科研產(chǎn)出、科研合作情況以及跨學(xué)科科研優(yōu)勢。
(五)高校圖書館迫切需要構(gòu)建知識創(chuàng)新服務(wù)
高校圖書館在提供知識服務(wù)的廣度和深度上,越來越落后于專業(yè)的文獻(xiàn)數(shù)據(jù)庫服務(wù)商,所以高校圖書館充當(dāng)著讀者與數(shù)據(jù)庫服務(wù)商之間的銜接和中介作用,而無法給讀者提供基于大數(shù)據(jù)技術(shù)的創(chuàng)新知識服務(wù);對讀者的服務(wù)方式還是比較被動,不能根據(jù)讀者的已有學(xué)術(shù)行為分析其需求,并向其準(zhǔn)確推薦拓展的學(xué)術(shù)資源;沒有給讀者提供知識管理工具,用以保存?zhèn)€人的學(xué)術(shù)軌跡,分析挖掘所關(guān)注的文獻(xiàn)中的隱性知識,讀者也并未獲得激發(fā)其創(chuàng)造性思維的聯(lián)想工具;在針對學(xué)科提供學(xué)術(shù)熱點(diǎn)追蹤、學(xué)科評價、科研指導(dǎo)時,也不能基于大數(shù)據(jù)技術(shù)的學(xué)科分析工具,需要手動完成大量數(shù)據(jù)的獲取和整理、統(tǒng)計工作,工作效率較低。正是在這樣的需求之下,本文提出高校圖書館應(yīng)樹立數(shù)據(jù)觀,構(gòu)建基于大數(shù)據(jù)的“知識創(chuàng)新服務(wù)”。
二、知識創(chuàng)新服務(wù)的技術(shù)基礎(chǔ)
(一)大數(shù)據(jù)及其特點(diǎn)
大數(shù)據(jù),不僅是數(shù)據(jù)量大,更是一種采集和處理總體數(shù)據(jù)而非樣本數(shù)據(jù)的數(shù)據(jù)集合形式。大數(shù)據(jù)技術(shù)處理的數(shù)據(jù)量通常是TB級,甚至是PB或EB級的數(shù)據(jù),這是傳統(tǒng)數(shù)據(jù)處理手段所無法完成的,其涉及的技術(shù)有分布式計算、高并發(fā)處理、高可用處理、集群、實時性計算等。大數(shù)據(jù)海量的數(shù)據(jù)規(guī)模,使得人們可以獲得龐大的數(shù)據(jù)信息。大數(shù)據(jù)還具有時效性強(qiáng)、數(shù)據(jù)類型多樣性和價值密度低等特點(diǎn),使得人們通過挖掘和加工數(shù)據(jù)實現(xiàn)數(shù)據(jù)的價值發(fā)現(xiàn)。
(二)語義網(wǎng)絡(luò)及其特點(diǎn)
語義網(wǎng)是一種智能網(wǎng)絡(luò),它能根據(jù)語義進(jìn)行判斷和理解概念間的邏輯關(guān)系。語義網(wǎng)的建立極大地涉及了人工智能領(lǐng)域的部分,與Web3.0智能網(wǎng)絡(luò)的理念不謀而合。而語義網(wǎng)絡(luò)是一種面向語義的結(jié)構(gòu),它用圖來表示知識間的結(jié)構(gòu)關(guān)系。語義網(wǎng)用結(jié)點(diǎn)表示信息,結(jié)點(diǎn)之間的關(guān)系通過有向直線來表示。語義網(wǎng)絡(luò)有以下特點(diǎn):可以深層次地表示知識,包括實體結(jié)構(gòu)、層次及實體間的因果關(guān)系;語義解釋依賴于該結(jié)構(gòu)的推理過程而沒有結(jié)構(gòu)的約定;知識表達(dá)自然、直觀、易于理解。語義網(wǎng)絡(luò)的價值在于計算機(jī)可以通過語義網(wǎng)絡(luò)來理解判斷和推理。
(三)人工智能及其特點(diǎn)
人工智能即AI,它是模擬、延伸和超越人類智能的理論和實踐。人工智能的第三次浪潮緣起于Hinton等人提出的深度學(xué)習(xí)技術(shù)。從全球范圍來看,AI應(yīng)用主要集中在各個垂直領(lǐng)域、智能機(jī)器人領(lǐng)域、大數(shù)據(jù)和數(shù)據(jù)服務(wù)、視覺。其中以商業(yè)、醫(yī)療和金融領(lǐng)域中的應(yīng)用最為深入。人工智能技術(shù)可以對人的思維進(jìn)行模擬,也可以成為人類智能的擴(kuò)展和延伸。
人工智能在演進(jìn)的過程中,呈現(xiàn)出以下新特點(diǎn):深度學(xué)習(xí)、跨界融合、人機(jī)協(xié)同、群智開放和自主智能。人工智能,尤其是機(jī)器學(xué)習(xí)具有一個核心價值:就是機(jī)器能夠持續(xù)提高自己的性能,而無須人類明確解釋所有這些任務(wù)要怎樣完成,成為了自己學(xué)習(xí)如何完成任務(wù)的系統(tǒng)了。這使得對那些我們無法精確表達(dá)出的知識,人工智能也可以自動化地實現(xiàn)了。
(四)高校圖書館大數(shù)據(jù)構(gòu)成
高校圖書館的大數(shù)據(jù)由學(xué)術(shù)資源數(shù)據(jù)、業(yè)務(wù)流程數(shù)據(jù)、情境感知數(shù)據(jù)、讀者行為數(shù)據(jù)這四個方面構(gòu)成。針對這4類數(shù)據(jù),圖書館可以開展資源管理與利用數(shù)據(jù)分析來支持資源采購決策,開展用戶行為分析來指導(dǎo)圖書館業(yè)務(wù)優(yōu)化并提供針對性服務(wù),開展情境數(shù)據(jù)分析提供精準(zhǔn)導(dǎo)航和自適應(yīng)調(diào)節(jié),開展學(xué)術(shù)資源分析與用戶學(xué)術(shù)行為分析來提供知識創(chuàng)新服務(wù)。本文著重討論的是第四種數(shù)據(jù)分析與服務(wù)工作,即深入挖掘圖書館的學(xué)術(shù)資源用戶學(xué)術(shù)行為數(shù)據(jù),為讀者提供知識創(chuàng)新服務(wù)。
(五)大數(shù)據(jù)加工環(huán)節(jié)
微軟在《e-Science科學(xué)研究的第四種范式》中,把科學(xué)研究劃分為4個階段:第一階段是數(shù)據(jù)收集,第二階段是數(shù)據(jù)處理,第三階段是數(shù)據(jù)挖掘,第四階段是可視化。高校圖書館的大數(shù)據(jù)加工同樣包括這些方面的工作,它主要由這5個環(huán)節(jié)構(gòu)成:大數(shù)據(jù)收集(數(shù)據(jù)收割)、大數(shù)據(jù)存儲、大數(shù)據(jù)處理(數(shù)據(jù)清洗和預(yù)處理)、大數(shù)據(jù)分析(數(shù)據(jù)挖掘)、大數(shù)據(jù)應(yīng)用服務(wù)。
(六)大數(shù)據(jù)技術(shù)概況
目前,大數(shù)據(jù)的處理主要有以下4種形式:對靜態(tài)數(shù)據(jù)的批量處理、對流式數(shù)據(jù)的實時處理、實時交互計算、對圖數(shù)據(jù)的綜合處理。大數(shù)據(jù)分析的關(guān)鍵技術(shù)主要包括深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、知識計算、可視化、社會計算等。
批量數(shù)據(jù)處理系統(tǒng)以Google文件系統(tǒng)GFS和MapReduce編程模型為典型,Hadoop在此基礎(chǔ)上實現(xiàn)的兩個開源產(chǎn)品:HDFS和MapReduce,繼Hadoop之后由UC Berkeley的Matei Zaharia主導(dǎo)開發(fā)了新一代大數(shù)據(jù)分布式處理框架Spark,提供高層次的Java、Scala、Python以及R語言的API接入。Hadoop的MapReduce和Spark Core使用映射和規(guī)約的思想可以進(jìn)行海量數(shù)據(jù)的分析和操作。典型流式數(shù)據(jù)處理系統(tǒng)包括Twitter的Storm系統(tǒng)、Linkedin的流式數(shù)據(jù)處理框架Samza、Facebook的Scribe、Linkedin的Samza、Cloudera的Flume、Apache的Nutch;交互式數(shù)據(jù)處理系統(tǒng)的典型代表系統(tǒng)是基于內(nèi)存計算的Spark和Google研發(fā)的Dremel。圖數(shù)據(jù)處理系統(tǒng)主要有Ne04j、FlockDB、GraphDB等。實際上,Spark提供了一系列工具集,Spark SQL融合多數(shù)據(jù)源的不同格式結(jié)構(gòu)化數(shù)據(jù),能夠?qū)崿F(xiàn)SQL等結(jié)構(gòu)化數(shù)據(jù)處理,MLlib支持機(jī)器學(xué)習(xí),還有針對流數(shù)據(jù)的Spark Streaming,而Graph X支持圖處理等。如今,Spark與Hadoop在同一個團(tuán)隊里協(xié)同運(yùn)行,已經(jīng)被越來越多地運(yùn)用。
深度學(xué)習(xí)包括Dato、vlcarlcus、MetaMind、AlchemyAPI、Clarifai、SKYMIND等。機(jī)器學(xué)習(xí)平臺包括kaggle、AzureML、Google等。關(guān)于知識計算,代表性的知識庫或應(yīng)用系統(tǒng)有KnowltAll、TextRunner、NELL、Probase、Satori、PROSPERA、SOFIE以及基于維基百科等構(gòu)建的知識庫,如DBpedia、YAGO、Omega和WikiTaxonomy。文本可視化包括表現(xiàn)詞頻的標(biāo)簽云、表現(xiàn)文本結(jié)構(gòu)的DAViewer和DocuBurst、表現(xiàn)形成與變化過程的ThemeRiver和EventRiver;網(wǎng)絡(luò)(圖)可視化除了樹狀、球狀、放射圖外,還有基于矩形填充、Voronoi圖填充、嵌套圓填充的樹可視化技術(shù),更有基于邊捆綁(Edge Bundling)的方法和基于層次聚類與多尺度交互的ASK-Graphview等圖簡化方法的可視化技術(shù)。社會計算目前還集中在方法層面,例如興趣計算和信任計算。
目前流行的兩個開源搜索引擎Solr和ElasticSearch,都建立在Apache Lucene開源平臺之上。Solr的主要特點(diǎn)有全文索引、高亮、分面搜索、實時索引、動態(tài)聚類、數(shù)據(jù)庫集成、NoSQL特性和豐富的文檔處理(例如Word和PDF文件),Elasticsearch主要特點(diǎn)有分布式搜索、多租戶、查詢統(tǒng)計分析、分組和聚合。
三、知識創(chuàng)新服務(wù)平臺功能模型
根據(jù)大數(shù)據(jù)收集、大數(shù)據(jù)存儲、大數(shù)據(jù)加工、大數(shù)據(jù)應(yīng)用封裝等加工環(huán)節(jié),本文建構(gòu)了知識創(chuàng)新服務(wù)平臺,該平臺包括六大核心模塊:資源層、大數(shù)據(jù)倉儲、運(yùn)營管理平臺、學(xué)科知識服務(wù)平臺、讀者學(xué)術(shù)管理、學(xué)科分析平臺。知識創(chuàng)新服務(wù)平臺功能結(jié)構(gòu)如下圖所示。
(一)大數(shù)據(jù)倉儲
本體庫管理:支持對本體庫條目的填加、修訂;
分類聚類:支持對知識庫的分類層級、類目、類目歸類做元設(shè)計;
元數(shù)據(jù)管理:對內(nèi)容資源的元數(shù)據(jù)定義、提取、修改和存儲管理;
數(shù)據(jù)映射:支持不同類型、結(jié)構(gòu)資源按照統(tǒng)一數(shù)據(jù)規(guī)范處理,注入大數(shù)據(jù)倉儲;
自動標(biāo)引:支持對資源內(nèi)容的自動標(biāo)引,實現(xiàn)對內(nèi)容資源的語義標(biāo)注(支持段落級別的語義標(biāo)注);
知識體系管理:支持多種知識模型的導(dǎo)入、修改、導(dǎo)出;支持對領(lǐng)域知識庫中知識單元、關(guān)聯(lián)關(guān)系管理,包括對知識單元和關(guān)聯(lián)關(guān)系的聚類、分類、導(dǎo)入、導(dǎo)出。
(二)運(yùn)營管理平臺
日志管理:記錄系統(tǒng)狀態(tài)、模塊點(diǎn)擊、登錄行為等日志信息,支持可視化方式呈現(xiàn);
統(tǒng)一認(rèn)證管理:通過接口同步OPAC認(rèn)證信息,對系統(tǒng)的各個功能模塊統(tǒng)一認(rèn)證;
用戶角色權(quán)限管理:設(shè)置系統(tǒng)管理員、平臺管理員、領(lǐng)域?qū)<?、學(xué)科館員、讀者等多種角色,分配不同權(quán)限;支持系統(tǒng)管理員開通各個角色權(quán)限認(rèn)證信息,或授權(quán)OPAC注銷讀者繼續(xù)使用平臺;
資源來源管理:增加大數(shù)據(jù)倉儲的來源信息,給出資源鏈接;
讀者使用管理:記錄和統(tǒng)計用戶的登陸和使用平臺時間;統(tǒng)計檢索詞并挖掘檢索熱點(diǎn);填加、修改、讀者信息,為讀者畫像提供信息;
資源使用管理:記錄和統(tǒng)計讀者對資源的搜索、瀏覽、下載、標(biāo)注等使用情況,作為評價數(shù)據(jù)庫來源使用情況的數(shù)字基礎(chǔ),支持可視化方式呈現(xiàn);
讀者畫像管理:對讀者畫像做元策略設(shè)計;
資源引用管理:對大數(shù)據(jù)倉儲中的資源做虛擬打包、封裝、管理和發(fā)布,供學(xué)科知識平臺建立專題使用;同時提供人工建構(gòu)專題內(nèi)容的人口。
(三)知識創(chuàng)新服務(wù)平臺
1.學(xué)科知識服務(wù)平臺
研究熱點(diǎn)專題:對大數(shù)據(jù)倉儲中自動聚類的資源進(jìn)行批量選擇、修改、挖掘、編寫說明、提交、審核、發(fā)布等操作,在學(xué)科知識服務(wù)平臺上形成本學(xué)科的熱點(diǎn)專題;提供手動編寫專題內(nèi)容的功能;
知名專家學(xué)者專題:對大數(shù)據(jù)倉儲中自動聚類的資源進(jìn)行批量選擇、修改、挖掘、編寫說明、提交、審核、發(fā)布等操作,在學(xué)科知識服務(wù)平臺上形成熱點(diǎn)專題;提供手動編寫專家學(xué)者相關(guān)內(nèi)容的功能;
統(tǒng)一檢索:實現(xiàn)對大數(shù)據(jù)倉儲中的內(nèi)容資源進(jìn)行跨庫統(tǒng)一檢索,支持通過題名、關(guān)鍵詞、主題詞、作者、機(jī)構(gòu)、期刊名等檢索項的元數(shù)據(jù)檢索,支持專業(yè)檢索式檢索;支持檢索結(jié)果從學(xué)科分類、細(xì)分領(lǐng)域、年份、語種、文獻(xiàn)類別、來源等多個分面進(jìn)行篩選;系統(tǒng)根據(jù)讀者輸入的關(guān)鍵詞,自動呈現(xiàn)相關(guān)的(從語義和關(guān)聯(lián)兩種角度的)主題詞、屬性值、作者、電子資源提示,點(diǎn)擊這些關(guān)鍵詞,則實現(xiàn)此關(guān)鍵詞的統(tǒng)一檢索;檢索結(jié)果支持相關(guān)度、檢索熱度、更新時間、專業(yè)度等多個角度的排序方式;檢索結(jié)果支持手動篩選,支持生成和保存檢索報表,支持對檢索報表的計量可視化;
學(xué)科知識導(dǎo)航:挖掘大數(shù)據(jù)倉儲,對每個學(xué)科提供按照細(xì)分領(lǐng)域、主題、文獻(xiàn)類型、研究層次等維度分類的自動知識導(dǎo)航;
學(xué)科知識圖譜:建立學(xué)科和領(lǐng)域知識語義網(wǎng)絡(luò),點(diǎn)擊該節(jié)點(diǎn),則實現(xiàn)此節(jié)點(diǎn)的統(tǒng)一檢索;
關(guān)聯(lián)網(wǎng)絡(luò):建立以人、機(jī)構(gòu)、知識點(diǎn)為中心的知識關(guān)聯(lián)網(wǎng)絡(luò),點(diǎn)擊該節(jié)點(diǎn),則實現(xiàn)此節(jié)點(diǎn)的統(tǒng)一檢索;關(guān)聯(lián)網(wǎng)絡(luò)的展示范圍可調(diào)節(jié);
全文檢索:支持讀者輸入關(guān)鍵詞,系統(tǒng)以關(guān)鍵詞匹配的搜索方法,迅速查詢所有數(shù)據(jù),反饋所有目標(biāo)資源;
智能摘要:系統(tǒng)根據(jù)每一篇語料中的主題,自動對每篇語料生成摘要;
智能問答:挖掘?qū)W科知識圖譜,支持基于問答語料的生成式知識問答。
2.讀者學(xué)術(shù)管理
個人學(xué)術(shù)軌跡:記錄讀者的學(xué)科、專業(yè)、導(dǎo)師,記錄所有檢索詞、瀏覽和下載過的資源、借閱的圖書、發(fā)表的論文和著作信息;
我的關(guān)注領(lǐng)域:根據(jù)讀者的個人學(xué)術(shù)軌跡,挖掘讀者的關(guān)注領(lǐng)域(細(xì)分領(lǐng)域),點(diǎn)擊這些領(lǐng)域,則呈現(xiàn)此領(lǐng)域的知識圖譜,而讀者關(guān)注過的主題,則在知識譜圖中用高亮等方式呈現(xiàn);點(diǎn)擊知識圖譜中的節(jié)點(diǎn),則展示相關(guān)主題的最新資源推薦(一個月內(nèi)新到館的資源);
智能推薦:根據(jù)讀者的個人學(xué)術(shù)軌跡、學(xué)科專業(yè)方向、導(dǎo)師研究方向、本專業(yè)研究前沿等信息,構(gòu)建讀者畫像,根據(jù)讀者畫像智能推送新到館資源(每個星期更新,歷史推送在“更多推薦”中保存);
知識管理工具:支持讀者對本體、知識庫、知識圖譜進(jìn)行個性化標(biāo)注、修正和補(bǔ)充;讀者的標(biāo)注、修正和補(bǔ)充反饋給管理后臺,作為學(xué)科語義完善的一個依據(jù);保存對英文作者、機(jī)構(gòu)、主題詞、期刊名的中文標(biāo)注。
3.學(xué)科分析平臺
學(xué)科分析元設(shè)計:保存?zhèn)€性化的檢索式;定義和保存?zhèn)€性化檢索主題、查詢范圍、檢索結(jié)果字段;保存對英文作者、機(jī)構(gòu)、主題詞、期刊名的中文標(biāo)注(讀者貢獻(xiàn)標(biāo)注的入口開放給所有讀者,審核權(quán)僅對學(xué)科館員開放),當(dāng)以這些中文標(biāo)注為關(guān)鍵詞檢索時,同時對被標(biāo)注主題詞進(jìn)行檢索,中英文檢索結(jié)果融合;
多元檢索:提供一般檢索、高級檢索、專業(yè)檢索式、統(tǒng)一檢索等多種檢索方式;檢索結(jié)果支持手動管理(篩選),支持生成和保存檢索報表;支持報表導(dǎo)出為特定的數(shù)據(jù)格式,以便在第三方系統(tǒng)中加工處理;支持對檢索報表范圍內(nèi)的計量可視化;支持對報表中的熱點(diǎn)詞匯、關(guān)聯(lián)內(nèi)容、發(fā)展趨勢等進(jìn)行多維度的統(tǒng)計分析和可視化呈現(xiàn);支持統(tǒng)計結(jié)果和可視化內(nèi)容導(dǎo)出;
數(shù)據(jù)分析模型:集成常用情報數(shù)據(jù)分析算法和工具(主題、作者等,暫不涉及引證);
學(xué)科語義維護(hù):支持對本體、知識庫、知識圖譜進(jìn)行個性化標(biāo)注、修正和補(bǔ)充;學(xué)科館員的標(biāo)注、修正和補(bǔ)充反饋給管理后臺,作為學(xué)科語義完善的一個依據(jù)。
四、基于大數(shù)據(jù)的高校圖書館知識創(chuàng)新服務(wù)
大數(shù)據(jù)技術(shù)提供對海量數(shù)據(jù)的實時分析和挖掘能力;語義網(wǎng)技術(shù)提供計算機(jī)理解和處理事務(wù)的能力,并具備一定判斷、推理能力;人工智能技術(shù)提供持續(xù)提高自我性能的能力,幫助人類完成那些一開始無法明確定義的任務(wù)。這些技術(shù)的結(jié)合,使得高校圖書館的知識服務(wù),得以站在全數(shù)據(jù)和智能化的起點(diǎn)上,可望打造為一個創(chuàng)新的服務(wù)體系,提供一種全新的服務(wù)生態(tài)。本文提出的知識創(chuàng)新服務(wù),就是要綜合運(yùn)用大數(shù)據(jù)技術(shù)、語義網(wǎng)技術(shù),重新組織圖書館各種類型的文獻(xiàn)資源和信息資源,建立知識關(guān)聯(lián)網(wǎng)絡(luò),建立語義網(wǎng)絡(luò)(學(xué)科知識圖譜),并可視化呈現(xiàn)知識網(wǎng)絡(luò)。在這個具備語義基礎(chǔ)的海量知識關(guān)聯(lián)網(wǎng)絡(luò)的基礎(chǔ)上,運(yùn)用自然語言處理和深度學(xué)習(xí)等智能化技術(shù),可以為讀者打造提供多樣思維聯(lián)想工具、知識管理工具、智能輔助工具的全新知識創(chuàng)新空間。
(一)利用可視化知識圖譜,呈現(xiàn)知識網(wǎng)絡(luò)全貌
將充分構(gòu)建的知識圖譜以可視化的方式直接呈現(xiàn)給讀者,而不僅僅是作為智能檢索與智能化知識服務(wù)的底層數(shù)據(jù),這將幫助讀者建立完善的知識結(jié)構(gòu)、獲得學(xué)術(shù)資源中的隱性知識、掌握前瞻性的研究視野、建立廣泛的聯(lián)想觸點(diǎn)。當(dāng)讀者對某個知識點(diǎn)進(jìn)行檢索時,可以向讀者呈現(xiàn)以此知識點(diǎn)為中心的可視化的知識圖譜,知識圖譜中包含了與這個知識點(diǎn)具有語義、聚類、類別、關(guān)鍵詞、屬性、引文等關(guān)聯(lián)的知識節(jié)點(diǎn)呈現(xiàn)。知識圖譜與關(guān)聯(lián)網(wǎng)絡(luò)主要基于構(gòu)建知識圖譜模塊知識挖掘、知識屬性抽取、知識關(guān)系抽取、知識聚類、知識融合、知識反饋、知識推理等算法進(jìn)行學(xué)科領(lǐng)域知識圖譜構(gòu)建,并挖掘其學(xué)科和領(lǐng)域知識語義網(wǎng)絡(luò),最終利用知識圖譜可視化技術(shù)實現(xiàn)學(xué)科知識圖譜與關(guān)聯(lián)網(wǎng)絡(luò)的可視化展現(xiàn)。
(二)智能摘要,幫助讀者粗加工大量的文本信息
大數(shù)據(jù)時代的知識創(chuàng)新服務(wù)平臺具備的自然語言技術(shù),配合充分構(gòu)建的基于語義的知識圖譜網(wǎng)絡(luò),運(yùn)用大數(shù)據(jù)技術(shù)實時處理海量數(shù)據(jù)的能力,可以實現(xiàn)對讀者選定文獻(xiàn)的智能摘要功能。利用人工智能輔助人類閱讀(粗讀),使用智能摘要技術(shù)來解決大量的文本信息與個人有限的閱讀能力之間的矛盾。當(dāng)讀者閱讀了智能摘要后,會快速掌握自己關(guān)注問題的概況,然后再進(jìn)一步聚焦于細(xì)節(jié)進(jìn)行深入閱讀和研究。智能摘要,還可以與知識圖譜一起,共同提供給讀者。當(dāng)讀者篩選出若干文獻(xiàn),并希望獲得智能摘要時,知識創(chuàng)新服務(wù)平臺就將這些文獻(xiàn)的智能摘要和知識圖譜,實時計算并提供給讀者使用。點(diǎn)擊智能摘要中的知識點(diǎn)或者知識圖譜中的節(jié)點(diǎn),則可呈現(xiàn)相關(guān)的來源文獻(xiàn)。
(三)智能構(gòu)建個人知識專題
利用基于語義的知識圖譜網(wǎng)絡(luò),利用自然語言處理文本聚類算法,知識創(chuàng)新服務(wù)平臺可以提供給每一位讀者個性化建構(gòu)個人知識專題的功能。讀者只需要輸入檢索詞,并對檢索反饋的結(jié)果做訂閱操作,讀者就自動建立了一個以檢索詞為主題的知識專題,這個專題自動更新專題內(nèi)容,并可實現(xiàn)推動功能,這樣讀者就可以持續(xù)掌握所關(guān)注主題的發(fā)展現(xiàn)狀。對專題中的精華內(nèi)容進(jìn)行收藏操作,讀者還可以手動構(gòu)建新的知識專題。同時,平臺還可實現(xiàn)對熱門專題的自動挖掘與推薦,并支持進(jìn)行批量選擇、修改、挖掘、撰寫說明、提交、審核、發(fā)布等操作。
(四)關(guān)鍵詞聯(lián)想,激發(fā)思維聯(lián)想
關(guān)鍵詞聯(lián)想是知識創(chuàng)新服務(wù)平臺為讀者提供的一個思維聯(lián)想工具,幫助讀者做檢索詞的有效擴(kuò)展或修正。當(dāng)讀者在關(guān)鍵詞聯(lián)想小工具中輸入一個關(guān)鍵詞,系統(tǒng)會反饋出若干個與這個關(guān)鍵詞高度相似的詞語,以啟發(fā)讀者發(fā)散思維、拓展思路。關(guān)鍵詞聯(lián)想是基于知識圖譜的詞向量來實現(xiàn)的。通過關(guān)鍵詞聯(lián)想,讀者可以很快定位到自己關(guān)注領(lǐng)域的核心詞匯,從而進(jìn)一步鎖定個人的知識需求。
(五)個性化、精準(zhǔn)化智能推薦
個性化、精準(zhǔn)化智能推薦,是在知識創(chuàng)新平臺充分感知讀者的學(xué)術(shù)軌跡的基礎(chǔ)上,構(gòu)建讀者個體學(xué)術(shù)畫像和群體學(xué)術(shù)畫像、充分挖掘讀者的隱性學(xué)術(shù)需求,為讀者提供的實時計算后的推薦結(jié)果集?;谟脩舢嬒竦膱D書館知識服務(wù),能夠提升讀者的知識服務(wù)體驗,促進(jìn)圖書館實現(xiàn)個性化、精準(zhǔn)化的知識服務(wù)。本文提出基于本體構(gòu)建圖書館讀者學(xué)術(shù)行為的用戶畫像,以知識圖譜的視角考察用戶畫像的構(gòu)建方法。對讀者的借閱圖書、檢索數(shù)據(jù)庫、關(guān)注論文、發(fā)表學(xué)術(shù)成果等學(xué)術(shù)行為建模,結(jié)合用戶畫像層次模型的合成權(quán)重、融合時間上下文因素、參考用戶所屬學(xué)科和專業(yè)的群體用戶畫像,綜合構(gòu)建圖書館讀者學(xué)術(shù)行為的用戶畫像向量空間模型。將用戶畫像的向量空間模型中的向量詞,對應(yīng)于讀者領(lǐng)域知識圖譜中的概念,將知識圖譜中的概念關(guān)系映射到用戶畫像中,獲得用戶畫像本體。所推薦的學(xué)術(shù)資料包含從語義關(guān)聯(lián)、聚類關(guān)聯(lián)、類別關(guān)聯(lián)、關(guān)鍵詞關(guān)聯(lián)、屬性關(guān)聯(lián)、引文關(guān)聯(lián)等多角度相關(guān)的內(nèi)容。
(六)個人學(xué)術(shù)軌跡管理與“我的關(guān)注領(lǐng)域”呈現(xiàn)
個人學(xué)術(shù)軌跡與“我的關(guān)注領(lǐng)域”的呈現(xiàn)功能,主要通過大數(shù)據(jù)管理系統(tǒng),實現(xiàn)對讀者學(xué)科、專業(yè)、導(dǎo)師、檢索詞、瀏覽與下載痕跡、借閱記錄、發(fā)表學(xué)術(shù)成果信息等綜合全面管理;基于對讀者學(xué)術(shù)軌跡的記錄和分析,實現(xiàn)對讀者學(xué)術(shù)興趣、關(guān)注領(lǐng)域的自動挖掘與發(fā)現(xiàn),并進(jìn)行相關(guān)領(lǐng)域知識的推薦。在這里,“我的關(guān)注領(lǐng)域”實際就是對個體用戶畫像實時的可視化呈現(xiàn)。將基于本體構(gòu)建的用戶畫像匯聚成“我的關(guān)注領(lǐng)域”,用以可視化地呈現(xiàn)在讀者個人空間中,能夠展現(xiàn)出這些領(lǐng)域的知識概貌。當(dāng)讀者在個人空間中點(diǎn)擊各個概念的時候,這些概念可以展開成為以這個概念為中心的知識圖譜,或者針對各個概念進(jìn)行智能檢索?!拔业年P(guān)注領(lǐng)域”可以幫助讀者發(fā)現(xiàn)自己的隱性知識需求,修正自己關(guān)注的領(lǐng)域概念,同時系統(tǒng)能實時更新用戶畫像和讀者學(xué)術(shù)軌跡,更加智能化地為讀者提供創(chuàng)新知識服務(wù)。
(七)統(tǒng)一檢索與全文檢索
統(tǒng)一檢索提供包括基礎(chǔ)檢索、智能下拉提示、搜索糾錯、混合智能排序、搜索聯(lián)想、意圖識別、語義理解、語義搜索、自然語言BI、圖譜視頻檢索等在內(nèi)的綜合智能搜索技術(shù),為用戶提供一站化智能搜索。首先,根據(jù)用戶畫像獲得符合隱性用戶需求的檢索結(jié)果,并將檢索結(jié)果按照各種分面規(guī)則和排序策略進(jìn)行個性化推薦服務(wù)。知識創(chuàng)新服務(wù)平臺還支持用戶通過題名、關(guān)鍵詞、主題詞、作者、機(jī)構(gòu)、期刊名等檢索項進(jìn)行元數(shù)據(jù)檢索,支持專業(yè)檢索式檢索;支持檢索結(jié)果從學(xué)科分類、細(xì)分領(lǐng)域、年份、語種、文獻(xiàn)類別、來源等多個分面進(jìn)行篩選。對統(tǒng)一檢索的反饋結(jié)果,還可以進(jìn)行基于語義、聚類、類別、關(guān)鍵詞、屬性、引文等關(guān)聯(lián)方式的分析和可視化呈現(xiàn)。提供全文檢索功能,即平臺具有對全文數(shù)據(jù)進(jìn)行詞、字、段落等更深層次的編輯、加工的功能。例如,知識創(chuàng)新服務(wù)平臺對全文數(shù)據(jù)中的每一個詞建立一個索引,指明該詞在全文數(shù)據(jù)中出現(xiàn)的次數(shù)和位置,便于讀者查詢使用。
(八)開放學(xué)科語義維護(hù)功能
知識創(chuàng)新服務(wù)平臺主要利用信息反饋技術(shù),向讀者提供學(xué)科語義維護(hù)功能,支持讀者對本體、知識庫、知識圖譜進(jìn)行個性化標(biāo)注、修正和補(bǔ)充,幫助本體、知識庫、知識圖譜變得更加系統(tǒng)與精確;讀者的標(biāo)注、修正和補(bǔ)充反饋給管理后臺,作為學(xué)科語義完善的一個依據(jù)。知識創(chuàng)新服務(wù)平臺通過單元信息的關(guān)聯(lián)關(guān)系實現(xiàn)了新知識的衍生,讀者基于關(guān)系網(wǎng)絡(luò)可以發(fā)現(xiàn)更多密切相關(guān)的單元信息知識。讀者針對這些衍生出的新知識、建立起來的新關(guān)聯(lián),都可以在平臺上提出自己對新知識和新關(guān)聯(lián)的定義,并提供給管理后臺作為完善知識圖譜的一個建議。
五、結(jié)語
在大數(shù)據(jù)時代,高校圖書館應(yīng)樹立數(shù)據(jù)觀,利用文獻(xiàn)信息服務(wù)和知識服務(wù)而擁有和保存的學(xué)術(shù)科研大數(shù)據(jù),運(yùn)用大數(shù)據(jù)技術(shù)、語義網(wǎng)技術(shù),建立文獻(xiàn)信息資源自動化元數(shù)據(jù)收割與挖掘的大數(shù)據(jù)倉儲;建立知識關(guān)聯(lián)網(wǎng)絡(luò),建立語義網(wǎng)絡(luò)(學(xué)科知識圖譜),可視化呈現(xiàn)知識網(wǎng)絡(luò);建立個人學(xué)術(shù)空間,構(gòu)建讀者學(xué)術(shù)畫像,提供知識管理工具,感知和挖掘讀者的隱性學(xué)術(shù)需求,智能學(xué)術(shù)推薦。圖書館通過搭建知識創(chuàng)新服務(wù)平臺,幫助讀者挖掘?qū)W術(shù)資源中隱含的知識、掌握更具前瞻性的研究視野、建立完善的知識結(jié)構(gòu),從而提升讀者的知識創(chuàng)新能力。高校圖書館也從文獻(xiàn)信息服務(wù)中心、學(xué)術(shù)交流中心、文化傳承中心,而真正演變?yōu)橹R創(chuàng)新服務(wù)中心。
作者簡介:
姚遠(yuǎn):助理研究員,博士,研究方向為數(shù)字圖書館(yaoyuanlaura@126.com).
徐世東:碩士,碩士生導(dǎo)師,研究方向為在線教育、現(xiàn)代教育技術(shù)(13693334909@126.com)。
郝群:副研究館員,碩士,碩士生導(dǎo)師,研究方向為現(xiàn)代圖書館管理、信息服務(wù)。(haoqunn@163.com)。
盧建秋:教授,博士,博士生導(dǎo)師,館長,研究方向為中藥質(zhì)量控制研究、圖書館學(xué)研究(lujq@vip.sina.com)。