陳 璐
(南京審計大學(xué)圖書館 江蘇 南京 211815)
?
大數(shù)據(jù)背景下圖書館在數(shù)據(jù)監(jiān)管中的角色和使命
陳 璐
(南京審計大學(xué)圖書館 江蘇 南京 211815)
在大數(shù)據(jù)環(huán)境下,科學(xué)數(shù)據(jù)在各個領(lǐng)域的發(fā)展具有非常重要的作用。對科學(xué)數(shù)據(jù)進行有效管理和有效使用日趨重要,科研機構(gòu)和為學(xué)術(shù)研究提供事實數(shù)據(jù)支撐的圖書館認識到了數(shù)據(jù)監(jiān)管的效益和價值,在實踐中日益注重對數(shù)據(jù)進行持續(xù)的管理和維護,以期讓數(shù)據(jù)符合用戶的需求,推動圖書館參考咨詢服務(wù)的發(fā)展。
數(shù)據(jù)監(jiān)管;高校圖書館;科學(xué)數(shù)據(jù)
大數(shù)據(jù)是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)具有5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)、Veracity(真實性)。 近年來,數(shù)據(jù)監(jiān)管(Data Curation)、大數(shù)據(jù)(Big Data)作為全新獨立的研究領(lǐng)域受到研究機構(gòu)和圖書館的關(guān)注。在國外,各大圖書館(尤其是美國高校圖書館)已充分意識到在大數(shù)據(jù)的環(huán)境下,作為海量信息資源聚集的機構(gòu),更加需要適時做出應(yīng)對措施,做好數(shù)據(jù)監(jiān)管,提高數(shù)據(jù)信息存儲的安全程度,以提高數(shù)據(jù)存儲的效率性[1]。
美國伊利諾伊大學(xué)圖書館與信息科學(xué)研究生院是這樣進行數(shù)據(jù)監(jiān)管的闡述的: 數(shù)據(jù)監(jiān)管是一種持續(xù)的、動態(tài)的數(shù)據(jù)管理和控制,隨著對學(xué)術(shù)探討、科學(xué)研究和學(xué)科教育服務(wù)的不同階段的數(shù)據(jù)需求而展開的數(shù)據(jù)服務(wù)。通過為各個領(lǐng)域展開研究提供相應(yīng)的數(shù)據(jù)監(jiān)管服務(wù),科研人員能夠在搜索尋找資料的過程中更加容易搜索數(shù)據(jù)、挖掘數(shù)據(jù),提高數(shù)據(jù)的可信度,充分發(fā)揮信息資源的巨大價值,同時便捷地保存引用數(shù)據(jù)。數(shù)據(jù)監(jiān)管這個全新的領(lǐng)域涵蓋了對數(shù)據(jù)信息資源的評估、數(shù)據(jù)保存、數(shù)據(jù)分類存檔、數(shù)據(jù)的智能推送、數(shù)據(jù)的提取再現(xiàn)幾大模塊[2]。
數(shù)據(jù)監(jiān)管讓那些可信度高的數(shù)據(jù)結(jié)論能夠得到充分的二次利用,從而發(fā)揮這些數(shù)據(jù)的潛在價值。這對數(shù)據(jù)的版權(quán)所有者、科研人員、數(shù)據(jù)庫供應(yīng)商、數(shù)據(jù)的使用者來說,都能產(chǎn)生一些即期收益,從長遠來看,價值潛力也非常大。數(shù)據(jù)監(jiān)管具有八種即期效益,包括提高數(shù)據(jù)信息資源的可信度、對大數(shù)據(jù)進行深度挖掘和推送、提高科研成果的質(zhì)量和科研價值、授權(quán)外部進行數(shù)據(jù)結(jié)論驗證、維持穩(wěn)定的紀(jì)錄發(fā)布標(biāo)準(zhǔn)、提高不同動態(tài)數(shù)據(jù)集的兼容度、確保有價值、參考度高的信息資源和知識以及授權(quán)不同類型數(shù)據(jù)集的集結(jié)獲取。此外數(shù)據(jù)監(jiān)管還具有多方面長期價值,如維護科研成果著作權(quán)、留存科研進程紀(jì)錄、收集和評估鑒別數(shù)據(jù)的未來價值潛力、對來源數(shù)據(jù)進行匯總加工編輯以便使用、保留系統(tǒng)歷史版本入口、保證來源數(shù)據(jù)真實可靠性、授權(quán)未來潛在數(shù)據(jù)使用者挖掘使用這些數(shù)據(jù)等[3]。
數(shù)據(jù)監(jiān)管日益成為國外圖書情報界關(guān)注的熱點問題。2003年,現(xiàn)任美國國家科學(xué)基金會信息基礎(chǔ)設(shè)施主席阿特金斯首次提交了《通過信息基礎(chǔ)設(shè)施促進科學(xué)和工程的革命》( Revolutionizing Science and Engineering through Cyberinfrastructure)的報告 ,也稱阿特金斯報告。當(dāng)時這份報告對數(shù)據(jù)監(jiān)管的闡述并不十分明晰,到了2007年美國國家科學(xué)基金會正式闡述表明數(shù)據(jù)監(jiān)管需要作為一個新的領(lǐng)域開展研究,自此之后,數(shù)據(jù)監(jiān)管從教育領(lǐng)域開始迅速發(fā)展,逐步擴大到圖書館、研究機構(gòu),相關(guān)的政策也在實踐中不斷地得到完善[4]。2007 年,美國研究圖書館協(xié)會 (ARL)專門對數(shù)據(jù)監(jiān)管展開全面的研究,在數(shù)據(jù)監(jiān)管的軟硬件開發(fā)管理、實施原則以及圖書館員的定位等方面形成指導(dǎo)性文件,成為各個圖書館、高校和研究機構(gòu)進行數(shù)據(jù)監(jiān)管研究和發(fā)展的風(fēng)向標(biāo),為培養(yǎng)數(shù)據(jù)監(jiān)管人才,形成數(shù)據(jù)監(jiān)管準(zhǔn)則提供官方指導(dǎo)意見。
我國部分大型科研項目對數(shù)據(jù)監(jiān)管工作重視程度較高,基本集中在社會公共服務(wù)、國防軍用建設(shè)等領(lǐng)域,譬如氣象監(jiān)測系統(tǒng)數(shù)據(jù),為科技發(fā)展進步提供了強有力的支撐。與此同時,許多小規(guī)模科研項目的數(shù)據(jù)零散,缺乏有效的歸集和整理。雖然部分高校圖書館設(shè)置了碩士論文提交系統(tǒng),但基本上還是以保管歸檔為目的,各大院系的科研數(shù)據(jù)也多是各自保管,數(shù)據(jù)信息格式多樣化,這既不利于科研數(shù)據(jù)的長期存儲和提取,也難以實現(xiàn)共享,在今后的科研活動中發(fā)揮作用受到限制。信息保存機構(gòu)和圖書館有必要行動起來,積極發(fā)揮自身的作用。
3.1 成為數(shù)據(jù)管理的技術(shù)管理者和咨詢服務(wù)者
近十年來,圖書館向研究者提供的核心服務(wù)體現(xiàn)了圖書館在信息技術(shù)能力方面的提升。高校圖書館為了能夠?qū)崿F(xiàn)成為學(xué)校信息研究中心的目標(biāo),新引進的專業(yè)人才中IT專業(yè)的館員占到很大比例,特別是信息系統(tǒng)和編程方面的技術(shù)人員。這就為圖書館提供大數(shù)據(jù)管理服務(wù)提供了人才基礎(chǔ),當(dāng)然,大數(shù)據(jù)管理需要多種專業(yè)人才,以便在學(xué)科方向上形成互補。
在數(shù)據(jù)的整個生命周期中需要四個角色來完成:數(shù)據(jù)管理人、數(shù)據(jù)生成者、數(shù)據(jù)館員和數(shù)據(jù)處理專家。圖書館可以扮演的角色是為研究群體提供培訓(xùn)[5],使其擁有組織和系統(tǒng)化管理數(shù)據(jù)的能力和技巧,當(dāng)數(shù)據(jù)產(chǎn)生和集合后能被高效利用。數(shù)據(jù)監(jiān)管若要想取得長期成功,精通于處理數(shù)據(jù)的專家需要在研究項目前期準(zhǔn)備階段就扮演咨詢角色。圖書館的相關(guān)人員可以從兩個方面發(fā)揮作用:其一,要有越來越多的圖書館員從元數(shù)據(jù)專家轉(zhuǎn)變?yōu)樾畔⒓夹g(shù)工作者。其二,面對有數(shù)據(jù)分析需求的讀者,館員們可以像以往提供學(xué)科服務(wù)一樣幫助其制定數(shù)據(jù)管理計劃[6]。
3.2 成為科研人員和信息技術(shù)專家之間的橋梁
圖書館為各學(xué)科提供數(shù)據(jù)管理服務(wù)的方式因?qū)W科而異。各學(xué)科都有自身的研究方法和內(nèi)容,雖然各領(lǐng)域?qū)?shù)據(jù)的需求完全不同,但是幾乎沒有學(xué)科是不需要數(shù)據(jù)服務(wù)的。因此,承擔(dān)相關(guān)任務(wù)的館員,應(yīng)該根據(jù)不同的學(xué)科需求學(xué)習(xí)管理數(shù)據(jù)的方法,或者至少能夠在研究者和數(shù)據(jù)管理專家之間建立聯(lián)系。
在數(shù)據(jù)管理領(lǐng)域,從業(yè)人員一般是IT專業(yè)人才或者至少具備IT行業(yè)基本素質(zhì)。其實大數(shù)據(jù)管理需要的專業(yè)技能和素質(zhì)是非常廣泛的,比如大數(shù)據(jù)網(wǎng)絡(luò)建設(shè)、數(shù)據(jù)恢復(fù)以及數(shù)據(jù)融合,這些都是進行數(shù)據(jù)監(jiān)管必備的能力。如果圖書館有這樣的人才當(dāng)然最有利于工作的開展,然而對于大部分圖書館來說,更加現(xiàn)實的是成為溝通數(shù)據(jù)管理專家的橋梁。除此之外,圖書館還可以在數(shù)據(jù)安全、公平使用、版權(quán)以及風(fēng)險管理方面有所作為。
當(dāng)大數(shù)據(jù)集合融入有序建構(gòu)的貯存體系,它們需要通過一系列重要的途徑呈現(xiàn)在學(xué)術(shù)研究者面前。首先,數(shù)據(jù)集合必須從內(nèi)到外緊密有序排列。其次,一旦大數(shù)據(jù)集合產(chǎn)生,它們就應(yīng)該以一種與研究環(huán)境和諧的方式保存。而后者對于數(shù)據(jù)的再次利用是非常必要的。通過數(shù)據(jù)有序保管,圖書館可以為研究機構(gòu)提供服務(wù),以節(jié)省科研時間。
4.1 尋找并與其他組織建立伙伴關(guān)系
在科研領(lǐng)域,數(shù)據(jù)產(chǎn)生的速度過快,政府和科研機構(gòu)無力為龐大的數(shù)據(jù)集制定管理標(biāo)準(zhǔn)。站在數(shù)據(jù)原生研究者的角度,基礎(chǔ)的數(shù)據(jù)存儲、備份能夠滿足其研究需求;然而這樣基礎(chǔ)的存儲和備份對于其他對研究數(shù)據(jù)感興趣的學(xué)者來說遠遠達不到可以被利用的水平。數(shù)據(jù)監(jiān)管的發(fā)展趨勢已經(jīng)被研究型圖書館注意到,然而一些院校圖書館盡管對研究數(shù)據(jù)監(jiān)管服務(wù)感興趣,卻并沒有意識到可以和其他圖書館展開合作。很多高校圖書館都在努力或希望成為研究數(shù)據(jù)的收集管理中心,成為所在院校學(xué)者們值得信賴的智庫。然而大多數(shù)的教授學(xué)者不認為高校圖書館有提供數(shù)據(jù)管理服務(wù)的能力,這種不信任是高校圖書館發(fā)展數(shù)據(jù)監(jiān)管服務(wù)的最大障礙之一。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)管理的標(biāo)準(zhǔn)是不斷變化的,高校圖書館相關(guān)人員需要付出大量的時間來學(xué)習(xí)探索并執(zhí)行這些數(shù)據(jù)管理的標(biāo)準(zhǔn)。圖書館可以依托高校圖工委等機構(gòu)共同探討和構(gòu)建數(shù)據(jù)管理的框架,交流和共享數(shù)據(jù)管理的經(jīng)驗,也可以和專業(yè)可靠的信息技術(shù)公司合作,獲取可靠的數(shù)據(jù)技術(shù)服務(wù)。
4.2 評估本地需求,開發(fā)本地基礎(chǔ)設(shè)施,制訂相關(guān)政策
圖書館界已經(jīng)在探尋增加數(shù)據(jù)利用率的途徑。如前文所述,與不斷變更的數(shù)據(jù)管理標(biāo)準(zhǔn)保持一致就需要圖書館工作人員付諸大量的時間,除此之外資金層面的支撐也是一個主要的壓力。信息科學(xué)領(lǐng)域的專家們正在努力從法律、科學(xué)和技術(shù)層面進行分析,制定適合各種類型數(shù)據(jù)生成和儲存的標(biāo)準(zhǔn)。
目前有很多機構(gòu)能夠支撐科學(xué)和工程研究對大數(shù)據(jù)處理的需求,然而卻沒有固定的人員來協(xié)助制定數(shù)據(jù)管理計劃。事實上,在最近幾年中,全球范圍內(nèi)為學(xué)術(shù)研究服務(wù)的數(shù)據(jù)管理越來越顯示出其重要性。無論是政府機構(gòu)還是個人都受益于大數(shù)據(jù)在國家安全領(lǐng)域抑或是商業(yè)領(lǐng)域的運用。自然科學(xué)學(xué)科,如化學(xué)、物理和生物在大數(shù)據(jù)分析利用和管理上領(lǐng)先于人文科學(xué)和社會科學(xué)學(xué)科。
4.3 形成數(shù)據(jù)監(jiān)管執(zhí)行組,重組數(shù)據(jù)工作組
為了保證研究群體的最大利益,圖書館可以協(xié)助規(guī)劃處理大數(shù)據(jù)集合以使其能被最大限度地利用。圖書館亦可以充當(dāng)研究團隊、信息技術(shù)部門、研究管理部門與科研處、老師、學(xué)生之間的使者,以保證實現(xiàn)統(tǒng)一的高水平的數(shù)據(jù)管理標(biāo)準(zhǔn)。大數(shù)據(jù)管理不僅是暫時性的,更多的是保存數(shù)據(jù)的生命力及后續(xù)使用周期。大數(shù)據(jù)的處理分析需要數(shù)據(jù)具有一致性,這就要求在數(shù)據(jù)產(chǎn)生的初始階段就有管理者的介入,這樣才能在后續(xù)階段保證其符合數(shù)據(jù)監(jiān)管的標(biāo)準(zhǔn)。目前,有些研究項目的科研數(shù)據(jù)存儲量非常大,更加需要標(biāo)準(zhǔn)化管理以保證高質(zhì)量的存儲研究成果。一旦數(shù)據(jù)產(chǎn)生、融合和被儲存,在數(shù)據(jù)產(chǎn)生的初始階段投入監(jiān)管,將使數(shù)據(jù)的挖掘獲取變得更加便捷。信息技術(shù)專業(yè)人員可以協(xié)助研究者對數(shù)據(jù)融合、分析、過濾和序列化進行規(guī)劃,以便數(shù)據(jù)可以為以后的研究服務(wù)。
以往的圖書館學(xué)科服務(wù)一般針對特定的研究領(lǐng)域,學(xué)科館員一般具有良好的專業(yè)素養(yǎng),可作為研究群體和圖書館之間溝通的橋梁。在如今的大數(shù)據(jù)背景下,非常需要信息技術(shù)專家全程監(jiān)控數(shù)據(jù)的產(chǎn)生和融合,并且實時與相關(guān)領(lǐng)域研究專家溝通。很多情況下,研究機構(gòu)不了解這種服務(wù),這就是圖書館應(yīng)該發(fā)揮作用的時機——向相關(guān)研究群體提供咨詢服務(wù),使之清楚數(shù)據(jù)監(jiān)管服務(wù)的流程,以便在研究的過程中能夠及時地保存、處理研究數(shù)據(jù)。
[1]鐘聲.大數(shù)據(jù)驅(qū)動的高校圖書館數(shù)據(jù)監(jiān)護探究[J].情報資料工作,2014,(3):103-106.
[2]沈婷婷,盧志國. 數(shù)據(jù)監(jiān)管在我國高校圖書館的應(yīng)用展望[J].圖書情報工作,2012,(7):54-57,87.
[3]王晴.國外Data Curation研究綜述[J].情報資料工作,2014,(1):52-57.
[4]高紅文,陳清文. 國外數(shù)據(jù)監(jiān)管研究綜述及啟示[J].圖書館學(xué)研究,2013,(10):2-4, 27.
[5]王芳,慎金花.國外數(shù)據(jù)管護(Data Curation)研究與實踐進展[J].中國圖書館學(xué)報,2014,(4):116-128.
[6]丁培.數(shù)據(jù)策展與圖書館[J].圖書館學(xué)研究,2013,(6):94-98.
G250
A
2016-07-02 責(zé)任編輯:張靜茹)