高琳
(內(nèi)蒙古農(nóng)業(yè)大學圖書館 內(nèi)蒙古呼和浩特 010018)
大數(shù)據(jù)思維與圖書館知識資源發(fā)現(xiàn)
高琳
(內(nèi)蒙古農(nóng)業(yè)大學圖書館 內(nèi)蒙古呼和浩特 010018)
大數(shù)據(jù)時代的到來引發(fā)了人們對數(shù)據(jù)價值的重新認識,也使得對解決問題思維從追求因果關系向更看重關聯(lián)關系方向轉(zhuǎn)移。受大數(shù)據(jù)思維影響,傳統(tǒng)的圖書館知識資源發(fā)現(xiàn)服務需在實現(xiàn)步驟、營銷策略方面做出改變。
大數(shù)據(jù)思維;小數(shù)據(jù);圖書館;知識資源;發(fā)現(xiàn)服務
隨著大數(shù)據(jù)在人們認識中的概念加深和在社會發(fā)展中的拓展應用,對于公眾特別是從事數(shù)據(jù)生產(chǎn)、處理與應用工作的信息工作從業(yè)者來說,大數(shù)據(jù)已不陌生,它在一些政務管理、市場營銷、智能交通、智慧城市等領域的經(jīng)典案例也被廣為傳播,大數(shù)據(jù)成為當代繼Web、云計算之后的又一熱門詞。然而,對于以信息為生存基礎的圖書館和圖書館員來說,大數(shù)據(jù)究竟對我們的工作意味著什么?
目前,圖情界已經(jīng)對大數(shù)據(jù)及其在圖書館的應用實踐、障礙困難、發(fā)展前景等展開了廣泛的研究與討論,筆者僅在中國知網(wǎng)以“圖書館”&“大數(shù)據(jù)”為主題詞進行檢索(檢索時間:2015年2月10日),就發(fā)現(xiàn)有532條相關文獻,且這些文獻的發(fā)表時間主要集中在過去兩年(2013年和2014年),由此可知我國圖情界過去兩年對大數(shù)據(jù)注入了巨大的研究熱情。對這些文獻進行簡單梳理,發(fā)現(xiàn)它們主要從大數(shù)據(jù)對圖書館的影響、圖書館如何應對、圖書館大數(shù)據(jù)的收集與管理等角度進行推理研究,對于應用的案例則主要集中在大數(shù)據(jù)在營銷、社會管理等領域的應用方面,缺少從圖書館價值體現(xiàn)的信息角度去討論大數(shù)據(jù)時代的圖書館信息管理和服務,如知識組織與資源發(fā)現(xiàn)等,而這恰恰是筆者認為在大數(shù)據(jù)語境下,大數(shù)據(jù)思維能最早也最直接作用于圖書館的價值之所在?;诖耍疚脑诟攀龃髷?shù)據(jù)和大數(shù)據(jù)思維的基礎上,著重從傳統(tǒng)思維下的圖書館知識資源發(fā)現(xiàn)和大數(shù)據(jù)思維驅(qū)動下的圖書館知識資源發(fā)現(xiàn)比較入手,進而去研究大數(shù)據(jù)思維驅(qū)動的圖書館知識資源發(fā)現(xiàn)途徑與策略。
2.1 大數(shù)據(jù)概述
2011年5月,全球知名咨詢公司麥肯錫(Mckinsey and Company)發(fā)布了《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿領域》報告,首次提出了“大數(shù)據(jù)”的概念,并在報告中指出“數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務職能領域,逐漸成為重要的生產(chǎn)因素;而人們對于海量數(shù)據(jù)的運用將預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來”。之后,《紐約時報》、《華爾街日報》、《自然》等對大數(shù)據(jù)進行了專欄介紹,但時至今日,業(yè)界對大數(shù)據(jù)的概念并無統(tǒng)一認識,且不同的研究領域和價值判斷視角使其的內(nèi)涵變得更為寬泛,如從“Big data”字面所引申的概念來看,大數(shù)據(jù)無疑就是“大”數(shù)據(jù),其“大”既體現(xiàn)在數(shù)量上,也體現(xiàn)在其組成分布、數(shù)據(jù)結(jié)構上;而從大數(shù)據(jù)的挖掘和應用來看,大數(shù)據(jù)則更可能是價值巨大的體現(xiàn)和概括。但無論其在具體的表達中如何界定和描述,我們都認為大數(shù)據(jù)既是豐富的數(shù)據(jù)組織機構、分布形態(tài)屬性描述,也是巨大的應用價值屬性描述。為此,業(yè)界總結(jié)了大數(shù)據(jù)的價值之所在,如IBM和IDC認為大數(shù)據(jù)具有多“V”特征,即種類(Variety)多、速度(Velocity)快、容量(Volume)大、價值(Value)高,NetApp認為大數(shù)據(jù)具有"A、B、C"(分析〈Analytic〉、帶寬〈Bandwidth〉和內(nèi)容〈Content〉)三大要素特征。
2.2 大數(shù)據(jù)思維
在傳統(tǒng)的思維模式下,發(fā)現(xiàn)問題——分析問題——解決問題是永恒的因果思維模式,即使有一些防患于未然的預防、預警措施,但問題的解決往往主要集中于事后而不是事前,因果關系成了傳統(tǒng)思維的主要推理與演繹思維。但隨著美國信息高速公路計劃的推出和現(xiàn)代互聯(lián)網(wǎng)環(huán)境的出現(xiàn),使得人們的思考與解決問題方式有了質(zhì)的改變,以網(wǎng)絡體驗——話題傳播——問題發(fā)現(xiàn)——新的體驗為循環(huán)思維的互聯(lián)網(wǎng)思維隨之出現(xiàn)。大數(shù)據(jù)的出現(xiàn)則又使得人們的思維方式發(fā)生了質(zhì)的變化,其變化正如維克托·邁爾·舍恩伯格在《大數(shù)據(jù)時代:生活、工作與思維的大變革》中最具洞見的觀點描述的一樣,即大數(shù)據(jù)時代最大的轉(zhuǎn)變就是放棄對因果關系的渴求,取而代之關注相關關系。也就是說只要知道“是什么”,而不需要知道“為什么”。
復旦大學陳宇新教授認為從營銷學的角度來看,大數(shù)據(jù)其實也是營銷科學導向的自然演化,其主要包含了定量思維、相關思維和實驗思維等三個緯度。第一,定量思維,即提供更多描述性的信息,其原則是一切皆可測。不僅銷售數(shù)據(jù)、價格這些客觀標準可以形成大數(shù)據(jù),甚至連顧客情緒(如對色彩、空間的感知等)都可以測得,大數(shù)據(jù)包含了與消費行為有關的方方面面;第二,相關思維,一切皆可連,消費者行為的不同數(shù)據(jù)都有內(nèi)在聯(lián)系。這可以用來預測消費者的行為偏好;第三,實驗思維,一切皆可試,大數(shù)據(jù)所帶來的信息可以幫助制定營銷策略。沃爾瑪?shù)摹捌【?尿布”典型案例則很好的體現(xiàn)出了這三個維度特征。
3.1 圖書館和大數(shù)據(jù):認識與應用
綜上,我們可以認為大數(shù)據(jù)既是一種技術,也是一種豐富數(shù)據(jù)的概括,更是一種發(fā)現(xiàn)事物發(fā)展本質(zhì)的思維。對社會信息中心和知識存儲中心的圖書館來說,這種思維范式改變的不僅將是圖書館用戶的信息利用、知識顯現(xiàn)和潛在需求,也要求圖書館借助大數(shù)據(jù)技術和思維,從信息的視域去發(fā)現(xiàn)滿足用戶的服務途徑和方式。圖書館學術界也意識到了這一視角,但從已有的研究文獻來看,業(yè)界對圖書館大數(shù)據(jù)的認識存在一定局限,這或許將為圖書館未來的應用形成障礙。如有學者將具有數(shù)量大屬性的圖書館文獻數(shù)據(jù)認為是圖書館大數(shù)據(jù),這說明業(yè)界對大數(shù)據(jù)的認識還并不深刻和統(tǒng)一。
筆者以為對圖書館來說,大數(shù)據(jù)既包含了現(xiàn)有的數(shù)據(jù)庫、MARC等結(jié)構化數(shù)據(jù),也包含了能夠反映用戶借閱習慣的RFID、Cooki等網(wǎng)絡數(shù)據(jù),還包含了可以幫助圖書館挖掘用戶潛在需求的智能終端設備輸出等數(shù)據(jù),現(xiàn)有的海量數(shù)據(jù)和澳大利亞“圖書館立方”項目的成功應用,說明圖書館不僅具備了收集大數(shù)據(jù)的基礎,也有了應用大數(shù)據(jù)的成功經(jīng)驗積累。
3.2 互聯(lián)網(wǎng)時代的圖書館知識資源發(fā)現(xiàn):方式與不足
圖書館的資源發(fā)現(xiàn)隨著社會發(fā)展而不斷變化,在互聯(lián)網(wǎng)時代,隨著語義化等現(xiàn)代信息技術的發(fā)展和圖書館服務平臺的建設,圖書館的知識資源發(fā)現(xiàn)服務早已不再是數(shù)目卡片查找、口口相傳等方式,以服務平臺和現(xiàn)代信息技術推動著這一服務的發(fā)展,其中以基于語義聚焦爬蟲、領域本體、RDF查詢語言和關聯(lián)數(shù)據(jù)的語義化知識資源發(fā)現(xiàn)與以Summon、Primo、EDS、Worldcat Local和Encore為代表的資源發(fā)現(xiàn)系統(tǒng)是其實現(xiàn)的主要方法與途徑。
王思麗等在對比語義化知識資源發(fā)現(xiàn)方法后,認為以上幾種典型的語義化知識資源發(fā)現(xiàn)方法盡管特點不一,應用都較為廣泛,但也各自存在這一定的局限,如基于領域本體的知識資源發(fā)現(xiàn)方法一直以來都是知識發(fā)現(xiàn)領域的研究重點,并隨著本體開發(fā)工具和技術以及語義標注工具和技術的不斷改進而逐漸完善和優(yōu)化。但由于構建領域本體需要巨大的領域知識庫和具有相關領域?qū)W科知識背景的支持,而復用領域本體也需要有相關本體技術知識的支持,一般用戶很難將基于領域本體的方法運用自如,一般都是圖書館或相關學術研究機構的資源建設團隊在整體運作。而對圖書館知識資源發(fā)現(xiàn)系統(tǒng)來說,也是由于各個發(fā)現(xiàn)系統(tǒng)的依賴資源都有一定的局限,故資源的關聯(lián)和發(fā)現(xiàn)都只是在其可以獲取的資源范圍內(nèi),同時如接口與標準化差異、需求場景不同導致各個系統(tǒng)都存在一定的進一步發(fā)展障礙。
3.3 大數(shù)據(jù)時代的圖書館知識資源發(fā)現(xiàn):思維與范式3.3.1大數(shù)據(jù)思維影響下的圖書館知識資源發(fā)現(xiàn)
《大數(shù)據(jù)時代》作者、大數(shù)據(jù)研究專家舍恩伯格指出,人們在大數(shù)據(jù)時代對待數(shù)據(jù)的思維方式會發(fā)生三個變化:第一,人們處理的數(shù)據(jù)從樣本數(shù)據(jù)變成全部數(shù)據(jù);第二,由于是全樣本數(shù)據(jù),人們不得不接受數(shù)據(jù)的混雜性,而放棄對精確性的追求;第三,人類通過對大數(shù)據(jù)的處理,放棄對因果關系的渴求,轉(zhuǎn)而關注相關關系。在上述思維轉(zhuǎn)變的基礎上,有學者還認為大數(shù)據(jù)思維其最關鍵的轉(zhuǎn)變在于從自然思維轉(zhuǎn)向智能思維,甚至智慧思維。這些思維方式的轉(zhuǎn)變對圖書館的知識資源發(fā)現(xiàn)服務來說,其將體現(xiàn)在如下三個方面:
首先,對原有圖書館物理服務空間環(huán)境下的借閱發(fā)現(xiàn)、網(wǎng)絡環(huán)境下的語義檢索發(fā)現(xiàn)等途徑,將向?qū)D書館用戶和資源全關聯(lián)后的知識發(fā)現(xiàn)轉(zhuǎn)變,且對圖書館用戶和資源的關聯(lián)挖掘,其數(shù)據(jù)不僅是對用戶身份、學歷、借閱需求的小數(shù)據(jù)分析,更可能是對用戶借閱習慣、閱讀領域、信息行為等多種數(shù)據(jù)的挖掘和分析;
其次,由于基于用戶信息行為乃至生活行為的分析和挖掘,以致圖書館的知識資源發(fā)現(xiàn)服務可能并不滿足于用戶最需的科研文獻推送等服務,而可能是概括了其可能感興趣的生活如旅游、音樂等知識,使其不得不從這些服務中去挑選自己所需知識,服務的精準性有所降低,需用戶不斷的閾值設置與校正;
再次,圖書館知識資源的關聯(lián)性增強,使得用戶雖所需要的知識資源發(fā)現(xiàn)可能性增加,而這些文獻可能需要特別的途徑和代價獲得,這就可能需要圖書館通過館際互借等途徑獲得,以致圖書館不得不面臨著諸多的挑戰(zhàn),如服務成本的增加、版權爭議的風險、用戶滿意度的降低等。3.3.2大數(shù)據(jù)時代的圖書館知識資源發(fā)現(xiàn)實現(xiàn)階段
從營銷學的角度來看,運用大數(shù)據(jù)的遞進層次為描述、預測和產(chǎn)生攻略。這就啟發(fā)對大數(shù)據(jù)時代的圖書館知識資源發(fā)現(xiàn)服務策略來說,也需要經(jīng)歷這三個階段和層次:
第一階段:基于數(shù)據(jù)的行為描述。結(jié)合圖書館用戶進行用戶興趣、研究凌領域的分析與需求挖掘,就必須依賴于海量的描述用戶行為數(shù)據(jù),如用戶的借閱歷史、科研記錄、學習網(wǎng)站的訪問頻率與種類等。掌握和采集可描述用戶特征的異構數(shù)據(jù),則可借助一定的儀器和設備,如美國迪斯尼公司最近投資了10億美元開發(fā)出了MagicBand手環(huán)進行線下顧客的跟蹤和數(shù)據(jù)采集,游客在入園時佩戴上帶有位置采集功能的手環(huán),園方可以通過其來采集游客信息行為數(shù)據(jù),還可通過定位系統(tǒng)了解不同區(qū)域游客的分布情況,并將這一信息告訴游客,方便游客選擇最佳游玩路線。
第二階段:基于描述數(shù)據(jù)的預測。基于描述數(shù)據(jù)的預測,其實就是基于海量有用數(shù)據(jù)的分析和挖掘利用過程,是圖書館應用應用大數(shù)據(jù)的關鍵階段。在這個階段,圖書館通過大數(shù)據(jù)分析平臺如Hadoop來實現(xiàn)從對數(shù)據(jù)量的擁有到價值體現(xiàn)的過程,沃爾瑪超市的“啤酒+尿布”就是從海量的用戶購物數(shù)據(jù)中得出的經(jīng)典營銷策略案例。目前的社交網(wǎng)絡在這一方面也進行了有益嘗試,其通過社交網(wǎng)絡分析與跟蹤,將消費者社交網(wǎng)絡上的關鍵詞頻率轉(zhuǎn)化為可視化表達,對消費者進行分類,進而預測目標客群的消費水平、人際圈子、行為習慣等,實現(xiàn)從數(shù)據(jù)的描述想預測階段發(fā)展。
第三階段:基于預測結(jié)果的服務策略制定。通過預測結(jié)果,圖書館可以制定對應不同用戶群體的服務策略,如對在校學生,其可能更需要可以幫助其提升學習效果的學習技巧類知識資源,而對于中老年用戶其可能更需要養(yǎng)生保健知識資源。將這些用戶群體的顯著特征與預測模型相融合,圖書館就可以制定出科學的發(fā)現(xiàn)服務的實現(xiàn)策略,即營銷理論的攻略制定。
[1]Big data:The next frontier for innovation,competition,and productivity[EB/OL].[2014-09-21].http://www.mck insey.com/Insights/MGI/Research/Technology_and_Innov ation/Big_data_The_next_frontier_for_innovation.
[2]MapR and Informatica Combine to Conquer Volume,Variety and Velocity of Big Data[EB/OL].[2014-09-21].http://www.dbta.com/Articles/Editorial/News-Flashes/-MapR-and-Informatica-Join-Forces-to-Tackle-Volume-Variety-and-Velocity-of-Big-Data-81231.aspx.
[3]IBM公司在大數(shù)據(jù)領域占有先機[EB/OL].[2014-09-01]. http://it.hilizi.com/server/275232/372589013274b.shtml.
[4]NetApp.Big Data Solutions for Government[EB/OL].[2014-09-01].http://www.netapp.com/us/solutions/indust ry/government/bigdata.html.
[5](美)維克托·邁爾·舍恩伯格.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013.
[6]陳宇新.互聯(lián)網(wǎng)思維PK大數(shù)據(jù)思維[EB/OL].[2015-02 -03 ].http://mt.sohu.com/20140819/n403586440.shtml.
[7]王思麗,劉巍,祝忠明,等.語義化的知識資源發(fā)現(xiàn)方法探析[J].圖書館學研究,2014(9):2-6.
[8]大數(shù)據(jù)帶來的四種思維[EB/OL].[2015-02-03].http://www.techxue.com/techxue-12814-1.html.
Big Data Thinking and the Discovery of Knowledge Resources in Library
Big data times make people rethink of the value of data and the pursuit of causalty shifts to the pursuit of relevance in problem solving.The traditional services of libraries in the discovery of knowledge need changes in implementation steps and karketing strategies.
big data thinking;small data;library;knowledge resources;discovery service
G250
A
10.11968/tsyqb.1003-6938.2015022
高琳(1970-),女,內(nèi)蒙古農(nóng)業(yè)大學圖書館館員。
2015-02-15;責任編輯:魏志鵬