崔小宜
(西北政法大學(xué)行政法學(xué)院 陜西 西安 710012)
暗數(shù)據(jù)對圖書館應(yīng)用大數(shù)據(jù)的影響分析
崔小宜
(西北政法大學(xué)行政法學(xué)院 陜西 西安 710012)
數(shù)據(jù)挖掘、數(shù)據(jù)分析等大數(shù)據(jù)應(yīng)用是大數(shù)據(jù)時代圖書館拓展和升級服務(wù)的必然選擇,但大數(shù)據(jù)中不容忽視的暗數(shù)據(jù)會對其應(yīng)用造成影響,圖書館必須認(rèn)識到其存在和影響,并采取一定的措施來提高數(shù)據(jù)應(yīng)用效率。
暗數(shù)據(jù);大數(shù)據(jù);數(shù)據(jù)服務(wù);圖書館
毋庸置疑,大數(shù)據(jù)是當(dāng)下社會最熱的詞匯,其不僅被學(xué)術(shù)界所研究,也被政府所重視,更被商界所追捧,全社會已然進(jìn)入到了一個開口必言“大數(shù)據(jù)”的時代,數(shù)據(jù)也似乎成了可以推動社會發(fā)展的最強驅(qū)動力,但實際是否如此?所有的大數(shù)據(jù)都真如一些研究所言可以分析與利用,是“金礦”、是推動社會發(fā)展的新動力嗎?帶著這些問題,筆者通過引進(jìn)、介紹了占大數(shù)據(jù)比例較高、價值巨大但難以收集、分析和應(yīng)用的暗數(shù)據(jù),重點分析了暗數(shù)據(jù)對應(yīng)用大數(shù)據(jù)的影響和圖書館應(yīng)用暗數(shù)據(jù)的方式與途徑。
目前,業(yè)界對“暗數(shù)據(jù)”的定義還不豐富和完善,相關(guān)討論也都主要引用國際著名咨詢公司Gartner公司對“暗數(shù)據(jù)”的定義:“企業(yè)在開展正常業(yè)務(wù)活動期間采集、處理和存儲,但通常無法用于其它目的(如分析、商業(yè)關(guān)系和直接獲利)的信息”。大數(shù)據(jù)智庫則將其定義為:“暗數(shù)據(jù)”是深藏于海量數(shù)據(jù)之中、在商業(yè)應(yīng)用上可能發(fā)揮重大作用的關(guān)鍵隱含數(shù)據(jù)。結(jié)合上述兩種定義,我們可以理解為,“暗數(shù)據(jù)”是人類沒有掌握和收集但已產(chǎn)生影響的數(shù)據(jù)+人類沒有開發(fā)挖掘的大數(shù)據(jù),具有不易收集與分析、隱匿性較高等特征。
相較于大數(shù)據(jù),暗數(shù)據(jù)的社會關(guān)注度就遜色不少。筆者以主題為“暗數(shù)據(jù)”檢索了國內(nèi)收錄研究文獻(xiàn)最為齊全的中國知網(wǎng)(檢索日期:2015年3月30日),結(jié)果顯示只有2015年初蔣報永發(fā)表在2015年1月12日《中國計算機報》上的“點亮‘暗數(shù)據(jù)’的五種方式”一文,可見國內(nèi)學(xué)者對其的研究之匱乏接近于空白。但需值得注意的是,有一篇網(wǎng)絡(luò)博文則受到了業(yè)界極大的關(guān)注,那就是上海圖書館館長吳建中先生2015年2月22日發(fā)表于其博客“建中讀書”的“暗數(shù)據(jù)”一文,該博文不但對暗數(shù)據(jù)的GARNER定義、國內(nèi)外圖情界對其的關(guān)注與實踐進(jìn)行了介紹,也介紹了博主對暗數(shù)據(jù)的理解與發(fā)展展望。
根據(jù)上述兩篇僅有的中文文獻(xiàn)資料,我們知道:國際知名的開放出版機構(gòu)生物醫(yī)學(xué)中心(BioMed Central,簡稱BMC)與全球最大搜索引擎谷歌Google,分別于2008年及其后,各自致力于藥物開發(fā)或科技領(lǐng)域的暗數(shù)據(jù)研究;從2012年開始,美國眾多企業(yè)都在信息發(fā)布或微信等媒體上透露將關(guān)注暗數(shù)據(jù)信息;惠普、美國慷孚系統(tǒng)公司(CommVault System,Inc)等IT公司正致力于研究和推廣點亮“暗數(shù)據(jù)”的信息治理策略研究和智能歸檔解決方案。此外,F(xiàn)acebook面對數(shù)量龐大的互聯(lián)網(wǎng)社群,為了使生成的內(nèi)容既吸引一批忠實的品牌倡導(dǎo)者,也可以喚醒那些“潛水粉”,于是通過在社交虛擬社區(qū)測定“潛水粉”的點擊率、變動率和一段時間內(nèi)的參與度,以此來“激活”“潛水粉”,將品牌的著力點放在他們“正在不做什么”之上,進(jìn)而影響和促動營銷者們挖掘品牌內(nèi)在的價值。
2.1 圖書館暗數(shù)據(jù)的分類與原因
盡管大數(shù)據(jù)價值巨大,但其價值的實現(xiàn)必須依賴于深度的數(shù)據(jù)挖掘和分析,以此來發(fā)現(xiàn)隱藏在事物發(fā)展表明的本質(zhì)和規(guī)律,進(jìn)而實現(xiàn)數(shù)據(jù)信息的增值與開發(fā)。反之,數(shù)據(jù)則會處于黑暗的非揭示狀態(tài)。而從上述暗數(shù)據(jù)的定義、特征等可以看出,處于黑暗非揭示狀態(tài)的數(shù)據(jù)可能是人們未能存儲掌握或真實存在而又人們未能知道的數(shù)據(jù),也可能是已經(jīng)存儲但沒有挖掘開發(fā)的數(shù)據(jù),這兩類不同的數(shù)據(jù)對大數(shù)據(jù)分析和應(yīng)用的影響也存在差異。
圖書館是社會知識存儲、加工與組織的公益性機構(gòu),也是社會文明發(fā)展歷程的見證者和成果繼承者,跨入大數(shù)據(jù)時代以來,圖書館界敏銳的觀察到了大數(shù)據(jù)社會民眾的信息需求變化特征,并開始了對大數(shù)據(jù)時代圖書館轉(zhuǎn)型變革的研究與實踐。其中,掌握和分析用戶的圖書館利用等信息行為等數(shù)據(jù),以為用戶的個性化、專業(yè)化信息服務(wù)開展、推送與實現(xiàn)提供決策參考,是圖書館在大數(shù)據(jù)時代的大數(shù)據(jù)應(yīng)用主要內(nèi)容。暗數(shù)據(jù)的存在和對其他數(shù)據(jù)的影響也會影響到圖書館對大數(shù)據(jù)的應(yīng)用效率、價值和意愿,而分析這些影響的大小與可能性,則需從圖書館所需大數(shù)據(jù)中所含暗數(shù)據(jù)的來源入手,以進(jìn)一步通過分析這些來源數(shù)據(jù)可能產(chǎn)生的影響。筆者認(rèn)為通常來說,圖書館所需大數(shù)據(jù)一方面來自于用戶享受圖書館服務(wù)時產(chǎn)生的借閱習(xí)慣、借閱歷史等存儲于計算機的結(jié)構(gòu)化數(shù)據(jù),和產(chǎn)生于用戶在科學(xué)研究、社交網(wǎng)絡(luò)等情景時產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)(第一類數(shù)據(jù)),另一方面則來自于互聯(lián)網(wǎng)、商場等物理空間、虛擬空間中個體的信息行為數(shù)據(jù)(第二類數(shù)據(jù))。
從產(chǎn)生上述兩類暗數(shù)據(jù)的原因來看,既有主觀原因,也有客觀原因,如數(shù)據(jù)收集、分析和挖掘等處理設(shè)備、技術(shù)等都可能造成數(shù)據(jù)無法準(zhǔn)確掌握的原因,對數(shù)據(jù)分析深度的欠缺、基于經(jīng)驗的人為主觀判斷等也可能造成暗數(shù)據(jù)價值的淺層挖掘,隱私、商業(yè)信息的保護(hù)和獲取之間矛盾,大數(shù)據(jù)時代信息倫理規(guī)約和傳統(tǒng)信息道德的博弈,等等。這些問題的解決既需要相關(guān)技術(shù)的發(fā)展為支撐,也需要數(shù)據(jù)挖掘等相關(guān)工作的開展積累,更需要相關(guān)法律、法規(guī)和制度的完善與保障等多方發(fā)展推動因素。
2.2 暗數(shù)據(jù)對圖書館應(yīng)用大數(shù)據(jù)的影響
從對圖書館應(yīng)用大數(shù)據(jù)的影響來看,第一類數(shù)據(jù)主要會影響到圖書館對用戶個體需求特征的精準(zhǔn)判斷和服務(wù),如對用戶所需學(xué)科領(lǐng)域、服務(wù)途徑等的模糊掌握,會影響到用戶對圖書館服務(wù)的體驗與評價,甚至當(dāng)圖書館在大數(shù)據(jù)時代信息中心的地位被邊緣化、以服務(wù)來體現(xiàn)價值的情況發(fā)展逐步顯現(xiàn)時,用戶可能會選擇其它信息咨詢、數(shù)據(jù)分析等盈利性機構(gòu),最終降低圖書館的存在價值;第二類數(shù)據(jù)主要會影響到圖書館對非圖書館服務(wù)利用者和發(fā)展生態(tài)環(huán)境的需求與態(tài)勢判斷,如對非圖書館用戶來說,其對圖書館服務(wù)的服務(wù)體驗可能處于空白,圖書館不能依賴第一類數(shù)據(jù)的分析來斷定所有社會民眾的圖書館服務(wù)體驗意愿,而是需掌握這類潛在的圖書館用戶利用圖書館服務(wù)的可能性和有區(qū)別于圖書館用戶的服務(wù)需求,這就需通過分析這類信息行為主體在互聯(lián)網(wǎng)、社交空間、移動終端使用等方面的社會數(shù)據(jù)。同時,圖書館不能對數(shù)據(jù)的分析局限在固定用戶和潛在用戶的信息行為等范圍,大數(shù)據(jù)的價值巨大就是因為其實現(xiàn)了多領(lǐng)域、多途徑數(shù)據(jù)的關(guān)聯(lián),通過潛在的關(guān)聯(lián)去分析和發(fā)現(xiàn)事物之間可能產(chǎn)生的關(guān)聯(lián)關(guān)系,如經(jīng)典的“啤酒+尿布”就是看起來毫不相干的兩件事,最后卻關(guān)聯(lián)在一起并鑄造了一個傳奇營銷案例。因此,圖書館也需對產(chǎn)生于商場、博物館等物理空間和網(wǎng)絡(luò)、設(shè)計空間等虛擬空間的數(shù)據(jù)進(jìn)行掌握與分析,以尋求圖書館的服務(wù)改進(jìn)與事業(yè)發(fā)展途徑。如果對所分析的數(shù)據(jù)在數(shù)量、來源分布等方面存在較大的暗數(shù)據(jù),其分析的結(jié)果可能不能達(dá)到預(yù)期的效果或產(chǎn)生一定的結(jié)果偏移,影響到圖書館決策者在事業(yè)發(fā)展、服務(wù)改進(jìn)等方面的正確決策和創(chuàng)新。
3.1 圖書館應(yīng)用暗數(shù)據(jù):價值與風(fēng)險并存
大數(shù)據(jù)價值的產(chǎn)生緣于其廣泛的來源和龐大的數(shù)量以及復(fù)雜的組成結(jié)構(gòu),那么,在大數(shù)據(jù)中,暗數(shù)據(jù)所占的比例有多高呢?全球性的組織CGOC(Compliance,Governance and Oversight Counsel,合規(guī)管理監(jiān)督委員會)在2013年進(jìn)行的一項調(diào)查研究結(jié)果顯示:“在企業(yè)存儲的數(shù)據(jù)中,69%的數(shù)據(jù)對企業(yè)毫無價值”。也有科學(xué)研究表明“宇宙中有90%是由人們看不見的暗物質(zhì)組成的”、“存在于地處暗黑之海里面(DarkWeb)一些孤島的數(shù)據(jù)占數(shù)據(jù)總量的85%以上”,等等。這些都表明暗數(shù)據(jù)不但存在于大數(shù)據(jù)之中,且所占比例和數(shù)量巨大。圖書館利用這些存在形態(tài)多樣、收集與存儲難度較高、數(shù)量巨大、結(jié)構(gòu)復(fù)雜的暗數(shù)據(jù),其帶來的價值必將巨大嗎,但也將面臨著上述的技術(shù)、信息倫理等制約與風(fēng)險,2013年央視3· 15晚會曝光的網(wǎng)易等公司追蹤用戶cookie、分析郵件內(nèi)容就是一件典型的案例,而其實從大數(shù)據(jù)的角度來看待的話,其只是客戶信息行為數(shù)據(jù)的一個收集過程,但其與當(dāng)前的用戶隱私等法律法規(guī)相沖突,面臨法律訴訟等風(fēng)險。“棱鏡門”事件也是此類事件的典型代表。
與風(fēng)險對應(yīng)的則是價值,暗數(shù)據(jù)好比所占宇宙物質(zhì)高達(dá)90%的暗物質(zhì)一樣,其主導(dǎo)著大數(shù)據(jù)的形態(tài)分布、結(jié)構(gòu)組成與價值大小等屬性,其實這也就決定了對大數(shù)據(jù)的分析與挖掘其實就是對暗數(shù)據(jù)的價值挖掘與分析,圖書館掌握和提高了對暗數(shù)據(jù)的應(yīng)用,也就是提高了對大數(shù)據(jù)的應(yīng)用。
3.2 圖書館應(yīng)用暗數(shù)據(jù):方式與途徑
“點亮‘暗數(shù)據(jù)’的五種方式”一文對于企業(yè)如何點亮“暗數(shù)據(jù)”,釋放更大商業(yè)價值有了初步研究成果,認(rèn)為企業(yè)可通過利用CommVaultSimpana10更好地搜索、了解和管理企業(yè)存儲的海量非結(jié)構(gòu)化數(shù)據(jù)(如電子郵件等),智能地利用已存儲內(nèi)容,在數(shù)據(jù)的生命周期內(nèi)對其進(jìn)行管理,就可告別“暗數(shù)據(jù)”時代。筆者借鑒企業(yè)的五種方式,認(rèn)為對圖書館來說,應(yīng)用暗數(shù)據(jù)的方式與途徑第一步是控制圖書館“暗數(shù)據(jù)”的龐大數(shù)據(jù)量。即拋棄傳統(tǒng)的數(shù)據(jù)保護(hù)方法,通過借鑒Simpana軟件基于內(nèi)容的保留策略,僅保留那些對于圖書館有重要價值的數(shù)據(jù),如用戶的上網(wǎng)記錄、借閱歷史等數(shù)據(jù),減少數(shù)據(jù)存儲成本。第二步是建立一個全面的歸檔策略。即一方面從所有生成數(shù)據(jù)的地方采集數(shù)據(jù),另一方面能夠使用一個單一、不可復(fù)制的索引去管理所有數(shù)據(jù)。第三步是讓用戶和圖書館能自助搜索和訪問所需數(shù)據(jù)。即讓用戶能夠快速地發(fā)現(xiàn)、訪問、分析和提取所需信息。第四步是自動管理數(shù)據(jù)生命周期。即讓對數(shù)據(jù)從生成到處理的整個生命周期進(jìn)行評估,制定內(nèi)容刪除的治理策略。第五步是確保合規(guī)和發(fā)現(xiàn)。即對數(shù)據(jù)的獲取與利用是否與現(xiàn)行的法律法規(guī)等有沖突,進(jìn)行策略改進(jìn)。同時,還要確保其它未收集數(shù)據(jù)的及時發(fā)現(xiàn)與已收集數(shù)據(jù)的價值發(fā)現(xiàn),讓更多的暗數(shù)據(jù)走向可視化(收集的可視化與價值的可視化)。
《駕馭大數(shù)據(jù)》一書曾寫到,數(shù)據(jù)的核心是發(fā)現(xiàn)價值,而駕馭數(shù)據(jù)的核心是分析。暗數(shù)據(jù)在大數(shù)據(jù)中所占的比例和價值決定了其大數(shù)據(jù)分析和應(yīng)用的核心,但目前的科學(xué)發(fā)展、技術(shù)水平、法律法規(guī)、倫理道德等制約和影響著對暗數(shù)據(jù)的研究與應(yīng)用,業(yè)界對暗數(shù)據(jù)的研究和關(guān)注說明人們對更深挖掘大數(shù)據(jù)價值的期待,也說明對于解決應(yīng)用暗數(shù)據(jù)存在的障礙充滿期待。圖書館一直以來是社會知識存儲、數(shù)據(jù)加工與分析的中心與主要陣地,盡管在當(dāng)前發(fā)展時期,暗數(shù)據(jù)的存在可能會影響到圖書館用戶個性化、學(xué)科化等服務(wù)實施的精準(zhǔn)性和未來圖書館事業(yè)發(fā)展的態(tài)勢判斷,同時還需處理好風(fēng)險與價值共存的關(guān)系,但借鑒企業(yè)實施點亮“暗數(shù)據(jù)”五步途徑,也能在一定程度上降低暗數(shù)據(jù)對圖書館應(yīng)用大數(shù)據(jù)的影響。
[1]Gartner IT Glossary.Dark Data[EB/OL].[2015-03-16]. http://www.gartner.com/it-glossary/dark-data.
[2]暗數(shù)據(jù)(Dark Data)[EB/OL].[2015-03-16].http://mp.weixin. qq.com/s?__biz=MzA5NzY5NDQxNg=&mid=201848593 &idx=4&sn=fc7c68a27c19f52aad571078fb01219e.
[3]蔣報永.點亮“暗數(shù)據(jù)”的五種方式[N].中國計算機報,2015-01-12.
[4]吳建中.暗數(shù)據(jù)[EB/OL].[2015-03-16].http://blog.sina. com.cn/s/blog_53586b810102vgky.html.
[5]DarkDataandMeasuringInvisibleImpactinYour Facebook Community[EB/OL].[2015-03-16].http://www.socialme diatoday.com/content/dark-data-and-measuring-invisible -impact-your-facebook-community.
[6]東南大學(xué)借“大數(shù)據(jù)”研究暗物質(zhì)數(shù)據(jù)總量等于30個國家圖書館[EB/OL].[2015-03-16].http://news.jschina. com.cn/system/2014/09/21/021926615.shtml.
[7]大數(shù)據(jù)的暗黑之海和外部效應(yīng)[EB/OL].[2015-03-16]. http://www.cio.com.cn/eyan/391997.html.
[8]3.15晚會曝光易傳媒等破解cookie竊取用戶隱私[EB/ OL].[2015-03-16].http://www.sootoo.com/content/404144. shtml.
[9](美)Bill Franks.黃海譯.駕馭大數(shù)據(jù)[M]北京:人民郵電出版社,2013.
Analysis of the Influence of Dark Data on Library’s Utilization of Big Data
It is necessary for library to apply big data to increase and widen its service,but dark data in big data will certainly influence the application.It is important for us to recognize the existence of these data and their influence and then try to exclude them so as to increase efficency.
big data;dark data;data service
D035
A
10.11968/tsygb.1003-6938.2015040
崔小宜(1980-),女,西北政法大學(xué)行政法學(xué)院講師。
2015-04-06;責(zé)任編輯:魏志鵬