朱麗潔,韓 兵
(1.甘肅省社會科學院信息網絡數(shù)據中心,甘肅 蘭州 730070;2.江蘇省社會科學院圖書館,江蘇 南京 210013)
大數(shù)據時代、相關關系及情報意識*
朱麗潔1,韓 兵2
(1.甘肅省社會科學院信息網絡數(shù)據中心,甘肅 蘭州 730070;2.江蘇省社會科學院圖書館,江蘇 南京 210013)
“大數(shù)據”是大量的相關信息被用以分析、預測的概念?;谙嚓P關系分析的大數(shù)據體現(xiàn)為一個情報過程。掌握大數(shù)據需要具備自覺的、敏銳的情報意識。
大數(shù)據時代;相關關系;情報意識
人們曾經為“信息爆炸”而迷惘,如今卻在千方百計地從“大數(shù)據”中尋求機遇。據稱,在這個所謂“大數(shù)據時代”,兩年當中所產生的數(shù)據可以占到了人類文明所獲得的全部數(shù)據的90%。而到2020年,全世界產生的數(shù)據規(guī)模又將達到今天的44倍[1]。這種鋪天蓋地與日俱增的海量數(shù)據帶給人們的不再是迷惘,而是寶貴的資源、機遇和財富,因為人們已經擁有了破解大數(shù)據之謎的法寶——云計算、分布式處理以及相應的存儲、感知技術,從而能夠發(fā)現(xiàn)、掌握這些非結構、半結構化并且難以收集和利用的數(shù)據中所潛藏的意義。于是,大數(shù)據的擁躉們歡呼:“一切慣有思維和解決問題的方式在大數(shù)據時代即將發(fā)生顛覆性的改變”[2]。
大數(shù)據真的具有如此法力,以致我們只要祭出云計算之類的“法寶”就萬事不難?就不再需要慣有的思維和方法?如此,我們今后所要做的就是數(shù)據的收集、積累和存儲,以待分析。需要什么就能夠從這個寶庫里掏出什么來。
信息是事務屬性的外化,它示以我們屬性的特質和表征,助我們判別“是什么”;至于“數(shù)據”,通常是指那些被用以分析的信息,我們可以從這樣的分析中預知事物的未來或未知,即“會怎樣”,進而做出自身行為的選擇和決斷。因此,“大數(shù)據”應該就是“大信息”(完整的、原發(fā)的信息)被用以分析、預測的概念。而當信息中所蘊含的能預示“會怎樣”的意義經過分析而被發(fā)現(xiàn),并且被接受,便成為情報,具備了或則產生了影響人們思想和行為的“大”效應。這樣的認識基本涵蓋大數(shù)據的5V特點——Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)、Veracity(真實性)。大信息之變身為大數(shù)據,這是時代的進步,說明人們有了對散在的、漫無邊際的、與日俱增的信息加以識別、區(qū)分、整合、利用的情報意識和能力,而不再是一味苦嘆信息的冗余和污染。
大數(shù)據在本質上仍然是信息,是有著內在關聯(lián)的完整(全部)信息,雖然很多時候看上去風馬牛不相及。大數(shù)據的源源增長實際上是在反映事物內在關聯(lián)的源源不斷發(fā)生。隨著數(shù)據倉庫、數(shù)據挖掘乃至基于數(shù)理分析原理的大數(shù)據分析等信息處理技術的發(fā)展與運用,這些反映著事物內在關聯(lián)的大量度的數(shù)據得以大廣度、大深度的分析處理,進而從中挖掘出影響人們思維決斷和行為取向的大效應。這或許就是大數(shù)據之“大”的含義吧。權威的Gartner(高德納)IT研究與顧問咨詢公司曾斷言:“大數(shù)據”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產[3]。其中就涵蓋了大數(shù)據之“大”的這三種含義,還有它的信息屬性。
“大數(shù)據時代”就是依據大數(shù)據分析作出認知、判斷、選擇的時代。麥肯錫管理咨詢公司聲言:“數(shù)據已經滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產因素。人們對于海量數(shù)據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來?!泵绹都~約時報》等媒體這些年也連篇累牘的載文渲染“大數(shù)據”時代的降臨,在商業(yè)、經濟及其他領域中,決策將日益基于數(shù)據和分析而作出,而并非基于經驗和直覺[4]。
《大數(shù)據時代》一書的作者維克托·邁爾·舍恩伯格和肯尼斯·庫克耶被譽為 “大數(shù)據時代的預言家”,因為正是他們指出了大數(shù)據的意義就是預測,將為人類的生活創(chuàng)造前所未有的可量化的維度;而大數(shù)據時代最大的轉變就是放棄對因果關系的渴求,取而代之關注相關關系。也就是說只在乎“是什么”,而不問“為什么”。何謂“相關關系”?該書解釋說:“相關關系的核心是量化兩個數(shù)據值之間的數(shù)理關系。相關關系強是指當一個數(shù)據值增加時,另一個數(shù)據值很有可能也會隨之增加[5]?!边@就是以數(shù)理關系這種表象來揭示客觀現(xiàn)象或事物之間所發(fā)生的互相依存相互作用的因果關系,只是我們只須看重這種“依存”、“作用”的結果而不必管其因果。在邏輯學中,相關關系早有闡述并且分門別類,如聯(lián)想關系、類緣關系、非等級關系等諸種不同類型的相關。這些不同類型的相關關系都是破解大數(shù)據之謎的密鑰。
置身于大變革的時代,我們或許會迷惘,但不應該迷信?;跀?shù)據分析的決策當然比只靠經驗和直覺要真實得多也高明得多,但前提必須是數(shù)據的完整、準確和具有相關性。所以,信息要變身為數(shù)據必須預先經過人的類性識別與范圍選擇;再者,人類的“思維和解決問題的方式”從未僅限于預測,更不可能被預測所替代,那樣人類豈不是又回到了占卜時代?基于大數(shù)據的占卜而不再是龜殼或牛骨頭罷了。再進一步說,“相關關系”的思維路徑也非大數(shù)據時代的新發(fā)明,由此及彼、由表及里,不是自古已然的“相關”思維范式?而情報學更是專門研究“相關關系”的學問——從事物顯在的、潛藏的相互關系中尋出蛛絲馬跡,發(fā)現(xiàn)情報價值,進而為判斷、決策以及科學研究提供依據或佐證。大數(shù)據時代不過是人類開始正視呈幾何數(shù)增長的大量信息,開始自覺的發(fā)現(xiàn)其中所蘊含的意義和價值,進而加以有效開發(fā)和利用?!按髷?shù)據”讓人類社會活動所衍生出的、自然界自然而生的大批量信息變成了資源、“生產因素”,這在情報學看來就是一個從信息中發(fā)現(xiàn)意義、挖掘價值的情報過程。因此,置身于大數(shù)據時代,我們自身所要做好的準備就是提升、強化能夠應對大數(shù)據特性的情報意識,具備更自覺、更敏銳、更快捷地發(fā)現(xiàn)那些過去熟視無睹視而不見的種種“相關”的能力,從而積極、主動、靈感地從大數(shù)據中探尋能夠彌補我們的知識缺失和思想不確定的情報價值。
信息爆炸讓我們“迷惘”,正是緣于我們缺乏從大量信息中尋求關聯(lián)、析出情報的自覺意識;面對大數(shù)據我們又往往顯得“迷信”,那是因為我們有些唯大數(shù)據分析技術是瞻,唯“大數(shù)據預測”是信,而放棄了人類主觀意識的能動性。
情報意識看似一種對于“相關關系”的敏感、悟性,以及追根索據刨根問底的習性,其實是知識、經驗、閱歷的累積而練就的一種思想素質。一個具備相應知識背景的人,才可能對外在的相關信息作出反應,感悟到其中蘊含的意義和價值,否則便會對牛彈琴無動于衷。由此不禁讓人想到上世紀的哲學科學家夏佩爾曾提出過的“信息域”概念。在他看來,科學活動由兩個部分構成:待研究的信息群,即研究對象;背景信息群,即研究所賴以的現(xiàn)有知識。由背景信息群啟示、引領而逐步發(fā)現(xiàn)、確定并組織起一系列相互關聯(lián)的研究項就構成了科學研究的“信息域”。夏佩爾的信息域和基于“相關關系”的大數(shù)據其實是異曲同工:“一系列信息項聚合起來形成了一個具有如下特征的信息域:①這種信息項的集結依據各個信息項之間的某種內在聯(lián)系;②如此集結的‘信息域’蘊含著某些令人深思的問題;③這些問題是很重要的;④當前的科學技術水平已經為這些問題的解決做好了‘準備’[6]”??梢姌嫵煽茖W研究的“信息域”和構成“大數(shù)據”的原理是一致的,都
是一個主、客觀知識相互作用的結果。大概不會有誰真的隨意拿一個人的鞋碼來預測他的愛情,因為預測所采用的數(shù)據類型都是要經過選擇的,就是經過人的意識判別過的?;騽t可以說,大數(shù)據之所以有意義就在于其中隱含著關系某一事物的信息域,打開它就能夠告訴我們一點什么。無論我們是在做科學研究或是經營決策,對于相關事物或問題所關聯(lián)的各種各樣層出不窮的海量信息首先應當作出情報意識的領悟與判斷,識別出哪些類型的信息是“令人深思的”,是不可或缺的,而哪些又是不靠譜的,應當舍棄。作為主體的人,我們必須具備對信息域存在的主觀意識和對信息間相關關系加以分析推斷的情報能力,能夠在背景知識和經驗積累基礎之上,經信息的提示、引導而發(fā)生聯(lián)想、假定意念,進而探求信息間隱藏著的內在聯(lián)系,發(fā)現(xiàn)其間所蘊含的“重要問題”,使一些表面看來毫不相干無關緊要的信息不被忽略,而不相干的信息得以及時排除,如此,大數(shù)據分析的結果才能更加趨于嚴謹、準確而不至因某些變量的缺失或干擾產生謬誤。眾所周知,Google的流感趨勢即時預測曾經是“大數(shù)據應用的典范”。自2008年起他們把流感患者在搜索引擎上留下的大量關于自身病情、所花費的時間、接受的治療以及各種想法、需求、憂慮等信息變成了流感疫情整體性趨勢的信號加以分析,做到了比美國疾病預防控制中心提前兩周發(fā)布監(jiān)測數(shù)據。而至2013年,他們的預測偏差竟高達140%,成了“大數(shù)據缺陷的典范”。造成失誤逐年增大的主要原因之一就是數(shù)據出現(xiàn)了“過度擬合”:很多關鍵詞看似與流感有關而其實無關[7]。由此可見,人在大數(shù)據面前是應該有為的,是必須帶著自己的主觀意志而作為的,而不是聽任“大數(shù)據”說風是風說雨是雨。
日本東京創(chuàng)造社創(chuàng)始人山上定也曾經說過:“假如不以那種主觀意識閱讀報紙,必然會漏掉許多重要的信息。所謂‘那種主觀意識’就是‘應該這樣’,‘大概會這樣吧’等假設”[8]。正是這種“主觀意識”和“假設”,在看似風馬牛的事務中發(fā)現(xiàn)了信息域的某些“項”,發(fā)現(xiàn)了各種變量之間的關聯(lián),也分辨出了無關。一個人的鞋碼和他的愛情也許扯不上關系,但是誰能否定,一條人口流離的記載或許暗示著政治動蕩、戰(zhàn)亂或自然災害的歷史背景;古老的風俗民情不但是傳統(tǒng)文化的印跡,也可能體現(xiàn)著某種生產方式下的經濟特征;甚至語音的變化也不僅僅對語言學家有意義,同時也顯示著人口遷徙、文化流向及經濟交流的烙印。
不識廬山真面目,只緣身在此山中?!按髷?shù)據”讓我們能夠從信息爆炸的迷霧中找到一線光亮,見著一片藍天。但這一線光亮能否洞穿我們的迷惑?我們所得到的是否就是自己的那片藍天?要成為大數(shù)據的真正主人,我們就必須抱定“那種主觀意識”——主觀上的情報意識。否則,我們將依舊是迷惘,或則迷信。
[1] 曾建勛.大數(shù)據時代的情報學變革[J].情報學報,2015,1.
[2] 鄭渝川.大數(shù)據時代意味著什么?[J].中外管理,2013,3.
[3] 百度百科:大數(shù)據.[EB/OL].[2013-06-10].http://baike. baidu.com/view/6954399.htm
[4] 莊春暉.“大數(shù)據”時代來臨決策不能只憑經驗 .[EB/OL].[2013-07-12]http://www.dfdaily.com/html/113/2012/4/11/ 774524.shtml
[5] 維克托·邁爾·舍恩伯格,肯尼斯·庫克耶.大數(shù)據時代[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[6] 夏佩爾.理由與求知[M].褚平,周文彰,譯.上海:上海譯文出版社,2001:306.
[7] 殼社.大數(shù)據的傲慢:我們能從谷歌流感趨勢預測的失敗中學到什么?[2015-10-21][微信號:iBio4P].http:// www.bio4p.com/depth/9683.html
[8] 山上定也.驚人的信息推理術[M].溫元凱,譯.上海:上海文化出版社,1987:3.
G350
甘肅省哲學社會科學規(guī)劃項目(項目號:14YB124)。