文/本刊記者 王左利
?
讀懂數(shù)據(jù)背后的故事
文/本刊記者王左利
怎樣才能從龐大規(guī)模的碎片化數(shù)據(jù)中得到蘊藏其中但脈絡不清的終極“故事”?需要突破四個挑戰(zhàn):隱私、分析技術、數(shù)據(jù)質量以及應用突破口。
在最近召開的一次關于大數(shù)據(jù)的會議上,西安交通大學徐宗本院士對大數(shù)據(jù)做了一個簡單而透徹的解釋:“當數(shù)據(jù)積累不夠多時,數(shù)據(jù)就是零散的碎片,人們不容易看懂其背后所隱藏的故事。但隨著數(shù)據(jù)超過某個臨界值后,這些‘碎片’整體所呈現(xiàn)的規(guī)律就會在一定程度上被顯現(xiàn)出來。”
大數(shù)據(jù)里蘊藏著巨大的價值,就像還沒有開采的礦山。如何很好地對大數(shù)據(jù)進行分析、挖掘,以服務于特定的對象是各行各業(yè)的理想。
高校作為大數(shù)據(jù)時代的參與者和推動者,在研究大數(shù)據(jù)上具有得天獨厚的優(yōu)勢。在過去的10多年中,高校的信息化積累了大量可用的、高質量的數(shù)據(jù)。它們整體上具備數(shù)量大、種類多、產生快、真實可信和具備分析價值等特點,完全符合大數(shù)據(jù)的特征。
因此,如何進行大數(shù)據(jù)的分析與利用,為高校管理工作帶來更大的價值,是當前高校所面臨的重要問題。
但大數(shù)據(jù)龐大的規(guī)模使得對其的分析成為一件極富挑戰(zhàn)的事情。要想在海量碎片化的數(shù)據(jù)中勾勒出這些碎片背后的故事,從高校來說,需要面對幾個挑戰(zhàn)。
第一,隱私的挑戰(zhàn)。這方面,呼聲是截然不同的。一種意見認為,隱私權是所有事情中最重要的那個。而另外一種意見則認為,對隱私的強調會阻礙進步?!皵?shù)據(jù)不分好壞,只有對數(shù)據(jù)的使用才分。”這個問題如此尖銳,即使在全球范圍內,對大數(shù)據(jù)的隱私界定仍然在不斷的探討中。那么,對高校來說,如何面對這個無法回避的問題?
第二,數(shù)據(jù)質量的挑戰(zhàn)。坦率地說,同各行業(yè)相比,高校信息化發(fā)展本身比較滯后,數(shù)據(jù)質量總體情況仍然比較差。其重要性已取得共識,但很少有學校真正投入人力、財力去對數(shù)據(jù)進行治理。隨著數(shù)據(jù)服務的深入,數(shù)據(jù)的質量問題將會是一個攔路虎,所以未來更多的高校會花精力在上面。
第三,大數(shù)據(jù)分析技術的挑戰(zhàn)。正如本文一開頭提到的,要從如此龐大規(guī)模的碎片化數(shù)據(jù)中得到這個有價值的故事,取得若干有價值的結論,需要很好的方法和工具。對于高校來說,我們需要回答以下這些問題:如何使得這些數(shù)據(jù)能夠作為數(shù)據(jù)分析模型的“輸入”,得出希望得到的數(shù)據(jù)分析“結果”?并且利用這些輸出“結果”與已有的成熟評價結果進行比較、反饋、調整和優(yōu)化。
“如果大數(shù)據(jù)的分析技術不建立起來的話,很多的假設都是不成立的,大數(shù)據(jù)的危險性可想而知?!毙熳诒驹菏空f。
第四,應用的挑戰(zhàn)。換言之,高校怎么挑選到最有價值的應用。教育教學是一個非常復雜的系統(tǒng),受各種因素的影響,而如何找到那些可以破解高校發(fā)展中痛點的數(shù)據(jù)服務,是值得信息化部門結合業(yè)務需求好好思考的。