郭濤
俗話說,巧婦難為無米之炊。雖然現(xiàn)階段,不論是傳統(tǒng)的IT廠商,還是初創(chuàng)的大數(shù)據(jù)廠商,都在大數(shù)據(jù)的技術和產品方面不斷推陳出新,但如果沒有海量的數(shù)據(jù)用于分析,那么大數(shù)據(jù)分析與挖掘只能是紙上談兵。因此,有人提出,政府相關部門、企業(yè)應該適當公開一些不敏感的數(shù)據(jù),以實現(xiàn)更好的數(shù)據(jù)共享,為大數(shù)據(jù)的科學研究和商業(yè)應用提供土壤。
恰好,在近日舉行的2014中國大數(shù)據(jù)技術大會(BDTC 2014)暨第二屆CCF大數(shù)據(jù)學術會議上,多位國內外的學者、企業(yè)家都談到了數(shù)據(jù)共享這個話題,并且介紹了中外在數(shù)據(jù)共享方面的實踐。
數(shù)據(jù)共享應成常態(tài)
記者曾經(jīng)聽美國的一些大數(shù)據(jù)企業(yè)談到,美國在數(shù)據(jù)公開方面做得非常好,這為科研院校的大數(shù)據(jù)研究、企業(yè)的大數(shù)據(jù)商業(yè)化運行提供了便利條件。有業(yè)內人士建議,中國政府的相關部門也應該制定一個基本的大數(shù)據(jù)分類和使用規(guī)則,比如根據(jù)數(shù)據(jù)的敏感性、安全性要求明確定義數(shù)據(jù)的“黑、灰、白”,形成整個社會和產業(yè)界的數(shù)據(jù)共享機制,從而加速整個大數(shù)據(jù)產業(yè)和應用的發(fā)展。
“一提到‘數(shù)據(jù)公開,大家都很敏感,所以我們可以換一個詞——數(shù)據(jù)共享?!敝袊こ淘涸菏坷顕鼙硎荆皣鴥韧庠跀?shù)據(jù)共享方面確實存在差別,這是大數(shù)據(jù)的發(fā)展水平?jīng)Q定的。是不是政府的所有數(shù)據(jù)都要公開呢?在國外,有的國家政府提出,可以把政府數(shù)據(jù)都公布出來,但是誰又有能力保證這些數(shù)據(jù)的安全,并充分利用和發(fā)揮其應有的價值呢?”
在數(shù)據(jù)共享這個問題上,從政府到產業(yè)界應該達成一種基本共識。國外一些在大數(shù)據(jù)應用方面走在前列的國家的共識是:數(shù)據(jù)共享是常態(tài),不共享是例外。而現(xiàn)在國內還很難達成這樣一種共識。
李國杰表示,在數(shù)據(jù)共享方面,我國可以向最先進的美國學習。但是,如果我們能借鑒與我國自身發(fā)展水平接近的國家,比如印度、巴西的經(jīng)驗,可能更實際,效果也會立竿見影。
Conviva公司聯(lián)合創(chuàng)始人兼CEO、卡內基梅隆大學計算機科學教授張暉表示:“大數(shù)據(jù)落地的第一件事就是要制定清楚的規(guī)則,明確數(shù)據(jù)的所有權。在美國,雖然在大數(shù)據(jù)的某些方面還存在灰色地帶,但基本規(guī)則十分清楚,而中國目前還在探討之中。第二件事就是形成大數(shù)據(jù)方面的雙贏,甚至多贏局面。這就需要整個產業(yè)界,包括政府、企業(yè)等,在先滿足自身利益的基礎上再實現(xiàn)雙贏。比如,在美國,為了科學研究的需要,一些企業(yè)通常會對數(shù)據(jù)進行匿名化處理后公布出來?!?/p>
卡內基梅隆大學教授、ICML 2014程序委員會主席邢波認為,現(xiàn)在很多人糾結數(shù)據(jù)公開和共享這個問題,可能不是從大數(shù)據(jù)研究或商業(yè)化的角度去考慮這個問題,而是出于一種社會知情權的需要。一個企業(yè)有權保護自己的數(shù)據(jù)。“如果從純研究的角度來講,我不覺得數(shù)據(jù)的公開與否會真正影響大數(shù)據(jù)研究的進程,至少在學術層面還沒有到?jīng)]有數(shù)據(jù)就不能開展研究的局面。有些人質疑的可能是有些數(shù)據(jù)你有而我沒有??蒲袡C構可以與企業(yè)在自愿的基礎上簽訂一個協(xié)議,對數(shù)據(jù)的共享、研究成果的歸屬等問題做出明確約定?!毙喜ㄕ劻俗约旱挠^點。
多方共贏
現(xiàn)在,很多互聯(lián)網(wǎng)公司、電商企業(yè)都宣稱自己就是一個大數(shù)據(jù)企業(yè)。在這些企業(yè)中,數(shù)據(jù)已成為一種極具價值的資產,而這些企業(yè)本身就是數(shù)據(jù)金礦。如果這些企業(yè)都能在一定程度上開放并與自身所在的產業(yè)鏈的上下游企業(yè)共享數(shù)據(jù),那么大數(shù)據(jù)的應用將大大提速。
但是,企業(yè)有自身的經(jīng)濟利益,它們通常不會,也不應被迫公開自己的數(shù)據(jù)。為什么企業(yè)還要公開自己的數(shù)據(jù)呢?因為這有利于提升整個產業(yè)的發(fā)展水平,更有利于形成一個良好的生態(tài)系統(tǒng)。張暉介紹,其實美國的工業(yè)界、學術界和政府并沒有明文的規(guī)定要求大家公開數(shù)據(jù),但是隨著產業(yè)的快速發(fā)展,同時也為滿足日益增長的用戶需求,整個產業(yè)界自發(fā)地、慢慢地形成了當前這種數(shù)據(jù)脫敏后的公開和共享模式。“我的一個學生,現(xiàn)在是一家創(chuàng)業(yè)公司的合伙人,他們公司就有大量的商業(yè)數(shù)據(jù)。他們就把某些數(shù)據(jù)進行匿名化處理后交由學校來做研究。反過來,學校的科學研究成果可以反饋給公司,從而形成了雙贏的局面?!睆垥熍e例說,“我們需要政府提供一個寬容的機制,而產業(yè)界的人也應該有高瞻遠矚的想法,在保護自己的利益的同時,努力營造一個多贏的生態(tài)系統(tǒng)?!?/p>
邢波認為,工業(yè)界與學術界在大數(shù)據(jù)方面的研究風格和方法是有區(qū)別的。比如在學術界,為了更有效地進行大數(shù)據(jù)研究,數(shù)據(jù)共享的限度可以放寬一些。另外,大數(shù)據(jù)的研究機構也可以自己想辦法模擬大數(shù)據(jù)的環(huán)境?!霸诿绹?,學術界與工業(yè)界之間正在積極建立一種互信機制,互相爭取對方的注意力,大數(shù)據(jù)的研究成果與商業(yè)轉化形成了一個良性循環(huán)。這一點值得國內的同行借鑒。”邢波告訴記者,“在美國,并不存在產業(yè)界和學術界誰領先誰的問題,雙方的聯(lián)系非常緊密,是互補的關系。很多前沿的、有一定風險的項目通常是從大學開始,然后才將成果輸送到產業(yè)界。在美國是‘學而優(yōu)則教。美國許多大學的教授同時也是實體企業(yè)的骨干,這為大數(shù)據(jù)的研究和產業(yè)化創(chuàng)造了一個良好的氛圍?!?/p>
ETI創(chuàng)始人、美國特拉華大學電子與計算機工程系教授高光榮就是一個橫跨學術界與工業(yè)界的典型代表。他談了自己的親身經(jīng)歷:“我教的一門課要用到銀行卡的數(shù)據(jù)。我需要給學生提供與真實數(shù)據(jù)近似的數(shù)據(jù)。最后,我們采用數(shù)據(jù)模擬的方式讓學生完成了課題研究。從公司的角度看,數(shù)據(jù)公開和共享的前提是能夠讓雙方獲益。不過,即使是在這種情況下,雙方在交換數(shù)據(jù)時也要制定嚴格的保密制度或簽訂協(xié)議?!?/p>
數(shù)據(jù)共享要有法可依
在中國,企業(yè)之間的數(shù)據(jù)共享問題是當前的一個熱點。有業(yè)內人士指出,企業(yè)間的數(shù)據(jù)之所以不能共享,一方面,是因為各公司出于安全和競爭方面的考慮,不愿輕易公開自己的數(shù)據(jù); 另一方面,大家都說數(shù)據(jù)具有無限的價值,但誰也沒有能力給數(shù)據(jù)定個具體的價格,因而數(shù)據(jù)價值無限也可被理解為數(shù)據(jù)無價值,數(shù)據(jù)無價值也就無法進行等價交換。
不過,記者了解到,在某些十分依賴數(shù)據(jù)的行業(yè),比如移動廣告業(yè),企業(yè)間數(shù)據(jù)交換的問題已經(jīng)被提上議事日程。據(jù)一位從事移動大數(shù)據(jù)分析工作的業(yè)內人士透露,可能明年在移動廣告界就會出現(xiàn)一些類似聯(lián)盟的行業(yè)內部組織,參與的公司會在一定規(guī)則下交換自己的數(shù)據(jù)。這些共享的數(shù)據(jù)可能由一個第三方的機構負責保管,企業(yè)在使用完這些數(shù)據(jù)后必須將數(shù)據(jù)交還給第三方的數(shù)據(jù)托管機構或銷毀。雖然這個數(shù)據(jù)共享計劃還在醞釀過程中,不過可以看出,數(shù)據(jù)共享對于大數(shù)據(jù)的商業(yè)化是有積極促進作用的,也是企業(yè)所需要的。未來,無論是政府還是行業(yè)監(jiān)管機構,可以考慮制定與數(shù)據(jù)共享相關的法規(guī)或行業(yè)標準,規(guī)范數(shù)據(jù)共享,保證大數(shù)據(jù)行業(yè)的健康、有序發(fā)展。
中國科學院計算技術研究所研究員、CCF大數(shù)據(jù)專家委員會秘書長程學旗表示,大數(shù)據(jù)落地遇到的挑戰(zhàn)除了來自技術以外,數(shù)據(jù)共享問題確實不能忽視。不過,數(shù)據(jù)共享不能泛泛而談。舉例來說,當前,許多企業(yè)內部的部門之間就沒有形成一種共享的良性機制,而沒有數(shù)據(jù)的整合,也就談不上應用的創(chuàng)新和發(fā)展,更無法做出正確、及時的決策。再比如說,在建設智慧城市的過程中,各政府部門、行業(yè)部門的數(shù)據(jù)沒有整合到一起,因而很難在一個統(tǒng)一的目標下協(xié)調發(fā)展。數(shù)據(jù)的整合與共享是大數(shù)據(jù)發(fā)展必須跨越的一道門檻。
鏈接 2015大數(shù)據(jù)發(fā)展趨勢
在2014中國大數(shù)據(jù)技術大會(BDTC 2014)上,《中國大數(shù)據(jù)技術與產業(yè)發(fā)展白皮書(2014)》和《2015大數(shù)據(jù)十大發(fā)展趨勢預測》正式發(fā)布。
CCF大數(shù)據(jù)專家委員會從大數(shù)據(jù)科學、大數(shù)據(jù)技術、大數(shù)據(jù)系統(tǒng)和工程、大數(shù)據(jù)應用、數(shù)據(jù)資源、產業(yè)生態(tài)環(huán)境等6個不同方面、總計54個候選項中投票選出了2015年大數(shù)據(jù)的發(fā)展趨勢:大數(shù)據(jù)與人工智能的融合,跨學科領域交叉的數(shù)據(jù)分析應用,數(shù)據(jù)科學帶動多學科融合,深度學習成為大數(shù)據(jù)智能分析的核心技術,利用大數(shù)據(jù)構建大規(guī)模和有序化、開放式的知識體系,大數(shù)據(jù)的安全持續(xù)令人擔憂,開源成為大數(shù)據(jù)技術的主流,大數(shù)據(jù)與云計算和移動互聯(lián)網(wǎng)等的綜合應用,大數(shù)據(jù)提升政府的治理能力,大數(shù)據(jù)技術課程體系建設和人才培養(yǎng)快速發(fā)展。