頭一回在美國上統(tǒng)計課,在國內(nèi)政府部門做過近十年數(shù)據(jù)統(tǒng)計工作的涂子沛覺得“眼前一亮”。這一講的內(nèi)容是統(tǒng)計學(xué)的意義。大胡子的印度裔教授一本正經(jīng)地對學(xué)生們說:“除了上帝,任何人都必須用數(shù)據(jù)來說話?!?/p>
教授的觀點(diǎn)一下子震撼了涂子沛。在他的印象中,數(shù)據(jù)往往被當(dāng)成論證工具,更像是一種“證明領(lǐng)導(dǎo)意圖的手段”。
但在這里,“數(shù)據(jù)”二字似乎有另一重含義。
2007年年底,奧巴馬訪問谷歌公司總部,并發(fā)表演講: “人民知道得越多,政府官員才可能更加負(fù)責(zé)任……我將把聯(lián)邦政府的數(shù)據(jù)用通用的格式推上互聯(lián)網(wǎng)。我要讓公民可以跟蹤、查詢政府的資金、合同、專門款項(xiàng)和游說人員等信息?!?/p>
涂子沛記得,奧巴馬的演講在此時被熱烈的掌聲所打斷。
這是涂子沛第一次將“公民權(quán)利”與“數(shù)據(jù)”聯(lián)系起來。也正是從那時起,這個從卡內(nèi)基·梅隆大學(xué)畢業(yè),并已經(jīng)在一家美國公司就職的數(shù)據(jù)庫程序員萌生了一個系統(tǒng)的寫作計劃。
2012年7月,涂子沛的《大數(shù)據(jù)》一書出版,扉頁上的題記別具一格:“一個真正的信息社會,首先是一個公民社會?!?/p>
大數(shù)據(jù)時代
涂子沛在美國匹茲堡市一家聯(lián)邦政府的合同商公司做程序員,每天面對的東西都是數(shù)據(jù)、代碼或大大小小的表格。
上世紀(jì)70年代初,涂子沛出生在中國一個法官家庭。因?yàn)閺男】锤赣H斷案,他很早就開始思考什么是“正義”這樣的大問題。90年代中期,他進(jìn)入當(dāng)時的華中理工大學(xué)讀書。學(xué)校里有人文講堂的講座活動,這個計算機(jī)專業(yè)的學(xué)生是最忠實(shí)的擁躉之一。年已不惑的涂子沛至今仍然保留著這分情懷。當(dāng)看到“7·21”北京暴雨的新聞后,他連夜寫了一篇介紹美國如何發(fā)布?xì)庀鬄?zāi)害信息的文章。
“沒有有效的預(yù)警,再準(zhǔn)確的數(shù)據(jù)預(yù)報也是一個零?!蓖孔优嬖谖闹薪榻B說,美國國家天氣服務(wù)局不僅開通了推特、臉譜等社交媒體賬號,還推出了一種叫做天氣收音機(jī)的預(yù)警產(chǎn)品。一旦氣象預(yù)警后,平時沉默不語的“收音機(jī)”會立刻成為“鬧鐘”。
涂子沛慢慢意識到,原來自己一直關(guān)心的“公平正義”,竟然與每天朝夕相處的數(shù)據(jù)有著如此緊密的聯(lián)系。
在此以前,和大部分人一樣,涂子沛更愿意從技術(shù)層面去關(guān)注什么才是“大數(shù)據(jù)”——這是對信息爆炸時代的嶄新描述。它的基本單位是“太”(TB),而1024個太則等于一“拍”(PB)。打個直觀的比方,美國國會圖書館是世界上最大的圖書館之一,它所有印刷品的信息量加起來只有15太。而全美國僅在2010年一年的新增數(shù)據(jù)量就足足有3500拍,這比13億中國人人手一本1500頁的書加起來的信息量還要大。
麥肯錫咨詢顧問公司曾估測,未來數(shù)據(jù)仍然會以每年50%的速度增長,美國還需要14萬至19萬名擁有“深度分析數(shù)據(jù)”專長的工作者。涂子沛便是其中之一。他會在自己的專欄文章中記錄那些數(shù)據(jù)改變商業(yè)的故事。比如,沃爾瑪?shù)难芯咳藛T通過數(shù)據(jù)挖掘,發(fā)現(xiàn)四成左右的年輕爸爸在購買嬰兒尿布時會順手買點(diǎn)啤酒犒勞自己,便對這兩種商品進(jìn)行了捆綁銷售,結(jié)果銷售量雙雙增加。更夸張的事例是,一個高中女孩某天突然收到超市寄來的嬰兒服廣告,父親為此大為光火。但就在超市公開道歉幾天后,這位父親發(fā)現(xiàn)自己的女兒真的懷孕了。原來,超市已經(jīng)可以通過顧客的食品消費(fèi)數(shù)據(jù)作出趨勢判斷。
但當(dāng)涂子沛開始寫作《大數(shù)據(jù)》一書時,商業(yè)已經(jīng)不再重要,他想講述一個數(shù)據(jù)與正義的故事。
信息之于民主,就如貨幣之于經(jīng)濟(jì)
2009年1月17日,新任美國總統(tǒng)奧巴馬簽署了他的首份總統(tǒng)備忘案《透明和開放的政府》。
120天后,一個叫做Data.gov的網(wǎng)站正式上線發(fā)布。這是一個數(shù)據(jù)開放的門戶網(wǎng)站,旨在全面開放美國聯(lián)邦政府擁有的數(shù)據(jù)。
項(xiàng)目的負(fù)責(zé)人是維偉克·昆德拉,美國政府歷史上第一位首席信息官。他說:“這是一場數(shù)據(jù)民主化的運(yùn)動,我們正在把信息的力量放到美國人民手中?!?/p>
起初,這個數(shù)據(jù)開放網(wǎng)站有點(diǎn)名不副實(shí),即使包括地理數(shù)據(jù)在內(nèi),這個新生網(wǎng)站上也僅僅只有47組數(shù)據(jù)和27個數(shù)據(jù)分析工具。要知道,首席信息官要面對的,“是一種沿襲了上百年的行政文化。面對龐大的公共信息,政府首腦的第一反應(yīng)往往是安全第一,保密為上”。盡管早在美國建國之初,《獨(dú)立宣言》的起草人、美國第三任總統(tǒng)托馬斯·杰斐遜就曾說:“信息之于民主,就如貨幣之于經(jīng)濟(jì)?!钡聦?shí)上,在美國200多年的歷史中,開放政府信息的雄心并不多見。
1789年,美國國會制定了《管家法》,規(guī)定行政機(jī)關(guān)必須在統(tǒng)一的出版物上公開政務(wù)信息,但對于公開的內(nèi)容,行政長官有自由裁定權(quán)。進(jìn)入20世紀(jì)后,政府規(guī)模不斷膨脹,國會先后通過了《聯(lián)邦登記法》和《行政程序法》,規(guī)定公眾可以向政府提出信息公開的要求,但如果危及公共利益,政府有權(quán)拒絕。
簡言之,信息是否公開,最終還是要政府說了算。
同一時期,哥倫比亞大學(xué)新聞學(xué)教授克勞斯對當(dāng)時的信息管理情況進(jìn)行了調(diào)研,并出版了《人民的知情權(quán)》一書。他在書中明確提出:只有擁有信息自由,人民才能真正擁有對公共事務(wù)的發(fā)言權(quán)。后來,這本書被譽(yù)為美國信息自由運(yùn)動的“圣經(jīng)”。
在書出版的那一年,一個叫約翰·摩斯的新任國會議員提出了《信息自由法》的草案。在摩斯任職國會議員的25年里,經(jīng)歷了數(shù)任美國總統(tǒng)。然而,即使是以開明著稱的肯尼迪,也對這個草案避猶不及。約翰遜在聽到這個草案后的第一反應(yīng)則是:“摩斯想干什么?他想搞砸我這屆政府嗎?”
直到1964年,摩斯的提案才進(jìn)入辯論階段。那時候的聯(lián)邦政府有27個部門,無一例外地在聽證會上大聲反對。
1966年7月4日,由于參眾兩院對于該提案的支持率都高于三分之二,無法動用否決權(quán)的約翰遜總統(tǒng)在家中簽署了這份法案。
Data.gov的出現(xiàn)則為信息公開的發(fā)展注入了新的活力。昆德拉在演講中表示,政府?dāng)?shù)據(jù)作為一項(xiàng)公共資源,應(yīng)該像天氣預(yù)報、體育賽事和股票信息一樣實(shí)時公開。
充滿了挑戰(zhàn)性的新事物同樣引發(fā)了聯(lián)邦政府各部門頭頭腦腦們的憂慮。有人擔(dān)心,萬一民間機(jī)構(gòu)根據(jù)原始數(shù)據(jù)分析出的結(jié)論與政府不一樣,是不是等于“搬起石頭砸自己的腳”;還有人認(rèn)為,這場面對全世界的數(shù)據(jù)開放運(yùn)動,會在不知不覺間讓國家利益受到損害。
但改革并沒有止步。截至2009年底,網(wǎng)站收到了社會各界約900項(xiàng)開放數(shù)據(jù)的申請。聯(lián)邦政府最后回復(fù):16%的數(shù)據(jù)立即開放、26%將在短期內(nèi)開放、36%將計劃開放,還有22%因?yàn)閲野踩?、個人隱私以及技術(shù)方面的限制無法開放。
在Data.gov上線發(fā)布一周年的時候,聯(lián)邦政府開放數(shù)據(jù)的總數(shù)已經(jīng)達(dá)到了27萬項(xiàng)。
因?yàn)檫@些創(chuàng)新型的應(yīng)用,數(shù)據(jù)的能量將層層放大
在涂子沛看來,創(chuàng)建Data.gov的價值并不僅僅在于滿足民眾的知情權(quán)。
2009年1月,美國聯(lián)邦政府跨部門工作組曾將一份報告提供給總統(tǒng)科學(xué)技術(shù)委員會,該報告這樣寫道:一組數(shù)據(jù),可能會得到數(shù)據(jù)收集人難以想象的應(yīng)用,也可能會在另一個看起來毫不相關(guān)的領(lǐng)域中得到應(yīng)用,而因?yàn)檫@些創(chuàng)新型的應(yīng)用,數(shù)據(jù)的能量將層層放大。
在某種程度上,Data.gov的確掀起了一個社會創(chuàng)新的浪潮。截至2011年12月,在這個政府主導(dǎo)的數(shù)據(jù)開放網(wǎng)站上,匯集了1140個應(yīng)用程序和軟件工具、85個手機(jī)插件。其中有近300個應(yīng)用程序由民間的程序員、公益組織自發(fā)開發(fā)。
就在Data.gov上線不到一個月的時候,民間一位程序員便利用美國交通部開放的數(shù)據(jù)開發(fā)了一個航班延誤的免費(fèi)查詢系統(tǒng)。
在這一系統(tǒng)涉及的2009年的6735次航班中,62%準(zhǔn)點(diǎn)或提前到達(dá),14%有20分鐘以內(nèi)的延誤,20%有20分鐘以上的延誤,還有4%的航班最終被取消。
當(dāng)然,這個查詢系統(tǒng)最有力度的數(shù)據(jù)還是一份所有航班的延誤大排名, “Delta1807”便以平均延誤26分鐘成了最不靠譜的航班。這樣的數(shù)據(jù)挖掘,直接給那些落后的航空公司敲響了警鐘。
類似的故事并不鮮見。不少人習(xí)慣于在購物時,先到 Data.gov上查詢商品是否存在因質(zhì)量問題而被召回的記錄。而在2010年發(fā)生的一起礦難案件中,網(wǎng)民們通過Data.gov上的煤老板捐款數(shù)據(jù)記錄,發(fā)現(xiàn)接收款項(xiàng)最多的個人居然是地方上訴法庭的法官。后來,最高法院依此認(rèn)定這名法官存在“重大偏袒”的可能。
“數(shù)據(jù)權(quán)”是信息時代每一個公民都擁有的一項(xiàng)基本權(quán)利
推動數(shù)據(jù)開放運(yùn)動的國家并不只有美國。
2006年3月,英國《衛(wèi)報》刊登了一篇題為《把皇冠上的明珠還給我們》的專欄文章,這被視為英國數(shù)據(jù)開放運(yùn)動的序幕。
2010年1月,英國政府的Data.gov.uk正式上線發(fā)布,第一天就公布了3000多項(xiàng)民生數(shù)據(jù)。而這個時候,已經(jīng)經(jīng)營半年多的美國Data.gov還僅僅只有1000多項(xiàng)民生數(shù)據(jù)。
而在卡梅倫出任英國首相后,更是率先提出了“數(shù)據(jù)權(quán)”的概念,并將其視為信息時代每一個公民都擁有的一項(xiàng)基本權(quán)利。
2011年9月20日,由八個國家發(fā)起的“開放政府聯(lián)盟”在紐約成立。幾個月后,“開放政府聯(lián)盟”又迅速收到了加拿大、意大利、韓國等42個國家或地區(qū)的加盟申請。其中,有31個國家或地區(qū)都建立了公共數(shù)據(jù)的開放網(wǎng)站。
在這個聯(lián)盟里,最引人矚目的國家并非美英,而是來自非洲大陸的肯尼亞。
2010年8月,肯尼亞通過了新的憲法,其中第35條規(guī)定:“每一個公民都有權(quán)獲得政府擁有的信息……每一個公民都有權(quán)修改、刪除(政府保存的)不真實(shí)、有誤導(dǎo)傾向的錯誤信息?!?/p>
一個真正的信息社會是一個信息自由流動而不受操縱的社會
2011年,麥肯錫公司曾以2010年度各國新增的存儲器為基準(zhǔn),對全世界大數(shù)據(jù)的分布做了一個研究,結(jié)果發(fā)現(xiàn)中國在這一年新增數(shù)據(jù)量約為250拍,不及日本的400拍、歐洲的2000拍,同美國的3500拍相比,則連十分之一都不到。與此相對應(yīng)的另一個數(shù)據(jù)是,中國擁有4.8億互聯(lián)網(wǎng)用戶,幾乎是美國的兩倍;擁有近九億部手機(jī),是美國的三倍,而互聯(lián)網(wǎng)和手機(jī)正是產(chǎn)生數(shù)據(jù)的重要來源。
在涂子沛看來,這意味著中國并不缺乏可供收集的數(shù)據(jù),而是缺乏收集數(shù)據(jù)的意識。
他回憶起,還在卡內(nèi)基·梅隆大學(xué)讀書時,有一回師門聚會,大家相約每個人都要貢獻(xiàn)一個拿手菜。一位來自中國的博士生以一道鹵牛肉贏得滿堂彩,但當(dāng)他公布自己的烹飪配方時,卻令一位美國教授不知所措。原來,這位教授不太能理解“鹽少許”、“酒若干”、“醋一勺”這樣的表述到底是什么意思。
涂子沛記得,在國內(nèi)做程序員的時候,要是做一個數(shù)據(jù)系統(tǒng)供本單位使用,那么上級和下級單位一般都無法登錄這個系統(tǒng)。還有人告訴他,國內(nèi)有些城市會把環(huán)境監(jiān)測點(diǎn)刻意設(shè)在人工湖畔的柳樹林中,或湖中心的小亭子里。
這些都讓涂子沛想起美國《數(shù)據(jù)質(zhì)量法》中的嚴(yán)苛規(guī)定:任何聯(lián)邦政府部門收集的數(shù)據(jù),必須無償與其他部門共享。而在發(fā)布數(shù)據(jù)時,必須同時發(fā)布一系列的文檔,說明數(shù)據(jù)的來源、產(chǎn)生的方法,以及用戶在復(fù)制過程當(dāng)中可能出現(xiàn)的問題和錯誤。
涂子沛把他的鄉(xiāng)愁寫進(jìn)了書的尾聲,題為:《挑戰(zhàn)中國,摘下“差不多先生”的標(biāo)簽》。他在文中提到胡適對于中國人“凡事差不多、凡事只講大致如此”的判斷,也引用了史學(xué)家黃仁宇認(rèn)為中國在歷史上缺乏“數(shù)目字管理”這種現(xiàn)代治國手段的觀點(diǎn)。
前不久,國內(nèi)一位學(xué)者針對一項(xiàng)社會調(diào)查,得出了“科學(xué)主義一定會導(dǎo)致嚴(yán)重的偏頗,其具體弊端就是迷信數(shù)據(jù)”的結(jié)論。
涂子沛反駁道:中國社會治理領(lǐng)域的問題恰恰不是數(shù)據(jù)迷信。相反,現(xiàn)實(shí)情況往往是,決策者沒有合理使用數(shù)據(jù),同時又受制于錯綜復(fù)雜的理念和利益之爭,導(dǎo)致數(shù)據(jù)意識形態(tài)化,在中國缺乏公信力。
涂子沛的觀點(diǎn)是,收集數(shù)據(jù),使用數(shù)據(jù),開放數(shù)據(jù),“如果前兩者是文化和習(xí)慣,那后者則是一種態(tài)度”。涂子沛強(qiáng)調(diào):“一個真正的信息社會是一個信息自由流動而不受操縱的社會,這種開放意味著信息與每一個公民之間都是等距的,當(dāng)然,也意味著公平與正義?!?/p>
(摘自2012年8月22日《中國青年報》)</