文/符冰 金耀輝
?
上海交通大學(xué)開放數(shù)據(jù)給學(xué)生創(chuàng)新舞臺
文/符冰金耀輝
開放數(shù)據(jù)(Opan Data)最早是由政府發(fā)起和推動,旨在為公眾提供信息透明和決策依據(jù)。如今,開放數(shù)據(jù)的受關(guān)注度越來越高,國內(nèi)各大城市也把開放數(shù)據(jù)作為智慧城市重要組成部分。與此同時,高校作為一個有鮮明特點的環(huán)境和群體,在相應(yīng)的智慧校園的建設(shè)中,也離不開校園開放數(shù)據(jù)。
開放數(shù)據(jù)是一類可以被任何人免費使用、再利用、再分發(fā)的數(shù)據(jù)。開放數(shù)據(jù)幾個主要特性是:可獲取性和可訪問性、再利用和再分發(fā)、普遍參與性。開放數(shù)據(jù)與大多數(shù)的大數(shù)據(jù)不同,開放數(shù)據(jù)是公開并且有目的性的。最基本的例子比如手機的GPS(全球定位系統(tǒng)),或是天氣預(yù)報,就是開放數(shù)據(jù)。開放數(shù)據(jù)的目標是,相關(guān)組織主動發(fā)布開放數(shù)據(jù),人們可以使用、分析和應(yīng)用個人所需的數(shù)據(jù),帶動公眾力量最大限度的挖掘數(shù)據(jù)價值。
從2009年起,隨著各國政府(比如美國,英國,加拿大,新西蘭等)相繼宣布了他們的公眾信息開放計劃,開放數(shù)據(jù)受到了主要關(guān)注。2012年起,隨著上海和北京相繼推出政府數(shù)據(jù)服務(wù)網(wǎng),揭開了國內(nèi)政府開放數(shù)據(jù)的序幕,開放的數(shù)據(jù)內(nèi)容涵蓋了公共安全、公共服務(wù)、交通、環(huán)境、衛(wèi)生等重點領(lǐng)域,不僅為公眾和企業(yè)的數(shù)據(jù)查詢提供方便,也將為互聯(lián)網(wǎng)應(yīng)用產(chǎn)業(yè)帶來巨大潛力。
就高校而言,國外不少高校制定了本機構(gòu)的數(shù)據(jù)管理政策,對數(shù)據(jù)共享進行指導(dǎo)和規(guī)范,像伯克利大學(xué)、滑鐵盧大學(xué)都建立了開放數(shù)據(jù)平臺,并且提供服務(wù)。而國內(nèi)高校開放數(shù)據(jù)還未真正起步,智慧校園相關(guān)的一站式服務(wù)還僅限于整合現(xiàn)有業(yè)務(wù)系統(tǒng)資源。管理者限于對普遍用戶需求的精準把握以及對所掌握數(shù)據(jù)資源的謹慎性,導(dǎo)致現(xiàn)有存量數(shù)據(jù)并沒有發(fā)揮出應(yīng)有的價值。因此,推動校園開放數(shù)據(jù),借助眾包模式群眾智慧,共創(chuàng)智慧校園勢在必行。
大數(shù)據(jù)時代的基礎(chǔ)要求
開放數(shù)據(jù)有利于盤活存量數(shù)據(jù),實現(xiàn)數(shù)據(jù)價值。大數(shù)據(jù)時代,數(shù)據(jù)是根本,高校也不例外。隨著信息化建設(shè)的推進,高校各業(yè)務(wù)部門通過交換平臺實現(xiàn)了基礎(chǔ)的信息共享,但仍然有大量數(shù)據(jù)沉淀在各自的應(yīng)用系統(tǒng)中沒有被充分利用。數(shù)據(jù)被利用起來才有價值,管理者雖然可以通過建設(shè)數(shù)據(jù)倉庫來實現(xiàn)一定的決策統(tǒng)計分析,但大量數(shù)據(jù)仍然沒有轉(zhuǎn)化為信息并被利用,一方面是由于用于共享的交換數(shù)據(jù)仍然占很小的比例,大部分并沒有實際用起來;另一方面是由于各部門對數(shù)據(jù)的敏感性、隱私性、安全性考慮而限制開放。
智慧校園建設(shè)的重要組成部分
數(shù)據(jù)是智慧校園的基礎(chǔ),開放數(shù)據(jù)則是打開智慧校園的鑰匙。智慧校園的根本是信息的精準推送,用戶隨時隨地想要什么信息就能方便的獲取到才體現(xiàn)智慧。智慧校園不是一個人、一個部門的事情,需要群策群力,共同建設(shè)。智慧校園最有效的推動力是大量的活躍的個體,核心力量是數(shù)據(jù)分析者和開發(fā)者,包括創(chuàng)新開發(fā)團隊和第三方公司,公共部門要做的就是做好開放數(shù)據(jù)提供平臺。校內(nèi)師生不僅僅是數(shù)據(jù)的生產(chǎn)者和消費者,更為重要的是,也可以作為數(shù)據(jù)的分解者,這就是智慧校園的生態(tài)系統(tǒng)。如何調(diào)動全校的力量,探索適合自己的智慧校園建設(shè)模式,是各高校應(yīng)該著力探討的方向。
有利于提高運行效率、激發(fā)創(chuàng)新
開放數(shù)據(jù)不僅僅只是增加信息透明度,更多有效信息的傳播通常能使得運行效率更加高效。網(wǎng)絡(luò)、食堂、教室、一卡通等公共資源的運行數(shù)據(jù),如果放在開放平臺上,就有可能被深度挖掘,變成有用的信息。從最基本的用途講,用戶就可以選取合適的時間、方式以最高效的方式去做自己的事情。進一步講,無論從興趣還是從創(chuàng)新創(chuàng)業(yè)角度,開放數(shù)據(jù)都會大大激發(fā)用戶參與度,開發(fā)出各類創(chuàng)新應(yīng)用,這是從管理者層面憑一己之力很難做好的。下文提到的智慧校園開放數(shù)據(jù)大賽就是很好的例子。
數(shù)據(jù)分級分類開放
隨著信息化建設(shè)的推進,高校各業(yè)務(wù)系統(tǒng)通過整合數(shù)據(jù)源、完善門戶、開發(fā)流程等應(yīng)用集成技術(shù),基本都在各自云數(shù)據(jù)平臺建立了業(yè)務(wù)數(shù)據(jù)存儲和數(shù)據(jù)倉庫。但開放數(shù)據(jù)不是所有數(shù)據(jù)都公開,核心是要在開放數(shù)據(jù)層面和信息安全層面找到合適的平衡點。開放數(shù)據(jù)是一個逐步的過程,也伴隨管理決策者對開放數(shù)據(jù)的理解和意識,學(xué)校層面應(yīng)研究制定適合本校的開放數(shù)據(jù)管理政策,各業(yè)務(wù)職能部門制定詳細的數(shù)據(jù)分類與分級方案,根據(jù)實際需要面向特定對象或用戶個體開放。
具體來說,數(shù)據(jù)可按部門和業(yè)務(wù)系統(tǒng)分類:人事、財務(wù)、資產(chǎn)、科研、一卡通等等,這些可稱為校務(wù)數(shù)據(jù),是從管理層面來看的,每一類數(shù)據(jù)可按照表1中四個級別定義。
表1 數(shù)據(jù)分級定義
1.保密數(shù)據(jù)。顯然,這是國家法律法規(guī)以及各高校政策規(guī)定的需要保密的數(shù)據(jù),屬于私密數(shù)據(jù),只能內(nèi)部開放使用。比如涉密的科研課題相關(guān)數(shù)據(jù)。
2.敏感數(shù)據(jù)。敏感的含義相對較廣,包括從管理層面考慮的個體群體對某些數(shù)據(jù)信息的接受程度、文化觀念差異等復(fù)雜因素,為避免不必要的負面效應(yīng)會比較謹慎,也包括從個人層面對個人信息、行為軌跡等隱私信息的開放接受程度不同,會造成大量數(shù)據(jù)都在此列。比如一卡通消費記錄、考試成績等等。敏感數(shù)據(jù)的開放原則是在主管部門和個人授權(quán)許可的前提下控制性開放。
3.一般數(shù)據(jù)??梢岳斫鉃榘葱栝_放的數(shù)據(jù),不涉及保密和隱私,只要有需求,滿足相應(yīng)接口定義就能開放。比如環(huán)境信息、運動場館信息等等。
4. 公開數(shù)據(jù)。比如網(wǎng)站、搜索引擎獲取到的公開的信息。
校園開放數(shù)據(jù)平臺建設(shè)
開放數(shù)據(jù)僅僅是第一步,如何管理應(yīng)用好這些數(shù)據(jù),還涉及到數(shù)據(jù)治理、權(quán)限控制、落地機制等諸多環(huán)節(jié)。做好開放數(shù)據(jù)平臺建設(shè),重點要做好落地環(huán)節(jié)(如圖1)。
圖1 校園開放數(shù)據(jù)平臺層次示意
落地環(huán)節(jié)保障了數(shù)據(jù)到信息的轉(zhuǎn)化,是智慧校園精準信息推送的基礎(chǔ)。其中關(guān)鍵要做好對開發(fā)、運維者的服務(wù)和資源配給,同時又要兼顧管理需要。
1.完善的統(tǒng)一身份認證和授權(quán)體系。高校都十分注重組織架構(gòu)和人員身份的管理,統(tǒng)一身份認證和授權(quán)體系保證了各業(yè)務(wù)、數(shù)據(jù)的分級授權(quán)控制,確保信息安全。
2.云服務(wù)平臺。面向開發(fā)者提供的可靠、便捷的私有云資源,開發(fā)者無需投入過多精力在基礎(chǔ)架構(gòu)運維上,可以更聚焦于應(yīng)用和創(chuàng)新。
3.接口開放的能力。不僅要包含傳統(tǒng)的網(wǎng)頁端接入能力,更要包含互聯(lián)網(wǎng)新媒體環(huán)境下移動客戶端、微信端的接入能力。開放形式可以根據(jù)具體內(nèi)容、要求,通過標準API的形式,也可以用更直接的方式基于Web以特定格式提供下載。
可持續(xù)發(fā)展的運營機制
運營是個商業(yè)化的概念,是指不斷體現(xiàn)產(chǎn)品商業(yè)價值的持續(xù)投入。具體到高校來說,開放數(shù)據(jù)的落地就是應(yīng)用,傳統(tǒng)的大數(shù)據(jù)往往是數(shù)據(jù)的擁有者和管理者獨自在玩,他們作為開放數(shù)據(jù)平臺生態(tài)系統(tǒng)的數(shù)據(jù)消費者,往往注重了強關(guān)聯(lián)性的業(yè)務(wù)層面的數(shù)據(jù)使用,無論從功能需求上還是從UI設(shè)計上,都很難創(chuàng)造出吸引大多數(shù)年輕的學(xué)生群體的應(yīng)用。而學(xué)生中的草根團隊作為一個個活躍的群體,卻往往處于四處爬數(shù)據(jù)甚至用釣魚方式獲取數(shù)據(jù)的尷尬境地。開放數(shù)據(jù)給了這些草根團隊廣闊的舞臺,他們的熱情和參與度可以作為智慧校園開放數(shù)據(jù)的有力補充。需要建立以管理者為指導(dǎo)、充分帶動、發(fā)揮學(xué)生能動性的運營團隊,不斷豐富和完善開放數(shù)據(jù)內(nèi)涵。
上海交通大學(xué)在開放數(shù)據(jù)與共享上積累了一定經(jīng)驗,建立了一套較為完整的授權(quán)體系,并利用開源軟件建立了開放數(shù)據(jù)平臺,通過進一步探索開放更多校園數(shù)據(jù),可以為師生提供一個實踐開放數(shù)據(jù)和構(gòu)建智慧校園的生態(tài)環(huán)境,讓師生在豐富多樣的開放數(shù)據(jù)世界中,充分發(fā)揮想象力和創(chuàng)造力。
校園開放數(shù)據(jù)平臺
開放數(shù)據(jù)要求數(shù)據(jù)不僅要從政策上開放,還要從技術(shù)上開放,基本的準則是:簡單易用、易發(fā)現(xiàn)、易獲取。開放數(shù)據(jù)是一個迭代的過程,可以先從小的、簡單的、快捷的數(shù)據(jù)開始開放,盡早且頻繁地讓現(xiàn)有的或潛在的用戶使用或再利用那些數(shù)據(jù)。
1.公共開放的CKAN平臺
CKAN(Comprehensive Knowledge Archive Network)提供了一種讓數(shù)據(jù)發(fā)布者便捷高效的展示開放數(shù)據(jù)以及再提交開放數(shù)據(jù)的方式,并且已被美國、英國、澳大利亞部署用于國家層面的政府開放數(shù)據(jù)平臺建設(shè)。CKAN是可以方便的搭建集數(shù)據(jù)發(fā)布、數(shù)據(jù)共享、數(shù)據(jù)搜索和數(shù)據(jù)使用為一體的管理平臺,并且提供了強大而完善的RPC APIs供用戶調(diào)用。它的基本組成是數(shù)據(jù)集和組織,數(shù)據(jù)集是數(shù)據(jù)存儲的基本單元,其中可以包含多個資源文件,提供豐富的元數(shù)據(jù),同時可以方便快速地搜索和下載使用。組織是用來創(chuàng)建、管理、發(fā)布數(shù)據(jù)集集合的,用戶可以在組織中扮演不同的角色,并被賦予不同級別的權(quán)限來創(chuàng)建、編輯和發(fā)布數(shù)據(jù)。
公共開放的原始批量數(shù)據(jù)提供,使得使用者不存在對原始提供者的依賴,可以更自由地發(fā)揮使用。上海交通大學(xué)網(wǎng)絡(luò)信息中心利用開源平臺CKAN搭建了校園開放數(shù)據(jù)平臺,目前已有6個組織和20個數(shù)據(jù)集,提供CSV、TXT、PDF、JSON等多種便捷方式公開下載使用,其中也包括了為首屆智慧校園開放數(shù)據(jù)大賽提供的三個重量級的數(shù)據(jù)集。
2. OAuth體系保護的API建設(shè)
API方式是高校信息系統(tǒng)開發(fā)標準接口方式,也是開放數(shù)據(jù)的重要提供形式。API方式的優(yōu)勢,一是可以結(jié)合高校自有的統(tǒng)一身份認證和授權(quán)體系實現(xiàn)對用戶資源保護的權(quán)限控制,在管理角度和保護用戶角度做到很好的平衡;二是API通常和一個實時更新的數(shù)據(jù)庫連接起來,這意味著任何通過API的請求數(shù)據(jù)都將是最新更新的,不必實時盯著數(shù)據(jù)集更新。
上海交通大學(xué)已實現(xiàn)基于OAuth授權(quán)體系保護的API建設(shè)模型,在各業(yè)務(wù)系統(tǒng)建設(shè)的同時,API建設(shè)也在同步進行,并在學(xué)在統(tǒng)一的技術(shù)規(guī)范下已經(jīng)建設(shè)完成了約40個開放API,范圍涵蓋用戶基本信息、教學(xué)信息、信息流控制、工作流信息、非結(jié)構(gòu)化存儲等信息化常見的多個領(lǐng)域,已經(jīng)被多個應(yīng)用廣泛使用。對開發(fā)者來說,只需要申請一個令牌,就可以方便的調(diào)用API獲取相應(yīng)資源。API方式的不足之處在于開發(fā)和維護量的高成本投入,尤其是開放資源越來越多的趨勢下。
智慧校園開放數(shù)據(jù)大賽
將數(shù)據(jù)轉(zhuǎn)化為成果落地智慧校園,需要添加催化劑,鼓勵大眾參與。比賽形式是較為直接的激發(fā)大眾創(chuàng)新的最有效的手段,甚至可以成為解決實際問題的眾智眾包平臺。上海交通大學(xué)通過舉辦首屆智慧校園開放數(shù)據(jù)大賽,最終效果超出了預(yù)期,吸引了校內(nèi)外500多人參與,經(jīng)過宣講會、數(shù)據(jù)訓(xùn)練營、初賽決賽,學(xué)生的參與度、想象力和數(shù)據(jù)分析能力超乎想象,甚至通過數(shù)據(jù)挖掘發(fā)現(xiàn)了管理的盲區(qū)。開放數(shù)據(jù)大賽的成功可以歸結(jié)為于以下幾個方面:
1. 高質(zhì)量的開放數(shù)據(jù)
開放數(shù)據(jù)大賽首次開放了校內(nèi)某半年的一卡通消費流水、WIFI上網(wǎng)日志、氣象信息共計千萬級別的記錄信息,賽前的數(shù)據(jù)清洗就花了兩個多月的時間,在最基礎(chǔ)的匿名化和去隱私化處理上,剔除了大量無關(guān)數(shù)據(jù),保證了數(shù)據(jù)的可靠性。
2. 數(shù)據(jù)訓(xùn)練營的引導(dǎo)與宣傳
數(shù)據(jù)訓(xùn)練營為開發(fā)者包括初學(xué)者提供量身定做的裝備,引導(dǎo)學(xué)生抓住重點,幫助他們迅速走上正軌。通過28天的社群化、實踐化學(xué)習(xí),掌握數(shù)據(jù)建模與數(shù)據(jù)分析基礎(chǔ)技能,并為訓(xùn)練營成員提供專業(yè)的數(shù)據(jù)分析工具和資源。這種領(lǐng)入比賽門檻的做法也吸引到了文科學(xué)生參與到作品的可視化展示中。
3.豐厚的回饋機制
學(xué)生參賽的目的性很強,或為實實在在的獎金,或為展示自己能力,或為創(chuàng)新創(chuàng)業(yè)找伙伴,但最終參賽者拿出的是一個個優(yōu)秀作品(如圖2)。比賽不僅僅是最后決出參賽者名次,大賽也請到了管理學(xué)院、數(shù)學(xué)系、工業(yè)設(shè)計系等校內(nèi)多個院系的專家教授以及校后勤集團、贊助企業(yè)、投資人,匯集各方力量,從可行性的角度共同商討智慧校園開放數(shù)據(jù)環(huán)境下的創(chuàng)新創(chuàng)業(yè)機會,促進作品以校內(nèi)應(yīng)用或創(chuàng)業(yè)項目的形式落地。
精彩比賽之余,也看到有待進步的地方,比如數(shù)據(jù)集的種類和規(guī)??梢岳^續(xù)擴大。對數(shù)據(jù)質(zhì)量、用戶隱私、網(wǎng)絡(luò)安全的把握還需努力,畢竟比賽數(shù)據(jù)是經(jīng)過處理的,真正將開放數(shù)據(jù)應(yīng)用到用戶端,還需要做更多的工作。
圖2 智慧校園開放數(shù)據(jù)大賽作品示例
學(xué)生創(chuàng)新團隊
開放數(shù)據(jù)的智慧校園發(fā)展有兩條線,一是自上而下的學(xué)校層面沿著推進信息化建設(shè)的方向完善各個業(yè)務(wù)系統(tǒng)向智慧校園過渡,另一條線就是從下而上用戶層面迎合草根用戶實際需求創(chuàng)建的各類接地氣的創(chuàng)新應(yīng)用。開放數(shù)據(jù)在學(xué)生團隊運作下,可以發(fā)揮更大價值,學(xué)生團隊是學(xué)校在建設(shè)智慧校園過程中不可忽視的一支互補力量。學(xué)生的思維天馬行空較為發(fā)散,某方面講這是優(yōu)點,但需要引導(dǎo),相對而言,導(dǎo)師指導(dǎo)下的學(xué)生團隊更容易迸發(fā)凝聚的力量。在交大推進開放數(shù)據(jù)的過程中,前后就有開放移動網(wǎng)絡(luò)與信息服務(wù)創(chuàng)新工作室(OMNILab)、科賽競賽平臺(KESCI),上海交大數(shù)據(jù)分析俱樂部(D.A.CLUB_SJTU),成為開放數(shù)據(jù)推廣運營的主力軍。
校園開放數(shù)據(jù)是高校管理者與師生溝通的關(guān)鍵,彼此在共同的數(shù)據(jù)上對話,才可有依據(jù)地進行有效對話。開放更多的數(shù)據(jù),讓師生都有感,管理者也會明白數(shù)據(jù)對師生的重要性,彼此就會產(chǎn)生正向循環(huán)。下一步,學(xué)校層面除了加速數(shù)據(jù)的開放,也期盼用戶端提供更多的創(chuàng)意、需求回饋,彼此找到真正的運作模式;師生除了扮演監(jiān)督的角色,也盼望多加參與數(shù)據(jù)的使用,回饋需求想法;運營者是管理層面與終端師生用戶重要的溝通平臺,應(yīng)運作使力促進各方的相互協(xié)同,朝向更互信互利的共贏模式,共創(chuàng)智慧校園。
(作者單位為上海交通大學(xué)網(wǎng)絡(luò)信息中心)