王樹良,丁剛毅,鐘 鳴
(北京理工大學 軟件學院,北京 100081)
大數據(big data)是體量巨大(volume)、多種多樣(variety)、高速變化(velocity)、真實質差(veracity)的復雜數據集合[1~4],已經難以用現有的數據工具管理利用[5,6]。在這些數據中,空間數據占了絕大多數,大約80% 的數據與空間位置有關[7,8]。空間數據是人們通過信息世界認識現實世界的基礎數據和智慧源泉[9,10]。大數據與應用密切相關[12,13],空間數據挖掘為其主要應用[5,9,11]。
人類文明是從認識現實世界到創(chuàng)造信息世界的過程,歷經初步認識世界,以信息輔助記憶,以信息記錄和傳承,以信息交流與傳播,以信息再次認識世界的歷史階段。最初利用實物,使用石塊、貝殼“一一對應”計數,通過結繩記事輔助記憶和講述文化。后來,以圖畫記事,使用簡單圖形,通過對自身進行感性的提示,傳承較為準確的記憶。再后來,當圖畫變成形體相對固定的約定俗成的符號,并與語言中的詞語相聯(lián)系后,就產生了文字。文字通過語言對現實世界抽象概括,促進了交流與傳播,準備了發(fā)展科學文化的必要條件。為了突破文字符號依靠人工抄寫或雕刻的限制,工業(yè)化革命用機器實現了批量機械化生產,提高了傳播的效率[14,15]。計算機以高速計算為中心,把軟件從機械硬件中剝離出來,促成了信息傳播的“電子化”和“自動化”;互聯(lián)網以網絡為中心,把計算機相互關聯(lián),突破了信息的局部限制;移動通信以用戶為中心,讓機器緊隨用戶運動,解除了機器對人的束縛;物聯(lián)網以應用為中心,自動識別物體,實現了人與物的信息互聯(lián)共享;云計算以服務為中心,通過整合專業(yè)技術,優(yōu)化了資源配置;大數據以數據為中心,在全體數據中挖掘知識,突破了樣本的采樣隨機性[16~18],能在大型數據中心和移動終端中得以展現。上述信息技術,最終將服務于對現實世界的認識和改造[15]。
空間數據描述信息世界中的空間對象在現實世界內的具體地理方位和空間分布,包括空間實體的屬性、數量、位置及其相互關系等,涵蓋從宏觀、中觀到微觀的整個層次,可以是點的高程、道路的長度、多邊形的面積、建筑物的體積、像元的灰度等數值,地名、注記等字符串,圖形、圖像等多媒體成分,空間關系等拓撲結構[7,8]。與一般的數據相比,空間數據具有空間性、時間性、多維性、大數據量、空間關系復雜等特點[11]。
用于采集空間數據的可能是雷達、紅外、光電、衛(wèi)星、多光譜掃描儀、數碼相機、成像光譜儀、全站儀、天文望遠鏡、電視攝像、電子顯微成像、CT 成像等各種宏觀與微觀傳感器或設備,也可能是常規(guī)的野外測量、人口普查、土地資源調查、地圖掃描、地圖數字化、統(tǒng)計圖表等空間數據獲取手段,還可能是計算機、網絡、GPS、RS 和GIS 等技術應用和分析空間數據的過程。具體包括空間數據的來源、原觀測值(或原始數據),以及采集、編輯、存儲和利用數據的方法、步驟、格式、轉化、日期、時間、地點、人員、環(huán)境、傳輸與歷史等[10,19]。
遙感對地觀測已經成為社會、政治和經濟的發(fā)展決策不可或缺的重要組成部分[7,11,14,19]?,F在,星載傳感器、衛(wèi)星發(fā)射、控制等系列硬件技術已經取得了重大突破,未來的天基信息系統(tǒng)和對地觀測系統(tǒng)擬通過努力,建立具有準實時、全天候獲取各種空間數據的能力,并逐步形成集高空間、高光譜、高時間分辨率和寬地面覆蓋于一體的衛(wèi)星(群)對地觀測系統(tǒng),同時提供定位、通訊和觀測的功能,如圖1、圖2 所示。感知器的飛速發(fā)展,也使得描述空間對象屬性的波段數目由幾個增加到幾十甚至上百個。遙感對地觀測技術正在形成一個多層次、多角度、全方位和全天候的全球立體對地觀測網,高、中、低軌道結合,大、中、小衛(wèi)星協(xié)同,粗、細、精分辨率互補。傳感器的地面分辨率數量級從千米到厘米,波段范圍從紫外到超長波,時間間隔從十幾天一次到每天三次,探測深度從幾米到萬米。在以高空間、高光譜、高動態(tài)為標志的新型遙感對地觀測技術中,新型的高分辨率衛(wèi)星遙感數據如Quick Bird、IRS、IKONOS 等已提供使用。多傳感器、多用途、多分辨率、多頻率的EOS 更可以提供MODIS 成像光譜數據、ASTER 熱紅外數據、測云和4-D 模擬的CERES 數據、MOPIT 數據及MISR 數據。高分辨率、高動態(tài)的新型衛(wèi)星傳感器不僅波段數量多、光譜分辨率高、數據速率高、周期短,而且數據量特別大,一般情況下數據的容量均在千兆量級以上。僅EOS-AM1 和PM1 每日獲取的遙感空間數據量就以TB 級計算。Landsat 每兩周就可以獲取一套覆蓋全球的衛(wèi)星影像數據,目前已經積累了全球幾十年的數據。
空間數據基礎設施的建設速度和由此積累的空間基礎數據也正在遞增[14]??臻g數據基礎設施積累了大量的城市電子地圖數據庫、城市規(guī)劃道路網絡數據庫、工程地質信息數據庫、用地現狀信息數據庫、總體規(guī)劃信息數據庫、控制性詳細規(guī)劃數據庫、市政紅線數據庫、建筑紅線與用地紅線數據庫、地籍數據庫,以及覆蓋全市范圍的土地利用及基本農田保護規(guī)劃數據庫等空間基礎數據。更進一步地,除了這些已經存儲和積累的數據,每時每刻還都在采集和產生新的空間數據。
正如人類在初生于現實世界后不斷探索以認識它一樣,置身于信息世界的人類也正嘗試了解其所蘊含的秘密。2008 年7 月,O’Reilly Media 出版了《Beautiful Data》(數據之美),9 月《Nature》刊登了“大數據(Big data)”專輯,微軟出版了《第四范式—數據密集的科學發(fā)現》(The Fourth Paradigm—Data Intensive Scientific Discovery)。2009 年5 月,聯(lián)合國“全球脈動(Global Pulse)”項目發(fā)布《Big Data for Development:Challenges & Opportunities》(大數據促發(fā)展:挑戰(zhàn)與機遇),推動數字數據和快速數據收集和分析方式的創(chuàng)新[1]。2011 年2 月,《Science》刊登了“Dealing with Data(處理數據)”專輯,并聯(lián)合Science:Signaling、Science:Translational Medicine 和Science:Careers 推出相關專題,討論數據對科學研究的重要性。5 月,麥肯錫(McKinsey)在《Big data:the next frontier for innovation,competition,and productivity》(大數據:下一個創(chuàng)新、競爭和生產力的前沿)中從經濟和商業(yè)維度分析了大數據在不同行業(yè)的應用潛力,明確提出了政府和企業(yè)決策者應對大數據發(fā)展的策略[4]。2012 年1 月,《華爾街日報》認為大數據、智能生產和無線網絡三大技術變革將引領新的經濟繁榮[20]。2012 年3 月,美國在《大數據的研究和發(fā)展計劃》(Big Data Research and Development Initiative)中把大數據的研發(fā)應用從以前的商業(yè)行為上升到國家戰(zhàn)略部署,以提高從龐大而復雜的數據中提取知識的能力,幫助解決一些國家最緊迫的挑戰(zhàn)[2,3]。美國國家科學基金會成立了可視化和決策信息中心(NSF CVDI),匯聚國家科學基金會、工業(yè)界、政府機構和大學的力量,集中研究大數據的數據挖掘、決策制定和可視化。2012 年4 月,《Nature Biotechnology》在“Finding correlations in big data”一文中邀請八位生物學家,對2011 年12 月《Science》的“Detecting Novel Associations in Large Data Sets”一文進行評價[21]。2012 年7 月,Gartner發(fā)布了第一份大數據調查報告《Hype Cycle for Big Data,2012》(大數據的宣傳循環(huán)),對大數據予以冷思考[6]。
在產業(yè)界[13,22~24],微軟(Microsoft)在2011 年推出與Windows 兼容的基于Hadoop 的大數據解決方案(Big Data Solution),作為SQL Server 2012 版本的一部分。IBM 給出了InfoSphere BigInsights,不僅將DB2 與NoSQL 數據庫有機結合,而且在2007 年收購了商務智能軟件供應商Cognos,2009 收購了業(yè)務規(guī)則管理軟件供應商ILOG、數據分析和統(tǒng)計軟件提供商SPSS、數據庫分析供應商Netezza,2010 年收購了網絡分析軟件供應商Coremetrics。亞馬遜(Amazon)在2009 年發(fā)布的Elastic MapReduce 采用了托管的Hadoop 框架,用戶可以在進行分布式程序所需的數據密集型工作時根據自己的需要實時調整所需的負荷。甲骨文(Oracle)把NoSQL 數據庫和Big Data Appliance 組合,使得客戶直接擁有處理非結構化海量數據的能力。Google 用Bigtable 分布式存儲大規(guī)模結構化數據,利用BigQuery SQL 查詢大數據。此外,Apple 的iCloud,Facebook 的The Open Compute Project,EMC 的Greenplum HD 等信息產業(yè)也致力于提供大數據解決方案和應用。
在中國[4,6,23,24],百度從2007 年開始使用Hadoop 做離線處理,目前有80% Hadoop 集群用作日志處理,1 萬多臺Hadoop 服務器已經超過了Yahoo和Facebook,計劃2013 年達到2 萬臺,每天的數據處理量為6 TB。除了百度的搜索日志分析,騰訊、淘寶和支付寶的數據倉庫等也采用了Hadoop 處理大規(guī)模數據。2010 年4 月,淘寶推出“數據魔方”,其千億級海量數據庫OceanBase 每天支持4 ~5 千萬的更新操作,每天更新超過20 億,更新數據量超過2.5 TB。2010 年5 月,中國移動在云平臺上建立了海量分布式系統(tǒng)和結構化海量數據管理系統(tǒng)。華為基于移動終端分析數據,通過云存儲平臺分析海量數據,獲得有價值的信息。阿里巴巴通過大數據技術,分析企業(yè)交易數據,以進行信用貸款審批。2012年3 月,我國科技部發(fā)布的“‘十二五’國家科技計劃信息技術領域2013 年度備選項目征集指南”,把大數據研究列在了首位。
大數據的研究與發(fā)展,涉及國防安全、生活健康、氣候變化、地質調查、減災防災、智慧地球等,基本都與空間數據有關[1,4,13]。以美國為例,1993 年宣布建立國家信息基礎設施(National Information Infrastructure),2010 年,發(fā)布國家寬帶計劃(National Broadband Plan),2012 年,以“國家戰(zhàn)略”投資2 億美元啟動大數據的研究和發(fā)展計劃。在大數據計劃中,與空間數據關系最為密切的是聯(lián)邦地質調查局(US Geological Survey,USGS)和航空和航天局(National Aeronautics & Space Administration,NASA)[2,3]。
USGS 通過約翰·威斯利·鮑威爾分析和整合中心為科學家們提供了深入分析的場所和時間、最先進的計算能力和感知大數據集的協(xié)作工具,促進地球系統(tǒng)科學的創(chuàng)新思維。在中心,科學家們合作完成對全面、長期的數據的最新綜合,進一步把大數據集和地球科學理論的大構想轉換成科學發(fā)現,提高對地球系統(tǒng)科學問題的理解和應對能力,例如物種應對氣候變化、地震復發(fā)率、下一代生態(tài)指標等。
NASA 用先進信息系統(tǒng)技術尋求成熟的大數據能力,以支持未來的地球觀測任務,使得地球信息能為NASA 氣候中心的體系結構所識別,減少地球科學部的空基和陸基信息系統(tǒng)的風險、成本、規(guī)模和開發(fā)時間,提高科學數據的可訪問性和實用性。NASA的地球科學數據和信息系統(tǒng)項目已經活躍了超過15 年,旨在對地球衛(wèi)星數據和空中與實地活動的數據進行處理、存檔和發(fā)布,努力確??茖W家和公眾可以滿意地訪問從地球到太空的數據,提升應對氣候和環(huán)境變化的能力。NASA 建立全球對地觀測系統(tǒng)的系統(tǒng),是分享和整合對地觀測數據的國際合作嘗試,它與美國環(huán)境保護署、美國國家海洋大氣管理局等機構和國家聯(lián)手,整合基于衛(wèi)星、地面的監(jiān)測和建模系統(tǒng),評估環(huán)境條件和預測事件(如森林火災、人口增長等自然人為的發(fā)展問題)。最近,研究者將整合各種復雜的空氣質量信息,以更好地理解和處理空氣質量對環(huán)境和人類健康的影響。NASA 與Cray 公司制定的太空行動協(xié)議,允許一個或多個項目圍繞發(fā)展和應用低延遲“大數據”系統(tǒng)合作,使用高度集成的非SQL 數據庫傳輸數據,來加速建模和分析軟件的運行,以測試混合計算機系統(tǒng)的實用性。NASA 的行星數據系統(tǒng)是行星任務的數據檔案,已經成為世界各地科學家的基本資源。其中,通過一個行星學科的在線目錄系統(tǒng),可以對所有產品進行同行評審、完善記錄、訪問查詢。NASA 太空望遠鏡科學研究所的多任務存檔,是分布式空間科學數據服務的一個組成部分,主要側重于光學、紫外線和近紅外部分頻譜等科學相關的數據集,提供各種天文數據檔案,支持多種工具對各種光譜圖像數據進行訪問。NASA 的地球系統(tǒng)網格聯(lián)邦是一個公共檔案,通過與美國能源部合作,為聯(lián)邦政府提供數據觀測和模型輸出。NASA 發(fā)布的Word Wind 是一個開放源代碼的地理科普軟件,將NASA、USGS,以及其他WMS 服務商提供的影像通過三維的地球模型進行展現,能瀏覽歷史影像資料,支持運用Modis 數據進行災害性事件監(jiān)測,可用于全球氣溫動態(tài)監(jiān)測。
此外,各種專用減災衛(wèi)星、遙感衛(wèi)星、通信與導航衛(wèi)星已廣泛應用于地震、海嘯、臺風(颶風)、洪災、旱災、地質災害和火災等各種不同類型的災害管理。當前在軌運行的專用“災害監(jiān)測星座”(DMC)是一個通過各個國家的衛(wèi)星來進行國際合作的系統(tǒng),組成星座后具有時間分辨率高、監(jiān)測范圍大、響應速度快等特點,廣泛應用于各種減災過程和洪災、颶風和火災等的災害監(jiān)測和災害分布圖的制定。
空間數據與人類的衣食住行息息相關,貫穿在各行各業(yè),其數量、大小和復雜性都在急劇增加,大量的數據以文字、圖表、影像、多媒體等方式被累積存儲在空間數據庫和空間數據倉庫中[5,10,11]。國際數據公司(IDC)研究表明[26],截止2003 年,人類總共創(chuàng)造了5 EB 數據,而2011 年一年產生與復制的信息量超過了1.8 ZB,預計到2020 年,全球數據使用量將達到35.2 ZB,需要376 億個1 TB 硬盤來存儲。這些數據,拓寬了可供人類利用的空間數據范圍和充分的智慧資源,可是單位數據的價值正在快速下降,人類被淹沒在信息世界的數據海洋中卻饑渴于知識。
大數據的數量很大,增長速度很快,品種很多,價值密度卻很低,其中有很多垃圾數據[4,6]。科學研究的正負電子對撞機,已經能夠每秒拍攝4000萬張照片,可是其中只有幾千張照片有用。羅馬尼亞互聯(lián)網安全公司比特梵德(BitDefender)指出[6],社交網絡游戲中的垃圾信息和“釣魚信息”數量增加了50%以上。相對于其他在線通訊環(huán)境,社交網絡用戶更易在不知不覺中接受、加載垃圾信息。
大數據與應用密切相關,數據的專業(yè)標注是理性分析和合理判斷的基本目標。無論是科學實驗數據還是觀測數據,都需要領域專家標注[1,3,4]。據IDC 統(tǒng)計[26],在2012 年的所有信息中,只有23%有用,其中又只有3%的潛在有用信息被標注,被分析的比例更少。隨著現代測量方法和數字記錄方法的發(fā)展,面對所獲得的龐大信息,老的、人工的、經驗的分析和剔除數據垃圾的方法變得愈來愈無能為力了。
從現實世界采集來的空間數據是有污染的[25,26]。而且,早在1992 年,美國麻省理工學院就研究發(fā)現,數據污染的問題并不是個別現象,在全球50 家被抽樣調查的單位或機構中,大部分的數據準確度都不到95%。無論采用何種方式獲取的空間數據,均存在一些不可避免的問題或錯誤[28~30]。例如,內容殘缺、精度有誤、重復冗余、格式矛盾、類型不同、結構不一、尺度不同、標準差異、過時失效、錯誤異常、動態(tài)變化、局部稀疏等問題,而且,每種問題又有多種成因,僅噪聲就有周期性噪聲、條帶噪聲、孤立噪聲和隨機噪聲。進一步地,這些數據還經常受粗差、系統(tǒng)誤差和隨機誤差的單獨或綜合影響,如果三種誤差不能在平差中正確地被發(fā)現、消除,那么勢必損害預期的數據精度[11]。下面以常見的不完整、不準確、重復、不一致等問題為例,重點予以分析。
不完整的空間數據[11,25,27]。因省略等帶來不完整。例如,空間屬性未被充分采集,編輯空間數據的規(guī)則沒有考慮足夠的影響因素,空間數據庫中的數據不能充分描述可能的特征,可能的目標沒有全部被包含在空間數據庫中。若量測標準中的特征沒有被全部按照準則、定義和規(guī)則采集,則留作識別空間目標的重要特征也會因評估標準而被融合掉。此外,懶惰的錄入習慣或不同業(yè)務部門對空間數據的需求不同,也導致源系統(tǒng)中應有的域或記錄缺失。
不準確的空間數據指與現實的實體屬性相比不正確的值[28]。例如,同譜異物的影像,同物異譜的影像,目標判讀的錯誤,模糊的對象邊界,未及時更新的失效空間數據,不正確的計算或聚集產生的空間數據,錯誤的數據類型,空間數據偽值,多用途數據的專業(yè)解釋錯誤,無法理解的古怪格式,不能破解的加密數據。
重復記錄指在多源空間數據中有關同一個現實對象的信息有重復,或在多個系統(tǒng)中有關同一個現實對象的信息有重復[11,30]。導致重復的原因很多,例如多重數據結構,名稱拼寫錯誤,不通用的別名,不同的縮寫,方言表達,不完全匹配的記錄,高精度記錄導入低精度記錄(例如從64 位計算機導入32位計算機)等。此外,各個空間數據源提供的空間數據通常會包含標識符或字符串數據,它們在不同的空間數據源中有所不同。
不一致的空間數據[11,25,27]??臻g數據上下文相關沖突是因系統(tǒng)和應用造成的不同的類型、格式、制式、粒度、同義詞和編碼方式等,從不同來源集成的空間數據引發(fā)的不一致,可能不滿足空間實體間的拓撲一致性、數據結構的內部一致性和數據規(guī)范的邏輯一致性??臻g數據上下文無關沖突是由于偶然因素造成的錯誤的輸入、硬件或軟件故障、外部因素造成的空間數據庫狀態(tài)改變,同一系統(tǒng)的空間數據因位置、單位及時間不同而產生的不一致等。由于輸入不規(guī)范造成的表示不一致,內容上的不一致,一般難于找到轉換函數。
數據不僅被污染了,而且數據的生產、傳輸、復制和累積,已經遠遠超出了人們的分析、理解和應用能力[11]。由于數量龐大,“大數據”難以被捕捉、存儲、搜索、分享、分析和具體化。一般地,人均日閱讀時間通常為30 ~45 分鐘,只能瀏覽一份24 版的報紙。面對浩瀚的遙感空間數據,美國國防部已經沒有能力完全處理其偵察衛(wèi)星沒完沒了拍攝下的照片。美國的新一代“世界觀察”(WorldView)衛(wèi)星空間分辨率達到了0. 5 m,直接定位精度也能達到2 ~3 m 以內。新一代試驗衛(wèi)星EO-1 成像譜段有220 個,光譜范圍為400 ~2500 nm,光譜分辨率達到了10 nm??臻g數據的數據庫系統(tǒng)可以實現數據的錄入、修改、統(tǒng)計、查詢等顯性功能,卻無法發(fā)現隱藏在空間數據背后的隱性知識。地理信息系統(tǒng)重在研究如何建立數據庫、如何保證數據利用分析的連續(xù)性、編輯系統(tǒng)文檔和空間數據的發(fā)展,對空間數據的深層次處理功能比較薄弱。常規(guī)的遙感圖像處理理論和方法所能處理的數據量、自動化和智能化水平十分有限,結果多數停留在定性的程度。各種商業(yè)圖像處理軟件(ERDAS、IMAGINE、PCI、ENVI等),由于缺乏新的圖像處理理論和方法的支持,難以實現對諸如混合像元、影像的自動匹配、地物目標的自動提取等問題的自動處理。更有甚者,一家報紙在其“法制社會”和“青年話題”兩個版面中刊登了同一作者的同一篇文章;另一家報紙的家電版、生活版、科技版在同一天分別比較VCD、CVD、DVD 的優(yōu)劣,得到三個不同的結論。主編竟然都沒有覺察。
長此以往,如果各行各業(yè)都被垃圾充斥的污染數據淹沒,那么就可能導致大數據變成“垃圾進,垃圾出”的無用“大垃圾”。大數據中的有用數據被埋沒,隱含的價值被遮蔽。面對如此窘況,如何理解空間數據,如何從大數據中提取信息,如何把大數據轉變?yōu)槟軌蜃罱K可用的知識[23,24],實現應有的數據價值,已成為大數據的瓶頸。
英國經濟學家亞當·斯密認為“有用的事物”才能被視為資本。數據是有價值的,而且會在使用中通過自學習自適應增值??臻g大數據來源眾多且相互關聯(lián),真實有用為其最大價值(value)。大數據價值的公認規(guī)則是用數據說話,首要前提是保持大數據始終有用的活性,最終價值則是以大數據增進人類智慧。
大數據提供了一個在信息世界中完整地觀察現實世界全貌而非局部樣本的前所未有的機會[4,17,18]。在大數據之前,因為空間數據采集、存儲、計算和傳輸的局限,概率統(tǒng)計只能從現實中隨機抽樣,通過樣本數據歸納全體數據,像盲人摸象一樣認識對象局部,僅是窺豹一斑。數據抽樣不完備,樣本數據不集中,致使難以認識全局的整體規(guī)律和異常變化。
現在,在大數據的情況下,數據被大量的創(chuàng)造、復制和積累,樣本足夠多,克服了由于抽樣導致的信息樣本不完備,全體數據可能在信息世界內重現了現實世界基本完整的原貌,描述了空間對象的全貌,隱含了一般性的規(guī)律和發(fā)展趨勢,促使人類更加有效地了解世界并預測未來。近年來,美國利用先進的專業(yè)技術和現代信息技術,對災害可能造成的影響進行及時、準確地預測,并發(fā)布警示信息。尤其利用衛(wèi)星導航定位技術可以對災害進行精確定位,例如,“伊克洛斯”(IKONOS)2 衛(wèi)星和“快鳥”(Quick-Bird)衛(wèi)星拍攝的加勒城市火車站區(qū)域的海嘯前后高分辨率衛(wèi)星影像,解譯了建筑物的損毀情況。在基于Google Earth 的降雨災害監(jiān)測系統(tǒng)中,用戶只需調用Google Earth 3D 地形影像,再疊加氣象局提供的衛(wèi)星云圖、雨量圖、單站雨量資料、土壤資料和現場圖片等便能展現立體的災害效果,進行淹沒分析等,為決策分析提供依據。ArcGIS 能制作各種專題的災情地圖產品,ArcGIS Mobile 可以滿足災情速報工作的需要,及時采集各種災情專題信息。
麥肯錫[4]認為,數據是基礎資源,可以與物質資產、人力資本相提并論,為世界經濟創(chuàng)造重要價值,提高企業(yè)和公共部門的生產率和競爭力,為消費者創(chuàng)造大量的經濟剩余。2011 年,世界經濟論壇(World Economic Forum)稱大數據為新財富。2012年,瑞士達沃斯論壇的《Big Data,Big Impact》把數據當作像貨幣或黃金一樣的經濟資產類別。2012 年,Gantner 認為“大數據是大錢財(Big data is big money)”。美國政府認為大數據關系到國家的經濟結構調整和產業(yè)升級,是“未來的新石油”[2,3]。
在大數據的背景下,Google Earth 把衛(wèi)星、航空影像,矢量數據,3D 模型等布置在一個三維地球模型上,為用戶提供可公開的圖片,受許可的航空、高分辨率衛(wèi)星影像,以及其他衛(wèi)星影像。百度地圖除具有完備的地圖功能(如搜索提示、視野內檢索、測量等)外,還增加了三維地圖模式以生動直觀的方式對城市進行全方位展示,可以查詢街道、商場、樓盤等地理位置,也可以搜索附近的興趣點,還提供了豐富的公交換乘、駕車導航等功能,為用戶提供合適的線路規(guī)劃。騰訊的搜搜地圖覆蓋了全國近400 個城市,可以查詢銀行、醫(yī)院、賓館等主題地理位置,同時還提供了豐富的公交換乘查詢和駕車導航規(guī)劃功能。天地圖收集了全國300 多個地級以上城市的0.6 m 分辨率衛(wèi)星遙感影像等地理信息數據,覆蓋從宏觀中國全境到微觀具體縣市乃至鄉(xiāng)鎮(zhèn)、村莊,數據內容包括不同詳細程度的交通、水系、境界、政區(qū)、居民地、地名、不同分辨率的地表影像以及三維地形等。2010 年玉樹地震,我國利用0.2 m 分辨率無人機影像對災區(qū)的居民安置點分布與規(guī)劃、交通堵塞等情況進行了監(jiān)測評估。
從空間數據中獲取價值的重要途徑之一,是以知識指導數據利用[4,11]。例如,面對影像的遙感數據處理是一個從二維到三維的秩虧過程,在理論上無法直接獲取定量的結果,只有依賴人們的知識,才能實現遙感數據解譯與提取的自動化和智能化??墒牵谶^量的空間數據面前,空間知識顯得相當貧乏。人們缺乏來自于數據且服務于數據利用的知識,數據資源中蘊涵的最大價值遠遠沒有得到充分的挖掘和利用。
空間數據挖掘是凸現大數據價值、盤活大數據資產和有效利用大數據的基礎技術??梢杂糜趶臄祿刑崛⌒畔?,從信息中挖掘知識,在知識中萃取數據智能,提高自學習、自反饋和自適應的能力,實現人機智慧。
大數據的基本技術包括采集、存儲、處理、表達和質量評估等。
大數據采集技術。大數據得益于移動設備、追蹤系統(tǒng)、無線射頻識別技術(RFID)、傳感網絡、社交網絡、互聯(lián)網搜索、自動記錄系統(tǒng)、視頻檔案和電子商務等數據產品,以及分析這些數據所產生的再生數據。對于空間大數據,可以按數據獲取方式區(qū)分為點方式獲取、面方式獲取和移動方式獲取[11]。點方式獲取指利用全站儀、GPS 接收機和其他常規(guī)的地面測量方式逐點地采集地表點的空間坐標及其屬性;面方式獲取指利用航空、航天遙感方式獲取大面積的影像記錄,從中提取出幾何和物理特性;移動方式獲取指在對地觀測系統(tǒng)中,集成利用空間定位系統(tǒng)(目前主要指GPS 全球定位系統(tǒng))、遙感(RS)和地理信息系統(tǒng)(GIS),獲取、存儲、管理、更新、分析和應用空間數據。
大數據存儲技術是實現數據挖掘的基礎,旨在滿足日益增長的大數據的存儲需求,為其提供擴展性強、可靠性高、性能優(yōu)秀的數據存儲、訪問及管理解決方案。例如分布式數據存儲、多級緩存、容錯機制、負載均衡等。用常規(guī)方法難以勝任,需要通過軟件建立一個大數據平臺,為數據資產提供保管、訪問的場所。2012 年2 月,英國約克大學研發(fā)出一項利用熱量而不是磁場的電腦硬盤數據存儲技術,在降低硬盤能耗的同時達到每秒數千GB 的存儲速度。10 月,富士膠片和IBM 研制出了鋇鐵氧體顆粒涂層磁帶,在長、寬10 cm,厚2 cm 體積下可儲存35 TB數據。12 月,麻省理工學院在實驗室合成了擁有第三種磁性狀態(tài)的herbertsmithite 純晶體,可能對磁存儲技術帶來巨大影響。
大數據處理技術旨在實現從數據到信息、從信息到知識、從知識到智慧的轉變。例如地物疊加、目標緩沖、空間數據清理、空間數據分析、空間數據挖掘、空間特征提取、影像分割和影像分類等。
大數據表達技術旨在清晰、有效地將數據所蘊含的意義表示給用戶,以提供新的視角尋找難以掌握的數據。例如不規(guī)則三角網、數字地面模型、數字高程模型、平面地圖、三維地圖、影像地圖和數字城市等。
大數據質量評估技術旨在最大程度的輔助規(guī)避由于大數據的集合和高密度的測量導致的發(fā)現錯誤的風險。例如邏輯性評估方法、基于異常值的評估方法和基于核算的評估方法等。
發(fā)現空間知識是利用空間數據挖掘方法從大數據中抽取事先未知、潛在有用、最終可解的規(guī)則的技術,也是一個由空間數據到空間信息、再到空間知識的循序漸進、逐漸升華的過程??臻g數據挖掘系統(tǒng)就是使空間數據逐步歸納升華為空間知識,通過整合空間數據,深入數據抽取空間知識,再利用這些新知識認識和利用數據,實現數據的實時處理、智能判斷和快速決策。空間知識可以自學習,自提升,具有一定的普遍性,容易被認可采用,可作為決策支持的依據。
如果空間知識被各行各業(yè)充分利用,那么能夠幫助人類以更加精細和動態(tài)的方式學習、工作和生活,達到智慧狀態(tài),極大提高資源利用率和生產力水平,積極應對經濟危機、能源危機、環(huán)境惡化等全球問題。
數據智能是指深入分析收集到的數據,以獲取更加新穎、系統(tǒng)且全面的知識來解決特定問題。是對事物能迅速、靈活、正確地理解和解決的能力??臻g數據智能有三個元素:更透徹的感知、更廣泛的互聯(lián)互通和更深入的智能化。三者旨在獲取更多、更全面的數據,借助互聯(lián)網傳遞、共享、協(xié)同操作這些數據,利用各種先進的技術方法分析和挖掘數據,構成一個層次結構,如圖3 所示[31,32]。
大數據的智能不是指不同數據挖掘技術的簡單疊加,而是面向一個應用行業(yè)的組織結構合理、運行程序優(yōu)良、綜合功效強大的系統(tǒng)智慧(wisdom)。一個行業(yè)的結構越合理,內耗越小,功效越大,系統(tǒng)的智慧就越高,反之越低。每次人與數據的交互就意味著有機會以更完美、更高效和更多產的方式分析、匯總和計算,整合和分析海量的跨地域、跨行業(yè)和職能部門的數據,并將特定的知識應用到特定行業(yè)、特定場景、特定解決方案中以更好地支持決策和行動。例如,在遭到卡特里娜颶風襲擊后,美國路易斯安那州和密西西比州當地的電力、通信、道路等基礎設施已經被大量損毀,美國海岸巡邏隊直升機利用全球定位系統(tǒng)(GPS)坐標定位并救助災民。
圖3 空間數據智能的層次結構[31,32]
更深入的數據智能則是創(chuàng)造數據的新價值。一方面,當把大數據的空間知識充分運用到各行各業(yè),可能產生次生知識,再次匯集形成智慧型的表達形式,以此來形成知識中挖掘知識的挖掘機制,最終達到目的知識。另一方面,立足一個總體產業(yè)或社會生態(tài)系統(tǒng),重新定義政府、公司和個人相互交互的方式,提高交互的明確性、效率、靈活性和響應速度。從過去單維度的生產和消費、管理和被管理、計劃和執(zhí)行,轉變?yōu)槎嗑S度的新型協(xié)作關系。在這種新型關系中,每個個體和組織都可以自由地、精確地、及時地貢獻和獲取信息、洞察專業(yè)知識,對彼此的行為施加正面的影響,達成智能運行的宏觀效果。
空間大數據促使世界的數字基礎架構和物理基礎設施相互融合,幾乎任何人或任何事物都能夠低成本地實現數字聯(lián)網,很容易地把傳感器嵌入到各種生態(tài)系統(tǒng)中,裝備全球的各種基礎設施和設備,通過互聯(lián)網實現人類社會與物理系統(tǒng)的整合,在此基礎上,再通過超級計算機和云計算,就可以使得人類以更加精細、動態(tài)的方式管理生產和生活,從而達到智能狀態(tài)。例如把衛(wèi)星定位系統(tǒng)、傳感器和無線網絡的空間數據集成融合后,可以從中發(fā)現空間知識,如果再把空間知識傳送到手機終端,就可以幫助用戶基于位置服務做出理性正確的判斷或選擇,實現數據智能帶來的智慧,如圖4 所示。首先,通過衛(wèi)星定位系統(tǒng)、傳感器和無線網絡采集空間數據,更透徹地感知現實空間世界;其次,選擇合適的方法存儲和管理空間數據,把空間數據整合為空間信息;其次,利用空間數據挖掘方法有目的地挖掘空間數據中的模式,從抽取的空間模式中析取多種空間知識,進而整合出新的可用知識,達到更深層次的數據智能;最后,將得到的數據智能融入數字地球和“物聯(lián)網”,增進用戶和機器的智慧,實現現實世界更智能的數據交互。
圖4 基于位置的數據智能[2,4,11]
當數據成為資產,掌握和控管數據的程度,將導致對市場的支配和巨大的經濟回報??赡艿哪J接凶馐蹟祿汀⒆馐坌畔⑿?、數字媒體型、數據使能型、數據空間運營型和大數據技術提供商六種[4,13,23,24]。租售數據型租售廣泛收集、精心過濾、時效性強的數據。租售信息型在數據采集、信息萃取、價值傳遞的完整鏈條中獲利。數字媒體型充分發(fā)揮大數據技術的預測能力,開展精準的營銷業(yè)務。數據使能型通過有效的數據分析來開展業(yè)務。數據空間運營型以網盤、微盤為代表的數據資源服務。大數據技術提供商,利用技術為用戶處理結構化、半結構化和非結構化的數據。大數據的應用軟件日益泛互聯(lián)網化、富界面化、門戶化和碎片化,其行業(yè)應用垂直整合,越靠近最終端用戶的企業(yè),在產業(yè)鏈中有越大的發(fā)言權,如圖5 所示。
圖5 大數據的作用[2 ~4,13,23,24]
以減災救災為例,基于GPS、遙感(RS)、地理信息系統(tǒng)(GIS)及網絡通信技術等已經研制成了3 個有較大影響的災害應急管理系統(tǒng),即美國的“緊急事務管理系統(tǒng)”(EMS)、歐洲尤里卡計劃的“重大緊急事件智能管理系統(tǒng)”(MEMbrain)和日本的“災害響應系統(tǒng)”(DRS),實現了應急管理技術的體系集成與輔助決策支持。IBM 公司開發(fā)的Sahana 減災系統(tǒng)適用在2005 年斯里蘭卡海嘯,2005 年巴基斯坦地震,2005 年美國颶風,2006 年菲律賓南萊特島泥石流,2006 年印度尼西亞地震和2008 年汶川地震,以救援人員為核心,協(xié)同管理人員、情報、物資、設施和地理信息,提高了救災和援助的效率。
為此,麥肯錫預測[4],如果能充分有效地利用大數據,那么可幫助全球個人定位服務提供商增加1000 億美元收入,美國醫(yī)療保健行業(yè)每年提升3000 億美元產值,節(jié)省醫(yī)療衛(wèi)生支出8%以上,美國零售業(yè)獲得60%以上的凈利潤增長,減少制造業(yè)設備裝備50%的成本,歐洲政府公共行政管理的效率每年提升2500 億美元產值,歐洲發(fā)達經濟體可以節(jié)省開支超過1000 億歐元。為此,美國預計需要14 萬~19 萬名擁有“深度分析”專長的工作者,以及150 萬名更加精通數據的經理人。
美國《福布斯》稱,未來,大數據或將成為行業(yè)標準,而無人能給行業(yè)標準貼標簽[34]。摩根士丹利(Morgan Stanley)認為,數據管理的變化趨勢是把大數據(Big Data)變成普通數據(Any Data)[35]。贏取數據的未來,理智的選擇不是緊跟“大數據”概念走俏而匆忙轉型,而是始終關注大規(guī)模數據的采集、分析、存儲、分享和具體化的方法,及早實現技術的突破,能夠在任意的時間、任意的地點、為任意的用戶,提供任意數據集的任意服務。
大數據的發(fā)展,促使人類的活動范圍在擴大,需求在增長,世界已經逐漸在全球范圍內分工協(xié)作和業(yè)務整合,促使人類把學習、生活和工作的模式從局部走向全局,利用網絡思維,把個人、企業(yè)、組織、政府、自然和社會重新定義并且賦予新的聯(lián)系,通過它們之間的智能化互動運轉,使用群體智能改善人類生存環(huán)境和提升公共服務質量,提高性能、效率和生產力。大數據技術進步和產業(yè)升級,將催生出新的市場、新的業(yè)務模式和新的產業(yè)規(guī)律,顯示一個國家尋求戰(zhàn)略優(yōu)勢的集體意志。雖然大數據概念火熱,提供了人類通過觀察數據全貌以深刻理解世界的機遇,但是距離利用大數據獲取數據智能和人類智慧仍存在較大距離。
[1]UNITED NATIONS GLOBAL PULSE. 2012,Big Data for Development:Challenges & Opportunities[R]. 2012.
[2] OFFICE OF SCIENCE AND TECHNOLOGY POLICY.Executive Office of the President,2012,Fact Sheet:Big Data across the Federal Government[R/OL].[2012-12-21].www.WhiteHouse.gov/OSTP.
[3]OFFICE OF SCIENCE AND TECHNOLOGY POLICY Executive Office of the President,2012,Obama Administration Unveils“Big Data”Initiative:Announces $200 Million in New R&D Investments[R/OL]. (2012-03-19).www.WhiteHouse.gov/OSTP.
[4]MCKINSEY GLOBAL INSTITUTE.2011 Big Data the Next Frontier for Innovation,Competition,and Productivity[R].2011.
[5]RAJARAMAN A.,ULLMAN J.D.Mining of Massive Datasets[M].Cambridge:Cambridge University Press,2011.
[6]LAPKIN A. Hype Cycle for Big Data[R]. Gartner,Inc.G00235042,2012.
[7]DENSHAM P J,GOODCHILD M F.Spatial Decision Support Systems:A Research Agenda[C]. Proceedings GIS/LIS'89,Orlando,FL,1989:707-716.
[8]SHEKAR S,XIONG H(Eds.). Encyclopedia of GIS[M].New York:Springer,2007.
[9]MILLER H J,HAN J.Geographic Data Mining and Knowledge Discovery[M].2nd edition.London:Taylor and Francis,2009.
[10] ESTER M,et al. Spatial Data Mining:Databases Primitives,algorithms and efficient DBMS support[J].Data Mining and Knowledge Discovery,2000(4):193-216.
[11]李德仁,王樹良,李德毅. 空間數據挖掘理論與應用[M]. 北京:科學出版社,2006.
[12]BARABASI A L.Bursts:The Hidden Patterns Behind Everything We Do[M]. [Plume Books,2011].
[13]維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數據時代:生活、工作與思維的大變革[M]. 盛楊燕,周濤,譯.杭州:浙江人民出版社,2012.
[14]邊馥苓. 用數字的眼光看世界[M]. 武漢:武漢大學出版社,2011.
[15]王樹良,曾一昕,袁漢寧.服務科學導論[M]. 武漢:武漢大學出版社,2009.
[16]BURSTEIN F.,HOLSAPPLE C W.Handbook of Decision Support System[M]. Berlin:Springer,2008.
[17]CRESSIE N. Statistics for Spatial Data[M]. revised edition. New York:John Wiley and Sons Inc. 1993.
[18]HAINING R. Spatial Data Analysis:Theory and Practice[M]. Cambridge:Cambridge University Press,2003.
[19]GROSSNER K.,GOODCHILD M,CLARKE K.Defining a Digital Earth System[J]. Transactions in GIS,2008,12(1):145-160.
[20] MILLS M P,OTTINO J M. The Coming Tech-led Boom[N].[2012-10-12].www.wsj.com.
[21]DAVID N RESHEF,et al. Detecting Novel Associations in Large Data Sets[J]. Science,2011(334):1518.
[22] SURHONE L M,TENNOE M T,HENSSONOW S F. Big Data:BigTable,Cloud Computing,Database Theory[M].Betascript Publishing,2010.
[23]涂子沛.大數據:正在到來的數據革命[M]. 南寧:廣西師范大學出版社,2012.
[24]朱志軍,佘叢國,閆蕾,等. 大數據:大價值、大機遇、大變革[M]. 北京:電子工業(yè)出版社,2012.
[25]Koperski K.A Progressive Refinement Approach to Spatial Data Mining[D].Ph.D.Thesis.British Columbia:Simon Fraser University,1999.
[26]INTERNATIONAL DATA CORPORATION.Electronic Medicines Compendium.2011 IDC Digital Universe Study:Big Data is Here,Now What?[R]. 2011.
[27]SMETS P. Imperfect Information:Imprecision and Uncertainty.In:Uncertainty Management in Information Systems[M].London:Kluwer Academic Publishers,1996:225-254.
[28] SMITHSON M J. Ignorance and Uncertainty:Emerging Paradigms[M]. New York:Springer Verlag,1989.
[29]KIM W,et al.A Taxonomy of Dirty Data[J].Data Mining and Knowledge Discovery,2003(7):81-99.
[30]HERNàNDEZ M A,STOLFO S J.Real-world Data is Dirty:Data Cleansing and the Merge/Purge Problem[J]. Data Mining and Knowledge Discovery,1998(2):1-31.
[31]Dasu T.,Exploratory Data Mining and Data Cleaning[M].New York:John Wiley & Sons,2003.
[32]WANG S L.Spatial Data Mining Under Smart Earth[C]//Proceedings of 2011 IEEE International Conference on Granular Computing,2011:717-722.
[33]CRAGLIA M,BIE K,JACKSON D.,Digital Earth 2020:Towards the Vision for the Next Decade[J].International Journal of Digital Earth,2012,5(1):4-21.
[34]MIKE PHELAN.The Death of Big Data[EB/OL].(2012-10-04).Forbes http://www. forbes. com/sites/ciocentral/2012/10/04/the-death-of-big-data/,2012.
[35]MORGAN STANLEY.Cloud Computing Takes Off Market Set to Boom as Migration Accelerates[R]. 2011.