朱宏列 戚欣
摘? 要: 利用數(shù)據(jù)挖掘技術(shù)能夠從智慧城市建設(shè)產(chǎn)生的海量數(shù)據(jù)中挖掘出有價(jià)值的信息,有效地推動(dòng)智慧城市的建設(shè)和發(fā)展。文章主要論述了數(shù)據(jù)挖掘技術(shù)的基本概念和技術(shù)分類,介紹和分析了數(shù)據(jù)挖掘技術(shù)在智慧城市建設(shè)中城市規(guī)劃、氣象預(yù)警、交通、電網(wǎng)的應(yīng)用。
關(guān)鍵詞: 數(shù)據(jù)挖掘; 智慧城市; 城市規(guī)劃; 應(yīng)用
中圖分類號(hào):TP399? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2020)10-40-03
Abstract: The application of data mining technology can tap valuable information from the massive data generated in the construction of smart city, and effectively promote the construction and development of smart city. This paper discusses the basic concept and technical classification of data mining technology, introduces and analyzes the application of data mining technology in urban planning, meteorological early warning, transportation and power grid in the construction of smart city.
Key words: data mining; smart city; urban planning; application
0 引言
目前,城市越來越傾向于使用專門技術(shù)來解決社會(huì)、生態(tài)等問題,而隨著物聯(lián)網(wǎng)技術(shù)和大數(shù)據(jù)興起,促使智能建筑、智慧小區(qū)、智慧城市等新概念被提出。智慧城市利用信息和通信技術(shù)將經(jīng)濟(jì)、文化、交通、娛樂等方面都與數(shù)字信息緊密的聯(lián)合在一起,城市數(shù)據(jù)的激增為城市的設(shè)計(jì)和管理帶來了新的可能性,而通過數(shù)據(jù)挖掘技術(shù)處理大數(shù)據(jù),可以極大地促進(jìn)城市結(jié)構(gòu)、可持續(xù)性和宜居性方面的發(fā)展。
1 數(shù)據(jù)挖掘的概念與技術(shù)
數(shù)據(jù)挖掘是從大型數(shù)據(jù)庫中抽取出未知的、有意義的關(guān)系、趨勢(shì)、和模式的過程,是數(shù)據(jù)庫研究中具有重要價(jià)值的研究領(lǐng)域,其廣泛應(yīng)用在金融、醫(yī)療、電信、人工智能等領(lǐng)域[1]。
數(shù)據(jù)挖掘技術(shù)主要涉及關(guān)聯(lián)規(guī)則、分類、聚類、偏差、序列模式等。
⑴ 關(guān)聯(lián)規(guī)則:關(guān)聯(lián)規(guī)則是目前數(shù)據(jù)挖掘應(yīng)用中運(yùn)用最廣泛的方法,主要是描述數(shù)據(jù)庫中兩個(gè)或多個(gè)對(duì)象之間存在的某種聯(lián)系[2]。
⑵ 分類:分類是根據(jù)數(shù)據(jù)集的特性構(gòu)造分類器,將樣本對(duì)象劃分到給定類別之中的方法。該過程分為兩步,構(gòu)造分類器和利用分類器對(duì)數(shù)據(jù)進(jìn)行分類。分類是一種有監(jiān)督學(xué)習(xí),在分類之前就已經(jīng)確定了劃分的類別。
⑶ 聚類:聚類是將大量數(shù)據(jù)分成若干組或簇,使得每個(gè)類之間的相似性最小,每個(gè)類中的數(shù)據(jù)相似性最大。聚類是一種非監(jiān)督學(xué)習(xí),要?jiǎng)澐值念悇e是未知的。
⑷ 偏差:在海量數(shù)據(jù)中會(huì)出現(xiàn)個(gè)別數(shù)據(jù)與其他數(shù)據(jù)之間存在很大誤差,這類數(shù)據(jù)在處理時(shí)往往被舍棄,但是誤差數(shù)據(jù)在某些特定問題分析上具有重要作用,被廣泛應(yīng)用到金融市場(chǎng)風(fēng)險(xiǎn)預(yù)測(cè)。
⑸ 序列模式:序列是描述數(shù)據(jù)庫中數(shù)據(jù)項(xiàng)之間存在的時(shí)間規(guī)律或者其他關(guān)系。序列模式與關(guān)聯(lián)規(guī)則相比較,其重點(diǎn)考慮數(shù)據(jù)之間的時(shí)序關(guān)系。序列模式廣泛應(yīng)用在DNA序列分析,Web日志序列模式挖掘,自然災(zāi)害預(yù)測(cè)等。
2 數(shù)據(jù)挖掘在智慧城市中的應(yīng)用
2.1 城市規(guī)劃
城市規(guī)劃是智慧城市建設(shè)、管理與發(fā)展的重要依據(jù),而智慧城市是一個(gè)多元化空間結(jié)構(gòu),故在構(gòu)建城市結(jié)構(gòu)、功能區(qū)域劃分時(shí),應(yīng)當(dāng)注重以人為本和環(huán)境保護(hù),以建設(shè)服務(wù)型城市為根本。但是目前城市規(guī)劃面臨著老工業(yè)區(qū)遷入和劃分、商業(yè)區(qū)與居住區(qū)的功能升級(jí)、城中村改造等問題[3]?;谥腔鄢鞘械拇髷?shù)據(jù),數(shù)據(jù)挖掘技術(shù)可以從中挖掘出城市變化規(guī)律與人們的生活規(guī)律、市場(chǎng)變化等,這對(duì)城市規(guī)劃起著重要作用。
針對(duì)城市建設(shè)規(guī)劃問題,謝榕[4]提出基于數(shù)據(jù)倉庫的城市規(guī)劃決策支持系統(tǒng)的基本框架,為規(guī)劃部門提供全局范圍戰(zhàn)略決策和有效分析提供支持。
在功能區(qū)識(shí)別方面,韓昊英等[5]以數(shù)據(jù)挖掘技術(shù)構(gòu)建了城市功能區(qū)識(shí)別模型,利用北京市公交刷卡數(shù)據(jù),實(shí)現(xiàn)對(duì)其功能區(qū)的快速識(shí)別,對(duì)把握城市結(jié)構(gòu)和規(guī)劃具有時(shí)間價(jià)值。
陳世莉等[6]利用時(shí)空語義挖掘方法對(duì)廣州市6個(gè)區(qū)的GPS以及興趣點(diǎn)數(shù)據(jù)進(jìn)行挖掘并建立狄利克雷模型,為研究人類活動(dòng)對(duì)城市建設(shè)的影響提供新的視角。
2.2 氣象環(huán)境預(yù)警
近年來,我國極端天氣頻發(fā),暴雨、暴雪、高溫、大風(fēng)、冰雹等天氣都會(huì)對(duì)城市基礎(chǔ)服務(wù)設(shè)施以及建筑造成嚴(yán)重破壞,經(jīng)濟(jì)損失極大,所以提高氣象環(huán)境預(yù)警的準(zhǔn)確性成為智慧城市建設(shè)的重點(diǎn)。氣象數(shù)據(jù)龐大,蘊(yùn)含大量氣象規(guī)律,傳統(tǒng)預(yù)警方法在處理氣象數(shù)據(jù)上顯得力不從心,而基于數(shù)據(jù)挖掘技術(shù)的氣象環(huán)境預(yù)警,大大提高了氣象災(zāi)害預(yù)警時(shí)效性。
Bartok等[7]介紹了數(shù)據(jù)挖掘?qū)︻A(yù)測(cè)大霧和低云量的參數(shù)化模型以及運(yùn)行預(yù)測(cè)模型、訓(xùn)練模型和挖掘數(shù)據(jù)所需的分布式氣象數(shù)據(jù)的集成方法,能夠高效預(yù)測(cè)天氣變化。
Vathsala等[8]選取36個(gè)變量作為印度夏季風(fēng)降水的可能預(yù)測(cè)因子,將關(guān)聯(lián)規(guī)則挖掘應(yīng)用于36個(gè)變量的屬性選擇,對(duì)印度地區(qū)、中西部地區(qū)和半島地區(qū)的降水進(jìn)行預(yù)測(cè),具有較好的效果。在文獻(xiàn)[9]中,Vathsala又提出了一種數(shù)據(jù)挖掘與統(tǒng)計(jì)技術(shù)相結(jié)合的算法,利用關(guān)聯(lián)規(guī)則選擇預(yù)測(cè)器,然后對(duì)預(yù)測(cè)器進(jìn)行聚類,利用印度熱帶氣象研究所的數(shù)據(jù),驗(yàn)證了該方法的精準(zhǔn)度。
2.3 智慧交通
近年來,城市人口不斷增加,城市交通壓力也隨之增加,隨著城市經(jīng)濟(jì)的不斷發(fā)展,城市居民對(duì)于出行體驗(yàn)也越來越重視。智慧交通是以GPS數(shù)據(jù)、客流數(shù)據(jù)、視頻監(jiān)控?cái)?shù)據(jù)為基礎(chǔ),充分利用信息技術(shù)、傳感技術(shù)、物聯(lián)網(wǎng)技術(shù)等實(shí)現(xiàn)對(duì)交通管理、交通監(jiān)控的應(yīng)用,而智慧交通的引用成為減緩交通壓力的重要措施,也使得智慧交通成為智慧城市建設(shè)的重要部分。但是智慧交通中的數(shù)據(jù)越來越龐大,面對(duì)交通管理中產(chǎn)生的海量數(shù)據(jù),傳統(tǒng)技術(shù)已無法從中獲得有利信息,因此數(shù)據(jù)挖掘技術(shù)可以更好地應(yīng)用到智慧交通中來。
在智能交通系統(tǒng)(ITS)中,張汝華等[10]提出將信息融合與數(shù)據(jù)挖掘技術(shù)集成到系統(tǒng)中,以優(yōu)化系統(tǒng)結(jié)構(gòu)與數(shù)據(jù)處理能力,為交通系統(tǒng)運(yùn)行提供決策支持。
Sinha等[11]提出了一種新的路徑選擇方法,利用網(wǎng)絡(luò)模型和無監(jiān)督機(jī)器學(xué)習(xí)來對(duì)現(xiàn)有的路徑規(guī)劃算法進(jìn)行改進(jìn),利用網(wǎng)絡(luò)和支持向量機(jī),為每個(gè)分區(qū)網(wǎng)格生成路由表,并確定有效的導(dǎo)航路徑。
Madani等[12]提出了一種識(shí)別感興趣區(qū)域的新算法,通過實(shí)驗(yàn)證明該算法能夠抵抗各種相機(jī)分辨率、交通量、光照條件、相機(jī)抖動(dòng)等情況,并簡化大規(guī)模開放式攝像機(jī)交通視頻挖掘任務(wù)的整體設(shè)計(jì)。
2.4 智慧電網(wǎng)
近年來,隨著綠色能源、節(jié)能減排、可持續(xù)發(fā)展等理念的提出,我國開始關(guān)注能源問題,將信息技術(shù)和通信技術(shù)應(yīng)用到電網(wǎng)建設(shè)中以優(yōu)化能源效率成為一大熱點(diǎn)。智能電網(wǎng)作為一種現(xiàn)代化的輸電網(wǎng)絡(luò),運(yùn)用挖掘技術(shù)發(fā)現(xiàn)可用信息來調(diào)整電力生產(chǎn)和分配、優(yōu)化電力系統(tǒng)的管理成為一種需求。
牛東曉等[13]針對(duì)負(fù)荷數(shù)據(jù)預(yù)處理提出基于模糊分類器和灰色關(guān)聯(lián)分析的數(shù)據(jù)挖掘技術(shù),再由SVM預(yù)測(cè)系統(tǒng)對(duì)短期負(fù)荷進(jìn)行預(yù)測(cè),有效提高了預(yù)測(cè)精度。
Saleh等[14]提出一種基于數(shù)據(jù)挖掘技術(shù)的負(fù)荷預(yù)測(cè)策略,采用基于距離的異常值抑制、混合特征選擇以及結(jié)合NB和KNN算法的負(fù)載估計(jì)方法,有效提高了電力負(fù)荷預(yù)測(cè)的精度、靈敏度、準(zhǔn)確性等。
3 結(jié)束語
就目前的情況來看,大數(shù)據(jù)已經(jīng)成為了智慧城市建設(shè)的重要依托,數(shù)據(jù)挖掘技術(shù)成為智慧城市規(guī)劃與建設(shè)的重要技術(shù)手段?,F(xiàn)階段智慧城市建設(shè)被廣泛關(guān)注,其面臨諸多問題如數(shù)據(jù)海量化、碎片化、種類多,如何在不同問題上選擇并優(yōu)化挖掘算法是目前的研究重點(diǎn),未來應(yīng)研究城市智能一體化框架,將多方面城市建設(shè)匯集在一個(gè)平臺(tái)上實(shí)現(xiàn)數(shù)據(jù)共享,并堅(jiān)持“以人為本”的思想,保證數(shù)據(jù)隱私安全,切實(shí)提高智慧城市的服務(wù)質(zhì)量。
參考文獻(xiàn)(References):
[1] 王光宏,蔣平.數(shù)據(jù)挖掘綜述[J].同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版),2004.32(2):246-252
[2] Tan PN, Steinbach M, Kumar V. 數(shù)據(jù)挖掘?qū)д揫M].人民郵電出版社,2011.
[3] 牟乃夏,張恒才,陳潔等.軌跡數(shù)據(jù)挖掘城市應(yīng)用研究綜述[J].地球信息科學(xué)學(xué)報(bào),2015.17(10):1136-1142
[4] 謝榕.數(shù)據(jù)倉庫及其在城市規(guī)劃決策支持系統(tǒng)中的應(yīng)用探討[J].武漢測(cè)繪科技大學(xué)學(xué)報(bào),2000.25(2): 172-177
[5] 韓昊英,于翔,龍瀛.基于北京公交刷卡數(shù)據(jù)和興趣點(diǎn)的功能區(qū)識(shí)別[J].城市規(guī)劃,2016.40(6):52-60
[6] 陳世莉,陶海燕,李旭亮等.基于潛在語義信息的城市功能區(qū)識(shí)別——廣州市浮動(dòng)車GPS時(shí)空數(shù)據(jù)挖掘[J].地理學(xué)報(bào),2016.71(3):471-483
[7] Bartok J, Habala O, Bednar P, et al. Data Mining and Integration for Predicting Significant Meteorological Phenomena[J]. Procedia Computer Science,2010.1:37-46
[8] Vathsala H, Koolagudi SG. Closed Item-set Mining for Prediction of Indian Summer Monsoon Rainfall a Data Mining Model with Land and Ocean Variables as Predictors[J]. Procedia Computer Science,2015.54:271-280
[9] Vathsala H, Koolagudi SG. Prediction Model for Peninsular Indian Summer Monsoon Rainfall Using Data Mining and Statistical Approaches[J].Computers & Geosciences,2017.98:55-63
[10] 張汝華,楊曉光,嚴(yán)海.智能交通信息特征分析與處理系統(tǒng)設(shè)計(jì)[J].交通運(yùn)輸系統(tǒng)工程與信息,2003.3(4):27-33
[11] Sinha S, Nirala MK, Ghosh S, et al. Hybrid Path Planner for Efficient Navigation in Urban Road Networks Through Analysis of Trajectory Traces[C]//2018 24th International Conference on Pattern Recognition (icpr), Piscataway: Ieee,2018: 3250-3255
[12] Madani A, Kumar S, Nguyen LB, et al. A Robust Road Region of Interest Identification Scheme for Traffic-video Data Mining[C]//2019 International Conference on Computing,Networking and Communications (icnc), Piscataway: Ieee,2019: 905-910
[13] 牛東曉,谷志紅,邢棉等.基于數(shù)據(jù)挖掘的SVM短期負(fù)荷預(yù)測(cè)方法研究[J].中國電機(jī)工程學(xué)報(bào),2006.26(18):6-12
[14] Saleh AI, Rabie AH, Abo-al-ez KM. A Data Mining Based Load Forecasting Strategy for Smart Electrical Grids[J].Advanced Engineering Informatics,2016.30(3):422-448