文/周旭
隨著互聯(lián)網(wǎng)時(shí)代的發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)量劇增,催生了關(guān)于數(shù)據(jù)研究的很多個(gè)方向,其中,數(shù)據(jù)挖掘就是關(guān)于數(shù)據(jù)處理的新方向。數(shù)據(jù)挖掘是關(guān)于數(shù)據(jù)和信息決策的前沿方向,從實(shí)質(zhì)上看,數(shù)據(jù)挖掘就是指在數(shù)據(jù)中發(fā)現(xiàn)隱藏的,人們事先不知道的,但是又具有潛在價(jià)值的信息的過(guò)程。目前,數(shù)據(jù)挖掘在商業(yè)領(lǐng)域的應(yīng)用比較廣泛,有專家曾經(jīng)指出,數(shù)據(jù)挖掘在21世紀(jì)將是企業(yè)商業(yè)成功與否的關(guān)鍵因素。數(shù)據(jù)挖掘是一個(gè)比較復(fù)雜的過(guò)程,一般來(lái)講,數(shù)據(jù)挖掘首先要分析數(shù)據(jù)的選擇,之后對(duì)數(shù)據(jù)進(jìn)行清理,將數(shù)據(jù)之間的差異清除掉,具體包括數(shù)據(jù)清洗、數(shù)據(jù)集成等,再進(jìn)行數(shù)據(jù)建模,通過(guò)模型的反饋,選擇出最佳的數(shù)據(jù)特征,最后得出科學(xué)的結(jié)論,對(duì)數(shù)據(jù)進(jìn)行分析,得出科學(xué)的結(jié)論來(lái)指導(dǎo)商業(yè)行為或者輔助科學(xué)研究。
機(jī)器學(xué)習(xí)的最早發(fā)展是20世紀(jì)50年代,主要是神經(jīng)模擬和決策理論技術(shù),到70年代關(guān)于機(jī)器學(xué)習(xí)的研究才逐漸多起來(lái),成為了人工智能單獨(dú)的一個(gè)研究領(lǐng)域。當(dāng)前,關(guān)于機(jī)器學(xué)習(xí)的研究已經(jīng)進(jìn)入到自動(dòng)化以及模式識(shí)別等領(lǐng)域,從理論研究逐漸開始了實(shí)踐應(yīng)用,而且取得了很好的成就,在商業(yè)領(lǐng)域的廣泛應(yīng)用就是很好的證明。比如在金融行業(yè)、零售行業(yè)等,金融分析員通過(guò)數(shù)據(jù)挖掘建立的預(yù)測(cè)模型,對(duì)引起市場(chǎng)波動(dòng)的因素進(jìn)行分析分類,提高市場(chǎng)風(fēng)險(xiǎn)預(yù)警能力。在零售行業(yè)中,銷售人員通過(guò)數(shù)據(jù)挖掘建立的模型了解潛在客戶人群,了解客戶的需求是什么,根據(jù)需求調(diào)整產(chǎn)品銷售策略,提高市場(chǎng)份額。
以商業(yè)數(shù)據(jù)庫(kù)為例,如果數(shù)據(jù)的驗(yàn)證過(guò)程不嚴(yán)謹(jǐn)?shù)脑挘蜁?huì)出現(xiàn)一些錯(cuò)誤的數(shù)據(jù)。此外,因?yàn)閿?shù)據(jù)來(lái)源渠道不同,會(huì)導(dǎo)致存在數(shù)據(jù)缺失的情況,由于數(shù)據(jù)的屬性也存在不同,數(shù)據(jù)編碼標(biāo)準(zhǔn)的不同,可能會(huì)導(dǎo)致無(wú)法對(duì)所有的數(shù)據(jù)屬性進(jìn)行分析。還存在數(shù)據(jù)的大小不等,所以在對(duì)不同類型的數(shù)據(jù)類型進(jìn)行分析方面,機(jī)器學(xué)習(xí)還存在不足。對(duì)于數(shù)據(jù)挖掘的預(yù)測(cè)精度是一個(gè)重要的方面,機(jī)器學(xué)習(xí)的預(yù)測(cè)精度一般情況下會(huì)低于訓(xùn)練數(shù)據(jù)的預(yù)測(cè)精度,所以提高對(duì)真實(shí)數(shù)據(jù)的預(yù)測(cè)精度也是機(jī)器學(xué)習(xí)的一個(gè)特性。此外,結(jié)果的可解釋性也是機(jī)器學(xué)習(xí)的一個(gè)重要特性,由于終端用戶的知識(shí)水平不同,所以需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理工作,讓用戶便于理解。機(jī)器學(xué)習(xí)的特性如表1所示。
以支持向量機(jī)定位方法為基礎(chǔ),將需要定位的區(qū)域柵格化,之后在定位區(qū)域內(nèi)采集一種測(cè)量報(bào)告。定位移動(dòng)終端的話,需要借助計(jì)算來(lái)接收測(cè)量報(bào)告,對(duì)報(bào)告的相似性進(jìn)行度量,來(lái)判斷待定位移終端的柵格,應(yīng)用機(jī)器學(xué)習(xí)來(lái)對(duì)這一問(wèn)題進(jìn)行解決。
仿真數(shù)據(jù)采集來(lái)源于一個(gè)周邊長(zhǎng)為8km的正方形區(qū)域內(nèi),四個(gè)不同的時(shí)間段路測(cè)得到的四批數(shù)據(jù),用線測(cè)得到三批數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),為了保證機(jī)器學(xué)習(xí)定位方法的有效性,將第四批數(shù)據(jù)進(jìn)行篩選,在周圍10m內(nèi),把含有前三組訓(xùn)練的路測(cè)數(shù)據(jù)刪除。之后,以不同的時(shí)間段為依據(jù),合并相同通話中的相鄰的定位數(shù)據(jù),這樣可以減少定位數(shù)據(jù)量,提高定位的精度。
用機(jī)器學(xué)習(xí)對(duì)移動(dòng)終端進(jìn)行定位,復(fù)雜程度比較高,計(jì)算的復(fù)雜程度與待定位區(qū)域的面積呈正比關(guān)系,區(qū)域面積越大,回歸模型以及分類會(huì)更復(fù)雜,函數(shù)的計(jì)算也就越復(fù)雜,因此,機(jī)器學(xué)習(xí)在進(jìn)行移動(dòng)終端定位的過(guò)程中,區(qū)域面積越大,計(jì)算越復(fù)雜,耗費(fèi)的時(shí)間更長(zhǎng)。利用基站的經(jīng)緯度進(jìn)行初步定位過(guò)程:首先將待定位區(qū)域邊長(zhǎng)為8km的正方形劃分為1km的小正方形柵格,通過(guò)對(duì)定位數(shù)據(jù)集的數(shù)據(jù)進(jìn)行定位操作,以基站經(jīng)緯度為基礎(chǔ),對(duì)基站的1km邊長(zhǎng)的正方形柵格進(jìn)行計(jì)算,初步獲取定位區(qū)域。
初次定位后,選一個(gè)邊長(zhǎng)為2km的正方形,劃分為兩級(jí)柵格來(lái)支持向量機(jī)定位,兩級(jí)支持的方式,使數(shù)據(jù)計(jì)算復(fù)雜程度降低。在實(shí)踐中,對(duì)于定位精度的影響主要是正方形的柵格,柵格劃分的越小,定位的精度就會(huì)越高,第一級(jí)支持向量機(jī)定位,在選擇正方形柵格時(shí),要考慮第二級(jí)的柵格大小,把兩級(jí)的分類問(wèn)題總數(shù)最小化,保證在最小的定位階段對(duì)總量進(jìn)行計(jì)算。
在二次定位之后會(huì)有一個(gè)經(jīng)緯度輸出,以經(jīng)緯度為基礎(chǔ),對(duì)幾百米內(nèi)的正方形區(qū)域進(jìn)行選擇。因?yàn)橐韵蛄繖C(jī)為基礎(chǔ)的定位法誤差在百米以內(nèi),所以待定數(shù)據(jù)實(shí)際的經(jīng)緯度可能在以二次定位結(jié)果為中心的數(shù)百米正方形區(qū)域內(nèi)。之后進(jìn)行定位模型訓(xùn)練,將8km正方形中的訓(xùn)練數(shù)據(jù)進(jìn)行集中合并,可以減少運(yùn)算次數(shù)。最后對(duì)分類樣本進(jìn)行定位,以K-近鄰法為基礎(chǔ),對(duì)合并之后的訓(xùn)練數(shù)據(jù)進(jìn)行計(jì)算,之后同二次定位的數(shù)據(jù)繼續(xù)合并,對(duì)某一相似的特征以及距離進(jìn)行計(jì)算,得到三次定位的最后結(jié)果。通過(guò)三個(gè)階段的定位法得出的結(jié)果分析,定位速度及精度有了很大的提高,是GSM網(wǎng)絡(luò)戶外移動(dòng)終端定位的最優(yōu)方案。
數(shù)據(jù)挖掘技術(shù)在社會(huì)發(fā)展中隨著科學(xué)技術(shù)的不斷進(jìn)步而發(fā)展,近年來(lái)發(fā)展迅速,應(yīng)用領(lǐng)域不斷擴(kuò)大。機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用具有重要的意義,以GSM網(wǎng)絡(luò)戶外定位問(wèn)題為例,介紹了以機(jī)器學(xué)習(xí)為基礎(chǔ)的定位方法,大大提高了定位的精度,縮短了定位時(shí)間。