王金娟,段珊,彭浩,徐紅
(湖南涉外經(jīng)濟(jì)學(xué)院,長(zhǎng)沙410205)
互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展已然將人類帶到“互聯(lián)網(wǎng)+新能源”為聚合推動(dòng)力的又一次革命中,在這場(chǎng)革命的推動(dòng)下,互聯(lián)網(wǎng)己經(jīng)不再是一個(gè)簡(jiǎn)單的獲取資源的工具,它更是一個(gè)以難以想象的速度發(fā)展成為與現(xiàn)實(shí)世界緊密融合的數(shù)據(jù)世界。
目前,大數(shù)據(jù)有很多種不同的定義。大數(shù)據(jù)先是從各行各業(yè)如證券金融、電子商務(wù)、搜索引擎等行業(yè)中產(chǎn)生的海量的每天數(shù)萬(wàn)TB的數(shù)據(jù)[1],這些日益積累出的大數(shù)據(jù)仍然在不停地爆發(fā)式增長(zhǎng),后得出大數(shù)據(jù)既是數(shù)據(jù)量達(dá)到PB級(jí)甚至EB級(jí)的大規(guī)模數(shù)據(jù)。
“大”是大數(shù)據(jù)最直觀最重要的特征,且這些各個(gè)行業(yè)里產(chǎn)生的數(shù)據(jù)都緊密相連,如何獲取這些數(shù)據(jù)里的價(jià)值是必須也必然要做的長(zhǎng)期課題,所以大數(shù)據(jù)更可以準(zhǔn)確描述為:無(wú)法在可容忍的時(shí)間內(nèi)用傳統(tǒng)方法和軟、硬件平臺(tái)對(duì)其進(jìn)行感知、獲取、管理、處理和可視化的數(shù)據(jù)集合,它更涵蓋了數(shù)據(jù)及其采集、處理、分析、解釋等在內(nèi)的一系列相關(guān)的技術(shù)[2]。這些技術(shù)包含數(shù)據(jù)采集,數(shù)據(jù)信息的抽取和清理,數(shù)據(jù)集成于分析,數(shù)據(jù)解釋與部署等內(nèi)容[5],這些內(nèi)容又涉及到數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)安全、數(shù)據(jù)可視化、流計(jì)算、云計(jì)算、數(shù)據(jù)共享等多方面的技術(shù)集成,所以大數(shù)據(jù)的研究發(fā)展是現(xiàn)代信息產(chǎn)業(yè)技術(shù)的挑戰(zhàn)同時(shí)也是新的機(jī)遇,它的技術(shù)變革同時(shí)也會(huì)帶來(lái)科技與生活的不斷更替。
在當(dāng)今這個(gè)大數(shù)據(jù)世界,其數(shù)據(jù)的價(jià)值最終要體現(xiàn)在,能更深層次的對(duì)人民的生產(chǎn)和生活帶來(lái)更好的支持,這就需要行業(yè)縮小與最終用戶的距離,隨著推薦系統(tǒng)領(lǐng)域的提出和發(fā)展,針對(duì)單個(gè)用戶的個(gè)性化推薦技術(shù)己經(jīng)在新聞、閱讀、視頻、音樂(lè)等諸多領(lǐng)域大放異彩[7],如何獲取用戶相匹配的信息并推薦給用戶符合其興趣偏好的產(chǎn)品成為一項(xiàng)非常重要的課題,此時(shí)小數(shù)據(jù)的概念應(yīng)運(yùn)而生。
小數(shù)據(jù)是指以單個(gè)用戶為中心的全方位數(shù)據(jù),包含數(shù)據(jù)被采集對(duì)象實(shí)時(shí)的身體狀況、社交習(xí)慣、財(cái)務(wù)、喜好、行為等一系列的數(shù)據(jù)信息[3]。通過(guò)分析小數(shù)據(jù)信息,可初步形成針對(duì)個(gè)人的數(shù)據(jù)系統(tǒng),利用它能對(duì)個(gè)人的需求和行為進(jìn)行預(yù)測(cè),并給出相應(yīng)的決策依據(jù)。小數(shù)據(jù)是基于概率論和數(shù)理統(tǒng)計(jì)的傳統(tǒng)統(tǒng)計(jì)思想,通過(guò)數(shù)據(jù)挖掘算法進(jìn)行聚類,過(guò)濾,挖掘數(shù)據(jù)與用戶之間隱藏的關(guān)聯(lián)特征,并分析計(jì)算從而獲得的有限、固定、不連續(xù)、不可擴(kuò)充的結(jié)構(gòu)型數(shù)據(jù)[6],它更具有個(gè)人色彩,也更加符合現(xiàn)在社會(huì)要求提供個(gè)性化服務(wù)的技術(shù)要求。
首先,大數(shù)據(jù)反映的是規(guī)律,小數(shù)據(jù)體現(xiàn)的是個(gè)性化。大數(shù)據(jù)的4V特征即量度(Volume)、異度(Variety)、速度(Velocity)和精度(Veracity)反映出的是海量數(shù)據(jù)的總體規(guī)律[2],為提高數(shù)據(jù)在采集、處理、存儲(chǔ)和分析過(guò)程的效率可控性,大數(shù)據(jù)要求數(shù)據(jù)信息的組織結(jié)構(gòu)與類型必須標(biāo)準(zhǔn)化,要求數(shù)據(jù)覆蓋行業(yè)面廣、收集內(nèi)容要多、要求具有普適性,能分析得出其變化的規(guī)律。而小數(shù)據(jù)是針對(duì)單個(gè)用戶的數(shù)據(jù)集合,技術(shù)的研究方向集中圍繞著個(gè)人的信息的數(shù)據(jù)采集存儲(chǔ)、分析與決策,它更具有針對(duì)性,是為了提供更具有個(gè)性化用戶服務(wù)的產(chǎn)品的一次產(chǎn)業(yè)深度細(xì)分,因此小數(shù)據(jù)和大數(shù)據(jù)是對(duì)平衡的共同追求,而小數(shù)據(jù)注重抽樣,是大數(shù)據(jù)技術(shù)的一個(gè)深度分支。
其次,小數(shù)據(jù)在安全方面比大數(shù)據(jù)有更高的要求。大數(shù)據(jù)都來(lái)源于很多不同的計(jì)算機(jī)平臺(tái),只能收集到反映群體特征的數(shù)據(jù),分析的規(guī)律一般是動(dòng)態(tài)的、具有階段性數(shù)據(jù)特征的重復(fù)結(jié)果[8],而且會(huì)有大量的虛假干擾信息,信息價(jià)值密度低,安全性也不高。而小數(shù)據(jù)是以用戶個(gè)人為中心進(jìn)行數(shù)據(jù)采集、決策分析對(duì)象,一定會(huì)涉及到包括用戶的個(gè)人生活環(huán)境、興趣愛(ài)好,所處的位置信息等多方面的隱私數(shù)據(jù),因此如何通過(guò)更好的行業(yè)規(guī)范和技術(shù)手段來(lái)保護(hù)獲取到的用戶數(shù)據(jù),是擺在面向小數(shù)據(jù)挖掘技術(shù)的一個(gè)重要課題。
圍繞著用戶的小數(shù)據(jù)挖掘并以此為驅(qū)動(dòng)設(shè)計(jì)出相應(yīng)的產(chǎn)品,就必須以用戶的需求為中心,即基于用戶需求的數(shù)據(jù)挖掘過(guò)程是決策最為重要的影響因素,如何準(zhǔn)確掌握用戶需求變化,提高數(shù)據(jù)信息采集的針對(duì)性并保障小數(shù)據(jù)的安全性[9],是在小數(shù)據(jù)挖掘的設(shè)計(jì)階段必須要重點(diǎn)關(guān)注的問(wèn)題。
關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中的一個(gè)非常重要的課題,它的本質(zhì)是從數(shù)據(jù)背后發(fā)現(xiàn)事物之間可能存在的關(guān)聯(lián)或者聯(lián)系。當(dāng)海量數(shù)據(jù)經(jīng)過(guò)采集、處理、分析、解釋后,將不同來(lái)源的數(shù)據(jù)進(jìn)行整合,再利用數(shù)據(jù)分析工具進(jìn)行快速處理,結(jié)果提供給決策人員作為依據(jù)以此來(lái)挖掘小數(shù)據(jù)。小數(shù)據(jù)包含個(gè)體特征數(shù)據(jù)、行為監(jiān)控?cái)?shù)據(jù)、第三方共享數(shù)據(jù)及外圍社會(huì)數(shù)據(jù)四個(gè)部分[10]。用戶個(gè)人的特征產(chǎn)生的數(shù)據(jù)是小數(shù)據(jù)的核心,包括用戶的基本信息數(shù)據(jù)、消費(fèi)生活數(shù)據(jù)、相關(guān)的社會(huì)關(guān)系數(shù)據(jù)等多方面信息組成,它有較高的科學(xué)性、真實(shí)性、高價(jià)值密度和決策可用性;行為監(jiān)控?cái)?shù)據(jù)主要由傳感器網(wǎng)絡(luò)、服務(wù)器監(jiān)控設(shè)備采集數(shù)據(jù)組成,主要實(shí)現(xiàn)對(duì)個(gè)體位置與移動(dòng)路徑、社會(huì)關(guān)系等數(shù)據(jù)的采集與存儲(chǔ);第三方共享數(shù)據(jù),主要由通信運(yùn)營(yíng)商及其它第三方增值服務(wù)商共享數(shù)據(jù)組成,該數(shù)據(jù)全面但安全性較低[3];外圍社會(huì)數(shù)據(jù)是合約數(shù)據(jù)提供商提供的共享數(shù)據(jù),它具有很大的挖掘潛能,是小數(shù)據(jù)挖掘非常重要的數(shù)據(jù)補(bǔ)充。
所以,小數(shù)據(jù)的挖掘應(yīng)建立在以用戶個(gè)性化需求為前提,從以上四個(gè)方面分析采集數(shù)據(jù)集的置信度、支持度,推導(dǎo)出合適的頻繁項(xiàng)集,找出其中的關(guān)聯(lián)規(guī)則再進(jìn)行判斷、分析并提供能保障安全可靠的數(shù)據(jù)過(guò)濾和處理技術(shù)之上,希望能進(jìn)一步弄清用戶的真實(shí)需求。
關(guān)聯(lián)規(guī)則算法是從數(shù)據(jù)項(xiàng)的事務(wù)集合中挖掘出,滿足支持度和置信度最低閾值要求的所有關(guān)聯(lián)規(guī)則,這個(gè)閾值是由用戶指定,它的數(shù)據(jù)挖掘過(guò)程分為兩個(gè)過(guò)程:先從事務(wù)集合中找出頻繁項(xiàng)目集,再?gòu)念l繁項(xiàng)目集合中生成滿足最低置信度的關(guān)聯(lián)規(guī)則。常用的關(guān)聯(lián)規(guī)則挖掘的算法有Apriori算法、FP-Growth算法、CBA算法等。本文采用最經(jīng)典的Apriori算法討論關(guān)聯(lián)規(guī)則對(duì)于小數(shù)據(jù)挖掘的決策影響。
決策因素縱橫交錯(cuò),在已有的數(shù)據(jù)支持下,要做出相對(duì)好的決策就必須建立相關(guān)的算法去反映問(wèn)題的實(shí)質(zhì)。Apriori算法是常用的用于挖掘出數(shù)據(jù)關(guān)聯(lián)規(guī)則的算法,它采用頻繁項(xiàng)集的先驗(yàn)性質(zhì)來(lái)壓縮搜索空間,利用逐層搜索的迭代方法,找出數(shù)據(jù)值中頻繁出現(xiàn)的數(shù)據(jù)集合[11],找出這些集合的模式有助于做出更好的數(shù)據(jù)推薦。假設(shè)已經(jīng)處理多個(gè)數(shù)據(jù)來(lái)源的數(shù)據(jù)并整合,得到用戶的數(shù)據(jù)預(yù)處理結(jié)果后得到圍繞著小數(shù)據(jù)的用戶模型如圖1所示,其中個(gè)體特征數(shù)據(jù)包含數(shù)據(jù)庫(kù)里記錄的基本信息數(shù)據(jù)、消費(fèi)生活數(shù)據(jù)、相關(guān)的社會(huì)關(guān)系數(shù)據(jù)等數(shù)據(jù),占用戶數(shù)據(jù)里比率最多;其次是行為監(jiān)控?cái)?shù)據(jù)包含用戶當(dāng)前所在位置、瀏覽行為習(xí)慣、移動(dòng)路徑等數(shù)據(jù),在數(shù)據(jù)比率里占第二;而和通信服務(wù)商及增值服務(wù)商采集的用戶訪問(wèn)過(guò)的網(wǎng)絡(luò)信息及流量監(jiān)控等數(shù)據(jù)是共享數(shù)據(jù)在數(shù)據(jù)分布里占第三;而用戶與固定的一些接口程序或者例如百度、搜狗等這些合約數(shù)據(jù)提供商共享的數(shù)據(jù)是外圍數(shù)據(jù),占比最少。針對(duì)小數(shù)據(jù)的特征,通過(guò)關(guān)聯(lián)算法找出頻繁數(shù)據(jù)集,給出支持度表,就可以提供參考推薦數(shù)據(jù)。表1是利用隨機(jī)數(shù)生成法,從某網(wǎng)站的訪問(wèn)數(shù)據(jù)中,采集到圍繞著移動(dòng)用戶具有代表性的四個(gè)特征數(shù)據(jù)的表格,表中的性別、年齡是個(gè)體的特征數(shù)據(jù),可以從數(shù)據(jù)庫(kù)直接讀取。
圖1 用戶小數(shù)據(jù)分布模型圖
表1 用戶部分小數(shù)據(jù)表
針對(duì)大部分用戶注冊(cè)的性別數(shù)據(jù)不一定真實(shí)需要去掉噪聲,這里可以從用戶的行為屬性中逐步辨別。登錄城市是行為監(jiān)控?cái)?shù)據(jù)、用戶每天使用的流量是共享數(shù)據(jù)、訪問(wèn)網(wǎng)站的次數(shù)屬于外圍數(shù)據(jù)。Apriori算法中的頻繁項(xiàng)集表示數(shù)據(jù)在一起出現(xiàn)的概率最大,先以支持度作為判斷頻繁項(xiàng)集的標(biāo)準(zhǔn),再以數(shù)據(jù)的條件概率即置信度進(jìn)行評(píng)估,以下列出算法步驟:
步驟1:生成單一個(gè)體數(shù)據(jù)頻繁項(xiàng)集列表,遍歷所有數(shù)據(jù)檢查生成的頻繁項(xiàng)集是否滿足最小支持度,對(duì)數(shù)據(jù)剪枝刪除不滿足支持度的項(xiàng)。
步驟2:使用組合方法,在當(dāng)前個(gè)體數(shù)據(jù)頻繁項(xiàng)集中生成個(gè)體數(shù)據(jù)和行為監(jiān)控?cái)?shù)據(jù)的兩項(xiàng)數(shù)據(jù)頻繁項(xiàng)集,再檢查生成的頻繁項(xiàng)集是否滿足最小支持度,并刪除不滿足支持度的項(xiàng)。
步驟3:重復(fù)步驟2的過(guò)程,得到具有四個(gè)特征的頻繁項(xiàng)集。
步驟4:從步驟3生成的頻繁項(xiàng)集中挖掘關(guān)朕規(guī)則,判斷每條規(guī)則是否滿足置信度,不滿足則刪除,滿足則保留,生成的所有的規(guī)則按照其置信度進(jìn)行排序[7],最后得到Apriori算法關(guān)聯(lián)挖掘的結(jié)果。
分析Apriori算法挖掘小數(shù)據(jù)后的結(jié)果,發(fā)現(xiàn)用戶的個(gè)體數(shù)據(jù)與外圍數(shù)據(jù),共享數(shù)據(jù)均有較強(qiáng)的聯(lián)系,而共享數(shù)據(jù)與外圍數(shù)據(jù)同樣有很強(qiáng)的關(guān)聯(lián)性,可以解釋為具有某種個(gè)體屬性的用戶更傾向于訪問(wèn)同樣的外圍數(shù)據(jù),從而得到相同的共享數(shù)據(jù)。例如,在一線城市的女性更喜歡訪問(wèn)提供服務(wù)相近的網(wǎng)站,同時(shí)消耗更多的流量,給增值服務(wù)商和網(wǎng)站運(yùn)營(yíng)商提供了更多的決策數(shù)據(jù)。
和大數(shù)據(jù)挖掘相比,小數(shù)據(jù)挖掘圍繞用戶特征進(jìn)行,具有更高的針對(duì)性和準(zhǔn)確性,但是如何提高共享數(shù)據(jù)和外圍數(shù)據(jù)的安全性問(wèn)題仍然亟待解決。關(guān)聯(lián)規(guī)則挖掘算法能從發(fā)現(xiàn)數(shù)據(jù)之間可能存在的關(guān)聯(lián),但Apriori算法每輪迭代都要掃描數(shù)據(jù)集,在數(shù)據(jù)集很大,數(shù)據(jù)種類繁雜的時(shí)候,時(shí)空復(fù)雜度很高,算法效率太低,因此需要進(jìn)一步研究能大幅度減少計(jì)算時(shí)間復(fù)雜度的關(guān)聯(lián)算法進(jìn)行小數(shù)據(jù)挖掘,為用戶提供更好更高效的服務(wù)。