摘 要:以高校校園內(nèi)學(xué)生的移動(dòng)支付消費(fèi)記錄為基礎(chǔ)數(shù)據(jù),利用bi-means聚類算法對(duì)其處理并進(jìn)行分析,挖掘出這些學(xué)生消費(fèi)水平背后的隱藏信息。通過改進(jìn)歐式距離、k-means和bi-kmeans,應(yīng)用于清洗過后的消費(fèi)記錄,劃分出不同層次的學(xué)生消費(fèi)群體,以散點(diǎn)圖的直觀方式呈現(xiàn)。實(shí)踐表明,改進(jìn)后的bi-means算法結(jié)果的劃分更合理,可向?qū)W校資助部門提供參考。
關(guān)鍵詞:bi-kmeans;消費(fèi)水平;聚類算法;數(shù)據(jù)挖掘;歐式距離
中圖分類號(hào):TP 312 " " " " 文獻(xiàn)標(biāo)志碼:A
高校學(xué)生采用現(xiàn)代移動(dòng)支付的方法,在校內(nèi)的消費(fèi)行為都會(huì)留下詳細(xì)記錄。從這些詳細(xì)的記錄中分析每個(gè)學(xué)生的消費(fèi)水平。本文在傳統(tǒng)bi-kmeans聚類算法和傳統(tǒng)歐式距離的基礎(chǔ)上,提出改進(jìn)方法,應(yīng)用于學(xué)生消費(fèi)水平分析,得出結(jié)論,并與傳統(tǒng)聚類方法的結(jié)論進(jìn)行比較。
1 研究現(xiàn)狀
1.1 k-means聚類算法
1976年,MacQueen基于前人的研究提出了k-means聚類算法。其中心思想為給定數(shù)據(jù)集劃分為k個(gè)簇,每個(gè)簇的質(zhì)心由全部點(diǎn)的中心來決定。中心是簇中全部點(diǎn)的平均值,稱為k均值,k個(gè)初始值由用戶指定。k-means聚類算法的優(yōu)點(diǎn)為原理簡(jiǎn)單、易于實(shí)現(xiàn)并且接近線性的時(shí)間復(fù)雜度。缺點(diǎn)為對(duì)k值的設(shè)置依賴性較高,還可能限于局部最優(yōu)。
1.2 bi-kmeans聚類算法
bi-kmeans的基本思想與k-means一致,區(qū)別在于k值是從1開始迭代,逐步遞增,直到達(dá)到期望值為止。在每次遞增的過程中,選擇可以最大程度地降低平方和誤差SSE的簇,將其一分為二,不斷重復(fù)。
因?yàn)椴恍枰o定k個(gè)初始質(zhì)心,所以可以避免給定初始質(zhì)心的不合理性。k值是從1緩慢增長(zhǎng)到預(yù)期值,在每次迭代的過程中,新的質(zhì)心和新的簇都是從被分裂簇一分為二產(chǎn)生的。這樣類似細(xì)胞一分二的最簡(jiǎn)單分裂,不會(huì)存在其他分裂方案。
1.3 國(guó)內(nèi)研究
應(yīng)用范圍最廣的k-means聚類算法已經(jīng)廣泛適用于數(shù)據(jù)挖掘任務(wù)中。一卡通系統(tǒng)已經(jīng)在全國(guó)高校大范圍推廣,該系統(tǒng)專用于收集高校學(xué)生這個(gè)特定人群的詳細(xì)消費(fèi)記錄,已經(jīng)有多人嘗試用k-means結(jié)合一卡通的模式進(jìn)行數(shù)據(jù)挖掘。龔黎旰等[1]以校園一卡通消費(fèi)記錄為數(shù)據(jù)基礎(chǔ),利用大數(shù)據(jù)和數(shù)據(jù)挖掘技術(shù)對(duì)其進(jìn)行分析。柴政等[2]利用數(shù)據(jù)挖掘方法中的神經(jīng)網(wǎng)絡(luò)分析校園一卡通消費(fèi)記錄,從客觀的角度評(píng)判學(xué)生的貧困程度及精準(zhǔn)地劃分貧困群體。
2 改進(jìn)算法
bi-kmeans算法來源于k-means算法,而k-means算法又基于歐式距離。傳統(tǒng)的3個(gè)算法不能簡(jiǎn)單套用,須根據(jù)實(shí)際環(huán)境進(jìn)行改進(jìn)。
2.1 改進(jìn)歐式距離
歐式距離全稱為歐幾里得距離,其中心思想為以向量為基準(zhǔn),衡量多維空間中任意兩點(diǎn)間的絕對(duì)距離,即兩點(diǎn)之間的最短直線距離,如公式(1)所示。
(1)
式中:x 、y 為多維空間中的任意兩點(diǎn);xi和yi分別為兩點(diǎn)各自的各向量; d(x,y)為歐式距離。
當(dāng)衡量真實(shí)的多維空間中的兩點(diǎn)距離時(shí),歐式距離非常有效。當(dāng)應(yīng)用于抽象概念的空間中兩點(diǎn)距離時(shí),歐式距離會(huì)暴露出一定的弊端。當(dāng)其中某些向量顯著大于其他向量甚至差距大到數(shù)量級(jí)差異時(shí),歐式距離的結(jié)果不再是由各向量共同決定的。其決定因素只由數(shù)量級(jí)最大的向量構(gòu)成,次數(shù)量級(jí)向量和小數(shù)量級(jí)向量的影響因子大幅度縮小,幾乎不起作用。
令各向量回歸到同一個(gè)數(shù)量級(jí)別即可避免這個(gè)弊端,比較有效且簡(jiǎn)潔的解決辦法是縮小較大向量的數(shù)量級(jí)或增加較小向量的數(shù)量級(jí)。因?yàn)檫@樣可以從源頭減少整個(gè)算法過程的計(jì)算量,所以縮小較大向量的數(shù)量級(jí)更有效,在歐式距離中為各向量增加權(quán)重,稱為加權(quán)歐式距離,如公式(2)所示。
(2)
式中:wi為各向量的權(quán)重,其余標(biāo)識(shí)與公式(1)完全一致。
2.2 改進(jìn)k-means
k-means也稱為k均值,其是最簡(jiǎn)單的聚類算法,具有通俗易懂、易于實(shí)現(xiàn)的優(yōu)點(diǎn)。其工作原理如下。
步驟一:確定k個(gè)初始點(diǎn)作為初始質(zhì)心。這k個(gè)初始質(zhì)心不必要求為數(shù)據(jù)集的真實(shí)點(diǎn),可以是數(shù)據(jù)集范圍內(nèi)的任意點(diǎn)。確定方法可以是隨機(jī),也可以是人工。步驟二: 根據(jù)現(xiàn)有的質(zhì)心集,將數(shù)據(jù)集中每個(gè)點(diǎn)分配到1個(gè)合適的簇里。其方法是計(jì)算每個(gè)點(diǎn)與每個(gè)質(zhì)心的距離,為每個(gè)點(diǎn)找到距離最近的質(zhì)心,即可分配到該質(zhì)心對(duì)應(yīng)的簇里。步驟三:分配完成后,重新確定每個(gè)簇里的質(zhì)心,即該簇的質(zhì)心更新為該簇里全部點(diǎn)的平均值。步驟四:重復(fù)步驟二、步驟三,直到質(zhì)心集停止更新為止。此時(shí),數(shù)據(jù)集中的全部點(diǎn)與對(duì)應(yīng)的質(zhì)心距離都為最近。上述流程可以滿足大多數(shù)普通場(chǎng)景的要求,但是當(dāng)聚類結(jié)果以圖形等方式展現(xiàn)時(shí),質(zhì)心集會(huì)變得雜亂無章。此時(shí),需要在運(yùn)算過程中加入排序標(biāo)準(zhǔn),使質(zhì)心集依序排列,同時(shí)各簇也需要相應(yīng)調(diào)整順序,稱作有序k-means。具體偽代碼如下。
隨機(jī)創(chuàng)建k個(gè)數(shù)據(jù)集范圍內(nèi)的點(diǎn)并排序,作為初始質(zhì)心。
While任意數(shù)據(jù)點(diǎn)改變簇分配結(jié)果
{ for遍歷數(shù)據(jù)集里的每個(gè)數(shù)據(jù)點(diǎn)
{ for遍歷每個(gè)質(zhì)心
{ 計(jì)算當(dāng)前數(shù)據(jù)點(diǎn)與當(dāng)前質(zhì)心的加權(quán)歐式距離
}
依據(jù)最近原則,重新分配每個(gè)點(diǎn)到新簇
}
for遍歷每個(gè)簇
依據(jù)當(dāng)前簇里的全部點(diǎn),更新當(dāng)前質(zhì)心
}
2.3 改進(jìn)bi-kmeans
bi-kmeans的思想建立在傳統(tǒng)k-means的基礎(chǔ)上,每次只做二分化解,直到滿足指定簇?cái)?shù)目為止。其步驟有以下2個(gè)。首先,將全部數(shù)據(jù)點(diǎn)視為一個(gè)簇,將當(dāng)前簇一分為二。其次,選擇其中一個(gè)簇再一分為二,選擇的標(biāo)準(zhǔn)是劃分該簇以最大程度地減少平方和誤差SSE的值。重復(fù)這個(gè)劃分過程,直到簇的數(shù)目達(dá)到k為止。當(dāng)傳統(tǒng)的bi-kmeans算法每次一分為二時(shí),都是在質(zhì)心序列尾部附加新質(zhì)心。當(dāng)輸出方式有圖形要求時(shí),也會(huì)面臨與k-means一樣的問題。改進(jìn)算法是在每次劃分的過程中根據(jù)質(zhì)心的排序標(biāo)準(zhǔn),將新質(zhì)心插入質(zhì)心序列中,稱作有序bi-kmeans。偽代碼如下。
全部點(diǎn)視作一個(gè)簇,即原始簇
while簇的數(shù)目lt;k
{ for遍歷每個(gè)簇
{ 調(diào)用有序k-means,計(jì)算當(dāng)前簇二分后的總誤差
找到目標(biāo)簇,并保留二分后的結(jié)果
}
在目標(biāo)簇對(duì)應(yīng)的目標(biāo)質(zhì)點(diǎn)后插入一個(gè)位置,將目標(biāo)質(zhì)點(diǎn)及后面一個(gè)位置更新為二分后的兩個(gè)質(zhì)點(diǎn)
目標(biāo)簇劃分為兩個(gè)新簇
}
3 分析過程
3.1 數(shù)據(jù)來源
某高校采用現(xiàn)階段流行的移動(dòng)支付方式,校園內(nèi)部遍布移動(dòng)支付終端。消費(fèi)者可以靈活選擇支付方式,包括現(xiàn)金支付和移動(dòng)支付。由于移動(dòng)支付具有便利性,幾乎無人選擇傳統(tǒng)的現(xiàn)金支付。就餐環(huán)境已經(jīng)徹底拋棄現(xiàn)金支付,完全采用移動(dòng)支付。
當(dāng)每天學(xué)生在消費(fèi)時(shí),與支付終端的交互記錄源源不斷匯總到后臺(tái)服務(wù)器上,形成詳細(xì)的交易數(shù)據(jù)庫。在這個(gè)消費(fèi)數(shù)據(jù)庫中,包括有時(shí)間、地點(diǎn)以及窗口等信息。通過對(duì)這些記錄進(jìn)行數(shù)據(jù)挖掘,可以得到預(yù)期的聚類結(jié)果,可以分析出學(xué)生的消費(fèi)習(xí)慣、消費(fèi)水平等潛在信息。消費(fèi)系統(tǒng)的結(jié)構(gòu)如圖1所示。
3.2 實(shí)踐設(shè)計(jì)
全體學(xué)生消費(fèi)記錄按照時(shí)間段為標(biāo)準(zhǔn),選取該時(shí)間段內(nèi)的記錄作為樣本,每個(gè)學(xué)生是一個(gè)數(shù)據(jù)點(diǎn)p,總共有n個(gè)學(xué)生,這些樣本全體組成數(shù)據(jù)集P,有pi∈P,i∈[1,n]。傳統(tǒng)的k-means算法需要給出2個(gè)初始參數(shù):初始質(zhì)心集Ce和聚類數(shù)目k。質(zhì)心集Ce中有k個(gè)質(zhì)心ce,即cej∈Ce,j∈[1,k]。
根據(jù)質(zhì)心集Ce劃分出來的簇Cl,有CljP,j∈[1,k]。Clj的長(zhǎng)度為nj,有nj∈[1,n],j∈[1,k]。在迭代的過程中,Ce和Cl都處于動(dòng)態(tài)的狀態(tài)。劃分簇Cl的標(biāo)準(zhǔn)為加權(quán)歐式距離,如公式(2)所示,即簇中每個(gè)數(shù)據(jù)點(diǎn)p到相應(yīng)質(zhì)心ce的距離為最近。
3.3 數(shù)據(jù)格式
全部的消費(fèi)記錄是直接進(jìn)入數(shù)據(jù)庫,以最原始的格式存儲(chǔ)(如圖1所示)。其優(yōu)點(diǎn)是保留了數(shù)據(jù)最初始的狀態(tài),各項(xiàng)目可以根據(jù)自身的需求提取和處理原始數(shù)據(jù)。同時(shí),缺點(diǎn)在于數(shù)據(jù)的原始格式不能完全滿足各項(xiàng)目的特定要求。因此要經(jīng)歷數(shù)據(jù)的清洗階段,包括數(shù)據(jù)篩選、數(shù)據(jù)集成、類型轉(zhuǎn)換和數(shù)據(jù)歸約,然后才能進(jìn)行數(shù)據(jù)的聚類。數(shù)據(jù)清洗后的格式見表1。表中為有效字段,無效字段已省略。
3.4 實(shí)踐流程
根據(jù)上述的數(shù)據(jù)來源、數(shù)據(jù)格式和實(shí)踐設(shè)計(jì),整個(gè)實(shí)踐過程分為實(shí)踐有序k-means和實(shí)踐有序bi-kmeans。
3.4.1 實(shí)踐有序k-means
步驟一:利用質(zhì)心隨機(jī)函數(shù),在數(shù)據(jù)集P范圍內(nèi)隨機(jī)生成k個(gè)質(zhì)心ce,有公式(3)成立。生成后對(duì)全部質(zhì)心ce排序,組成質(zhì)心集Ce。
cej≤max(P) " " " " " " " " " " " " " (3)
式中:max(P)為數(shù)據(jù)集P的范圍,即數(shù)據(jù)集P各向量的最大值。
步驟二:對(duì)于每個(gè)點(diǎn)p來說,利用加權(quán)歐式距離公式(2),找到與之匹配的距離最近質(zhì)心ce,如公式(4)所示。
min(d(pi,ce))=d(pi,cej)lt;d(pi,cel) " " " " (4)
式中:d(pi,ce)為數(shù)據(jù)點(diǎn)pi與質(zhì)心ce間的距離;d(pi,cej)為數(shù)據(jù)點(diǎn)pi與質(zhì)心cej間的距離;d(pi,cel)為數(shù)據(jù)點(diǎn)pi與質(zhì)心cel間的距離,j,l∈[1,k],并且j≠l。質(zhì)心cej是距離點(diǎn)pi最近的質(zhì)心;cel是非cej的其他任意質(zhì)心。該步驟更新了每個(gè)簇的劃分,即更新每個(gè)簇里的點(diǎn)成員。
步驟三:每個(gè)簇更新后,更新簇里的質(zhì)心,如公式(5)所示。
(5)
式中:nj為當(dāng)前簇的長(zhǎng)度,有j∈[1,k],nj∈[1,n]。
步驟四:由于在步驟三中每個(gè)簇Clj都產(chǎn)生新的質(zhì)心cej,為驗(yàn)證當(dāng)前質(zhì)心集是否穩(wěn)定,因此重復(fù)步驟二、步驟三,直到每個(gè)簇劃分停止更新。當(dāng)前循環(huán)步驟二、步驟三的結(jié)果與上一次循環(huán)的結(jié)果一致。
3.4.2 實(shí)踐有序bi-kmeans
步驟一: 數(shù)據(jù)集P里的全部點(diǎn)p作為第一個(gè)簇的成員,此時(shí)Cl1=P,Clj=?,j∈[2,k]。質(zhì)心集的長(zhǎng)度為1,這個(gè)質(zhì)心ce1為全部點(diǎn)的平均值,如公式(4)所示。此時(shí),j=k=1,n1=n。
步驟二:對(duì)于每個(gè)不為空的簇調(diào)用有序k-means,進(jìn)行二分計(jì)算,即調(diào)用時(shí)設(shè)定有序k-means的k=2。能參與二分計(jì)算的簇有Cli?P,Cli≠?,i∈[1,k]。找到二分后可以令數(shù)據(jù)集P總距離最小的簇Cla,a∈[1,k],如公式(6)所示。
(6)
式中:d(P,Ce)為數(shù)據(jù)集P到各質(zhì)心的總距離;∑d(Cl,ce)為每個(gè)簇Cl到與其匹配質(zhì)心ce的距離總和;d(Cla1,cea1)和d(Cla2,cea2)為簇Cla二分后的2個(gè)簇內(nèi)距離;d(Clb1,ceb1)和d(Clb2,ceb2)為簇Clb二分后的2個(gè)簇內(nèi)距離,此時(shí)a≠b,Cla≠Clb,即Clb為非Cla的其他任意簇。
步驟三: 更新質(zhì)心集Ce,將cea替換為cea1,并在其后插入cea2。cea1和cea2的獲取方式如公式(5)所示。此時(shí),j=a。
步驟四: 當(dāng)質(zhì)心集Ce的長(zhǎng)度小于k時(shí),回到步驟2進(jìn)行重復(fù)迭代。當(dāng)質(zhì)心集Ce的長(zhǎng)度等于k時(shí),劃分停止。此時(shí),已經(jīng)達(dá)到二分后k個(gè)質(zhì)心、k個(gè)簇的要求。
4 實(shí)踐結(jié)果
每個(gè)學(xué)生每天消費(fèi)3次,則總消費(fèi)記錄數(shù)量應(yīng)該大于學(xué)生總?cè)藬?shù)的3倍。預(yù)期的情況是學(xué)生有可能每天消費(fèi)次數(shù)超過3次,同時(shí)還會(huì)有非學(xué)生的消費(fèi)記錄。但是實(shí)際情況是總消費(fèi)記錄數(shù)量遠(yuǎn)小于學(xué)生總?cè)藬?shù)的3倍。因?yàn)閷W(xué)生可選的就餐地點(diǎn)眾多,不會(huì)局限于只在校內(nèi)消費(fèi),所以結(jié)果是很多學(xué)生在某些時(shí)間點(diǎn)的消費(fèi)記錄為空白。本次選取樣本的時(shí)間段為2021—2022年,即2021年9月1日—2022年8月31日。學(xué)生樣本人數(shù)超過6000人,每個(gè)學(xué)生整個(gè)學(xué)年的消費(fèi)次數(shù)和消費(fèi)金額進(jìn)入樣本庫,記為1個(gè)點(diǎn)。經(jīng)過初步篩選后,已經(jīng)剔除極其孤立的5個(gè)點(diǎn)。本次實(shí)踐環(huán)境為Intel Xeon CPU E7-8880 v4 @ 2.20GHz,VMware ESXi 6.0.0,CentOS7.9.2009,Django4.1.7,mysql8.0.31,Nginx1.22.1,Plotly5.13.1。
4.1 k-means結(jié)果
不論是傳統(tǒng)k-means,還是有序k-means,都需要事先提供k個(gè)初始質(zhì)心。確定k個(gè)初始質(zhì)心的方法可以是隨機(jī)方式,也可以是人工方式或者人工干預(yù)下的隨機(jī)方式。確定方法的選擇對(duì)分配結(jié)果的影響不大,當(dāng)多次計(jì)算后會(huì)發(fā)現(xiàn)結(jié)果趨近一致,而對(duì)于運(yùn)算的迭代次數(shù)影響很大。k值的大小是一個(gè)經(jīng)驗(yàn)判斷的結(jié)果,可以從1~n中任意選擇,根據(jù)項(xiàng)目的基本需求來確定。學(xué)生的消費(fèi)能力是學(xué)生家庭生活水平的重要標(biāo)準(zhǔn),通常校內(nèi)的貧困比例為1∶5,因此,本次k值確定為k=5。傳統(tǒng)k-means結(jié)合傳統(tǒng)歐式距離聚類的結(jié)果如圖2所示。有序k-means結(jié)合傳統(tǒng)歐式距離聚類的結(jié)果如圖3所示。
圖2中各質(zhì)心與原點(diǎn)的距離由近及遠(yuǎn)依次為質(zhì)心4 lt; 質(zhì)心3 lt; 質(zhì)心2 lt; 質(zhì)心1 lt; 質(zhì)心0,相應(yīng)的簇順序?yàn)榇?、簇3、簇2、簇1和簇0。質(zhì)心和簇這樣的亂序排列對(duì)圖片呈現(xiàn)結(jié)果的影響幾乎可以忽略,缺點(diǎn)是當(dāng)需要順序分析時(shí)無法滿足要求。
有序k-means在迭代過程中,對(duì)質(zhì)心成員排序。因此,在圖3中各質(zhì)心到原點(diǎn)的距離呈現(xiàn)出自然數(shù)順序,各簇也相應(yīng)為自然數(shù)順序。這樣的排序利于在后續(xù)研究中順暢使用。從圖2和圖3可以看出,各簇之間出現(xiàn)了嚴(yán)格的水平分界。其原因是各點(diǎn)的2個(gè)向量之間存在不同數(shù)量級(jí)別的差異。當(dāng)計(jì)算傳統(tǒng)歐式距離時(shí),消費(fèi)金額比消費(fèi)次數(shù)高1個(gè)數(shù)量級(jí),消費(fèi)金額的作用因子較大,消費(fèi)次數(shù)的作用因子較小,因此各點(diǎn)的消費(fèi)金額成為傳統(tǒng)歐式距離的主要影響因素,消費(fèi)次數(shù)則成為可有可無的因素。
4.2 bi-kmeans結(jié)果
按照一致性原則,bi-kmeans的k值也確定為k=5。由于bi-kmeans的k值在迭代過程中是從1逐步增加的,并且每個(gè)質(zhì)心都是由簇內(nèi)點(diǎn)共同決定的,因此不需要在迭代之初設(shè)定初始質(zhì)心。有序bi-kmeans結(jié)合加權(quán)歐式距離聚類結(jié)果如圖4所示。
由于消費(fèi)金額比消費(fèi)次數(shù)高1個(gè)數(shù)量級(jí)別,因此在加權(quán)歐式距離中消費(fèi)金額向量的權(quán)重設(shè)定為1/10,消費(fèi)次數(shù)的權(quán)重設(shè)定為1。從圖4可以看出,劃分簇邊界的決定因素不再由消費(fèi)金額單獨(dú)決定,而是由消費(fèi)金額和消費(fèi)次數(shù)共同決定,2個(gè)決定因素的因子比例為1∶1,簇邊界的劃分由2個(gè)向量來共同決定。
簇cluster3與簇cluster4之間的邊界從圖3到圖4變化,代表有部分學(xué)生消費(fèi)金額不高,因此在圖3中被劃為簇cluster3,采用加權(quán)歐式距離后這部分學(xué)生被劃入簇cluster4。顯然,這部分學(xué)生是高消費(fèi)次數(shù)、低消費(fèi)金額,更符合家庭貧困的要求。設(shè)定k=5的初衷在于尋找真實(shí)的貧困學(xué)生,采用有序bi-kmeans結(jié)合加權(quán)歐式距離的聚類方式是更優(yōu)算法。
5 結(jié)語
高校學(xué)生在校園內(nèi)部的消費(fèi)行為通過移動(dòng)支付,都會(huì)留下痕跡。本例采集全樣本,通過篩選、集成和轉(zhuǎn)換等系列操作后,提出有序bi-kmeans結(jié)合加權(quán)歐式距離的方式來得出聚類結(jié)果。根據(jù)聚類結(jié)果對(duì)比,得出結(jié)論為有序bi-kmeans結(jié)合加權(quán)歐式距離的算法為更優(yōu)算法,可以避免傳統(tǒng)算法的弊端,可以找到目標(biāo)學(xué)生群。優(yōu)化后的聚類算法更客觀地通過學(xué)生消費(fèi)行為反應(yīng)出學(xué)生的消費(fèi)水平,為關(guān)心學(xué)生生活的部門提供更準(zhǔn)確的分析結(jié)果,解決人為劃分目標(biāo)學(xué)生群效率低、主觀因素過重等缺點(diǎn)。本例中的樣本分布比較均勻,2個(gè)向量基本為正比關(guān)系且樣本量足夠大。當(dāng)實(shí)踐k-means算法時(shí),并未出現(xiàn)局部最優(yōu)和空簇的情況。在實(shí)踐過程中,當(dāng)人為縮小樣本量到足夠小時(shí),暴露了k-means算法的缺點(diǎn)。改進(jìn)后的bi-means算法當(dāng)樣本量大和小時(shí)都表現(xiàn)得比較優(yōu)秀。
參考文獻(xiàn)
[1]龔黎旰,顧坤,明心銘,等.基于校園一卡通大數(shù)據(jù)的高校學(xué)生消費(fèi)行為分析[J].深圳大學(xué)學(xué)報(bào)理工版,2022,37(增刊1):150-154.
[2]柴政,屈莉莉,彭貴賓.高校貧困生精準(zhǔn)資助的神經(jīng)網(wǎng)絡(luò)模型[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2018,48(16):85-91.