国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

機器學習中K—means聚類算法的分析和應用

2017-05-16 16:55王子橋
中國科技縱橫 2017年4期
關鍵詞:means算法機器學習聚類

王子橋

摘 要:本文采用機器學習中的聚類算法對高水平足球聯(lián)賽五十名頂尖球員的進攻數(shù)據(jù)進行無監(jiān)督聚類學習和分析,并以進球數(shù)、射正數(shù)和助攻數(shù)為評價指標,將球員分成三個類別。本文首先分析了K-means聚類算法的流程和特點,進而應用于對足球運動員比賽數(shù)據(jù)的聚類運算。對聚類后的分類結(jié)果進行分析和比較,從而找出球員的優(yōu)勢劣勢。其結(jié)果不僅對球員個人發(fā)展有極大的指導作用,也對中國足球取長補短、提升自身能力有重要意義。

關鍵詞:K-means算法;聚類;機器學習

中圖分類號:TP18 文獻標識碼:A 文章編號:1671-2064(2017)04-0030-02

計算機是迄今為止最為高效的信息處理工具,特別是近年來隨著互聯(lián)網(wǎng)的發(fā)展,應用計算機輔助工作和學習已經(jīng)成為常態(tài)。但普通計算機缺乏自主學習的能力,只是被動地執(zhí)行人為設定好的程序。因此人們開始尋找一種能以與人類智能學習相似的方式進行數(shù)據(jù)處理的方法,于是人工智能應運而生。

從1997年深藍在國際象棋中戰(zhàn)勝卡帕羅耶夫,到2016年AlphaGo在圍棋中擊敗李世石,不難看出,人工智能的發(fā)展?jié)摿κ志薮蟆H欢?,目前的人工智能仍處于十分初級的弱人工智能階段,想要進一步發(fā)展人工智能就必須探索新的更有效的方法。

近年來,人工智能領域中的重要方向——機器學習,得到了越來越多的重視,顧名思義,機器學習是通過經(jīng)驗自動改進計算機算法的研究,[1]也就是說,機器學習能用數(shù)據(jù)或以往的經(jīng)驗優(yōu)化計算機程序的性能標準,在不斷進行自我學習的過程中,對機器自身程序算法進行優(yōu)化。在機器學習中,聚類是一種極其重要的算法。聚類源于包括數(shù)學、計算機科學、經(jīng)濟學、生物學等的許多領域,其工作原理是通過研究各個樣本之間的相似度,利用數(shù)學方法對樣本進行分類。[2]這其中,K-means算法是最為經(jīng)典的聚類算法之一。K-means算法是聚類分析中一種基于劃分的算法,屬于無監(jiān)督的學習,該算法是聚類分析中一種十分經(jīng)典且非常高效的方法,具有高效率和相對可伸縮的優(yōu)點,在處理大數(shù)據(jù)集時簡單快速,十分方便。[3]

1 K-means算法

作為一種無監(jiān)督的聚類算法,K-means算法在解決多個樣本數(shù)據(jù)進行分類的問題時十分有效,給定一組樣本{},K-means算法將會把樣本聚成k個簇,具體步驟如下:

(1)根據(jù)給定的k值隨機選取k個質(zhì)心{}。

(2)重復迭代兩步直到質(zhì)心不變或變化很小:1)計算每一個樣本i應屬于的類別=argmin,2)對每一個類別j,重新計算它的質(zhì)心,其中k是已知的聚類數(shù),是樣本i與k個類別中最近的一類,質(zhì)心位置是初始隨機選定的。其算法流程圖如圖1所示。

下面用算法圖例來展示K-means算法的具體運算流程,如圖2所示。

如上圖所示,數(shù)據(jù)的初始分布如圖(a)所示,數(shù)據(jù)點用二維平面的加號 ”+”表示,共9個數(shù)據(jù)點。在圖(b)中,用星號“*”表示K-means算法的初始聚類中心。根據(jù)上述算法流程,K-means通過計算初始聚類中心到數(shù)據(jù)點的歐氏距離對樣本點進行第一次分類,用紅色與綠色表明第一次的分類結(jié)果,結(jié)果如圖(b)所示。在第一次分類后,對每一類的全部樣本點重新計算質(zhì)心,再次計算樣本與每個質(zhì)心的距離進行下一次分類,結(jié)果如圖(c)。重復該過程直到聚類質(zhì)心的位置不變或質(zhì)心變化很小達到穩(wěn)定狀態(tài),結(jié)果如圖(d),最終得到了樣本的2分類結(jié)果。

由以上介紹,我們可以看出K-means算法操作簡便,分類效率高。在速度上有很明顯的優(yōu)勢,特別是在處理大量復雜樣本時,K-means能利用比較各個樣本相似度特性的方法就使問題得到簡化,從而達到快速分類的目的。它的另一優(yōu)點是時間復雜度較低,其時間復雜度可以表示為O(nkt)。n是數(shù)據(jù)集中對象的數(shù)量,k是類別數(shù),t是迭代次數(shù)。也就是說,其時間復雜度是近于線性的,相對于其他的聚類算法復雜度較低。

然而K-means算法只能達到局部最優(yōu),因此在其k值的選擇和初始質(zhì)心的選取上較難控制,不同取值會導致較大的差異.且K-means對數(shù)據(jù)源要求較高,只適用于球狀分布的聚類特性數(shù)據(jù),不能處理非球狀分布或差別很大的樣本集,這是該算法一個很大的局限性。另外,因為迭代次數(shù)無法確定,K-means算法的算法不夠穩(wěn)定,在某些特殊的數(shù)據(jù)集上可能導致其復雜度急劇增加,導致算法的運行效率較低。

2 球員數(shù)據(jù)應用

足球運動員在訓練或比賽中會有許多個人表現(xiàn)的數(shù)據(jù),比如進球數(shù)、助攻數(shù)等等。對球員數(shù)據(jù)的合理分析有助于指導球員的訓練和提升技術(shù)水平。本文收集了歐洲范圍內(nèi)五大高水平聯(lián)賽50名頂尖球員(排名榜前十名)的運動數(shù)據(jù)。由于所列球員都為進攻性球員,故采取進球數(shù)、助攻數(shù)、射門成功率為評價指標,其中射門成功率為 (進球數(shù)/射門數(shù))*100%。由于各個數(shù)據(jù)的變化范圍不統(tǒng)一,因此首先對數(shù)據(jù)進行歸一化處理,再讀入K-means程序進行聚類分析。

在經(jīng)過歸一化處理之后,將50組數(shù)據(jù)讀入K-means算法程序,并通過進球數(shù)、助攻數(shù)和射門成功率三維坐標進行顯示,其分類結(jié)果如圖3所示。

由該分類結(jié)果我們可以看出,越靠近坐標為(1,1,1)的點說明球員的數(shù)據(jù)越突出。在本結(jié)果中,綠色類為數(shù)據(jù)較優(yōu)秀的球員,藍色類為數(shù)據(jù)一般的球員,而紅色類為數(shù)據(jù)較差的球員。在助攻數(shù)和射門成功率上,綠色類都要明顯優(yōu)于其他兩組,而在進球數(shù)上,三個類別沒有體現(xiàn)出明顯的分類差異。特別是,在助攻數(shù)這一評價標準中,三類的區(qū)分度尤其明顯,這也就意味著,助攻數(shù)和射門成功率是衡量一個優(yōu)秀球員最為關鍵的因素,而不僅僅是考量進球數(shù)。這一點與人們一般認可進球數(shù)的常識相悖。因此要想成為一名優(yōu)秀的足球運動員,除了在保證進球數(shù)的基礎上,提升助攻和射門成功率也是十分重要的方面。

但是,在本方法中也存在一定不足。比如數(shù)據(jù)的采集,總共選取了50名球員的運動數(shù)據(jù),而且主要取自于頂尖排名,但并不一定能夠代表所有足球運動員的實際水平,具有一定的局限性。另一方面,本方法所分析的助攻數(shù)、進球數(shù)和射門成功率這三項指標并不能完全代表一個球員的場上表現(xiàn),只是選取了三個可量化的評價指標,為了得到更為全面的評價結(jié)論,還需要更加全方位的分析和總結(jié)。

3 結(jié)語

本文分析了機器學習中無監(jiān)督聚類算法K-means的詳細流程和典型應用。對該算法的實現(xiàn)過程、算法流程進行了仔細的分析和討論。并將該算法應用在對頂尖足球運動員運動數(shù)據(jù)的聚類分析上,以進球數(shù)、射正數(shù)和助攻數(shù)為評價指標,將球員分成三個類別。并對聚類后的分類結(jié)果進行分析和比較,發(fā)現(xiàn)助攻數(shù)是較進球數(shù)影響更大的因素,從而找出分辨球員的優(yōu)劣的新標準。該結(jié)果對足球運動員個人能力的提升上意義重大,更對中國足球未來的發(fā)展有一定指導作用。

參考文獻

[1]曾華軍,張銀奎,等譯.《機器學習》Tom M Mitchell[M].機械工業(yè)出版社,2003.

[2]馬俊才,趙玉峰.基于分行維數(shù)的聚類分析研究[J].微生物學通報,1986.

[3]王穎,劉建平.基于改進遺傳算法的kmeans聚類分析[J].工業(yè)控制計算機,2011.

猜你喜歡
means算法機器學習聚類
基于DBSACN聚類算法的XML文檔聚類
基于高斯混合聚類的陣列干涉SAR三維成像
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機的金融數(shù)據(jù)分析研究
一種層次初始的聚類個數(shù)自適應的聚類方法研究
自適應確定K-means算法的聚類數(shù):以遙感圖像聚類為例
岑溪市| 蒲江县| 泾源县| 泸定县| 会同县| 淮北市| 贵港市| 和硕县| 南和县| 台州市| 永城市| 渝中区| 晋中市| 象山县| 南丰县| 绥宁县| 乐平市| 青冈县| 洪洞县| 廊坊市| 沁源县| 叙永县| 郯城县| 土默特右旗| 富阳市| 花莲市| 衡东县| 丰镇市| 天全县| 闽侯县| 双牌县| 改则县| 武夷山市| 青海省| 江阴市| 盐边县| 碌曲县| 正安县| 南乐县| 大洼县| 平顺县|