国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于歐式距離的判別分析

2019-03-21 00:32唐宇政
現(xiàn)代商貿(mào)工業(yè) 2019年9期

唐宇政

摘 要:分類判別問題在生活中是一個(gè)有著重要應(yīng)用需求的問題。例如根據(jù)患者肺部陰影大小,是否低燒以及其它理化指標(biāo)來判斷是否為肺結(jié)核患者,或是根據(jù)郵件的內(nèi)容或者發(fā)件地址來判斷其是否屬于垃圾郵件。在現(xiàn)實(shí)生活中,我們希望能夠準(zhǔn)確快速的解決這一類問題,往往需要利用歷史數(shù)據(jù)來建立合理的分類器。因此重點(diǎn)介紹一種常見的基于距離的判別分類方法——?dú)W氏距離判別法 。首先在第二部分詳細(xì)介紹這種分類方法以及將其和另外一種常見的基于馬氏距離的判別分類法進(jìn)行比較。在第三部分,我們將進(jìn)行實(shí)例分析,基于花瓣長度和花瓣寬度利用歐式距離判別法對鳶尾花進(jìn)行分類。

關(guān)鍵詞:分類問題;歐式距離;馬氏距離

中圖分類號:TB 文獻(xiàn)標(biāo)識碼:Adoi:10.19311/j.cnki.1672-3198.2019.09.092

1 背景

分類判別是指根據(jù)事物的不同點(diǎn)加以區(qū)分辨別,確定事物所屬的類別,使具有更多相似點(diǎn)的事物歸入一類,使之在大量事物中可以根據(jù)一定規(guī)律快速鑒別各個(gè)事物的所屬種類。例如國家電網(wǎng)在對居民進(jìn)行供電時(shí),就可以根據(jù)以往的用電量數(shù)據(jù)對居民的用電情況進(jìn)行劃分,對用電量大的居民相應(yīng)地收取更多的費(fèi)用,從而達(dá)到促進(jìn)節(jié)約用電的目的。在解決此類問題的過程中需要準(zhǔn)確判別個(gè)體樣本所屬的類別,即應(yīng)該劃分的組別。本文中將介紹的是如何通過數(shù)學(xué)建模來快速準(zhǔn)確完成這個(gè)分組判別的過程。本文中,我們將使用鳶尾花數(shù)據(jù)集,對150個(gè)鳶尾花數(shù)據(jù)樣本進(jìn)行分類判別,確定樣本屬于三種鳶尾花中的哪一種,來實(shí)例說明歐式距離判別法在現(xiàn)實(shí)生活中的可行性。

2 分類方法

判別分析法,是在分類確定的條件下,根據(jù)某一研究對象的各種特征值判別其類型歸屬問題的一種多變量統(tǒng)計(jì)分析方法。常見的判別分析法主要包括基于距離的判別、Fisher判別、Bayes 判別。本文主要研究對象是通俗易懂、應(yīng)用范圍廣泛的基于距離的判別分析法。

2.1 基于距離的判別分析

距離判別的基本思想是將距離越近的樣本分為一類,距離越大的樣本分為不同類。這里的距離可以理解為樣本之間的相似度,樣本間距離越小越相似,反之亦然。在實(shí)際操作中,我們可以計(jì)算每一個(gè)新樣本點(diǎn)(類別未知)到歷史樣本點(diǎn)(類別已知)的距離,然后將新樣本的類別預(yù)測為于其最相似的歷史樣本點(diǎn)的類別。亦或者將新樣本的類別預(yù)測為與其最相似的k(k=1,2,…)個(gè)歷史樣本點(diǎn)中類別最多那一類。

通常,在構(gòu)建模型的過程中,我們僅有大量的歷史數(shù)據(jù)。因此,我們可以隨機(jī)將歷史數(shù)據(jù)分為訓(xùn)練集和驗(yàn)證集。訓(xùn)練集中的數(shù)據(jù)相當(dāng)于歷史數(shù)據(jù),驗(yàn)證集的數(shù)據(jù)相當(dāng)于新的數(shù)據(jù)。引入訓(xùn)練集、驗(yàn)證集可以在生活中也有一定的應(yīng)用。例如假如我們需要識別一輛小汽車。那么我們需要有大量的小汽車圖片(訓(xùn)練數(shù)據(jù)),當(dāng)我們有足夠多的數(shù)據(jù)時(shí),我們就可以對已有的小汽車圖片進(jìn)行分析,找出其共同點(diǎn)。然后我們建立一個(gè)模型,說明這些數(shù)據(jù)都是小汽車的特征數(shù)據(jù),從而知道什么是小汽車,具備哪些特征。這時(shí),我們就可以放入已有的其他圖片(驗(yàn)證集數(shù)據(jù)),把這些新圖片與原有的模型中的圖片進(jìn)行比對,然后告訴我們哪些是小汽車,哪些不是小汽車。

2.2 歐式距離判別法

本文中,我們以歐式距離作為樣本間相似度的度量。歐氏距離是一個(gè)通常采用的距離定義,是指在空間中兩個(gè)點(diǎn)之間的真實(shí)距離,或者向量的自然長度(即該點(diǎn)到原點(diǎn)的距離)。在二維(平面內(nèi),用坐標(biāo)軸來坐標(biāo)化表示即為x軸、y軸)和三維(立體空間范圍內(nèi),用坐標(biāo)軸來坐標(biāo)化表示即為x軸、y軸和z軸)的范圍內(nèi)歐氏距離就是特定的范圍內(nèi)兩個(gè)點(diǎn)之間的實(shí)際距離。當(dāng)將樣本坐標(biāo)化放入坐標(biāo)軸中后,即為兩個(gè)點(diǎn)之間的連線的長度。例如,樣本點(diǎn)包含n個(gè)變量,那么第一個(gè)樣本點(diǎn)A=(x1,x2,…,xn)到第二個(gè)樣本點(diǎn)B=(y1,y2,…,yn)之間的距離可以表示為:

d(x,y):=

(x1-y1)2+(x2-y2)2+…+(xn-yn)2=

ni=1(xi-yi)2

除了歐氏距離, 另一種常用的距離是馬氏距離。與歐氏距離不同的是,它考慮到各種特性之間的聯(lián)系(例如:一條關(guān)于身高的信息會(huì)帶來一條關(guān)于體重的信息,因?yàn)閮烧呤怯嘘P(guān)聯(lián)的),并且是尺度無關(guān)的,即獨(dú)立于測量尺度。馬氏距離的計(jì)算需要用到矩陣和協(xié)方差矩陣。盡管歐氏距離簡單有用,但也有明顯的缺點(diǎn)。歐氏距離在代數(shù)化過程中忽略了個(gè)體的差異,對所有樣本的處理過于類似,這一點(diǎn)有時(shí)不能滿足實(shí)際要求。例如,在教育研究中,經(jīng)常遇到對人的分析和判別,個(gè)體的不同屬性對于區(qū)分個(gè)體有著不同的重要性。因此,有時(shí)需要采用不同的距離函數(shù)。同時(shí),在歐式距離計(jì)算中,我們往往忽略了變量間單位的差異。

3 實(shí)例應(yīng)用

3.1 數(shù)據(jù)介紹

本文中的數(shù)據(jù)來源于鳶尾花數(shù)據(jù)集。這個(gè)數(shù)據(jù)集是常用的分類實(shí)驗(yàn)數(shù)據(jù)集,由Fisher 1936收集整理。是一類多重變量分析的數(shù)據(jù)集。數(shù)據(jù)集包含150個(gè)數(shù)據(jù)點(diǎn),3類鳶尾花:有第一類山鳶尾,第二類雜色鳶尾和第三類維吉尼亞鳶尾,每類50個(gè)數(shù)據(jù)點(diǎn),每個(gè)數(shù)據(jù)點(diǎn)有4個(gè)屬性:花萼長度,花萼寬度,花瓣長度,花瓣寬度。通過這4個(gè)屬性預(yù)測鳶尾花卉樣本屬于哪一種鳶尾花。我們將建立一個(gè)有關(guān)變量的坐標(biāo)系,將樣本以點(diǎn)的形式置于坐標(biāo)系中。其中橫縱坐標(biāo)的數(shù)值視優(yōu)劣程度而定,即是否直觀有效。每個(gè)樣本點(diǎn)都按照某兩個(gè)特征數(shù)據(jù)放入到坐標(biāo)軸中。在每個(gè)坐標(biāo)系中,會(huì)有已有的135個(gè)訓(xùn)練集樣本點(diǎn)分布在坐標(biāo)軸中,每一個(gè)新放入的驗(yàn)證集的樣本點(diǎn)(x,y),計(jì)算它和訓(xùn)練集樣本點(diǎn)的距離,選出距離最近的前15個(gè)點(diǎn),則此驗(yàn)證集的新樣本點(diǎn)認(rèn)為和這十五個(gè)訓(xùn)練集樣本點(diǎn)的鳶尾花種類一致。由于在Fisher鳶尾花數(shù)據(jù)集中三種鳶尾花各有50個(gè)樣本數(shù)據(jù),因此統(tǒng)一編號1-50,每一個(gè)號就代表三種鳶尾花的各一個(gè)樣本。通過隨機(jī)抽樣抽取1-50中的5個(gè)數(shù)字,得到一共15個(gè)樣本組成驗(yàn)證集,剩余135個(gè)樣本為訓(xùn)練集。通過隨機(jī)抽樣得到的驗(yàn)證集如表1。

3.2 統(tǒng)計(jì)分析

我們首先對單一變量進(jìn)行處理,即僅從一個(gè)數(shù)據(jù)項(xiàng)來看。我們可以得到以下四幅圖表。圖表中全都采用統(tǒng)一的圖例注記。

·山鳶尾 藍(lán)色菱形

·雜色鳶尾 橙色正方形

·維吉尼亞鳶 灰色三角形

(1)萼片長度。

由上述四幅圖可以看出,有關(guān)萼片的變量對于三種鳶尾花的區(qū)分度并不明顯,而與花瓣有關(guān)的變量則可以顯著區(qū)分出山鳶尾,雜色鳶尾和維吉尼亞鳶尾雖然有少部分重疊,但仍具有較高的區(qū)分度。

因此在接下去的分類過程中我們將不采用有關(guān)萼片的數(shù)據(jù)。另外我們提出一種將有關(guān)花瓣的兩個(gè)數(shù)據(jù)放入一張圖表中,即以花瓣長度為橫坐標(biāo),花瓣寬度為縱坐標(biāo),將每個(gè)樣本個(gè)體以點(diǎn)的形式在圖表中表示出來。這就變成了一個(gè)有關(guān)花瓣長度和花瓣寬度的二元變量問題。通過作圖可以看到這種方式的區(qū)分度高,效果良好。

(5)花瓣雙坐標(biāo)圖。

3.3 基于距離的分類算法

我們將采用歐式距離判別法。建立一個(gè)平面直角坐標(biāo)系,在此處先以與花瓣有關(guān)的兩個(gè)變量為例進(jìn)行判別。在坐標(biāo)系中橫坐標(biāo)為花瓣長度,縱坐標(biāo)為花瓣寬度,每一個(gè)樣本根據(jù)其長和寬可以在圖中找到相對應(yīng)的坐標(biāo)點(diǎn),并加以顏色區(qū)分表示。

下面我們將開始對驗(yàn)證集內(nèi)的數(shù)據(jù)進(jìn)行驗(yàn)證。

我們以序號為23 的山鳶尾花為例,其花瓣長為1.0cm,寬為0.2cm。那么在坐標(biāo)軸中可以表示為點(diǎn)(1.0,0.2)。運(yùn)用歐式距離公式進(jìn)行計(jì)算。

通過計(jì)算可得此測試樣本與樣本集中所有135個(gè)樣本數(shù)據(jù)的距離,總距離為397.315,平均距離為2.921。

我們得到了表2中的數(shù)據(jù)。

參考文獻(xiàn)

[1]吳孟達(dá).數(shù)學(xué)建模教程[M].北京:高等教育出版社,2011.

[2]白其崢.數(shù)學(xué)建模案例分析[M].北京:海洋出版社,2000.