游清順 王建新 張秀宇 羅曦
摘? 要:本文通過實(shí)驗(yàn)對比了邏輯回歸、決策樹、人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等方法在分析抽檢數(shù)據(jù)中的表現(xiàn)。結(jié)果表明,支持向量機(jī)的預(yù)測準(zhǔn)確率最高。該方法及相應(yīng)軟件系統(tǒng)能夠?yàn)槲磥淼某闄z計(jì)劃制定提供決策依據(jù),在有限的抽檢成本和時(shí)間花費(fèi)的條件限制下,能更多地暴露食品安全中的問題,從而提升食品安全和食品質(zhì)量。
關(guān)鍵詞:食品安全;抽檢數(shù)據(jù);支持向量機(jī);數(shù)據(jù)挖掘
中圖分類號(hào):TP311.5? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
SVM-Based Analysis on Food Safety Sampling and Inspection Data YOU Qingshun1,WANG Jianxin1,ZHANG Xiuyu2,LUO Xi1
(1.School of Information,Beijing Forestry University,Beijing 100083,China;
2.Guizhou Academy of Testing and Analysis,Guiyang 550000,China)
Abstract:By means of experiments,this paper compares the performances of logistic regression,decision tree,artificial neural network,and support vector machine in the analysis of sampling data.The results show that support vector machine has the highest prediction accuracy.This method and the corresponding software system can provide decision-making basis for the future sampling plan,expose more problems in food safety,and thus promote food safety and quality.
Keywords:food safety;sampling and inspection data;support vector machine;data mining
1? ?引言(Introduction)
食品安全是政府、行業(yè)機(jī)構(gòu)和人民群眾特別關(guān)注的問題,只有保證食品安全,才可以從根本上保證人民身體健康和生命安全,這是關(guān)系國計(jì)民生的重大問題。中國是食品生產(chǎn)和消費(fèi)大國。為了保障食品安全,每年都要進(jìn)行規(guī)模龐大的食品安全抽檢工作,這個(gè)過程積累了大量的抽檢數(shù)據(jù),數(shù)據(jù)中的規(guī)律和知識(shí),急需加以挖掘和利用。在十三五規(guī)劃中,國家實(shí)施食品安全檢測和監(jiān)測能力建設(shè)項(xiàng)目,每年投入超過百億元經(jīng)費(fèi)實(shí)施這一項(xiàng)目,以食品抽檢為手段保證食品安全、提高食品質(zhì)量。
中國食品安全抽檢分為國抽(國家級抽檢)和省抽(省級抽檢)兩個(gè)級別,每年可以產(chǎn)生幾千萬條記錄[1],但這些數(shù)據(jù)背后的價(jià)值卻并沒有完全被挖掘出來。而利用傳統(tǒng)的人工方式對這些數(shù)據(jù)進(jìn)行分析,則會(huì)由于數(shù)據(jù)量過于龐大而使得工作難以進(jìn)行下去。因此智能化的分析處理方法勢在必行,而數(shù)據(jù)挖掘就是其中的典型技術(shù)手段[2]。
數(shù)據(jù)挖掘是指從海量的、信息不完全的大型數(shù)據(jù)庫存放的數(shù)據(jù)集中自動(dòng)地發(fā)現(xiàn)有用規(guī)律或者先前未知的潛在有用的模式[3]。通過數(shù)據(jù)挖掘獲取的規(guī)律、模式和知識(shí)還可以用來預(yù)測未來的觀測結(jié)果。數(shù)據(jù)挖掘技術(shù)借助聚類、分析、預(yù)測、統(tǒng)計(jì)等技術(shù)手段,在海量數(shù)據(jù)資源中快速分辨、自動(dòng)尋找符合人們應(yīng)用需求的模式,并且提煉出對人有用的信息[4]。
文獻(xiàn)[5]利用數(shù)據(jù)挖掘的手段處理抽檢數(shù)據(jù)。該研究把眾多影響因素歸一化,并通過多層神經(jīng)元網(wǎng)絡(luò)建立抽檢數(shù)據(jù)中原因變量和結(jié)果變量之間的關(guān)系,效果良好。
本文實(shí)驗(yàn)分析了四種數(shù)據(jù)挖掘算法的七個(gè)版本在抽檢數(shù)據(jù)中的應(yīng)用,比較了它們的預(yù)測準(zhǔn)確率,然后基于準(zhǔn)確率最高的支持向量機(jī)方法實(shí)現(xiàn)了一套Web軟件系統(tǒng),自動(dòng)實(shí)現(xiàn)抽檢數(shù)據(jù)的分析、挖掘和預(yù)測的操作。這樣可以大幅提高挖掘效率,又可以減小數(shù)據(jù)誤差率,同時(shí)也能節(jié)省政府資金投入,并為未來的決策制定提供參考。
本文的第2部分介紹了數(shù)據(jù)預(yù)處理的方法和我們采取的預(yù)處理手段,包括預(yù)處理的步驟和數(shù)據(jù)集的選擇;第3部分通過分析和實(shí)驗(yàn)對比,從多種數(shù)據(jù)挖掘算法中選擇出最適合的算法;第4部分是本文的結(jié)論。
2? ?數(shù)據(jù)預(yù)處理(Data preprocessing)
由于數(shù)據(jù)量的規(guī)模龐大,且很多原始數(shù)據(jù)質(zhì)量不高,存在著各種缺陷,因此通常要對原始的數(shù)據(jù)進(jìn)行預(yù)處理,使數(shù)據(jù)更適合挖掘[6]。數(shù)據(jù)預(yù)處理的目的一方面是為了提高數(shù)據(jù)的質(zhì)量,減少冗余信息,另外一方面是為了處理一些由于數(shù)據(jù)輸入、數(shù)據(jù)庫界面設(shè)計(jì)不當(dāng)導(dǎo)致的數(shù)據(jù)描述不完整、數(shù)據(jù)缺失和數(shù)據(jù)的不一致的情況。數(shù)據(jù)的預(yù)處理可以提高數(shù)據(jù)的質(zhì)量、提升后續(xù)的挖掘效果[7]。
2.1? ?數(shù)據(jù)預(yù)處理的步驟
數(shù)據(jù)預(yù)處理的步驟大致可以分為四步,即數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)變換。數(shù)據(jù)清理技術(shù)是對于空缺值等異常進(jìn)行處理、清除重復(fù)的數(shù)據(jù),以及對異常數(shù)據(jù)進(jìn)行錯(cuò)誤糾正和清除等操作?,F(xiàn)實(shí)中造成數(shù)據(jù)缺失的原因很多[8],例如數(shù)據(jù)采集設(shè)備故障導(dǎo)致采集缺失,用戶填寫時(shí)不理解或者不耐心未填入導(dǎo)致數(shù)據(jù)缺失,數(shù)據(jù)傳輸過程中錯(cuò)誤造成的缺失,數(shù)據(jù)錄入過程中因?yàn)槭韬鲈斐蓴?shù)據(jù)缺失,以及存儲(chǔ)設(shè)備損壞導(dǎo)致的缺失等。處理空缺值的方法通常有手動(dòng)錄入、平均值填充、用最可能的值填充、忽略元組、全局常量填充等方法[9]。
數(shù)據(jù)集成是將來自不同數(shù)據(jù)源的數(shù)據(jù)合并為統(tǒng)一一致的數(shù)據(jù)存儲(chǔ)中,這種數(shù)據(jù)存儲(chǔ)可以是數(shù)據(jù)庫或數(shù)據(jù)倉庫。數(shù)據(jù)集成主要包括:包含相同字段屬性的縱向追加和具有相關(guān)屬性疊加的橫向合并。在進(jìn)行數(shù)據(jù)橫向合并時(shí),會(huì)出現(xiàn)同一對象的一些屬性字段在不同數(shù)據(jù)庫中的名稱不同或?qū)傩灾挡煌?,這樣就容易造成合成后的數(shù)據(jù)出現(xiàn)不一致性或者數(shù)據(jù)的冗余性。
數(shù)據(jù)變換就是將原始數(shù)據(jù)進(jìn)行規(guī)格化處理,轉(zhuǎn)換成方便后續(xù)數(shù)據(jù)挖掘處理的形式。數(shù)據(jù)變換常用的方法有:平滑處理、聚集操作、數(shù)據(jù)概化與規(guī)范化和屬性構(gòu)造等。
數(shù)據(jù)集約是指在保持?jǐn)?shù)據(jù)完整性的前提下,將大容量的數(shù)據(jù)轉(zhuǎn)換成可高效利用的數(shù)據(jù)集,即在獲得相同或相似挖掘結(jié)果的前提下,對數(shù)據(jù)的容量進(jìn)行有效的縮減的過程。數(shù)據(jù)歸約常用的方法有數(shù)據(jù)立方體聚集、維規(guī)約、數(shù)據(jù)壓縮等。
2.2? ?訓(xùn)練集與測試集
本文中的模型采用二類分類器,正例為數(shù)據(jù)集中的“抽檢結(jié)果合格”,負(fù)例為“抽檢結(jié)果不合格”。以下用抽檢結(jié)果“合格”與“不合格”兩類標(biāo)注的數(shù)據(jù)類型同時(shí)舉例分析,其輸入的樣本數(shù)據(jù)如下所示:
[label,<1:x_1>;<2:x_2>;…;<n:x_n>]
其中的label代表抽檢結(jié)果,正例代表“合格”類別,其label的值為1;負(fù)例代表“不合格”類別,其label值為0。其中<n:x_n>表示抽檢樣本數(shù)據(jù)中的第n個(gè)屬性的值為x_n。
在經(jīng)過一系列的處理如數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約之后,有效數(shù)據(jù)總共有50225條,由于數(shù)據(jù)中絕大多數(shù)的食品抽檢數(shù)據(jù)都是合格的,而不合格樣本較少,正例與負(fù)例的比例達(dá)到30:1。若將全部數(shù)據(jù)作為輸入將會(huì)導(dǎo)致分類器的準(zhǔn)確率偏高,因此可以將所有不合格樣本作為負(fù)例,再從合格的樣本中選取一部分作為數(shù)據(jù)集中的正例。最終數(shù)據(jù)集中正例與負(fù)例的比例在3:2左右。
本文采用最常用的十折交叉驗(yàn)證法來測試分類器的準(zhǔn)確性,其具體方法是將數(shù)據(jù)集分成大致均等的十份,輪流將其中的九份作為訓(xùn)練數(shù)據(jù),剩余的一份作為測試的數(shù)據(jù)進(jìn)行檢驗(yàn)。在本文中每一次十折交叉訓(xùn)練測試使用的數(shù)據(jù)總共有4112條,其中訓(xùn)練集數(shù)據(jù)總共3704條,測試集數(shù)據(jù)有411條。
3? ?算法選擇(Algorithm selection)
本文將使用四種常見的機(jī)器學(xué)習(xí)分類算法,即:Logistic回歸分析、C4.5決策樹、BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)。依據(jù)使用的數(shù)據(jù)集特點(diǎn),首先對數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,并劃分為訓(xùn)練集和測試集。將訓(xùn)練集作為輸入,并調(diào)整四種分類器中影響準(zhǔn)確性的參數(shù),并且比較實(shí)驗(yàn)中四種分類器的準(zhǔn)確性,確定合適的預(yù)測模型。
3.1? ?相關(guān)算法介紹
Logistic回歸分析是一種廣義的線性回歸分析模型,Logistic回歸的因變量既可以是二分類的,也可以是多分類的。
決策樹(Decision Tree)主要是用于分類和預(yù)測的技術(shù),它是一種在實(shí)例的基礎(chǔ)上進(jìn)行歸納學(xué)習(xí)的學(xué)習(xí)型算法,實(shí)際上則是一種采用自上而下遞歸方式的“貪心”算法[10]。它主要是從一組無序、無規(guī)則的實(shí)例中通過特定的算法來構(gòu)造決策樹,以達(dá)到其表現(xiàn)形式的一種分類規(guī)則?;跊Q策樹的預(yù)測算法的主要思想都是通過對決策樹的構(gòu)建,確定樣本數(shù)據(jù)中的屬性標(biāo)簽在分類中是否起作用或起作用的先后順序。決策樹算法有多種版本,最常見的是ID3算法和C4.5算法。但I(xiàn)D3算法有多值傾向性,也就是如果某個(gè)變量包含的值越多,則這個(gè)變量就越容易被選為分類標(biāo)準(zhǔn),而C4.5算法克服了這一缺陷,因此我們選擇了C4.5算法進(jìn)行實(shí)驗(yàn)。
人工神經(jīng)網(wǎng)絡(luò)的研究在一定程度上受到了生物學(xué)的啟發(fā),因?yàn)樯锏膶W(xué)習(xí)系統(tǒng)是由相互連接的神經(jīng)元(neuron)組成的異常復(fù)雜的網(wǎng)絡(luò)[11]。而人工神經(jīng)網(wǎng)絡(luò)與此大體相似,它是由一系列簡單單元相互密集連接構(gòu)成,其中每一個(gè)單元有一定數(shù)量的實(shí)值輸入(可能是其他單元的輸出),并產(chǎn)生單一的實(shí)數(shù)值輸出。
支持向量機(jī)(Support Vector Machine),也可被簡稱為SVM,它可以在有限樣本下進(jìn)行統(tǒng)計(jì)學(xué)習(xí),并且可以研究和解決大數(shù)據(jù)中的分類問題,支持向量機(jī)因其優(yōu)良的特性而作為一種通用的學(xué)習(xí)機(jī)器[12]。因此也是本文研究和應(yīng)用的主要方法。支持向量機(jī)算法也有多種版本,主要由不同的核函數(shù)決定。常見的核函數(shù)包括線性核函數(shù)、多項(xiàng)式核函數(shù)、Sigmoid核函數(shù)和徑向基核函數(shù),根據(jù)它們在數(shù)據(jù)集上的不同表現(xiàn),本文選擇徑向基核函數(shù)作為支持向量機(jī)的函數(shù)。
3.2? ?實(shí)驗(yàn)結(jié)果比較
對所選四種訓(xùn)練和預(yù)測算法,將使用三種評價(jià)指標(biāo)進(jìn)行評價(jià),分別為準(zhǔn)確率(ac)、精確率(pr)和召回率(re),具體的方法如下:
其中,TP(True Position)為將正類預(yù)測為正類數(shù)、FN(False Negative)為將正類預(yù)測為負(fù)類數(shù)、TN(True Negative)為將負(fù)類預(yù)測為負(fù)類數(shù)、FP(False Position)為將負(fù)類預(yù)測為正類數(shù)。在本文中,準(zhǔn)確率代表食品抽檢質(zhì)量被正確分類的比例,精確率代表被預(yù)測為合格食品中真正為合格食品的比例,召回率代表所有真正為抽檢合格食品中被正確分類為抽檢合格食品的比例。
對四種算法進(jìn)行十折交叉驗(yàn)證測試,以下為四種分類算法的測試實(shí)驗(yàn)結(jié)果:
由實(shí)驗(yàn)結(jié)果可以看出,支持向量機(jī)(徑向基核函數(shù)作為核函數(shù))的準(zhǔn)確率為83.3%。在這幾種算法中,支持向量機(jī)的準(zhǔn)確率,以及召回率高于其他的算法,因此是最適合的算法。支持向量機(jī)算法在食品抽檢數(shù)據(jù)上的預(yù)測較為可靠,具有較高準(zhǔn)確率,因此其預(yù)測的結(jié)果可以作為政策制定的一個(gè)參考指標(biāo),為各個(gè)抽檢部門提供決策性的參考意見。
3.3? ?系統(tǒng)實(shí)現(xiàn)與測試
在研究和比較各預(yù)測算法的基礎(chǔ)上,我們采用基于徑向基核函數(shù)的支持向量機(jī)作為訓(xùn)練和預(yù)測算法,并基于該算法,實(shí)現(xiàn)了一個(gè)Web系統(tǒng)。該系統(tǒng)可以對歷史數(shù)據(jù)進(jìn)行管理,包括增刪改查等操作。
首先,管理員導(dǎo)入.csv格式的歷史抽檢數(shù)據(jù)文件,并對支持向量機(jī)模型進(jìn)行訓(xùn)練,訓(xùn)練結(jié)果存儲(chǔ)在Web系統(tǒng)后臺(tái)。
普通用戶登錄后輸入食品編碼或者輸入食品屬性,系統(tǒng)調(diào)用已經(jīng)訓(xùn)練好的模型進(jìn)行預(yù)測,把該食品可能合格與否的預(yù)測結(jié)果返回給用戶。
用戶也可以批量導(dǎo)入食品編碼或食品屬性,進(jìn)行批量預(yù)測。
與之前的食品抽檢計(jì)劃方案相比,使用該系統(tǒng)后,能對有食品安全問題的重要食品類別和食品批次進(jìn)行針對性抽檢和排查,因而抽檢工作的效率會(huì)更高,效果會(huì)更好。
4? ?結(jié)論(Conclusions)
本文通過比較Logistic回歸分析,決策樹算法,人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)算法在食品安全抽檢數(shù)據(jù)的分析效果,發(fā)現(xiàn)最適合的分類算法是基于徑向基核函數(shù)的支持向量機(jī)算法。通過使用該算法和人工輸入的已知屬性,可以較為精確地預(yù)測未來某種食品可能的食品質(zhì)量狀況,不但可以進(jìn)行單一預(yù)測,也可以進(jìn)行批量預(yù)測。同時(shí),依據(jù)該算法生成的整體報(bào)告可以對抽檢部門提供全面的參考,支持他們有的放矢地檢查重點(diǎn)食品類別、屬性和批次,從而能節(jié)約部分費(fèi)用,也能夠?yàn)楸U鲜称钒踩吞岣呤称焚|(zhì)量提供智能技術(shù)支持。
參考文獻(xiàn)(References)
[1] Liu Y,Li X,Wang J,et al.Pattern Discovery from Big Data of Food Sampling Inspections Based on Extreme Learning Machine[C].International Conference on Research and Practical Issues of Enterprise Information Systems.Springer,Cham,2017:132-142.
[2] Singh D,Reddy C K.A survey on platforms for big data analytics[J].Journal of Big Data,2015,2(1):8.
[3] Ma Y,Hou Y,Liu Y,et al.Research of food safety risk assessment methods based on big data[C].2016 IEEE International Conference on Big Data Analysis(ICBDA),2016.
[4] Xiangdong Huang,Lin Yang,Runan Song,et al.Effective pattern recognition and find-density-peaks clustering based blind identification for underdetermined speech mixing systems[J].Multimedia Tools and Applications,2018(77):22115-22129.
[5] Khosa I,Pasero E.Defect detection in food ingredients using Multilayer Perceptron Neural Network[C].2014 World Symposium on Computer Applications & Research (WSCAR),2014.
[6] Li Xu,Chen Wei,Chan Chingyao,et al.Multi-sensor fusion methodology for enhanced land vehicle positioning[J].Information Fusion,2019(46):51-62.
[7] 文莎,刑立強(qiáng),張輝.三維空間中目標(biāo)跟蹤測量數(shù)據(jù)預(yù)處理仿真[J].計(jì)算機(jī)仿真,2018(5):391-396.
[8] 董師倢.數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理技術(shù)[J].信息與電腦(理論版),2016(19):144-145.
[9] 薛毅.食品質(zhì)量安全抽檢信息分析[J].數(shù)學(xué)建模及其應(yīng)用,2013(2):13.
[10] 袁明.基于C4.5決策樹的網(wǎng)絡(luò)入侵檢測方法[J].科學(xué)技術(shù)創(chuàng)新,2018(24):81-82.
[11] 蔡強(qiáng),王君君,李海生,等.基于神經(jīng)網(wǎng)絡(luò)的食品安全評價(jià)模型構(gòu)建研究[J].食品科學(xué)技術(shù)學(xué)報(bào),2014,32(01):69-77.
[12] 袁彥彥,王興芬.基于SVM的生鮮食品貨架期預(yù)測[J].物流技術(shù),2015(34):64-67.