基于PCA的紙病特征再提取算法研究

2019-09-10 00:43王思琦周強田杏芝

中國造紙學(xué)報 2019年3期

王思琦　周強　田杏芝

摘要：針對傳統(tǒng)紙病檢測中相似紙病辨識準確率低及紙病提取特征維數(shù)高致使紙病辨識過程時間較長的問題，提出一種基于主成分分析（PCA）的紙病特征再提取算法。該算法以多種紙病的圖像為研究對象，對可能存在相關(guān)關(guān)系的高維原始紙病特征量進行PCA降維處理并去除相關(guān)成分，形成相互獨立且更具代表性的紙病新特征，在減少數(shù)據(jù)處理量的同時使紙病辨識準確率明顯提高。實驗表明，PCA算法可顯著提高紙病辨識準確率并可大幅縮短算法平均運行時間。

關(guān)鍵詞：紙病特征;特征維數(shù);主成分分析;檢測算法;運算量

中圖分類號：TS736+.2

文獻標識碼：A

DOI：10.11981/j.issn.1000-6842.2019.03.54

隨著現(xiàn)代造紙技術(shù)的改進和紙張大批量的生產(chǎn)，在復(fù)雜工序中，機械設(shè)備調(diào)試不當或紙漿纖維質(zhì)量不高等原因會使紙張出現(xiàn)瑕疵（也稱紙病），從而影響紙張質(zhì)量。因此，紙病檢測成為紙張生產(chǎn)過程中必不可少的一項工作。此外，對各類紙病的準確識別也對紙張生產(chǎn)過程起著重要的指導(dǎo)作用。

傳統(tǒng)的紙病依靠人工檢測，但人工檢測具有實時性差、效率低等缺點，已經(jīng)越來越不適應(yīng)于現(xiàn)在的造紙生產(chǎn)過程。隨著機器視覺技術(shù)的發(fā)展，人們開始將自動檢測紙病的方法引入紙病檢測領(lǐng)域以代替?zhèn)鹘y(tǒng)人工檢測方法[1-2]。其中，基于機器視覺的紙病檢測方法利用工業(yè)相機拍攝紙病圖像，對紙病圖像進行預(yù)處理、初步提取出紙病區(qū)域后，在圖像灰度空間、幾何空間以及形態(tài)空間構(gòu)建合適的紙病特征量[3-4]，最后，根據(jù)紙病圖像在特征空間的投影，使用特征分類器辨識出有無紙病并斷定紙病類型[5]。

紙病檢測方法的核心是紙病辨識特征的提取環(huán)節(jié)，支撐該環(huán)節(jié)的是由人工完成的紙病特征量確定技術(shù)。利用該技術(shù)，算法設(shè)計者所確定的特征量直接關(guān)系到整個紙病檢測系統(tǒng)的檢測精度和效率[6]。但是目前，這一工作具有盲目性，無法保證紙病特征量的完備性和獨立性;因此，現(xiàn)有的檢測方法難以對特征相似的紙病進行準確區(qū)分[7-8]。例如，褶皺紙病和劃痕紙病，都呈條狀，周長、面積等形態(tài)特征較為相似，且紙病區(qū)域灰度與其他部分的灰度差別不大;若僅依靠灰度特征與周長、面積等形態(tài)特征則難以取得

理想的紙病辨識效果。因此，相似的紙病特征給紙病辨識特征量的確定增大了困難[9-10]。通常，只能依靠增加紙病特征量的維數(shù)才能勉強達到區(qū)分紙病的目的。但是，過多的紙病特征量維數(shù)必然會造成計算量膨脹，導(dǎo)致紙病辨識系統(tǒng)運行時間長[11]，且人工選取的紙病特征量之間往往不具有獨立性，易發(fā)生耦合干擾，影響辨識效果，從而造成某些紙病的辨識準確率始終難以提高[12]。

針對以上問題，本課題提出了基于主成分分析（PCA）的紙病特征再提取算法，通過去除紙病原特征的相關(guān)成分，保留獨立成分的線性變換過程[13]，將之轉(zhuǎn)化為少數(shù)綜合的紙病新特征（主成分），在保留絕大部分有效信息的同時達到了降低紙病特征維數(shù)的目的。實驗結(jié)果表明，采用該算法所獲取的紙病新特征包含的信息能更加突出各種紙病的特點，使數(shù)據(jù)處理量減少的同時達到了較高的紙病辨識準確率。

1 紙病類型及當前主流辨識方法效果分析

1.1 紙病類型及其特征描述

目前，紙張生產(chǎn)過程中常見紙病包括黑斑、亮斑、孔洞、褶皺、劃痕、邊裂等[14]。黑斑是指紙面上灰度較小、圖像中有明顯較暗斑點狀的紙病，如圖1（a）所示;亮斑則是由于紙張某處纖維層較薄但尚未穿透、透光度比其他部分大導(dǎo)致圖像中呈現(xiàn)較亮點狀區(qū)域的紙病，如圖1（b）所示;孔洞紙病指在紙張上有完全穿透紙張且穿透部分沒有留下纖維的孔眼，

如圖1（c）所示;劃痕紙病為造紙生產(chǎn)過程中，機械部件在紙張表面摩擦劃過而留下的印痕，如圖1（d）所示;而邊裂紙病是指紙張中部或邊緣出現(xiàn)的裂縫或破損口，如圖1（e）所示;褶皺紙病則為紙張在傳送過程中，由于傳送器械等原因造成的紙張不平整[15]，如圖1（f）所示。

由于產(chǎn)生的原因不盡相同，理論上，每類紙病圖像都應(yīng)具有能夠區(qū)別于其他類紙病的自身特征，即在紙病特征空間的各個特征上應(yīng)有不同程度的體現(xiàn)，各種紙病的具體特征表現(xiàn)如表1所示。

如表1所示，黑斑、孔洞、亮斑紙病的灰度特征（灰度均值、灰度標準差）、面積、周長和圓形度等形態(tài)特征表現(xiàn)明顯或較明顯。由于灰度和背景較為相似，因此，邊裂、褶皺、劃痕3種紙病在灰度特征方面表現(xiàn)并不明顯;但此3種紙病呈條形，因此，它們的面積、周長、致密性和長寬比等形態(tài)特征表現(xiàn)為明顯或較明顯，與其他紙病有明顯區(qū)別。

每種紙病都具有區(qū)別于其他紙病的特征，正是由于這些特征的存在，使得紙病辨識具有科學(xué)依據(jù)，也使機器視覺在紙病檢測領(lǐng)域有了較為廣泛的應(yīng)用。

1.2 當前主流辨識方法核心技術(shù)及其不足

目前，主流的紙病檢測過程都是在對原始紙張表面圖像進行預(yù)處理、劃分出紙病區(qū)域之后，根據(jù)人工確定的、能夠反映各種紙病的共性特征，從紙病圖像中提取出多個紙病特征并借助分類器實現(xiàn)紙病類型的辨識分類，具體過程如圖2所示。

紙病檢測過程中，最關(guān)鍵的環(huán)節(jié)是紙病特征的提取。紙病特征的作用是將紙病與背景圖像及不同類型的紙病區(qū)分開。從當前的研究成果來看，紙病特征主要集中在灰度和形態(tài)兩大特征空間中。灰度特征主要是通過空域分析、頻域分析、統(tǒng)計分析等方法，提取出圖像的灰度均值、灰度標準差、灰度熵等特征，而形態(tài)特征主要包括紙病圖像區(qū)域面積、長寬比等特征信息[3]。

目前，利用一個或若干個特征將紙病與背景圖像分離，或?qū)⑾嗨萍埐∵M行進一步辨識的難度還很大。以孔洞和黑斑兩種紙病為例，它們的灰度均值、灰度標準差等灰度特征雖然較為突出，但這兩種紙病的灰度特征十分接近，利用這些特征雖然能夠?qū)⒖锥春秃诎吲c其他紙病區(qū)別出來，卻很難將這二者加以區(qū)分。由于需要辨識的紙病較多，且其中有些紙病特征十分相似;因此，紙病特征空間的構(gòu)建過程中，特征量的完備性、獨立性和高效性很難完全滿足。通常，在紙病辨識前，必須從多個特征空間中確定一組能夠準確反映紙病的存在和有效區(qū)分紙病類型的特征量來涵蓋各種紙病具有的所有特征，即具有完備性的紙病特征空間。但是，這樣做在滿足紙病特征完備性的同時會使紙病特征維數(shù)增加、紙病特征量稀疏性變差，從而產(chǎn)生運算量增大的問題;且由于這些紙病特征量之間往往具有相關(guān)性，反映出來的信息便會出現(xiàn)一定的耦合作用，在不同程度上會造成相互干擾[11]，使得紙病辨識準確率不甚理想。

針對以上問題，本課題提出了一種基于PCA的紙病特征再提取算法，此算法可以去除原紙病特征量之間的相關(guān)性，對數(shù)據(jù)進行降維，達到提高運算速度及紙病辨識準確率的目的。

2 基于PCA的紙病特征再提取算法

2.1 總體思路

PCA是一種多元統(tǒng)計方法，其總體思路就是將一組可能存在相關(guān)性的變量轉(zhuǎn)換為相互獨立的變量[16]。本課題所提出的基于PCA紙病特征再提取算法就是利用線性擬合的思路對原紙病特征進行線性組合，將分布在多個維度的高維數(shù)據(jù)從原空間投影到所選的低維特征空間中，形成少數(shù)綜合性強的紙病新特征，以盡可能多地反映原來各紙病特征的信息，其數(shù)學(xué)表達式為：

式中，X1，X2，…，Xp 為紙病原特征向量，Y1，Y2，…，Yp為線性變換后的紙病新特征變量，u1，u2，…，up為線性表達式的系數(shù)向量，其中，ui=（ui1，ui2，…，uip）。為了使紙病特征信息的損失盡可能小，在降維過程中，保留特征空間坐標中方差貢獻較大的紙病特征方向，即“主成分”。

基于PCA紙病特征再提取算法將可能存在相關(guān)性的多維紙病原特征進行線性變換，形成相互獨立的紙病新特征，以其中灰度標準差最大的紙病新特征構(gòu)建新的低維紙病特征空間;在保留主要紙病特征信息的同時完成降維提取，最后將紙病新特征輸入分類器中進行辨識分類，具體過程如圖3所示。

由圖3可知，對所有紙病圖像進行預(yù)處理之后，原特征較為明顯的紙病圖像可以直接提取進入分類器，對于原特征不明顯、需要增加特征維數(shù)來進行判斷的紙病圖像，則需要利用基于PCA紙病特征再提取算法，對原特征進行降維操作，提取出低維的新特征，之后再輸入分類器中進行辨識分類。

2.2 基于 PCA的紙病特征再提取算法

本課題中，基于PCA的紙病特征再提取算法步驟如圖4所示。

經(jīng)過上述變換過程，標準正交特征向量矩陣u中的元素為式（1）中每個特征向量的系數(shù)，而系數(shù)絕對值的大小也決定著紙病原特征量在紙病新特征量中的比例。本課題依據(jù)紙病原特征協(xié)方差矩陣C的特征值大小來進行主成分的選擇，將特征值比例較大的前幾個特征值的個數(shù)i（i

由此便選出了主成分，最后，根據(jù)選擇出的紙病新特征，結(jié)合分類器來進行紙病類型的辨識。

3 實驗結(jié)果及分析

本文對黑斑、孔洞、亮斑、褶皺、邊裂和劃痕等主要紙病進行了仿真實驗，具體實驗過程如圖5所示。

（1）預(yù)處理。對紙病圖像進行去噪和圖像分割處理。使用中值濾波去除紙病圖像的多余噪聲，并根據(jù)檢測需要使用的閾值分割劃分出紙病區(qū)域。在分割過程中，形狀較為細長的紙病可能會存在多連通域的情況。因此，本課題利用形態(tài)學(xué)處理方式（膨脹、腐蝕等）去除多余噪點，使這種紙病區(qū)域更為完整。

（2）紙病原特征提取。對紙病圖像進行初步的特征提取操作，主要包括灰度均值、灰度標準差、周長、面積、致密性、矩形度、圓形度及長寬比8個紙病特征，并按順序組成紙病原特征矩陣X。由于紙病類型及特征數(shù)較多，文中僅列出褶皺及劃痕紙病的部分圖片特征數(shù)據(jù)，如表2和表3所示。灰度均值等紙病原特征分別表示為式（1）中的X1，X2，…，X8。

（3）PCA紙病特征再提取。基于步驟（2）所提取出的紙病原特征矩陣X，求出它的協(xié)方差矩陣C，繼而計算出協(xié)方差矩陣C的特征值λ與標準正交特征向量陣u，由特征值比例選擇主成分維數(shù)。由于褶皺與劃痕紙病前4個特征值所占比例分別為97.0832%與97.4305%，所以選擇降維后的紙病特征數(shù)為4。選擇后的褶皺紙病和劃痕紙病的特征值及其對應(yīng)的特征向量陣如表4和表5及表6和表7所示。其中，表6和表7中的每一列分別為式（1）中的ui1，ui2，…，ui8（1≤i≤4），uTX的結(jié)果為降維后的紙病新特征量。這一步完成了紙病特征數(shù)的降維，即將紙病特征數(shù)從8維降為4維。

由表6可知，褶皺紙病新特征3中，灰度均值、矩形度和長寬比的系數(shù)絕對值較大;由表7可知，劃痕紙病新特征3中，灰度均值、灰度標準差、矩形度、面積、圓形度和長寬比的系數(shù)絕對值較大。因此，這些特征值在紙病新特征中占比較大，在重構(gòu)紙病新特征時需重點體現(xiàn)。

（4）紙病類型辨識分類。本課題采用支持向量機（Support Vector Machine，SVM）作為辨識分類器對步驟（3）uTX的結(jié)果進行多分類。首先，實驗針對黑斑、孔洞、亮斑、褶皺、邊裂和劃痕6類紙病進行辨識分類，結(jié)果如表8所示。

基于PCA的紙病特征再提取算法可在去除紙病原特征間相關(guān)性的同時對紙病進行降維操作，保留了原數(shù)據(jù)的絕大部分信息，且脫耦及提升紙病辨識準確率的效果明顯。由表8和表9可知，與傳統(tǒng)方法相比，基于PCA的紙病特征再提取算法的紙病辨識準確率提高了4.40個百分點，運算時間降低了54.6%;對褶皺、劃痕、邊裂此3種特征相似紙病的辨識準確率提高了5.74個百分點，運行時間降低了49.2%。

本課題中，保留的紙病新特征維數(shù)為4，在實際操作過程中，新特征維數(shù)的選擇對最后的辨識結(jié)果也有著一定的影響。因此，新特征的選擇情況會隨著具體情況的不同而發(fā)生改變。

4 結(jié) 語

本課題以含有多種紙病的紙張表面圖像為研究對象，提出了基于主成分分析（PCA）的紙病特征再提取算法，通過構(gòu)建紙病新特征空間，降低了紙病原特征量的維數(shù)，該算法能夠明顯提高紙病辨識的速度，改善相似紙病的檢測精度，在實際的紙病檢測應(yīng)用中具有明顯優(yōu)勢。

參考文獻

[1] HU Nan. A study and reflection on Paper Industry Development Policy[J]. China Pulp & Paper Industry， 2009， 30（4）： 6.

胡楠. 關(guān)于《造紙產(chǎn)業(yè)發(fā)展政策》的學(xué)習(xí)與思考[J]. 中華紙業(yè)， 2009， 30（4）： 6.

[2] ZHOU Xin， ZHANG Feng. Identifying the Source of Sheet Flaws[J]. World Pulp and Paper， 2011， 30（2）： 42.

周信，張鋒. 紙病來源的鑒別[J]. 國際造紙， 2011， 30（2）： 42.

[3] ZHOU Qiang， CHEN Ying， SHEN Tian-yu， et al. Review on Development of Paper Defect Detection System Based on Machine Vision Technology[J]. China Pulp & Paper， 2016， 35（5）： 72.

周強，陳穎，沈天宇，等. 基于機器視覺的紙病檢測系統(tǒng)發(fā)展綜述[J]. 中國造紙， 2016， 35（5）： 72.

[4] Iivarinen J， Heikkinen K， Rauhamaa J， et al. A defect detection scheme for web surface inspection[J]. International Journal of Pattern Recognition and Artificial Intelligence， 2000， 14（6）： 735.

[5] DANG Hong-she， WANG Li， ZHOU Qiang. Design of Paper Defect Extraction System Based on FPGA[J]. Transactions of China Pulp & Paper， 2014， 29（3）： 43.

黨宏社，王黎，周強. 基于FPGA的紙病提取系統(tǒng)的設(shè)計[J]. 中國造紙學(xué)報， 2014， 29（3）： 43.

[6] YANG Bo， ZHOU Qiang， ZHANG Gang-qiang. Study on Algorithm of Paper Defect Detection Based on Geometric and Gray Feature[J]. China Pulp & Paper， 2011， 30（9）： 50.

楊波，周強，張剛強. 基于幾何及灰度特征的紙病檢測算法研究[J]. 中國造紙， 2011， 30（9）： 50.

[7] ZHI Chuan， LIANG Qiao-ping， LU Zhao-qian， et al. Application of principal component analytical method in the evaluation of coated paper performance[J]. China Pulp & Paper Industry， 2010， 31（22）： 53.

智川，梁巧萍，陸趙情，等. 主成分分析法在涂布紙質(zhì)量綜合評價中的應(yīng)用[J]. 中華紙業(yè)， 2010， 31（22）： 53.

[8] PAN Si-lu. The Study of Detection Algorithm of Paper Defects Based on Machine Vison[D]. Xian ： Shaanxi University of Science & Technology， 2016.

潘思璐. 基于機器視覺的紙病檢測算法研究[D]. 西安：陜西科技大學(xué)， 2016.

[9] YUAN Jin-biao， ZHOU Qiang， ZHENG Hai-ying， et al. Paper Defects Offline Static Identification Based on Naive Bayes Classifier[J]. Transactions of China Pulp & Paper， 2014， 29（1）： 58.

院金彪，周強，鄭海英，等. 基于樸素貝葉斯分類器的紙病離線靜態(tài)辨識方法研究[J]. 中國造紙學(xué)報， 2014， 29（1）： 58.

[10] WANG Yong-jun， CHEN WEN-kai， XIONG Zhi-xin， et al. Web Inspection Based on Hough Transform[J]. China Pulp & Paper， 2010， 29（3）： 59.

王勇軍，陳文凱，熊智新，等. 基于Hough變換的紙病檢測分析[J]. 中國造紙， 2010， 29（3）： 59.

[11] Kang Jie， Pan Si-lu， Wang Xiao-dong. Segmentation Algorithm of Paper Defect Images Based on RPCA[J]. Transactions of China Pulp & Paper， 2017， 32（2）： 39.

亢潔，潘思璐，王曉東. 基于RPCA的紙病圖像分割算法[J]. 中國造紙學(xué)報， 2017， 32（2）： 39.

[12] He Xiao-qun. Modern Statistical Analysis Methods and Applications[M].? 3rd Ed. Beijing： China Renmin University Press， 2012： 152.

何曉群. 現(xiàn)代統(tǒng)計分析方法與應(yīng)用[M]. 3版. 北京：中國人民大學(xué)出版社， 2012： 152.

[13] LI Xin-rui. Compare and Application of Principal Component Analysis， Factor Analysis and Clustering Analysis[J]. Journal of Shandong Education Institute， 2007（6）： 23.

李新蕊. 主成分分析、因子分析、聚類分析的比較與應(yīng)用[J]. 山東教育學(xué)院學(xué)報， 2007（6）： 23.

[14] NIE Feng-mei， ZHANG Jun-mei. Paper Disease Detection Based on Machine Vision[J]. Mechanical Engineering & Automation， 2016（2）： 37.

聶鳳梅，張俊梅. 基于機器視覺的紙病檢測[J]. 機械工程與自動化， 2016（2）： 37.

[15] REN Peng. Detection System of Paper Defects Based on Machine Vision and ImplemenTtation with C/C++[D]. Xian： Shaanxi University of Science & Technology， 2013.

任鵬. 基于機器視覺C/C++實現(xiàn)的紙病檢測系統(tǒng)的研制[D]. 西安：陜西科技大學(xué)， 2013.

[16] WANG Wen-bo， CHEN Xiu-zhi. Comparison of Principal Component Analysis with Factor Analysis in Comprehensive Multi-indicators Scoring[J]. Statistics & Information Forum， 2006（5）： 19.

王文博，陳秀芝. 多指標綜合評價中主成分分析和因子分析方法的比較[J]. 統(tǒng)計與信息論壇， 2006（5）： 19.

Abstract：Because of the low accuracy in identification of similar paper defects in traditional paper defect detection and the slow running speed of the system caused by high feature dimension extraction， a PCA-based paper defect feature re-extraction algorithm was proposed. This method took various paper defect images as the research object， PCA was adoped to deal with the dimension reduction of high-dimensional original features that may have correlations and remove their related components so as to form new defect features which were indepen-dent and more representative， so that the data processing amount was reduced. At the same time， the identification accuracy of paper defects could be significantly improved. Experiments showed that the algorithm could significantly improve the accuracy of paper defect identification and the average running time of the system was greatly shortened.

Keywords：paper defect features; feature dimension; principal component analysis; detection algorithm; computation amount

（責(zé)任編輯：楊艷）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于PCA的紙病特征再提取算法研究