国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘的棉纖維馬克隆值等級預(yù)測

2024-12-31 00:00:00尤美路梁回香阿不都熱西提·買買提朱選志張立杰
現(xiàn)代紡織技術(shù) 2024年8期
關(guān)鍵詞:棉纖維

摘 要:為簡化棉纖維檢驗流程,充分利用棉纖維公檢數(shù)據(jù),提出了一種基于LightGBM的棉纖維馬克隆值等級預(yù)測模型。選取9672個棉纖維樣本,對顏色級、斷裂比強度、上半部平均長度等指標進行分析,通過Adaboost、LightGBM和GBDT篩選指標,并用決策樹、隨機森林和LightGBM 3種方法分別建立了馬克隆值等級預(yù)測模型。結(jié)果表明:LightGBM對等級預(yù)測的準確率可達85.7%,較決策樹和隨機森林分別高10.1%和5.8%。反射率、黃色深度、雜質(zhì)顆粒數(shù)等9項棉纖維品質(zhì)指標與馬克隆值等級間存在非線性關(guān)系;LightGBM模型可對棉纖維馬克隆值等級進行預(yù)測,為棉纖維智能檢驗研究提供一定參考。

關(guān)鍵詞:棉纖維;馬克隆值;等級預(yù)測;公檢指標;智能檢驗

中圖分類號:TS102.2

文獻標志碼:A

文章編號:1009-265X(2024)08-0085-06

收稿日期:20231214

網(wǎng)絡(luò)出版日期:20240320

基金項目:新疆自治區(qū)科技重大項目(2022A01008-1)

作者簡介:尤美路(1999— ),女,遼寧綏中人,碩士研究生,主要從事棉紡織技術(shù)方面的研究。

通信作者:張立杰, E-mail:xjzlj@163.com

馬克隆值是反映棉纖維品質(zhì)的重要指標,馬克隆值的檢驗是棉纖維公檢體系的關(guān)鍵一環(huán)。馬克隆值過高或過低會影響纖維成紗質(zhì)量,根據(jù)國家標準GB 1103.1—2012《棉花 第1部分:鋸齒加工細絨棉》,馬克隆值分為A、B、C級,其中B級為標準級,A級最好,C級最差。目前,馬克隆值主要通過氣流儀來檢驗,其原理依據(jù)苛仁納公式及層流理論,檢驗方法包括定流量測壓差和定壓差測流量[1。

Lord[2根據(jù)苛仁納公式,提出了馬克隆值與棉纖維成熟度和線密度的關(guān)系公式,證實了馬克隆值與成熟度和線密度之間存在聯(lián)系。Kim等[3探究成熟度與纖維強度指標的關(guān)系時發(fā)現(xiàn),成熟度是影響強度和伸長率的主要因素。馬克隆值是棉纖維細度和成熟度的綜合反映,也有研究表明馬克隆值與棉纖維其他品質(zhì)指標之間存在很強的相關(guān)性。成廣明等4探討了馬克隆值與棉花回潮率之間的相關(guān)性,證明二者之間存在線性關(guān)系。陳越5對長絨棉纖維指標進行了相關(guān)性研究,發(fā)現(xiàn)馬克隆值與強力指標呈顯著負相關(guān)。張夢陽等6為研究馬克隆值與棉纖維其他品質(zhì)指標間關(guān)系,提出了建立棉纖維透氣性模型的方法。綜上可知,馬克隆值與棉纖維其他性能指標之間存在直接或者間接的關(guān)系。由于影響棉纖維品質(zhì)的指標眾多,在棉花檢驗流程中需要對多種指標進行檢測,然而檢驗得到的指標間具有一定的相關(guān)性,部分指標檢測并非必要。因此,研究棉纖維馬克隆值與其他品質(zhì)指標的關(guān)系,對馬克隆值等級進行預(yù)測,有利于發(fā)展棉纖維智能檢驗,提高棉纖維檢驗效率。

本文探索一種以其他指標來反映馬克隆值的方法,以充分利用棉纖維公檢數(shù)據(jù),簡化棉纖維公檢流程。首先,以棉纖維公檢數(shù)據(jù)為分析對象,采用Adaboost、LightGBM和GBDT篩選指標,然后用決策樹、隨機森林和LightGBM 3種方法建立反映馬克隆值等級的模型,最后對比模型性能,以期為提升棉纖維檢驗效率提供技術(shù)支持。

1 數(shù)據(jù)與方法

1.1 試驗數(shù)據(jù)

本文研究數(shù)據(jù)來自2018—2020年新疆棉纖維公檢數(shù)據(jù),共計9672個數(shù)據(jù)樣本。由于數(shù)據(jù)集中顏色級均為白棉,因此將一級到五級的白棉分別賦值1、2、3、4、5,雜質(zhì)顆粒數(shù)保留至個位,雜質(zhì)面積百分比保留到兩位小數(shù),反射率、黃色深度、上半部平均長度、長度整齊度指數(shù)、斷裂比強度、斷裂伸長率和短纖維率均保留一位小數(shù)。

1.2 試驗方法

采用Adaboost、LightGBM和GBDT對初步選擇指標的重要性進行分析,確定最終選擇指標,再通過決策樹、隨機森林和LightGBM 3種方法對預(yù)測結(jié)果進行比較。

Boosting思想源于由Valiant和Kearns提出的弱學(xué)習算法和強學(xué)習算法的等價性問題[7,Boosting是通過一定的融合規(guī)則將個體學(xué)習器效果不好的算法升級成強學(xué)習器的過程,算法流程圖如圖1所示。對數(shù)據(jù)集進行訓(xùn)練時,首先通過對所有訓(xùn)練樣本賦予相同權(quán)重的方法進行數(shù)據(jù)處理,對生成帶有權(quán)重的子集進行訓(xùn)練,得到弱學(xué)習器。同時,得到學(xué)習結(jié)果與真實值進行對比后,得出學(xué)習誤差率。將誤差率較高的訓(xùn)練集調(diào)整賦予的權(quán)重,讓其在后續(xù)訓(xùn)練學(xué)習的過程中受到重視。通過不斷的學(xué)習訓(xùn)練集以及對權(quán)重進行調(diào)整得到訓(xùn)練后的弱學(xué)習器,最終利用某種組合策略將這些弱學(xué)習器整合起來,形成強學(xué)習器。將測試數(shù)據(jù)集通過強學(xué)習器得到更好的預(yù)測效果。

Boosting算法從提出至今衍生出了諸多算法。例如,F(xiàn)reund和Schapire在1995年提出的Adaboost算法[8,即為Boosting系列的開端算法,具有良好的適應(yīng)性[9;2001年,F(xiàn)riedman[10在Adaboost的基礎(chǔ)上又提出了以CART回歸樹為基學(xué)習器的GBDT算法;2017年,微軟推出了基于GBDT改進的開源的LightGBM算法[11。在GBDT不斷迭代提高學(xué)習器性能的過程中,當前輪次的損失函數(shù)可用式(1)計算:

式中:ht(x)為本輪目標的弱學(xué)習器;Ft-1(x)為上一輪所得的學(xué)習器;L(y,F(xiàn)t-1(x))為損失函數(shù);H為弱學(xué)習器的假設(shè)空間。

通過計算損失函數(shù)的負梯度來擬合本輪損失函數(shù)的近似值,損失函數(shù)的近似值如式(2):

使用平方差近似擬合弱學(xué)習器ht(x)如式(3):

最終生成的當前輪次的強學(xué)習器Ft(x)如式(4):

Ft(x)=ht(x)+Ft-1(x)(4)

GBDT效率高、預(yù)測準確率好,被廣泛應(yīng)用于各領(lǐng)域。但隨著計算復(fù)雜性的提升,GBDT難以平衡效率和準確率。LightGBM基于直方圖思想在內(nèi)存中只保留預(yù)排序結(jié)果和已離散化的特征值,大幅減少了占用的內(nèi)存,因此LightGBM算法具有訓(xùn)練效果好、占用內(nèi)存低和可處理大規(guī)模數(shù)據(jù)等特點。

決策樹由根節(jié)點、內(nèi)部節(jié)點和葉節(jié)點組成,葉節(jié)點表示決策結(jié)果,每個內(nèi)部節(jié)點表示分類項的屬性測試,每個節(jié)點包含的樣本集合根據(jù)屬性測試被劃分到不同子節(jié)點中,根節(jié)點中包含全部樣本數(shù)據(jù)集。從根節(jié)點到每個葉子節(jié)點的路徑對應(yīng)一個測試序列,以自上而下的遞歸方式構(gòu)造決策樹[12。隨機森林是一種集成機器學(xué)習方法,包含多個決策樹的分類器。隨機森林應(yīng)用訓(xùn)練集數(shù)據(jù)來構(gòu)建決策樹,然后從每個決策樹中得到結(jié)果并輸出,再根據(jù)輸出內(nèi)容來投票確定最終分類結(jié)果[13。

試驗環(huán)境為Windows10操作系統(tǒng),主頻為3.4 GHz的intel Corei7—6800KCPU處理器,GTX2080 TiGPU處理器,使用SPSSPRO軟件進行試驗。

2 結(jié)果與討論

2.1 棉纖維各指標數(shù)據(jù)分析與處理

棉纖維公檢數(shù)據(jù)包含顏色級X1、反射率X2、黃色深度X3、雜質(zhì)顆粒數(shù)X4、雜質(zhì)面積百分比X5、上半部平均長度X6、長度整齊度指數(shù)X7、斷裂比強度X8、斷裂伸長率X9和短纖維率X10等10項檢驗指標。對數(shù)據(jù)樣本進行描述性統(tǒng)計分析,結(jié)果如表1所示。

本文數(shù)據(jù)集指標數(shù)據(jù)完整,無缺失值,為了消除各指標數(shù)量級和量綱差異,對數(shù)據(jù)進行歸一化處理,如式(5)所示:

式中:x′表示歸一化處理之后的數(shù)值;x表示歸一化處理之前的數(shù)值;xmax為數(shù)據(jù)最大值xmin為數(shù)據(jù)最小值。

為保證歸一化結(jié)果的穩(wěn)定性,使建立的模型在后續(xù)應(yīng)用過程中具有較高普適性,便于加入需要的新數(shù)據(jù),本文將棉花公檢大數(shù)據(jù)與國家標準GB 1103.1—2012《棉花 第1部分:鋸齒加工細絨棉》中規(guī)定的各項指標的范圍相結(jié)合,從而確定指標的最大值與最小值。按照式(5)處理的數(shù)據(jù)歸一化結(jié)果如表2所示。

2.2 棉纖維指標選擇

初步選定的10個指標雖然都可能對馬克隆值等級預(yù)測模型有貢獻,但也可能存在無關(guān)的、冗余的指標。為消除這些可能存在的無關(guān)的、較冗余的指標,避免產(chǎn)生模型的過擬合及過度復(fù)雜,采用Adaboost、LightGBM和GBDT 3種算法對棉纖維指標數(shù)據(jù)進行特征重要性分析,分析結(jié)果如圖2所示。

由圖2可知,反射率 X2和斷裂伸長率 X9兩項指標在以上3種方法分析中均占有重要比例,雜質(zhì)顆粒數(shù)X4在Adaboost和GBDT方法分析中也占有重要比例,但在LightGBM相對較弱。為了降低不同方法分析結(jié)果間差異帶來的影響,根據(jù)重要性分析占比累積達到90%的指標進行選擇,基于上述3種重要性分析結(jié)果綜合考慮確定與馬克隆值等級相關(guān)的檢驗指標。

對上述3種方法選出的重要性指標構(gòu)建矩陣

其中第1列為Adaboost方法對應(yīng)的10個指標是否被選擇的結(jié)果,第2、3列分別為GBDT和LightGBM進行重要性分析指標被選擇的結(jié)果。對矩陣T中的各行元素求和,選擇得到的值大于等于2的指標為綜合重要性分析的結(jié)果,如第一行對應(yīng)指標X1,第i行對應(yīng)指標Xi。

對X3、X7和X10各行求和,得到對應(yīng)行的和為2,說明黃色深度、長度整齊度指數(shù)和短纖維率這3個指標與馬克隆值等級有著一定的聯(lián)系;X2、X4、X5、X6、X8和X9這6指標對應(yīng)行求和為3,說明反射率、雜質(zhì)顆粒數(shù)、雜質(zhì)面積百分比、上半部平均長度、斷裂比強度和斷裂伸長率與馬克隆值等級存在重要的聯(lián)系。X1指標對應(yīng)行求和為0,由此推斷棉纖維顏色級對馬克隆值等級影響很小。由于棉纖維為中空的橢圓形結(jié)構(gòu)具備對光的反射能力,利用反射率可以體現(xiàn)棉纖維對光的反射程度,因此有關(guān)顏色特征的指標保留反射率和黃色深度。通過重要性分析,雜質(zhì)、長度和強度相關(guān)的7個指標與馬克隆值均有著一定或者重要的聯(lián)系,均保留。因此,最終確定9個指標參與對馬克隆值等級預(yù)測。

2.3 預(yù)測模型結(jié)果分析與對比

用9672個進行歸一化處理后的數(shù)據(jù)為樣本,以樣本中的反射率、黃色深度、雜質(zhì)顆粒數(shù)、雜質(zhì)面積百分比、上半部平均長度、長度整齊度指數(shù)、斷裂比強度、斷裂伸長率和短纖維率為因變量,建立決策樹、隨機森林和LightGBM 3種分類預(yù)測模型,將樣本按比例9∶1劃分為訓(xùn)練集和測試集進行馬克隆值等級預(yù)測。

通過對比3種不同模型的預(yù)測準確率可知,LightGBM明顯好于決策樹和隨機森林。與決策樹相比,LightGBM訓(xùn)練集和測試集準確率分別提高14.5%和10.1%,與隨機森林比,訓(xùn)練集和測試集準確率分別提高12.5%和5.8%,可見LightGBM模型對實現(xiàn)棉纖維馬克隆值等級的預(yù)測具有很好的效果。3種模型準確率對比結(jié)果如表3所示。

分類預(yù)測方法一般以準確率作為檢驗?zāi)P托Ч脑u價指標。但是存在樣本分布不均時,模型將少數(shù)類樣本劃分為多數(shù)類樣本卻對總體準確率影響較小的情況,可見將準確率視為單一評價指標難以反映出分類模型的性能[14。為了進一步驗證模型的有效性,選擇精確率、召回率作為評價指標。精確率和召回率的數(shù)值越高,表示分類模型性能越好,二者都高是一種理想情況,但召回率和精確率相互影響,實際中會存在精確率高、召回率低或者精確率低、召回率高的情況,因此進一步引入F1指標衡量召回率和精確率。F1值是將精確率和召回率賦予相同權(quán)重,根據(jù)式(6)計算調(diào)和平均值:

式中:F表示F1值;P表示精確率;R表示召回率。

3種模型關(guān)于精確率、召回率和F1指標的對比結(jié)果如表4所示。由表4可知,決策樹和隨機森林整體效果較差,決策樹在訓(xùn)練集和測試集中召回率、精確率和F1指標數(shù)值均小于0.8,隨機森林僅測試集中精確率大于0.8,整體效果不佳。LightGBM在訓(xùn)練集中表現(xiàn)出較好的效果,3個度量指標值均在0.9以上,測試集中3個度量指標值也在0.85左右,召回率比決策樹和隨機森林分別提高10.1%和5.8%,精確率比決策樹和隨機森林分別提高10.7%和3.9%,F(xiàn)1比決策樹和隨機森林分別提高11.0%和8.6%。

3 結(jié)論

本文選取9672個棉纖維樣本的品質(zhì)指標,首先采用Adaboost、LightGBM和GBDT分析初步選擇指標的重要性,確定最終選擇指標,最后通過決策樹、隨機森林和LightGBM比較預(yù)測結(jié)果并建立反映馬克隆值等級的模型,結(jié)論如下:

a)通過Adaboost、LightGBM和GBDT 3種方法綜合分析棉纖維檢驗指標,確定反射率、黃色深度、雜質(zhì)顆粒數(shù)、雜質(zhì)面積百分比、上半部平均長度、長度整齊度指數(shù)、斷裂比強度、斷裂伸長率和短纖維率9項指標與馬克隆值等級有著密切的聯(lián)系,存在非線性關(guān)系。

b)對決策樹、隨機森林和LightGBM 3種方法進行比較,驗證非線性機器學(xué)習方法能夠較好地實現(xiàn)馬克隆值等級預(yù)測。LightGBM對等級預(yù)測的準確率可達85.7%,較決策樹和隨機森林分別提升了10.1%和5.8%。表明LightGBM模型對馬克隆值等級預(yù)測結(jié)果最佳。

后續(xù)可嘗試對棉纖維檢驗指標進一步優(yōu)化,達到使用較少指標實現(xiàn)馬克隆值等級的預(yù)測或選擇多種非線性算法對指標進行分析與對比,使馬克隆值等級預(yù)測的準確率進一步提升。

參考文獻:

[1]孫雷,蘇寧馨.棉花檢驗中的馬克隆值測試方法[J].江西化工,2020(4):192-193.

SUN Lei, SU Ningxin. The micronaire test method in cotton inspection[J]. Jiangxi Chemical Industry, 2020(4):192-193.

[2]LORD E. Air flow through plugs of textile fibres part 1: General flow relations[J].Journal of the Textile Institute Transactions,1955,46(3):191-213.

[3]KIM H J, DELHOM C D, RODGERS J E, et al. Effect of fiber maturity on bundle and single-fiber strength of upland cotton[J]. Crop Science, 2019,59(1): 115-124.

[4]成廣明,卞曙強,彭磊,等.棉纖維馬克隆值與棉花回潮率的相關(guān)性研究[J].中國纖檢,2022(5):106-107.

CHENG Guangming, BIAN Shuqiang, PENG Lei, et al. Study on the correlation between micronaire of cotton fiber and moisture regain of cotton[J]. China Fiber Inspection,2022(5):106-107.

[5]陳越.長絨棉纖維性能指標相關(guān)性研究[J].中國棉花加工,2017(5):20-21.

CHEN Yue. Study on the correlation of performance indicators of long-staple cotton fibers[J]. China Cotton Processing, 2017(5):20-21.

[6]張夢陽,陳曉川,汪軍,等.基于ANSYS CFX的棉纖維馬克隆值的建模與仿真[J].紡織學(xué)報,2020,41(7):29-34.

ZHANG Mengyang, CHEN Xiaochuan, WANG Jun, et al. Modeling and simulation of cotton micronaire value based on ANSYS CFX[J]. Journal of Textile Research,2020,41(7):29-34.

[7]KEARNS M,VALIANT L. Cryptographic limitations on learning Boolean formulae and finite automata[J]. Journal of the ACM,1994,41(1):67-95.

[8]FREUND Y, SCHAPIRE R E. A decision theoretic generalization of on-line learning and an application to boosting[J]. Journal of Computer and System Sciences,1997,55(1):119-139.

[9]張誠,張華熊,田秋紅,等.基于Adaboost多特征融合的織物掃描圖案識別[J].現(xiàn)代紡織技術(shù),2016,24(5):25-29.

ZHANG Cheng, ZHANG Huaxiong, TIAN Qiuhong, et al. Fabric scanning pattern recognition based on adaboost multi-feature fusion[J].Advanced Textile Technology,2016,24(5):25-29.

[10]FRIEDMAN J H .Greedy function approximation:A gradient boosting machine[J]. The Annals of Statistics,2001,29(5):1189-1232.

[11]李占山,姚鑫,劉兆賡,等.基于LightGBM的特征選擇算法[J].東北大學(xué)學(xué)報(自然科學(xué)版),2021,42(12):1688-1695.

LI Zhanshan,YAO Xin, LIU Zhaogeng, et al. Feature selection algorithm based on LightGBM [J]. Journal of Northeastern University(Natural Science),2021,42(12):1688-1695.

[12]欒麗華,吉根林.決策樹分類技術(shù)研究[J].計算機工程,2004,30(9):94-96.

LUAN Lihua, JI Genlin. The study on decision tree classification techniques[J].Computer Engineering,2004,30(9):94-96.

[13]方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述[J].統(tǒng)計與信息論壇,2011,26(3):32-38.

FANG Kuangnan,WU Jianbin, ZHU Jianping, et al. A review of technologies on random forests[J].Journal of Statistics and Information,2011,26(3):32-38.

[14]李昂,韓萌,穆棟梁,等.多類不平衡數(shù)據(jù)分類方法綜述[J].計算機應(yīng)用研究,2022,39(12):3534-3545.

LI Ang, HAN Meng, MU Dongliang, et al.Survey of multi-class imbalanced data classification methods[J]. Application Research of Computers, 2022,39(12):3534-3545.

Prediction of cotton fiber micronaire values based on data mining

YOU Meilu1, LIANG Huixiang1, ABUDUREXITI Maimaiti2, ZHU Xuanzhi2, ZHANG Lijie1

(1.School of Textiles and Clothing, Xinjiang University, Urumqi 830046, China; 2.Fiber Quality Monitoring Center of Xinjiang Uygur Autonomous Region, Urumqi 830046, China)

Abstract: "The micronaire value reflects the fineness and maturity of cotton fibers. Research shows that the maturity level affects the physical properties of cotton fibers, and the micronaire also has a strong correlation with other quality indicators of cotton fibers. Although cotton fiber inspection has gradually become instrumented, there are many indicators, and the process is complex. To make full use of the public inspection data, simplify the inspection process, and improve inspection efficiency, this paper considered the potential linear or nonlinear relationship between the physical performance indicators of cotton fibers and studied a model that reflects the micronaire value with other indicators.

This paper first preprocessed the collected data, performed descriptive statistical analysis, and determined the maximum and minimum values in the normalization process. Then, it uses Adaboost, LightGBM, and GBDT algorithms to perform feature selection on the indicators and analyze the importance level. Since there are differences in the analysis results of different methods on each indicator, this paper established a matrix to comprehensively analyze the selection results and finally determined that nine indicators were involved in the establishment of the micronaire value prediction model. These nine indicators are Rd, +b, impurity particle number, impurity area percentage, upper half average length, length uniformity index, breaking strength ratio, breaking elongation ratio, and short fiber rate. Finally, this paper used decision tree, random forest, and LightGBM algorithms to establish the micronaire grade model, and obtained the final result of the model through the evolution process of adjusting parameters and other methods. By comparing the results of the three models, this paper finds that LightGBM has the best result for the micronaire value prediction.

This paper applied the LightGBM algorithm to the micronaire value prediction of cotton fibers, explored the correlation of multiple physical indicators of cotton fibers by data mining methods, used Adaboost, LightGBM, and GBDT methods to comprehensively determine the nine indicators as the basic indicators for the micronaire grade prediction, and established a prediction model with a verification accuracy of 85.7%, which provides theoretical reference for the intelligent inspection of cotton fibers. The follow-up work can further optimize the cotton fiber inspection indicators, use fewer indicators to achieve the micronaire value prediction, or choose multiple nonlinear algorithms to analyze and compare the indicators, and further improve the accuracy of the micronaire value prediction.

Keywords: cotton fiber; micronaire value; grade prediction; inspection indicators; intelligent inspection

猜你喜歡
棉纖維
關(guān)于“雙顯法”對木棉纖維和棉纖維定性鑒別的探討
中國纖檢(2022年8期)2022-09-22 07:28:02
羊毛/腈綸/棉纖維混紡產(chǎn)品定量化學(xué)分析方法探討
包裝材料及存儲環(huán)境對棉纖維質(zhì)量的影響
中國纖檢(2021年5期)2021-11-21 10:17:07
棉纖維蠕變與應(yīng)力松弛行為分析
兩次溶解對棉纖維d值的影響
中國纖檢(2019年12期)2019-11-28 23:44:44
木棉纖維性能及其應(yīng)用進展*
棉纖維變溫紅外光譜研究
木棉/棉混紡產(chǎn)品含量測試技術(shù)研究
ICAC: 全球棉纖維消耗增速放緩
棉纖維長度指標電算化程序設(shè)計
上高县| 罗江县| 财经| 子长县| 康平县| 环江| 韶山市| 安国市| 榆树市| 新龙县| 宣恩县| 黔东| 芜湖市| 西林县| 通辽市| 庆元县| 永州市| 启东市| 漳浦县| 浑源县| 玉田县| 玉环县| 阿尔山市| 阜平县| 九寨沟县| 昌宁县| 崇左市| 安远县| 剑川县| 西藏| 抚顺县| 铅山县| 阿瓦提县| 上林县| 延边| 东宁县| 安岳县| 吉木萨尔县| 县级市| 黄平县| 新乡县|