国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

離散傅立葉變換用于非連續(xù)工業(yè)數(shù)據(jù)分析

2020-10-22 02:27:54孫學輝孫培健邵學廣
分析化學 2020年10期
關(guān)鍵詞:質(zhì)量指標定量重構(gòu)

孫學輝 趙 冰 駱 震 孫培健 彭 斌 聶 聰* 邵學廣

1(中國煙草總公司鄭州煙草研究院, 鄭州 450001) 2(河南中煙工業(yè)有限責任公司, 鄭州 450000) 3(南開大學化學學院, 分析科學研究中心, 天津 300071)

1 引 言

隨著大數(shù)據(jù)時代的來臨,科學研究、工業(yè)生產(chǎn)、商務(wù)活動等諸多領(lǐng)域均出現(xiàn)了大規(guī)模的數(shù)據(jù)增長,如何通過大數(shù)據(jù)的挖掘和應(yīng)用產(chǎn)生新的知識和價值已經(jīng)成為高度關(guān)注的熱點[1,2]。當前,很多行業(yè)和領(lǐng)域都涉及到了大數(shù)據(jù)問題,例如利用商業(yè)大數(shù)據(jù)進行消費者行為模式的研究,利用醫(yī)療大數(shù)據(jù)進行疾病診斷新方法的研究等等。大數(shù)據(jù)的突出特點是數(shù)量大、產(chǎn)生速度快、數(shù)據(jù)類型多樣和價值密度較低,必須通過數(shù)據(jù)的深度挖掘才能得到其高的價值,但同時也給數(shù)據(jù)的分析帶來了挑戰(zhàn)。

在化學測量學領(lǐng)域,大數(shù)據(jù)也越來越受到重視[3,4]?;瘜W測量技術(shù)和儀器的發(fā)展使得化學測量數(shù)據(jù)迅速增長,已經(jīng)難以使用常規(guī)的統(tǒng)計分析方法直接進行處理。因此,用于大數(shù)據(jù)分析的化學計量學方法得到發(fā)展,建立了針對高維、多類型、時間序列等數(shù)據(jù)的分析方法[5]。這些方法多為傳統(tǒng)的化學計量學方法,如多元統(tǒng)計、多元校正與建模、多元分辨與模式識別等,但在實際應(yīng)用過程中,往往與信號處理、變量選擇、優(yōu)化算法、數(shù)據(jù)融合等方法聯(lián)合,用于相關(guān)分析、定量預測、聚類分析與判別分析等,其中基于不同原理的數(shù)據(jù)分割、樣本壓縮、分布式計算與共識策略相結(jié)合等技術(shù)在巨量數(shù)據(jù)的分析中發(fā)揮了重要作用。同時,基于核函數(shù)變換的主成分分析和偏最小二乘算法為大數(shù)據(jù)分析提供了基礎(chǔ)算法[6,7]。

近年來,深度學習在大數(shù)據(jù)分析中的應(yīng)用日益增加。2019年,Belthangady等[8]對于深度學習在圖像恢復和超高分辨成像分析中的應(yīng)用進行了綜述,介紹了深度學習應(yīng)用于圖像重建的最新研究進展,同時也對深度學習面臨的挑戰(zhàn),如訓練數(shù)據(jù)的獲取、未知結(jié)構(gòu)發(fā)現(xiàn)的可能性、不確定圖像細節(jié)的推斷等進行了評述。隨著深度學習技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)在圖像生成和圖像分析方面得到了應(yīng)用,如體層攝影圖像、磁共振圖像以及熒光顯微成像,廣泛應(yīng)用于圖像修復、卷積與超高分辨率成像、圖像著色(染色)、圖像分割、聚類分析與表型分析等。深度學習在光譜數(shù)據(jù)分析中的應(yīng)用也已有報道,特別是在熒光成像分析、生物醫(yī)學光譜數(shù)據(jù)分析等中的應(yīng)用。有文獻建立了一種基于卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶神經(jīng)網(wǎng)絡(luò)結(jié)合深度學習方法用于單分子熒光成像光漂白事件計數(shù)數(shù)據(jù)的分析,獲得單分子熒光漂白軌跡,改善了計算效率,提高了分析的準確性,并用于蛋白質(zhì)復合物化學計量比的自動預測[9]。在近紅外光譜研究領(lǐng)域,采用卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶神經(jīng)網(wǎng)絡(luò)相結(jié)合建立了一種深度學習方法用于“情感模型”研究[10]。采用功能近紅外光譜測量對人腦血流進行無損檢測,檢測在受到外部刺激時的光譜變化,然后通過所設(shè)計的神經(jīng)網(wǎng)絡(luò)建立光譜變化與響應(yīng)之間的關(guān)系。也有文獻報道了用于建立近紅外光譜定量模型的深度學習方法[11], 設(shè)計了包括三個卷積層和一個全連層的網(wǎng)絡(luò)結(jié)構(gòu),用于4組開放的近紅外光譜數(shù)據(jù)分析,簡化了數(shù)據(jù)處理步驟,計算結(jié)果也得到了明顯改善。

本研究提出了一種工業(yè)生產(chǎn)大數(shù)據(jù)的分析方案與方法。對于間歇式、分批次、由多種原料形成產(chǎn)品的工業(yè)生產(chǎn),產(chǎn)品質(zhì)量的檢測一般按照產(chǎn)品的生產(chǎn)批次進行,而原料的檢驗則按照進貨數(shù)量和時間進行檢驗,無論是檢驗的頻次還是檢驗的時間都不盡相同,產(chǎn)品質(zhì)量的檢驗指標和原料的檢測數(shù)據(jù)之間很難具有一一對應(yīng)關(guān)系。因此,難以建立產(chǎn)品質(zhì)量與原料參數(shù)之間的定量模型。本研究將產(chǎn)品的質(zhì)量指標和原料的檢測數(shù)據(jù)都假定為周期性變化的數(shù)據(jù),采用傅里葉變換(Fourier transform, FT)得到各指標和參數(shù)的頻率信息,并利用逆變換重構(gòu)相對應(yīng)的指標和參數(shù),然后再建立質(zhì)量指標和參數(shù)之間的關(guān)系模型,用于考察各生產(chǎn)原料對產(chǎn)品質(zhì)量的影響。

2 數(shù)據(jù)與分析方法

2.1 數(shù)據(jù)收集

本研究收集了某卷煙生產(chǎn)過程的工業(yè)生產(chǎn)數(shù)據(jù),作為產(chǎn)品的質(zhì)量控制指標,收集了煙氣的常規(guī)成分含量,即焦油、煙氣煙堿、一氧化碳和煙氣總粒相物,分別用y1、y2、y3、y4表示。為了研究質(zhì)量指標與卷煙材料之間的關(guān)系,還收集了煙支物理參數(shù)(煙支重量、煙支吸阻、總通風率)、濾棒參數(shù)(濾棒壓降均值)以及卷煙紙參數(shù)(卷煙紙定量,即每平方米卷煙紙的重量),分別用x1、x2、x3、x4、x5表示。所有指標和參數(shù)均參照國家標準檢測得到,煙氣的常規(guī)成分含量的測試標準分別是GB/T 19609-2004(卷煙用常規(guī)分析用吸煙機測定總粒相物和焦油)、GB/T 23355-2009(卷煙總粒相物中煙堿的測定,氣相色譜法)、GB/T 23356-2009(卷煙煙氣氣相中一氧化碳的測定,非散射紅外法); 煙支重量、煙支吸阻、總通風率和濾棒壓降的測試標準是GB/T 22838-2009(卷煙和濾棒物理性能的測定); 卷煙紙定量的測試標準是GB/T 451.2-2002(紙和紙板定量的測定)。所收集指標和參數(shù)的時間跨度為2013年1月1日到2018年12月31日,但各指標和參數(shù)數(shù)據(jù)的采集日期和數(shù)據(jù)點的多少均不相同,即數(shù)據(jù)之間無法進行一一對應(yīng)。因此,無法直接采用這些數(shù)據(jù)對生產(chǎn)工藝參數(shù)對產(chǎn)品質(zhì)量指標的影響進行研究。本實驗所使用的數(shù)據(jù)中,煙氣成分、煙支物理參數(shù)、濾棒參數(shù)和卷煙紙參數(shù)分別有72、1700、1728和80個數(shù)據(jù),對于每天對同一指標或參數(shù)進行多次檢測的情況,采用了平均值進行計算。涉及的數(shù)據(jù)雖然數(shù)據(jù)量并不是很大,但收集時間跨度為6年,并且數(shù)據(jù)的采樣密度不一, 采樣時間也不同步,因此具備了大數(shù)據(jù)的某些特征。

2.2 計算方法

FT是一種常用的信號分析方法,最常用于周期性信號分析,考察信號中的不同頻率成分。許多波形可作為信號的成分,比如正弦波、方波、鋸齒波等,F(xiàn)T采用正弦波作為信號的成分。連續(xù)FT用于函數(shù)的連續(xù)頻譜分析,而離散傅立葉變換(Discrete Fourier Transform,DFT)是信號分析的基本算法,把信號從時間域變換到頻率域,進而研究信號的頻譜結(jié)構(gòu)和變化規(guī)律。DFT的正、反變換定義為:

(1)

(2)

其中,

(3)

任何連續(xù)測量的離散時序信號x(n)都可以表示為不同頻率的正弦/余弦波信號的無限疊加,通過FT對測量信號進行分析可以得到信號中不同正弦/余弦波信號的頻率、振幅和相位。因此,F(xiàn)T的實質(zhì)是分析信號中的不同頻率成分及它們的相對大小。在實際應(yīng)用中, DFT一般使用快速傅里葉變換(Fast Fourier transform, FFT)算法進行計算,將DFT計算轉(zhuǎn)化為循環(huán)卷積,減少了乘法計算,提高了計算速度。本研究采用MATLAB系統(tǒng)中的FFT函數(shù),使用的是Cooley-Tukey算法[12]。

計算時,首先將各時間上各自獨立的控制指標和工業(yè)生產(chǎn)參數(shù)按照時間順序排列,然后進行傅里葉分析,得到數(shù)據(jù)隨時間的變化規(guī)律,并對數(shù)據(jù)中最主要的頻率成分進行考察,分析各指標和參數(shù)的周期性變化規(guī)律。然后,采用傅里葉逆變換重構(gòu)各指標和參數(shù),得到時間上一一對應(yīng)的指標和參數(shù)值,再利用逐步回歸方法建立指標和參數(shù)之間的多元線性模型,得到對各指標與參數(shù)之間的定量模型。

3 結(jié)果與討論

3.1 數(shù)據(jù)預處理與數(shù)據(jù)分布

數(shù)據(jù)預處理往往是大數(shù)據(jù)分析的第一個步驟,使數(shù)據(jù)分析適用于后續(xù)的計算方法,同時保證數(shù)據(jù)分析與預測結(jié)果的準確性與可靠性, 主要包括數(shù)據(jù)清理(或稱為“數(shù)據(jù)清洗”)、數(shù)據(jù)集成、數(shù)據(jù)歸約與數(shù)據(jù)轉(zhuǎn)換等。本研究的數(shù)據(jù)包括不同的化學測量值和原材料及產(chǎn)品的物理參數(shù),具有不同的量綱,數(shù)值的差異較大。因此首先將數(shù)據(jù)進行了標準化處理,即將各參數(shù)的數(shù)值減去其平均值再除以其標準偏差。同時,本研究的數(shù)據(jù)中各參數(shù)或指標在收集時間上具有較大差異,即數(shù)據(jù)點數(shù)、收集時間、收集密度等都不相同。為了便于時間上的一致性,本研究采用“時間數(shù)”作為時間量度,即采樣時間距公元1年1月1日0時的時間差值,其數(shù)值包括整數(shù)部分和小數(shù)部分,前者表示天數(shù),后者表示時、分、秒等。只采用整數(shù)部分,如2013年1月1日對應(yīng)的數(shù)值是735235,而2018年12月31日的數(shù)值是737425。

圖1是經(jīng)數(shù)據(jù)處理后的5個自變量(過程參數(shù))和4個因變量(質(zhì)量指標)隨時間的變化。首先,各參數(shù)在數(shù)據(jù)量上有很大不同,且采樣時間并不對應(yīng)。其次,某些參數(shù)(如x1、x2、x3、x4)在2018年期間有一段時間的缺失,需要對這些數(shù)據(jù)進行補充才能開展后續(xù)的研究工作。另一方面,該圖展示了生產(chǎn)過程在6年內(nèi)基本穩(wěn)定,但存在著一定的波動或變動,如x2存在階段性的下降現(xiàn)象,x3存在整體上的上升趨勢,而4個質(zhì)量參數(shù)均具有比較明顯的下降趨勢。

圖1 過程參數(shù)(A)和質(zhì)量指標(B)隨時間的變動Fig.1 Variation of production (A) and quality (B) parameters with the date of the detection

3.2 數(shù)據(jù)的周期性分析

為了考察各參數(shù)和指標的周期性變化,分別對各參數(shù)進行了FT。采用DFT得到的系數(shù)如圖2所示。由于各參數(shù)和各指標的結(jié)果具有很高的相似性,圖中只顯示了過程參數(shù)x1和質(zhì)量指標y1的計算結(jié)果。盡管圖1顯示各參數(shù)和指標都具有不同程度的波動,從圖2可以清楚地看出,數(shù)據(jù)的變動無明顯的周期性,兩圖中絕對值最大的系數(shù)占所有系數(shù)的百分比只有0.12%和2.78%。但是與長周期對應(yīng)的前幾個系數(shù)還是相對較大,表明數(shù)據(jù)在6年的時間里仍然具有單調(diào)下降或上升的趨勢以及周期在一年以上級別的周期性變化,說明無論是生產(chǎn)原料還是產(chǎn)品都存在著隨時間逐漸小幅度變化的因素。

3.3 重構(gòu)數(shù)據(jù)與定量模型

為了建立質(zhì)量指標與過程參數(shù)之間的定量關(guān)系模型,采用傅里葉逆變換對所有參數(shù)和指標進行了重構(gòu)計算,對原始數(shù)據(jù)中心缺失的數(shù)據(jù)進行了補充并得到了時間上一一對應(yīng)的過程參數(shù)和質(zhì)量指標數(shù)據(jù)。在重構(gòu)計算中,整個時間跨度(6年)劃分為1000個等間隔的時間點,利用公式(2)計算每個時間點的各參數(shù)和指標的數(shù)值。圖3顯示了重構(gòu)計算的結(jié)果。

通過圖3與圖1的比較可以發(fā)現(xiàn),數(shù)據(jù)隨時間的變化在基本輪廓上保持了一致,說明重構(gòu)數(shù)據(jù)保持了原始數(shù)據(jù)的基本信息。但仔細比較各曲線的細節(jié)可以進一步發(fā)現(xiàn),無論是采樣密度很高的4個參數(shù)(x1、x2、x3、x4)還是采樣密度較低的參數(shù)(x5和y)均得到了平滑處理,既對高密度數(shù)據(jù)中的快速變動進行了平滑, 也對低密度數(shù)據(jù)中由于采用時間間隔不合適帶來的大幅變動進行了修正,在一定程度上增加了數(shù)據(jù)的可用性。同時,重構(gòu)數(shù)據(jù)對原始數(shù)據(jù)中的缺失數(shù)據(jù)進行了有效補充, 因此,數(shù)據(jù)的重構(gòu)達到了提升數(shù)據(jù)質(zhì)量的目的。更為重要的是,高密度數(shù)據(jù)的數(shù)據(jù)點數(shù)得到了縮減,而低密度數(shù)據(jù)的數(shù)據(jù)點數(shù)得到了提高,并且在時間點上一一對應(yīng),為建立質(zhì)量指標和過程參數(shù)之間的定量模型提供了可行的數(shù)據(jù)集。

圖2 過程參數(shù)x1(A)和質(zhì)量指標y1(B)的傅里葉變換系數(shù)Fig.2 Coefficients obtained by Fourier transform of production for parameter x1 (A) and quality for parameter y1 (B), respectively

圖3 過程參數(shù)(A)和質(zhì)量指標(B)的重構(gòu)數(shù)據(jù)Fig.3 Reconstructed data for production for parameter x1 (A) and quality for parameter y1 (B)

表1是基于重構(gòu)數(shù)據(jù)所建立的定量模型及模型的評價參數(shù)。建模采用了基于多元線性回歸的逐步回歸方法,通過對每個自變量參數(shù)在回歸模型中的顯著性進行了刪除。表中模型系數(shù)為0的參數(shù)是指由于置信度大于0.05而被逐步回歸移除的參數(shù),在定量模型中沒有被使用。另外,由于所有參數(shù)和指標均經(jīng)過了標準化處理, 模型的常數(shù)項基本為零(實際計算值均在10-4級別),因此表中沒有列出。RMSE是模型的擬合總誤差,即每個質(zhì)量指標數(shù)據(jù)擬合誤差平方和的均值,數(shù)值越小, 表示模型的質(zhì)量越高。表中的最后一列是模型自預測結(jié)果的平均偏差和最大偏差??梢钥闯觯骄罹?5%,結(jié)合表中的標準偏差數(shù)據(jù)可以進一步說明, 大部分預測結(jié)果的偏差都在可接受的范圍之內(nèi)。因此,所建立的模型具有較好的預測準確性。最大誤差的最大值達到17%,說明還存在個別預測誤差較大的預測結(jié)果,但對實際生產(chǎn)數(shù)據(jù)來說,此結(jié)果仍在可接受的范圍。

表1 質(zhì)量指標與過程參數(shù)之間的定量關(guān)系模型及評價參數(shù)

4 結(jié) 論

工業(yè)生產(chǎn)數(shù)據(jù)往往具有采樣不連續(xù)、數(shù)據(jù)密度差異較大、數(shù)據(jù)缺失或不完整等特點。本研究針對工業(yè)生產(chǎn)數(shù)據(jù)的特點,采用傅里葉變換對數(shù)據(jù)進行預處理,實現(xiàn)了數(shù)據(jù)的平滑、缺失數(shù)據(jù)的補充以及時間上不能對應(yīng)等問題,實現(xiàn)了時間上不能一一對應(yīng)的因變量和自變量之間的模型建立。采用時間跨度為6年的產(chǎn)品質(zhì)量指標、物理指標和原材料的性能指標等數(shù)據(jù),研究了工業(yè)生產(chǎn)數(shù)據(jù)的數(shù)據(jù)分布,進行了數(shù)據(jù)變動的周期性分析,建立了產(chǎn)品質(zhì)量指標與物理指標和原材料性能之間的定量模型,本研究所建立的模型具有較好的預測能力。隨著各行業(yè)的發(fā)展和分析能力的提高,為實際生產(chǎn)服務(wù)的大數(shù)據(jù)分析需求會逐步提升,發(fā)展針對分析測試大數(shù)據(jù)的分析方法具有重要意義。所建立的方法為非連續(xù)采樣的多參數(shù)數(shù)據(jù)分析提供了一種可行的方法,為工業(yè)生產(chǎn)數(shù)據(jù),特別是工業(yè)生產(chǎn)大數(shù)據(jù)的數(shù)據(jù)分析與建模將具有一定的參考價值。

猜你喜歡
質(zhì)量指標定量重構(gòu)
長城敘事的重構(gòu)
攝影世界(2022年1期)2022-01-21 10:50:14
顯微定量法鑒別林下山參和園參
當歸和歐當歸的定性與定量鑒別
中成藥(2018年12期)2018-12-29 12:25:44
北方大陸 重構(gòu)未來
茶葉籽油精煉工藝條件對其質(zhì)量指標的影響
北京的重構(gòu)與再造
商周刊(2017年6期)2017-08-22 03:42:36
10 種中藥制劑中柴胡的定量測定
中成藥(2017年6期)2017-06-13 07:30:35
臨床檢驗檢驗前質(zhì)量指標的一致化
論中止行為及其對中止犯的重構(gòu)
慢性HBV感染不同狀態(tài)下HBsAg定量的臨床意義
平遥县| 灵石县| 紫云| 莱州市| 庆元县| 汝州市| 长兴县| 通州市| 旺苍县| 绥中县| 和顺县| 阳西县| 达孜县| 阜新| 阿拉善右旗| 邳州市| 绍兴市| 永泰县| 白城市| 卢龙县| 图木舒克市| 牟定县| 寿光市| 吉林省| 同仁县| 比如县| 定南县| 象山县| 嘉黎县| 蚌埠市| 民乐县| 桂东县| 固安县| 孟津县| 报价| 宿州市| 惠州市| 墨竹工卡县| 阜新市| 登封市| 衡山县|