魏靜雯,錢蕓生,曹 揚
(南京理工大學 電子工程與光電技術學院,江蘇 南京 210094)
K2CsSb 光陰極因其高靈敏度、低暗電流,能夠在可見光波段內(nèi)快速響應的特性,普遍使用在光電倍增管的制作中。采用該種陰極的光電倍增管廣泛應用于高能物理、分析儀器、醫(yī)療儀器、石油勘探和核爆檢測等領域。目前國內(nèi)外生產(chǎn)K2CsSb光陰極光電倍增管的廠家包括日本Hamamatsu 公司、英國Electron Tube 公司和國內(nèi)的多家公司,諸如北方夜視科技(南京)研究院有限公司、中國電子科技集團公司第五十五研究所和北京中核控制系統(tǒng)工程有限公司等。長期以來,人們普遍認為K2CsSb 光陰極量子效率的理論極限為26%。直到2010 年,日本Hamamatsu 公司改進的新型Ultra Bialkali(UBA)和Super Bialkali(SBA)光陰極問世,其中UBA 的量子效率高達42%[1]。近年來,國內(nèi)對光電倍增管的需求逐漸增大[2],促使其工藝提升,但相較于濱松公司的產(chǎn)品,其性能仍有一定差距,因此國內(nèi)雙堿陰極的制作水平亟待提高。
目前國內(nèi)常用的K2CsSb 光陰極制備方式已實現(xiàn)自動化,且隨著自動制備技術的不斷完善,由計算機控制所帶來的穩(wěn)定性和精確度方面的提升已接近極限。同時,因其制備工藝仍為固定模式,自動制備的陰極性能也逐漸達到瓶頸。當前制備工藝優(yōu)化僅依靠人工總結(jié)經(jīng)驗的方式進行,面對海量數(shù)據(jù)人工無法充分提取其中特征。且在制備過程中無法根據(jù)當前陰極生長狀態(tài)動態(tài)調(diào)節(jié)工藝參數(shù)設置,因此K2CsSb 光陰極制備生產(chǎn)應向智能化轉(zhuǎn)變。K2CsSb 光陰極的制作工藝復雜。自該種陰極被發(fā)現(xiàn)以來,國內(nèi)外眾多學者提出了多種制備方法,其大多為以沉積或蒸發(fā)的方式在清潔的玻璃基底上附著K、Sb、Cs[3-7],并在此過程中采用人眼觀察光陰極顏色或?qū)崟r監(jiān)控光電流、反射率變化的方式來判斷當前光陰極生長狀況[8],并以此來指導下一步操作。在上述監(jiān)控方式中,由于反射率可表征陰極膜厚以及膜層增長速率等特征[9],能夠直觀反映光陰極當前的生長狀態(tài),故實時反射率值在制備高性能K2CsSb 光陰極的過程中十分重要。2017 年,孫建寧等人提出一種根據(jù)反射率理論指導K2CsSb 光陰極制備的方法[10],并且通過實驗證明了不同反射率曲線的走勢會對K2CsSb 量子效率產(chǎn)生影響。
K2CsSb 光陰極制備中的反射率數(shù)據(jù)往往具有較強的時序特性,不同時刻之間的反射率數(shù)據(jù)相互聯(lián)系,且聯(lián)合堿源電流相關工藝數(shù)據(jù)隨制備過程形成龐大的關聯(lián)型數(shù)據(jù)集。這些時序數(shù)據(jù)為機器學習、深度學習的應用創(chuàng)造了條件。其中,用于捕捉時序變化特征的長短期記憶(long short-term memory, LSTM)網(wǎng)絡與反射率預測問題高度契合?;诖?,本文提出一種基于LSTM 的反射率預測模型,旨在根據(jù)前序制備過程工藝參數(shù)預測下一時刻反射率,以達到預判當前陰極生長狀態(tài)并根據(jù)目標反射率曲線走勢動態(tài)調(diào)整堿源電流等工藝參數(shù)的目的。該模型對日后建立完整性能導向的智能K2CsSb 光陰極制備奠定技術基礎。
K2CsSb 光陰極制備工藝常見流程為先蒸K,當玻璃殼內(nèi)充滿K 蒸汽后再進行與Sb 的同步蒸發(fā),形成K3Sb 膜層,最后蒸Cs 形成K2CsSb 膜層[11]。本文認為在Cs 蒸鍍過程中,K3Sb 中的每3 個K 原子中有一個會被Cs 原子取代,形成K2CsSb 電子發(fā)射層/增透層/玻璃基底的3 層薄膜結(jié)構(gòu)。
圖1 給出K2CsSb 光電陰極結(jié)構(gòu)模型。假設光束從折射率為n0的空氣中垂直入射至K2CsSb 光電陰極系中,每個膜層的折射率分別記為n1、n2和n3,最后光束出射到折射率為n4的真空環(huán)境中。本陰極結(jié)構(gòu)的反射率R計算公式由文獻[12]給出:
圖1 K2CsSb 光電陰極結(jié)構(gòu)模型Fig. 1 Structure model of K2CsSb photocathode
由(1)、(2)式可知,透射式陰極的反射率只與入射光波長、入射角度、入射介質(zhì)折射率、陰極復折射率以及陰極膜厚有關。制備過程中單色光入射角始終為 0?,豎直照射在陰極表面;此外,在入射光波長單一的情況下,陰極折射率和消光系數(shù)為固定參數(shù)[13]。綜上所述,K2CsSb 光陰極制備過程中的反射率變化僅與陰極厚度相關。
反射率預測模型共由3 個部分組成,分別為輸入模型時的數(shù)據(jù)預處理、網(wǎng)絡的訓練以及模型輸出的預測值。
整個預測結(jié)構(gòu)如圖2 所示。其中預處理模塊主要對堿源電流數(shù)據(jù)與反射率相關數(shù)據(jù)進行篩選及處理,以適應網(wǎng)絡的輸入。模型訓練模塊用于實現(xiàn)網(wǎng)絡的搭建、自適應學習網(wǎng)絡參數(shù)和模型的保存;預測模塊輸出當前反射率的預測值,用于對比評估模型預測效果。
圖2 反射率預測模型結(jié)構(gòu)圖Fig. 2 Structure diagram of reflectivity prediction model
在搭建深度學習模型時,高質(zhì)量的輸入數(shù)據(jù)對模型的性能提升至關重要。由于原始數(shù)據(jù)采集時具有波動、信號丟失以及錯誤讀取等情況出現(xiàn),故需要對數(shù)據(jù)集進行數(shù)據(jù)清洗、篩選以及標準化等操作[14]。
本文使用的數(shù)據(jù)集由反射率監(jiān)控系統(tǒng)采集得到,包括不同時刻堿源電流的設定值及真實值、反射率曲線斜率值、反射率值以及信號采集值,樣本量為26 535 條。訓練集和測試集按照7∶3 進行劃分,首先用大批量的數(shù)據(jù)進行模型訓練,之后用測試集進行驗證。
2.1.1 數(shù)據(jù)清洗
對于數(shù)據(jù)集中數(shù)據(jù)缺失、數(shù)據(jù)異常的情況,需要分類進行處理。
1) 數(shù)據(jù)缺失
由于反射率值為模型預測的目標特征,對于反射率值缺失的情況,該條數(shù)據(jù)采取直接刪除的方式。對于其余特征缺失,若特征缺失數(shù)量大于2 條,則仍采用直接刪除的方法;基于反射率時序變化高度相關的特征,若特征缺失數(shù)量小于或等于2 條則可直接填補為上一時刻的特征值。
2) 數(shù)據(jù)異常
若異常值為反射率值,則直接刪除該條數(shù)據(jù);若異常值為其余特征,則直接替換為上一時刻特征值。
2.1.2 數(shù)據(jù)篩選
在模型訓練的過程中,過多的輸入特征會導致訓練速度的降低,對無需關注的特征給予關注會對模型的預測精度造成影響,所以數(shù)據(jù)篩選亦是數(shù)據(jù)預處理中關鍵的一步。圖3 為數(shù)據(jù)集特征熱力圖,各個特征的相關性系數(shù)顯示在對應方格中。從圖3 中可看出,堿源設定電流值和真實電流值高度相關,由于堿源蒸發(fā)真實電流值相比于設定值的離散程度更高,故舍去設定電流值,而反射光采集的信號值與反射率值的相關性系數(shù)較低可直接忽略。最終模型的輸入?yún)?shù)包括:實際堿源電流值、反射率曲線斜率以及反射率參數(shù)。
圖3 數(shù)據(jù)集特征熱力圖Fig. 3 Thermodynamic diagram of dataset feature
2.1.3 數(shù)據(jù)標準化
不同屬性不同量級的數(shù)據(jù)若直接輸入,會對模型造成一定程度的影響,主要表現(xiàn)為:量級較大的特性屬性會占據(jù)主導地位且易導致迭代收斂速度的減慢。故需要對多維特征進行標準化操作,將數(shù)據(jù)縮放到某個指定范圍。本文采用基于原始數(shù)據(jù)的均值和標準差進行的Z-score 標準化操作:
2.1.4 序列化重構(gòu)
由于反射率數(shù)據(jù)之間存在時間相關性,故模型需要的輸入數(shù)據(jù)需為時間序列。由上位機采集到的K2CsSb 光陰極制備中的過程參數(shù)已為時間序列,只需對數(shù)據(jù)集進行序列化重構(gòu)即可。采用長度為L的滑動窗口對數(shù)據(jù)集D進行重構(gòu)成為新數(shù)據(jù)集Dnew,每次向下滑動的時間長度為1,如圖4 所示。實驗發(fā)現(xiàn)L取值為5 時模型的準確率最高。
圖4 數(shù)據(jù)集序列化重構(gòu)Fig. 4 Diagram of dataset serialization reconstruction
2.2.1 LSTM 模型概述
針對于反射率數(shù)據(jù)在時序上具有高度連續(xù)性的特征,本文采用LSTM 搭建反射率預測模型。傳統(tǒng)RNN 網(wǎng)絡雖具有時間特性,但存在長跨度依賴問題,后序節(jié)點對于時間跨度大的前序節(jié)點的信息感知能力較弱,多階段的反向傳播后會導致梯度消失、梯度爆炸[15]。而LSTM 利用門控機制很好地控制了信息的流通和損失[16]。如圖5(a)所示,LSTM 引入了3 個門限:輸入門it、遺忘門ft、輸出門ot, 其中,輸入門it決定信息存入當前細胞態(tài)的比例;遺忘門ft選擇性遺忘細胞態(tài)中的信息;輸出門ot選擇性地輸出信息。此外,該模型還引入了表征長期記憶的細胞態(tài)Ct和等待存入長期記憶的候選態(tài)C~t。
圖5 LSTM 計算原理及單元結(jié)構(gòu)圖Fig. 5 LSTM calculation principle and unit structure diagram
2.2.2 模型架構(gòu)
數(shù)據(jù)經(jīng)過預處理后,模型的輸入?yún)?shù)需轉(zhuǎn)化為張量以適應LSTM 的輸入維度。表1 列出了LSTM模型的輸入輸出維度及參數(shù)量。數(shù)據(jù)集經(jīng)過序列化重構(gòu)后,5 條數(shù)據(jù)作為一個樣本,每個樣本包含5 列數(shù)據(jù),初始輸入維度為(5, 5),模型輸出為反射率預測值。由圖5(b)可知,單層LSTM 網(wǎng)絡中有4 個線性變換,包括3 個門控和1 個tanh層,而每個線性變換相當于2 層全連接網(wǎng)絡。假設輸入維度為dx, 輸出維度為dh,全連接網(wǎng)絡第1 層的維度為dx+dh, 第2 層即為輸出層,維度為dh,則該網(wǎng)絡的參數(shù)量為
表1 網(wǎng)絡組成和參數(shù)量Table 1 Composition of network structure and the number of parameters
陰極反射流程監(jiān)控裝置可實現(xiàn)60 路反射率監(jiān)控,為陰極制備過程中大量數(shù)據(jù)信息的采集提供便利。該裝置由反射率監(jiān)控光學系統(tǒng)、反射率監(jiān)控探測組件、反射率信號控制處理系統(tǒng)、堿源電源系統(tǒng)以及機械結(jié)構(gòu)件組成,圖6 為系統(tǒng)結(jié)構(gòu)圖。
圖6 反射率監(jiān)控系統(tǒng)結(jié)構(gòu)圖Fig. 6 Structure diagram of reflectivity monitoring system
堿源電源系統(tǒng)向堿源提供恒流供電,光學系統(tǒng)中的光纖由2 簇組成,單色激光光源發(fā)出調(diào)制光經(jīng)由其中一簇垂直入射至待測陰極表面,反射光經(jīng)由另一簇光纖傳導至對應的光電探測器接收。光電探測器在反射光的作用下,產(chǎn)生微弱的電信號,該信號經(jīng)過信號控制處理系統(tǒng)放大后通過串口傳輸給上位機,在軟件中實現(xiàn)采集和處理等操作。
實驗環(huán)境處理器為Intel(R) Core(TM) i7-10 710U,GPU 型號為NVIDIA GeForce MX350,顯存為2 GB,深度學習開發(fā)環(huán)境為Pycharm+Tensorflow2.6.0,實驗模型參數(shù)如表2 所示。
表2 實驗模型參數(shù)Table 2 Parameters of experimental model
對于具有時間記憶特性的循環(huán)神經(jīng)網(wǎng)絡,序列長度對模型準確率的影響不可忽視。本節(jié)將討論不同序列長度對模型準確率的影響,實驗使用同一數(shù)據(jù)集。本文以8 個不同序列長度作為單一變量進行模型訓練及預測,最終準確率如表3 所示。
通過對比表3 列出的相關數(shù)據(jù)可以發(fā)現(xiàn),反射率預測準確率并不與序列長度呈簡單正反相關趨勢,步長為5 時準確率達到峰值。從圖7 中可看出,在前期序列長度增加時,模型準確率總體呈上升趨勢,達到峰值后準確率開始下降且此時訓練時長大幅增加,隨后訓練時長趨于穩(wěn)定,準確率呈上升再回落的趨勢。
表3 序列長度對準確率和訓練時間的影響Table 3 Effect of sequence length on accuracy and training time
圖7 序列長度與準確率和訓練時間趨勢圖Fig. 7 Trend chart of sequence length, accuracy and training time
小范圍內(nèi)的序列長度增加,可增加輸入?yún)?shù)的維度,從而提高模型的學習能力;而時間序列過長后會導致訓練時長的增加,且易造成數(shù)據(jù)冗余,對模型準確率產(chǎn)生負面貢獻。綜合表3 數(shù)據(jù),序列長度取5 較為合適。
本節(jié)將2 種模型下不同層數(shù)的訓練結(jié)果進行對比,探討其對模型準確率的影響。本節(jié)對比方式為:將同一數(shù)據(jù)集輸入模型,采用BP 神經(jīng)網(wǎng)絡和LSTM 網(wǎng)絡,每種模型分為3 種不同的網(wǎng)絡層數(shù)對比預測準確率。
從表4 可看出,BP 神經(jīng)網(wǎng)絡由于不具有時間記憶特性,其預測準確率明顯低于LSTM 網(wǎng)絡。通常情況下,網(wǎng)絡較為簡單時,因其內(nèi)部神經(jīng)元層數(shù)較少,學習深度不夠,此時的準確率較低;網(wǎng)絡過于復雜時,網(wǎng)絡層數(shù)偏多,學習能力增強的同時易造成欠擬合,準確率下降。對于BP 網(wǎng)絡,模型預測準確率隨著層數(shù)增加上升;而對于LSTM 網(wǎng)絡這種復雜循環(huán)記憶網(wǎng)絡來說,3 層疊加已足夠復雜。從表4 中數(shù)據(jù)對比可知,隨著網(wǎng)絡層數(shù)的增加,訓練時間亦會同時增加,層數(shù)為2 時,該模型的準確率更高;而層數(shù)為1 時,模型的準確率較低。由圖8 可看出,3 種模型均在迭代次數(shù)為25 左右時趨于收斂。其中,層數(shù)為2 時,模型的損失值下降最快;層數(shù)為3 時,模型收斂后的損失值波動較大。綜上,本文認為網(wǎng)絡層數(shù)為2 時的LSTM 網(wǎng)絡模型可達到最佳效果。
表4 網(wǎng)絡層數(shù)對準確率和訓練時間的影響Table 4 Effect of network layers on accuracy and training time
圖8 LSTM 網(wǎng)絡不同層數(shù)下的損失值對比Fig. 8 Comparison of loss values under different layers of LSTM network
模型的普適性是衡量一個模型是否合格的重要標準之一。本節(jié)使用3 種不同趨勢的數(shù)據(jù)集與對應的模型預測集進行對比分析,驗證該模型在不同數(shù)據(jù)集下的泛化能力。圖9 為3 種不同趨勢下的預測值和真實值對比圖。
圖9 不同數(shù)據(jù)集下模型預測效果對比Fig. 9 Comparison of model prediction effects under different datasets
由圖9 綜合對比可看出,本模型在3 種不同數(shù)據(jù)集下表現(xiàn)良好,但在急劇上升后的平穩(wěn)階段,模型預測值的波動較大。該問題可歸因于此種變化特征的反射率數(shù)據(jù)在訓練集中所占數(shù)量較少,模型未能完全學習變化的規(guī)律。此外,圖9(b)和圖9(c)在初始階段的預測值也存在小幅度波動。
為了實現(xiàn)K2CsSb 光陰極制備中根據(jù)當前陰極生長狀態(tài)智能調(diào)整工藝參數(shù)以匹配高量子效率反射率曲線走勢,提出了一種基于LSTM 的反射率預測模型。LSTM 算法可充分提取數(shù)據(jù)中的時間與空間信息,提高神經(jīng)網(wǎng)絡的學習能力。通過實驗表明,反射率序列存在短期的時間相關性,序列長度為5、網(wǎng)絡層數(shù)為2 時模型的準確率最高,為99.21%,過長的時間序列或過多的網(wǎng)絡層數(shù)會造成訓練時間的增加且導致準確率下降。本模型在不同數(shù)據(jù)集下表現(xiàn)良好,但仍存在部分階段預測數(shù)據(jù)波動的情況,后續(xù)可考慮增加數(shù)據(jù)集、改進網(wǎng)絡結(jié)構(gòu)的方式對此問題進行優(yōu)化。