汪岸,任帥,苗雪,董玲玉,朱迎,陳丹丹,胡長(zhǎng)軍
北京科技大學(xué),北京 100083
數(shù)值核反應(yīng)堆(以下簡(jiǎn)稱數(shù)值堆)是一種基于超級(jí)計(jì)算機(jī)實(shí)現(xiàn)的軟件系統(tǒng),用于核反應(yīng)堆內(nèi)多物理耦合過(guò)程的高保真數(shù)值模擬和預(yù)測(cè)[1]。數(shù)值堆被當(dāng)成實(shí)際反應(yīng)堆“外在”和“內(nèi)在”的鏡像,可以支撐包括反應(yīng)堆的設(shè)計(jì)、建筑安裝、運(yùn)行、退役等過(guò)程在內(nèi)的全周期從微觀機(jī)理到宏觀現(xiàn)象的研究。數(shù)值堆在運(yùn)行中涉及的大量數(shù)據(jù)通常有兩種用途:一是用于建模優(yōu)化,即作為耦合計(jì)算的中間數(shù)據(jù),輔助模型的建立和改進(jìn);二是用于科學(xué)發(fā)現(xiàn),即作為研究分析的原始數(shù)據(jù),獲取對(duì)材料、機(jī)理的認(rèn)識(shí)。
這些數(shù)據(jù)在數(shù)值堆這一復(fù)雜的多物理場(chǎng)模擬系統(tǒng)中流動(dòng),且進(jìn)行精細(xì)計(jì)算,可以輕易產(chǎn)生PB級(jí)的數(shù)據(jù)量,因此在存儲(chǔ)上要借助高吞吐、高并發(fā)的并行文件系統(tǒng),在計(jì)算上要依賴高性能、高可用的處理器資源。在不同計(jì)算尺度、不同服役環(huán)境下,數(shù)據(jù)雖然體現(xiàn)為不同的含義、形式,但是它們都屬于與核反應(yīng)堆相關(guān)的計(jì)算數(shù)據(jù),相互之間存在緊密的關(guān)聯(lián)。從計(jì)算的部分來(lái)看,數(shù)值堆是核反應(yīng)堆各種物理過(guò)程及其耦合模擬的算法實(shí)現(xiàn),其中各過(guò)程通過(guò)計(jì)算數(shù)據(jù)相連;從數(shù)據(jù)的部分來(lái)看,數(shù)值堆是核反應(yīng)堆各種計(jì)算數(shù)據(jù)的關(guān)聯(lián)和相互轉(zhuǎn)換,其中各數(shù)據(jù)通過(guò)物理過(guò)程相連。
數(shù)值核反應(yīng)堆大數(shù)據(jù)就是數(shù)值堆運(yùn)行過(guò)程中涉及的數(shù)據(jù)總和。作為數(shù)值堆的關(guān)鍵組成部分,數(shù)值核反應(yīng)堆大數(shù)據(jù)具有兩方面不可忽視的重要作用:對(duì)“內(nèi)”,它為工程人員提供了形式復(fù)雜、關(guān)聯(lián)緊密的計(jì)算數(shù)據(jù),對(duì)其關(guān)聯(lián)性的研究可用于改進(jìn)數(shù)值堆的模擬性能;對(duì)“外”,它為科研人員提供了大量可供進(jìn)一步挖掘分析的模擬數(shù)據(jù),其中可能蘊(yùn)含著有關(guān)核反應(yīng)堆材料、物理化學(xué)機(jī)理的新認(rèn)識(shí)。大數(shù)據(jù)技術(shù)的引入使數(shù)值核反應(yīng)堆大數(shù)據(jù)的價(jià)值比以往更清晰地呈現(xiàn)出來(lái),從而為發(fā)揮數(shù)值核反應(yīng)堆大數(shù)據(jù)對(duì)“內(nèi)”和對(duì)“外”的作用奠定了基礎(chǔ)。
本文提出了數(shù)值核反應(yīng)堆大數(shù)據(jù)的概念,闡述了數(shù)值堆大數(shù)據(jù)最重要的特點(diǎn)。從這些特點(diǎn)出發(fā),引出了不同于傳統(tǒng)數(shù)值堆模擬的研究方向,也就是基于數(shù)據(jù)的建模優(yōu)化和科學(xué)發(fā)現(xiàn)。以中國(guó)數(shù)值反應(yīng)堆原型系統(tǒng)(China virtual reactor 1.0,CVR1.0)[2]為研究對(duì)象,本文論述了基于數(shù)值堆大數(shù)據(jù)的研究方向及成果,有力地證明了數(shù)據(jù)自身價(jià)值、數(shù)據(jù)與數(shù)據(jù)的關(guān)聯(lián)性對(duì)數(shù)值堆研究的推動(dòng)作用。
隨著計(jì)算機(jī)硬件水平的發(fā)展及核反應(yīng)堆數(shù)據(jù)的積累,已有研究中利用機(jī)器學(xué)習(xí)、人工智能等技術(shù)手段對(duì)數(shù)值核反應(yīng)堆大數(shù)據(jù)進(jìn)行的挖掘分析著重于兩個(gè)方面的研究工作:一是優(yōu)化模擬模型,二是基于數(shù)據(jù)的挖掘分析進(jìn)行科學(xué)發(fā)現(xiàn)。
數(shù)據(jù)驅(qū)動(dòng)的建模優(yōu)化就是利用數(shù)值堆大數(shù)據(jù)改進(jìn)數(shù)值堆的各種數(shù)值算法,具體涉及對(duì)整個(gè)計(jì)算模型或模型中部分模塊的改進(jìn)、替換,以及利用數(shù)據(jù)進(jìn)行工況預(yù)測(cè)或模型計(jì)算。
(1)整個(gè)計(jì)算模型的改進(jìn)和替換研究
改進(jìn)、替換整個(gè)數(shù)值計(jì)算方法的研究重點(diǎn)集中在建立計(jì)算過(guò)程中輸入與輸出的非線性關(guān)系。例如,在中子學(xué)的研究中,基于細(xì)胞神經(jīng)網(wǎng)絡(luò)求解簡(jiǎn)單平板幾何上的中子輸運(yùn)方程[3];將基于人工神經(jīng)網(wǎng)絡(luò)的偏微分求解方法應(yīng)用于非線性源擴(kuò)散[4]、中子點(diǎn)動(dòng)力學(xué)[5]、輻射輸運(yùn)[6]、一般非線性偏微分方程求解[7-8]等許多與數(shù)值堆相關(guān)的問(wèn)題中。在計(jì)算流體力學(xué)(computational fluid dynamics,CFD)的研究中,利用基于小樣本集的機(jī)器學(xué)習(xí)方法解決數(shù)據(jù)價(jià)值密度低的問(wèn)題及求解流體力學(xué)的Navier-Stokes方程[9]。上述研究工作極大地節(jié)省了求解復(fù)雜方程所需的計(jì)算資源,但在比較復(fù)雜、缺少樣本的幾何條件下仍然難以達(dá)到理想效果。
(2)模型部分模塊的改進(jìn)研究
在模型的部分模塊、算法中也可以基于數(shù)據(jù)驅(qū)動(dòng)提出改進(jìn)策略。例如,在計(jì)算流體力學(xué)的研究中,以核反應(yīng)堆大數(shù)據(jù)為驅(qū)動(dòng)修正現(xiàn)有湍流模型的經(jīng)驗(yàn)系數(shù)[10];利用深度神經(jīng)網(wǎng)絡(luò)從高精度模擬數(shù)據(jù)中學(xué)習(xí)雷諾應(yīng)力各向異性張量模型[11];利用監(jiān)督學(xué)習(xí)算法建立湍流模型中的閉包項(xiàng),并將閉包項(xiàng)插入計(jì)算流體力學(xué)數(shù)值模擬中,以得到更好的湍流物理表示[12];通過(guò)訓(xùn)練卷積網(wǎng)格來(lái)預(yù)測(cè)任意給定幾何的最優(yōu)網(wǎng)格密度,加速最優(yōu)網(wǎng)格的生成[13]。在材料勢(shì)函數(shù)的研究中,通過(guò)機(jī)器學(xué)習(xí)對(duì)勢(shì)函數(shù)庫(kù)進(jìn)行學(xué)習(xí),開(kāi)發(fā)用于勢(shì)函數(shù)計(jì)算的機(jī)器學(xué)習(xí)模型,該模型可以在保證勢(shì)函數(shù)精度的基礎(chǔ)上將計(jì)算時(shí)間減少幾個(gè)數(shù)量級(jí)[14-15];將勢(shì)函數(shù)機(jī)器學(xué)習(xí)模型和分子動(dòng)力學(xué)(molecular dynamics,MD)模擬軟件LAMMPS集成起來(lái),擴(kuò)大原有計(jì)算規(guī)模[16]。上述研究工作通過(guò)對(duì)部分模塊或算法進(jìn)行改進(jìn)來(lái)達(dá)到優(yōu)化模型整體的目的。
(3)工況預(yù)測(cè)或模型數(shù)據(jù)研究
還有許多研究集中在利用實(shí)驗(yàn)數(shù)據(jù)、設(shè)備數(shù)據(jù)直接進(jìn)行工況預(yù)測(cè),或者為數(shù)值堆提供計(jì)算數(shù)據(jù)。例如,在中子物理計(jì)算方面,基于人工神經(jīng)網(wǎng)絡(luò)的方法可用于中子深度剖面分析[17]及中子能譜解譜[18]。在計(jì)算流體力學(xué)方面,自聯(lián)想神經(jīng)網(wǎng)絡(luò)可用于核電站在線監(jiān)測(cè)及傳感器校驗(yàn)技術(shù)構(gòu)建[19];支持向量機(jī)模型與多元狀態(tài)估計(jì)方法可用于核電站的運(yùn)行工況估計(jì)[20];改進(jìn)徑向基函數(shù)網(wǎng)絡(luò)模型和遺傳算法可用于核電站瞬態(tài)工況診斷識(shí)別技術(shù)的構(gòu)建[21];利用機(jī)器學(xué)習(xí)等進(jìn)行棒束子通道熱工水力特性的預(yù)測(cè)[22]。上述研究不依賴對(duì)實(shí)際物理過(guò)程的理解,且訓(xùn)練數(shù)據(jù)充足,能被廣泛應(yīng)用。
基于數(shù)據(jù)的挖掘分析進(jìn)行科學(xué)發(fā)現(xiàn)是數(shù)值核反應(yīng)堆大數(shù)據(jù)研究的重要目標(biāo)之一。近幾年,機(jī)器學(xué)習(xí)算法已被有效地用于材料和分子的原子尺度模 擬[23-24],應(yīng)用領(lǐng)域包括探索結(jié)構(gòu)與屬性之間的關(guān)系以及模式匹配,以指導(dǎo)材料設(shè)計(jì)和預(yù)測(cè)新化合 物[25-26]。隨著計(jì)算能力不斷增長(zhǎng),模擬生成的數(shù)據(jù)越來(lái)越多,使用機(jī)器學(xué)習(xí)從數(shù)據(jù)中提取知識(shí)變得越來(lái)越重要[27]。無(wú)監(jiān)督機(jī)器學(xué)習(xí)算法可用于數(shù)據(jù)模式的探索、可視化和分類,而無(wú)須訓(xùn)練樣本(具有相應(yīng)輸出值或類別標(biāo)簽的樣本輸入),它已被有效地應(yīng)用于材料和分子科學(xué)領(lǐng)域[28-29]。然而,無(wú)監(jiān)督學(xué)習(xí)在輻照損傷研究領(lǐng)域的應(yīng)用仍然處于起步階段。由國(guó)際原子能機(jī)構(gòu)(International Atomic Energy Agency,IAEA)開(kāi)發(fā)的建立級(jí)聯(lián)碰撞MD模擬的開(kāi)源標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù)CascadesDB[30]為這個(gè)方向上的未來(lái)工作奠定了基礎(chǔ)。例如,基于該數(shù)據(jù)庫(kù),利用聚類的方法開(kāi)展對(duì)MD級(jí)聯(lián)碰撞數(shù)據(jù)的分析研究[31-32]。針對(duì)點(diǎn)缺陷分析,傳統(tǒng)的方法無(wú)法區(qū)分基于點(diǎn)缺陷的聚類[33]。例如,傳統(tǒng)的方法使用位錯(cuò)提取算法(dislocation extraction algorithm,DXA)來(lái)確定位錯(cuò)環(huán)[30],但是無(wú)法識(shí)別非位錯(cuò)缺陷和小團(tuán)簇的形態(tài)。此外,隨著系統(tǒng)規(guī)模的增大,位錯(cuò)提取算法會(huì)占用大量?jī)?nèi)存,并且速度很慢。傳統(tǒng)的幾何方法(如鄰域分析等)能夠識(shí)別晶體中的缺陷區(qū)域,但無(wú)法描述缺陷的形態(tài)和濃度。通過(guò)設(shè)計(jì)新的幾何特征向量,可以識(shí)別晶格原子中的缺陷,并將其可視化[34-35]。
數(shù)值堆涉及的數(shù)據(jù)主要有兩種不同來(lái)源,一是在實(shí)驗(yàn)、運(yùn)維等過(guò)程中由核反應(yīng)堆及相關(guān)設(shè)備產(chǎn)生,二是在數(shù)值堆運(yùn)行過(guò)程中由各種算法產(chǎn)生。這些來(lái)源使數(shù)值堆大數(shù)據(jù)具備了工業(yè)大數(shù)據(jù)和模擬大數(shù)據(jù)的特征。由于數(shù)值堆的領(lǐng)域特點(diǎn),模擬大數(shù)據(jù)最重要的特征是多樣性、關(guān)聯(lián)性,以及由數(shù)學(xué)物理模型和數(shù)值方法帶來(lái)的非精確性。
多樣性和關(guān)聯(lián)性是模擬大數(shù)據(jù)的重要宏觀特征。多樣性體現(xiàn)在數(shù)據(jù)類型豐富、數(shù)據(jù)版本多樣。例如,反應(yīng)堆材料從設(shè)計(jì)到投入使用要經(jīng)歷成分設(shè)計(jì)、微觀組織調(diào)控、工業(yè)測(cè)試、服役等多道工序,其服役周期達(dá)幾十年之久,材料性能在不同的時(shí)效作用下也會(huì)呈現(xiàn)不同的特點(diǎn)。此外,來(lái)源于設(shè)備和計(jì)算的數(shù)據(jù)是多樣的,如原子坐標(biāo)數(shù)據(jù)、團(tuán)簇?cái)?shù)據(jù)等。關(guān)聯(lián)性體現(xiàn)在數(shù)據(jù)含義、形式的緊密關(guān)聯(lián)上。例如,反應(yīng)堆材料的使用壽命與各服役階段息息相關(guān),優(yōu)異的服役性能離不開(kāi)精確的系統(tǒng)測(cè)試,離不開(kāi)大量的工藝參數(shù)調(diào)控,更離不開(kāi)合適的成分、結(jié)構(gòu)設(shè)計(jì),而每一工程階段的相應(yīng)計(jì)算工作會(huì)涉及不同物理過(guò)程、不同時(shí)空尺度的數(shù)據(jù),各個(gè)階段之間不同來(lái)源的數(shù)據(jù)具有極其復(fù)雜的關(guān)聯(lián)關(guān)系。
非精確性是模擬大數(shù)據(jù)的重要微觀特征。數(shù)值堆包含大量數(shù)學(xué)物理模型,這些模型是對(duì)現(xiàn)實(shí)的近似描述,使得數(shù)值堆從設(shè)計(jì)、實(shí)現(xiàn)到交付經(jīng)歷了多個(gè)層次的近似處理[36]。最終,數(shù)值堆大數(shù)據(jù)中占主要部分的數(shù)值型數(shù)據(jù)包含了不同來(lái)源的誤差。這些誤差的存在促使研究人員追求高精細(xì)的模擬以貼近現(xiàn)實(shí),這是數(shù)值堆大數(shù)據(jù)在數(shù)量上快速增長(zhǎng)的根本原因之一。從近似處理的層次來(lái)看,非精確性體現(xiàn)在數(shù)學(xué)物理模型、數(shù)值方法和計(jì)算機(jī)程序帶來(lái)的誤差上。依據(jù)現(xiàn)實(shí)建立數(shù)學(xué)物理模型,是對(duì)真實(shí)現(xiàn)象在某一組條件下的理想化處理,這一階段會(huì)因條件簡(jiǎn)化引入一定的誤差,如運(yùn)輸過(guò)程的粒子模型、冷卻劑的流體模型。依據(jù)數(shù)學(xué)物理模型建立數(shù)值方法是在有限的計(jì)算資源下尋求復(fù)雜方程的數(shù)值解,并且量化地描述收斂性、復(fù)雜度等具有普遍性的特點(diǎn)。這一階段因離散化引入一定的誤差,例如熱工水力流體計(jì)算和堆芯結(jié)構(gòu)力學(xué)計(jì)算涉及的有限元方法會(huì)受到時(shí)間、空間離散誤差的影響,MD和動(dòng)力學(xué)蒙特卡洛(kinetic Monte Carlo,KMC)等依賴隨機(jī)數(shù)和隨機(jī)過(guò)程的方法會(huì)受到統(tǒng)計(jì)誤差的影響。依據(jù)數(shù)值方法開(kāi)發(fā)計(jì)算機(jī)程序,引入的誤差都可以歸結(jié)為舍入誤差。盡管浮點(diǎn)數(shù)的模型(單精度、雙精度等)以及它們的運(yùn)算特點(diǎn)在數(shù)值方法層面已經(jīng)得到完整的討論,并且數(shù)值方法已經(jīng)給出了準(zhǔn)確的算法,計(jì)算機(jī)程序從編碼、編譯到最終運(yùn)行的一系列活動(dòng)仍然無(wú)法保證完全貼合它要表達(dá)的數(shù)值方法。例如,在不同機(jī)器上計(jì)算同一數(shù)學(xué)基本函數(shù)可能得到不同結(jié)果;某些語(yǔ)言的編譯器為了保證效率會(huì)對(duì)原程序代碼做一些變換;數(shù)值堆計(jì)算程序的并行化版本可能會(huì)極大地改變?cè)镜母↑c(diǎn)運(yùn)算相關(guān)公式和計(jì)算順序。
多樣性、關(guān)聯(lián)性和非精確性相互影響,使得面向數(shù)值堆大數(shù)據(jù)的研究能夠基于神經(jīng)網(wǎng)絡(luò)、數(shù)理統(tǒng)計(jì)、數(shù)值分析等多個(gè)細(xì)分領(lǐng)域進(jìn)行。
勢(shì)函數(shù)計(jì)算是材料多尺度模擬關(guān)鍵的一環(huán),也是數(shù)值堆高精細(xì)模擬實(shí)現(xiàn)過(guò)程中計(jì)算復(fù)雜且耗時(shí)的部分。MD和KMC中粒子速度、位置的更新,以及隨機(jī)團(tuán)簇動(dòng)力學(xué)(stochastic cluster dynamics,SCD)中多元組分材料參數(shù)的計(jì)算均離不開(kāi)勢(shì)函數(shù)模型。過(guò)去常用的勢(shì)函數(shù)模型通常包括兩種,一種基于第一性原理,另一種基于經(jīng)驗(yàn)函數(shù)。前者往往計(jì)算復(fù)雜,且對(duì)于多元合金組分而言,第一性原理勢(shì)函數(shù)的構(gòu)建過(guò)程非常復(fù)雜;后者雖然在效率上有所提高,但精度往往不夠,對(duì)于多元合金組分而言,經(jīng)驗(yàn)勢(shì)函數(shù)的構(gòu)建過(guò)程更加困難?;诿芏确汉碚摚╠ensity-functional theory,DFT)計(jì)算得到的海量數(shù)據(jù),提出一種基于機(jī)器學(xué)習(xí)的方法對(duì)原子體系模擬參數(shù)及勢(shì)能之間進(jìn)行擬合的勢(shì)函數(shù)模型——基于人工智能的勢(shì)函數(shù)模型(artificial intelligence based potential model,AIPM)。
AIPM訓(xùn)練所需的時(shí)間與原子數(shù)量相關(guān),在原子數(shù)量相當(dāng)大時(shí),需要通過(guò)采樣獲取適當(dāng)規(guī)模的訓(xùn)練集。由于數(shù)值大數(shù)據(jù)具有非精確性的特點(diǎn),不同的數(shù)據(jù)采樣方法可能會(huì)導(dǎo)致模型計(jì)算結(jié)果產(chǎn)生波動(dòng)。本節(jié)不考慮上述采樣問(wèn)題,而是基于篩選好的原子數(shù)據(jù)驗(yàn)證AIPM。
選取2 000條由DFT計(jì)算得到的數(shù)值計(jì)算大數(shù)據(jù),每條數(shù)據(jù)代表一個(gè)原子體系,訓(xùn)練集由1 000個(gè)原子坐標(biāo)及對(duì)應(yīng)的體系勢(shì)能組成。隨后,使用FeCu二元合金體系基于原子坐標(biāo)進(jìn)行機(jī)器學(xué)習(xí)模型的特征提取。具體來(lái)說(shuō),首先按照最近鄰法對(duì)原子鄰域進(jìn)行劃分,并以該原子為中心建立局域坐標(biāo)系,如圖1所示,將第一近鄰和第二近鄰分別設(shè)置為x軸、y軸坐標(biāo),將二者的向量積作為z軸坐標(biāo),于是可以得到每個(gè)原子的坐標(biāo),將這些坐標(biāo)作為神經(jīng)網(wǎng)絡(luò)的輸入。如圖2所示,使用3層全連接的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),每層的節(jié)點(diǎn)數(shù)依次為15、10、6,擬合得到體系內(nèi)一個(gè)原子的勢(shì)能,然后針對(duì)其他原子采用相同的方案進(jìn)行擬合,最后將所有原子的勢(shì)能求和,即可得到總的原子體系的勢(shì)能,將這一勢(shì)能與數(shù)據(jù)庫(kù)中給定的勢(shì)能進(jìn)行比較,驗(yàn)證模型的精度。采用AIPM計(jì)算1 000個(gè)粒子大小的FeCu原子體系勢(shì)能,并與嵌入原子法(embedded atom method,EAM)勢(shì)函數(shù)模型進(jìn)行對(duì)比,結(jié)果見(jiàn) 表1,對(duì)比結(jié)果驗(yàn)證了AIPM的可靠性。模擬結(jié)果顯示,與EAM相比,AIPM在計(jì)算耗時(shí)上縮短一半以上,同時(shí)計(jì)算結(jié)果僅有0.7%的相對(duì)偏差。將該模型應(yīng)用于數(shù)值核反應(yīng)堆的高精細(xì)模擬,有望實(shí)現(xiàn)模型的加速和更大規(guī)模的模擬。
圖1 局域坐標(biāo)系的建立方法
表1 FeCu原子體系神經(jīng)網(wǎng)絡(luò)計(jì)算結(jié)果
圖2 FeCu原子體系神經(jīng)網(wǎng)絡(luò)構(gòu)建過(guò)程
中子輸運(yùn)是數(shù)值堆的核心過(guò)程之一,它以核數(shù)據(jù)、堆芯空間信息等復(fù)雜時(shí)空數(shù)據(jù)為輸入,產(chǎn)生有效增殖因子、中子通量密度分布等描述堆芯核裂變反應(yīng)狀態(tài)的數(shù)據(jù)。特征線法是一種經(jīng)典的中子輸運(yùn)數(shù)值迭代方法,它將連續(xù)的空間離散為有限條相互交錯(cuò)的軌跡,將空間上的輸運(yùn)方程求解問(wèn)題轉(zhuǎn)化為沿軌跡的常微分方程求解問(wèn)題。如 圖3所示,特征線法產(chǎn)生的結(jié)果會(huì)隨輸入數(shù)據(jù)的變化而變化,這一敏感性問(wèn)題是由數(shù)值方法本身帶來(lái)的,并且在計(jì)算程序日益復(fù)雜化的情況下難以從解析表達(dá)式入手解決。使用基于大量數(shù)據(jù)的統(tǒng)計(jì)方法可以讓算法從輸入和輸出中挖掘數(shù)據(jù)之間的關(guān)聯(lián)性,建立輸入變化與輸出變化之間定性甚至定量的關(guān)系,從而加深對(duì)特征線法計(jì)算結(jié)果波動(dòng)的理解,也可使得輸入數(shù)據(jù)的選取更加合理、高效。同時(shí),使用盡可能少的數(shù)據(jù)來(lái)建立統(tǒng)計(jì)模型,并將它用于更大輸入空間中輸出數(shù)據(jù)的波動(dòng)預(yù)測(cè),從而避免嘗試各種輸入數(shù)據(jù)組合帶來(lái)的計(jì)算資源的浪費(fèi)。
圖3 輸入數(shù)據(jù)變化引起輸出數(shù)據(jù)變化
以三維特征線法程序ANT-MOC為例[37],它執(zhí)行特征線法計(jì)算所需的堆芯空間信息包括軌跡分布,該分布可以由一些參數(shù)完全確定,其中最重要的參數(shù)是方位角(軌跡的平面角度)數(shù)量、平面軌跡間距(軌跡在平面上投影的間距)、極角(軌跡的軸向角度)數(shù)量、軸向軌跡間距(軌跡在軸向上的間距)。調(diào)整角度數(shù)量和間距大小就能改變整個(gè)空間中軌跡的密度,也就改變了離散化的方程數(shù)量。
本文基于ANT-MOC考察方位角數(shù)量、平面軌跡間距、極角數(shù)量和軸向軌跡間距這4個(gè)影響軌跡分布的關(guān)鍵參數(shù)對(duì)計(jì)算結(jié)果中有效增殖因子keff的影響。有效增殖因子是用整個(gè)堆芯中的中子通量密度計(jì)算得到的堆芯裂變反應(yīng)的整體度量,因此它在輸出數(shù)據(jù)中具有一定的代表性。實(shí)驗(yàn)選取的計(jì)算對(duì)象為Takeda國(guó)際基準(zhǔn)題[38],它描述了一個(gè)簡(jiǎn)單的壓水堆堆芯,其有效增殖因子的參考值kref為0.977 8。實(shí)驗(yàn)所用的輸入數(shù)據(jù)中僅有4個(gè)變量,它們的取值 見(jiàn)表2,取值組合共500種。
表2 軌跡分布相關(guān)輸入數(shù)據(jù)的取值
使用ANT-MOC完成500組計(jì)算后,計(jì)算每個(gè)有效增殖因子keff與參考值kref的相對(duì)誤差。由于輸入?yún)?shù)的取值范圍不大,在這一范圍內(nèi)使用線性模型近似地研究各參數(shù)與相對(duì)誤差的關(guān)系。給定顯著性水平0.05,可以為這500組數(shù)據(jù)建立四元線性回歸模型:
可以使用該模型估計(jì)keff的相對(duì)誤差隨軌跡分布的變化情況。回歸分析的各參數(shù)見(jiàn) 表3。
表3 500組樣本的多元回歸分析參數(shù)
相關(guān)系數(shù)R和校正的擬合優(yōu)度R2的數(shù)值表明有效增殖因子keff的相對(duì)誤差與選取的4個(gè)變量有較好的相關(guān)性,F(xiàn)檢驗(yàn)的P值遠(yuǎn)小于0.05表明結(jié)果非常顯著。各變量的t檢驗(yàn)結(jié)果見(jiàn)表4,結(jié)果表明,方位角和極角數(shù)量與結(jié)果的相關(guān)性非常顯著(P值遠(yuǎn)小于0.05),參數(shù)標(biāo)準(zhǔn)誤差也表明這兩個(gè)參數(shù)的平均偏離程度較小,這說(shuō)明四元線性回歸模型比較合理地估計(jì)了方位角和極角在一定范圍內(nèi)的變化對(duì)ANT-MOC計(jì)算結(jié)果的影響。在Takeda計(jì)算中,根據(jù)擬合結(jié)果以及表2描述的參數(shù)區(qū)間,還可以比較在參數(shù)區(qū)間內(nèi)相對(duì)誤差隨不同參數(shù)變化的波動(dòng)情況,從而指導(dǎo)具體計(jì)算時(shí)的參數(shù)選擇。例如,方位角和極角的線性擬合系數(shù)為負(fù)、平面軌跡間距的系數(shù)為正,意味著在一定范圍內(nèi)使這3個(gè)參數(shù)精細(xì)化可以縮小相對(duì)誤差;軸向軌跡間距的系數(shù)為負(fù),意味著ANT-MOC的計(jì)算結(jié)果難以通過(guò)該參數(shù)的精細(xì)化(縮?。﹣?lái)改善。
表4 各變量的t檢驗(yàn)結(jié)果
線性擬合在一定范圍內(nèi)定量地反映了ANT-MOC計(jì)算結(jié)果對(duì)參數(shù)的敏感性,從而可以避免復(fù)雜的誤差放大和條件數(shù)的理論分析,快速給出篩選參數(shù)組合的統(tǒng)計(jì)依據(jù)。對(duì)于相當(dāng)精細(xì)的參數(shù)空間,ANTMOC數(shù)值算法的收斂速率不可以忽略,計(jì)算結(jié)果的相對(duì)誤差不再能被線性模型很好地描述,需要在此工作的經(jīng)驗(yàn)上使用更復(fù)雜的學(xué)習(xí)算法來(lái)建立估計(jì)模型。
熱工水力軟件CVR-PACA和結(jié)構(gòu)力學(xué)軟件CVR-HARSA(原CVR-HISRES)的流固耦合模擬是CVR1.0項(xiàng)目的研究重點(diǎn)。PACA與HARSA耦合旨在進(jìn)行全堆規(guī)模的流致振動(dòng)分析、獲得燃料棒和固定支架間的磨損評(píng)估數(shù)據(jù),有助于堆芯安全分析、設(shè)計(jì)及反應(yīng)堆延壽。耦合的本質(zhì)是完成流固交界面上數(shù)值數(shù)據(jù)的融合轉(zhuǎn)換,其中,數(shù)值數(shù)據(jù)具有數(shù)據(jù)量巨大、不匹配的特點(diǎn)。數(shù)據(jù)量巨大是由PACA與HARSA高精細(xì)模擬計(jì)算的特點(diǎn)決定的,而不匹配是兩者建模的網(wǎng)格類型和密度不同導(dǎo)致的?;诖耍萌SR樹(shù)[39]索引大規(guī)模流體數(shù)據(jù),完成了PACA輸出的流體壓力向HARSA的插值計(jì)算,即流體壓力數(shù)據(jù)的融合轉(zhuǎn)換計(jì)算。實(shí)驗(yàn)表明,此種插值計(jì)算方式提高了流體壓力的融合轉(zhuǎn)換效率和大規(guī)模高精細(xì)耦合計(jì)算效率。
PACA輸出的流體數(shù)據(jù)規(guī)模巨大,如10 mm長(zhǎng)的雙流道模型的頂點(diǎn)數(shù)目超過(guò)30萬(wàn);100 mm長(zhǎng)的6流道模型的頂點(diǎn)數(shù)目超過(guò)900萬(wàn),因此采用三維R樹(shù)索引大規(guī)模流體網(wǎng)格頂點(diǎn)進(jìn)行流體壓力數(shù)據(jù)的插值計(jì)算。另外,PACA輸出的網(wǎng)格頂點(diǎn)難以還原拓?fù)浣Y(jié)構(gòu),因此在數(shù)據(jù)融合轉(zhuǎn)換過(guò)程中采用鄰近點(diǎn)加權(quán)平均[40]的匹配計(jì)算方式。流體壓力數(shù)據(jù)的整體插值過(guò)程包括圖4所示的3個(gè)階段。
圖4 流體壓力數(shù)據(jù)插值過(guò)程展示
● 數(shù)據(jù)清洗階段:獲取PACA計(jì)算輸出的原始數(shù)據(jù),原始數(shù)據(jù)中存在許多重復(fù)數(shù)據(jù)和融合轉(zhuǎn)換計(jì)算不需要的數(shù)據(jù),該階段對(duì)這部分?jǐn)?shù)據(jù)進(jìn)行清洗處理,并輸出后續(xù)計(jì)算所需數(shù)據(jù),即流體網(wǎng)格頂點(diǎn)及各頂點(diǎn)對(duì)應(yīng)的壓力值。
● 構(gòu)建三維R樹(shù)階段:對(duì)上階段輸出數(shù)據(jù)進(jìn)行三維R樹(shù)的構(gòu)建,其中,樹(shù)中葉子節(jié)點(diǎn)包圍的是三維空間中的流體網(wǎng)格頂點(diǎn),每個(gè)頂點(diǎn)都唯一對(duì)應(yīng)一個(gè)壓力值屬性。
● 匹配計(jì)算階段:針對(duì)每個(gè)固體網(wǎng)格頂點(diǎn)遍歷三維R樹(shù),搜索距離它最近的前k個(gè)流體頂點(diǎn),并對(duì)這k個(gè)頂點(diǎn)及壓力值進(jìn)行鄰近點(diǎn)加權(quán)平均計(jì)算,得到固體頂點(diǎn)對(duì)應(yīng)的壓力值。
經(jīng)過(guò)上述計(jì)算,得到每個(gè)固體網(wǎng)格頂點(diǎn)對(duì)應(yīng)的壓力值,然后將這些頂點(diǎn)及對(duì)應(yīng)壓力值輸出為HARSA計(jì)算所需的格式。
利用表5中的6組建模數(shù)據(jù)進(jìn)行實(shí)驗(yàn),測(cè)試了直接插值方式和基于三維R樹(shù)的插值方式在不同條件下的性能,分別用BaseLine、RTree表示這兩種插值方式。其中,直接插值方式直接搜索所有流體頂點(diǎn),找到距離每個(gè)固體頂點(diǎn)最近的k個(gè)流體頂點(diǎn),并進(jìn)行加權(quán)計(jì)算得到該頂點(diǎn)對(duì)應(yīng)的壓力值。
表5 實(shí)驗(yàn)測(cè)試數(shù)據(jù)
圖5(a)展示了燃料棒數(shù)目變化時(shí),PACA與HARSA耦合時(shí)兩種插值方式的耗時(shí),其中縱軸為消耗時(shí)間的對(duì)數(shù)表示。當(dāng)燃料棒數(shù)目增大時(shí),RTree的耗時(shí)遠(yuǎn)小于BaseLine的耗時(shí)。圖5(b)展示了燃料棒長(zhǎng)度變化時(shí)兩種插值方式的耗時(shí)。當(dāng)燃料棒長(zhǎng)度增大時(shí),RTree的耗時(shí)仍遠(yuǎn)小于BaseLine的耗時(shí)??梢?jiàn),RTree在高精細(xì)插值模擬中更具優(yōu)勢(shì)。
圖5 流體壓力數(shù)據(jù)插值計(jì)算效率測(cè)試
級(jí)聯(lián)碰撞模擬后,高能粒子的撞擊導(dǎo)致材料原子離開(kāi)原本所在的晶格位置,而后進(jìn)一步聚集或湮滅,形成自間隙團(tuán)簇或空洞,最終導(dǎo)致材料力學(xué)性能降級(jí),從而威脅反應(yīng)堆設(shè)施的安全?;贑VR1.0中的分子動(dòng)力學(xué)程序MISA-MD的模擬數(shù)據(jù),采用并查集算法可以實(shí)現(xiàn)對(duì)團(tuán)簇的有效劃分。
數(shù)據(jù)集采用的晶體結(jié)構(gòu)均為體心立方(body-centred cubic,BCC)晶體,元素都是鐵(Fe)元素,晶格常數(shù)為2.855 32 nm。模擬數(shù)據(jù)均來(lái)源于大小為[80, 80, 80]的模擬區(qū)域,區(qū)域大小的含義是x、y、z方向上都是80倍的晶格常數(shù),即80個(gè)晶格點(diǎn)。當(dāng)實(shí)驗(yàn)環(huán)境的溫度為600 K時(shí),隨著入射中子能量的不同,時(shí)間步長(zhǎng)有10 000和100 000兩種,總的時(shí)間步數(shù)有41 000和131 000兩種,MISA-MD運(yùn)行時(shí),每隔1 000時(shí)間步輸出一個(gè)結(jié)果,這里選取最后一個(gè)時(shí)間步的結(jié)果。每個(gè)時(shí)間步的結(jié)果數(shù)據(jù)都是.dump坐標(biāo)數(shù)據(jù),其中包含1 024 000個(gè)原子坐標(biāo)。在上述實(shí)驗(yàn)環(huán)境下,數(shù)據(jù)涵蓋不同初級(jí)離位原子(primary knock-on atom,PKA)能量、不同PKA入射方向,且每種能量每種角度都進(jìn)行了多次模擬,包括10 keV、30 keV和50 keV共3種不同的能量,<122>、<135>和<235>共3個(gè)不同入射方向(以晶向表示),每種參數(shù)組合都進(jìn)行了50次模擬,最終有450次模擬數(shù)據(jù)。
常規(guī)方法是將每個(gè)缺陷看成一個(gè)單缺陷的團(tuán)簇,然后遍歷其他缺陷,將指定距離內(nèi)的缺陷加入該團(tuán)簇進(jìn)行缺陷的合并。該問(wèn)題看起來(lái)并不復(fù)雜,但是當(dāng)數(shù)據(jù)量大時(shí),若采用常規(guī)方法來(lái)解決,往往時(shí)間復(fù)雜度過(guò)大,這是因?yàn)樗枰磸?fù)查找一個(gè)缺陷所在的團(tuán)簇,所以常規(guī)方法不能很好地解決該問(wèn)題。這里采用并查集算法來(lái)解決。并查集算法[41]采用一種樹(shù)形數(shù)據(jù)結(jié)構(gòu)來(lái)處理這種不相交集合的問(wèn)題。并查集算法有兩種操作:合并(union),即把兩個(gè)不相交的集合合并為一個(gè)集合;查詢(find),即查詢兩個(gè)元素是否在同一個(gè)集合中。所有元素合并完之后,森林中有幾棵樹(shù)就有幾種集合。因?yàn)椴⒉榧惴ǖ臄?shù)據(jù)結(jié)構(gòu)為樹(shù)形,所以樹(shù)的高度越高,時(shí)間復(fù)雜度就越高。因此這里選取的是優(yōu)化的并查集算法。使用優(yōu)化的并查集算法劃分團(tuán)簇的偽代碼如下。首先設(shè)置一個(gè)大小與缺陷總數(shù)相同的根節(jié)點(diǎn)數(shù)組root,它的含義為該缺陷所屬團(tuán)簇的編號(hào),初始時(shí)將每個(gè)缺陷視為單獨(dú)一個(gè)團(tuán)簇,因此初始數(shù)組的值為自身編號(hào)。然后設(shè)置一個(gè)大小與缺陷總數(shù)相同的高度數(shù)組height,它表示以當(dāng)前節(jié)點(diǎn)為根節(jié)點(diǎn)的樹(shù)的高度,因?yàn)槌跏紩r(shí)每個(gè)缺陷都是一個(gè)團(tuán)簇,也就是一棵樹(shù),所以初始時(shí)樹(shù)的高度都為1。接下來(lái)計(jì)算任意兩個(gè)缺陷之間的距離,在計(jì)算的過(guò)程中需要判斷這兩個(gè)缺陷的類型。如果這兩個(gè)缺陷都是間隙原子或者一個(gè)是間隙原子、一個(gè)是空位,則只要它們的距離在一倍晶格常數(shù)(第二近鄰)內(nèi),就認(rèn)為它們屬于同一個(gè)團(tuán)簇;如果兩個(gè)缺陷都是空位,且它們的距離不超過(guò)晶格常數(shù)的2的平方根倍(第三近鄰),則認(rèn)為它們屬于一個(gè)團(tuán)簇。如圖6所示,此時(shí)缺陷2和缺陷9在距離閾值內(nèi),第一步先查找兩個(gè)缺陷的根節(jié)點(diǎn),在查找的過(guò)程中,將向上經(jīng)過(guò)的所有缺陷的根節(jié)點(diǎn)都設(shè)為最上層的缺陷,也就是都直接接到根節(jié)點(diǎn)上,這被稱為路徑壓縮,可以降低樹(shù)的高度,使得以后向上查找根節(jié)點(diǎn)時(shí)速度更快。在獲取根節(jié)點(diǎn)后,根據(jù)樹(shù)的高度數(shù)組height判斷兩個(gè)根節(jié)點(diǎn)的樹(shù)的高度,將高度小的樹(shù)接到高度大的樹(shù)上,如果樹(shù)高一樣,則可以將任意一棵樹(shù)接到另一棵樹(shù)上作為孩子節(jié)點(diǎn)。遍歷根節(jié)點(diǎn)數(shù)組,將根節(jié)點(diǎn)相同的缺陷劃分到一個(gè)團(tuán)簇中,從而獲得所有團(tuán)簇的劃分結(jié)果。將獲得的所有團(tuán)簇信息(包括團(tuán)簇中的缺陷坐標(biāo)、缺陷對(duì)數(shù)、缺陷類型(間隙或者空位)等)存儲(chǔ)到團(tuán)簇?cái)?shù)據(jù)庫(kù)中,最終獲得了4 483個(gè)團(tuán)簇。
圖6 并查集算例演示
偽代碼1 使用優(yōu)化的并查集算法劃分團(tuán)簇
輸入:所有缺陷原子坐標(biāo) DEFECTS = [d1,d2, …,dm]
輸出:所有團(tuán)簇
1 設(shè)置樹(shù)的根節(jié)點(diǎn)數(shù)組和高度數(shù)組: root = [1,…,m], height = [1]*m
2 fori← 1, 2, …,mdo
3 forj←i+1,…,mdo
4 if distance(di,dj) < threshold then
5a← 找到i的根節(jié)點(diǎn)
6b← 找到j(luò)的根節(jié)點(diǎn)
7 根據(jù)樹(shù)的高度數(shù)組修改根節(jié)點(diǎn)數(shù)組
8 end if
9 end for
10 end for
11 將同一根節(jié)點(diǎn)的缺陷劃分為一個(gè)團(tuán)簇
12 輸出所有團(tuán)簇
KMC團(tuán)簇大數(shù)據(jù)庫(kù)包含了不同實(shí)驗(yàn)條件下經(jīng)KMC長(zhǎng)程演化后的原子團(tuán)簇信息。KMC團(tuán)簇大數(shù)據(jù)庫(kù)包含PKA能量、PKA入射方向等實(shí)驗(yàn)參數(shù)以及團(tuán)簇中各個(gè)原子坐標(biāo)、空位、間隙原子數(shù)目等信息。這里共選取500條團(tuán)簇?cái)?shù)據(jù)展開(kāi)分析。因?yàn)閳F(tuán)簇形態(tài)和數(shù)目信息是未知的,所以有監(jiān)督的學(xué)習(xí)方法在此不適用。無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法在解決這一問(wèn)題上具有獨(dú)特優(yōu)勢(shì),這里采用基于密度的聚類算法。首先,選取的特征向量為缺陷團(tuán)簇中各缺陷與幾何中心的距離、每?jī)蓚€(gè)缺陷與幾何中心形成的夾角??紤]到幾何形狀經(jīng)旋轉(zhuǎn)、放大、縮小后仍然是相同的,對(duì)于角度,這里每隔5°形成一維數(shù)據(jù),共有36維數(shù)據(jù);對(duì)于距離,每次將所有的距離除以當(dāng)前團(tuán)簇的最大值,進(jìn)行歸一化處理,每隔0.025形成一維數(shù)據(jù),共40維數(shù)據(jù),因此特征向量為76維數(shù)據(jù),如圖7所示。選取HDBSCAN聚類算法對(duì)團(tuán)簇進(jìn)行識(shí)別,輪廓系數(shù)達(dá)到0.643。HDBSCAN聚類算法是一種基于密度的無(wú)監(jiān)督的聚類算法,不需要標(biāo)記過(guò)的數(shù)據(jù),也不需要事先知道要?jiǎng)澐值念悇e數(shù)。它可以對(duì)不同密度的團(tuán)簇進(jìn)行聚類,可以忽略噪聲,且效率較高。團(tuán)簇聚類結(jié)果 如圖8所示。這里使用卡方距離作為相似性度量,使用輪廓系數(shù)(silhouette coefficient)作為聚類性能的內(nèi)部評(píng)價(jià)指標(biāo),若輪廓系數(shù)接近1,則說(shuō)明樣本聚類合理;若輪廓系數(shù)接近-1,則說(shuō)明樣本更應(yīng)該分類到另外的簇;若輪廓系數(shù)近似為0,則說(shuō)明樣本i在兩個(gè)簇的邊界上。圖8中的所有缺陷團(tuán)簇被分為幾種不同的類別,每種顏色代表一種類別。本實(shí)驗(yàn)共獲得了22種形狀類別,從這22種類別中隨機(jī)選取兩種類別,每種類別選擇兩個(gè)團(tuán)簇,將其進(jìn)行可視化展 示。圖9為類別1中的兩個(gè)團(tuán)簇,1 260和1 867是它們?cè)跀?shù)據(jù)庫(kù)中的編號(hào),它們具有完全相同的形狀,都是四個(gè)角構(gòu)成一個(gè)方形,然后有一個(gè) 頂點(diǎn)。圖10則是另一個(gè)類別中的兩個(gè)團(tuán)簇,它們和類別1不同,它們的缺陷個(gè)數(shù)有6個(gè),而且它們分為上下兩排,每排3個(gè)缺陷,這兩排構(gòu)成近似平行的幾何形狀。
圖7 團(tuán)簇特征提取方法示意
圖8 團(tuán)簇聚類結(jié)果
從圖9和圖10可以得出,本文采用的相似性度量和聚類算法是可行的,它們可以將形狀相似的團(tuán)簇聚類到一起,證明了整個(gè)程序的可行性?;谠摲椒?,筆者在KMC長(zhǎng)程演化數(shù)據(jù)中發(fā)現(xiàn)了一些類環(huán)狀的團(tuán)簇,如 圖11所示,這一發(fā)現(xiàn)與之前報(bào)道的材料輻照實(shí)驗(yàn)中存在類環(huán)狀缺陷團(tuán)簇的結(jié)果相吻合[42-43]。針對(duì)團(tuán)簇的研究仍處在初步階段,不同形態(tài)的團(tuán)簇對(duì)材料性能的影響機(jī)理尚不明確,基于KMC團(tuán)簇大數(shù)據(jù)和機(jī)器學(xué)習(xí)的方法,實(shí)現(xiàn)了KMC長(zhǎng)程演化后團(tuán)簇形態(tài)的識(shí)別和分類,為后續(xù)團(tuán)簇影響機(jī)理的研究提供了智能化手段。
圖9 類別1的聚類結(jié)果
圖10 類別2的聚類結(jié)果
圖11 KMC長(zhǎng)程演化產(chǎn)生的類環(huán)狀團(tuán)簇聚類結(jié)果
本文提出了數(shù)值核反應(yīng)堆大數(shù)據(jù)的概念,分析了它具有的多樣性、關(guān)聯(lián)性和非精確性等關(guān)鍵特征,并將這些特征和實(shí)際數(shù)值堆研究結(jié)合起來(lái)。將數(shù)值堆大數(shù)據(jù)看作數(shù)值堆的一個(gè)重要組成部分,使得大數(shù)據(jù)技術(shù)和學(xué)習(xí)算法的思想自然地被引入數(shù)值堆的研究中,拓展了研究的思路。從數(shù)值堆大數(shù)據(jù)的特征出發(fā),本文指出了它最重要的兩大應(yīng)用方向:建模優(yōu)化和科學(xué)發(fā)現(xiàn)。以CVR1.0為例,在基于數(shù)據(jù)的建模優(yōu)化方面,基于神經(jīng)網(wǎng)絡(luò)的勢(shì)函數(shù)改進(jìn)了分子動(dòng)力學(xué)總勢(shì)能的計(jì)算,降低了整個(gè)模擬的計(jì)算時(shí)間;基于統(tǒng)計(jì)的敏感性分析和基于三維R樹(shù)的網(wǎng)格插值研究了模擬數(shù)據(jù)之間的關(guān)聯(lián)性。在基于數(shù)據(jù)的科學(xué)發(fā)現(xiàn)方面,基于聚類的團(tuán)簇劃分和環(huán)狀原子簇發(fā)現(xiàn),通過(guò)學(xué)習(xí)算法建立了有效的缺陷識(shí)別模型,有助于對(duì)材料性能進(jìn)行預(yù)測(cè)。這些研究工作表明,數(shù)值核反應(yīng)堆大數(shù)據(jù)概念的建立對(duì)于數(shù)值堆研究有極大的指導(dǎo)意義。
同時(shí),上述研究也反映出用于數(shù)值核反應(yīng)堆大數(shù)據(jù)研究的學(xué)習(xí)模型面臨著易用性、準(zhǔn)確度和效率等多方面的取舍,目前尚未形成一套具有領(lǐng)域特色的系統(tǒng)的研究方法。在今后的工作中,建立更可靠的學(xué)習(xí)模型和更完善的誤差分析是數(shù)值核反應(yīng)堆大數(shù)據(jù)應(yīng)用的努力方向。