国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

機器學(xué)習在有機光電材料篩選中的應(yīng)用

2022-09-01 08:54郭鵬智
蘭州交通大學(xué)學(xué)報 2022年4期
關(guān)鍵詞:類別聚類指紋

周 淵,郭鵬智

(1.蘭州交通大學(xué) 國家綠色鍍膜技術(shù)與裝備工程技術(shù)研究中心,蘭州 730070;2.蘭州交通大學(xué) 光電技術(shù)與智能控制教育部重點實驗室,蘭州 730070)

發(fā)現(xiàn)或者設(shè)計一種新型更高性能的有機光電材料是一個非常艱難的過程,通常都在機緣巧合和數(shù)次失敗后獲得.傳統(tǒng)經(jīng)驗豐富的化學(xué)家拿到一個新的化合物之后從結(jié)構(gòu)大致能夠估測有無進一步進行實驗驗證的價值,如果再伴以分析測試結(jié)果,可以在一定程度上提高估測準確度,但是面對成千上萬個化合物進行實驗驗證,人力就有局限.為了接近光電材料效率的理論極限,傳統(tǒng)的研究方法主要包括:設(shè)計和合成新的供體和受體材料,優(yōu)化制造條件和器件結(jié)構(gòu)以及探索器件的運行機制.前兩種方法是一種試錯程序,需要較高的材料成本、長時間的消耗和大量的人力;最后一種方式更多是從第一性原理出發(fā)[1],研究材料的物理化學(xué)性質(zhì),這類方法需要高性能計算支持,通用性較差.

近年來,在藥物發(fā)現(xiàn)[2-3]、熱電材料[4]和催化研究[5-6]等領(lǐng)域?qū)C器學(xué)習與材料信息學(xué)結(jié)合,通過機器學(xué)習方法有效探尋了結(jié)構(gòu)和性能之間的密切關(guān)系,為設(shè)計材料提供了有益指導(dǎo)[7].

本文結(jié)合監(jiān)督學(xué)習與無監(jiān)督學(xué)習的優(yōu)勢,以富勒烯為受體材料的聚合物太陽能電池(polymer solar cells,PSCs)給體材料[8]為例,對大約1 000個材料數(shù)據(jù)組成的數(shù)據(jù)集進行機器學(xué)習.先使用無監(jiān)督學(xué)習中聚類算法進行數(shù)據(jù)集聚類并標記,然后使用監(jiān)督學(xué)習中隨機森林方法對數(shù)據(jù)集進行訓(xùn)練、測試;探尋和驗證PSCs給體材料篩選的機器學(xué)習方法,并針對機器學(xué)習方法在其它類型光電材料設(shè)計的共性問題上進行拓展[9],嘗試篩選或?qū)ふ覞撛诰哂懈咝阅艿挠袡C光電材料的新方法.

1 數(shù)據(jù)集分析與處理

數(shù)據(jù)集中的主要特征包括短路電流密度JSC、開路電壓VOC、填充因子FF、能量轉(zhuǎn)換效率(power conversion efficiency,PCE)、最高占據(jù)分子軌道(highest occupied molecular orbital,HOMO)、最低未占分子軌道(lowest unoccupied molecular orbital,LUMO)、分子線性描述符(simplified molecular input line entry system,SMILES)等.其中:能量轉(zhuǎn)換效率是衡量和反映太陽能光伏器件質(zhì)量和技術(shù)水平的重要指標[10-11],其值為器件最大的輸出功率Pmax與入射光輸入功率Pin之比,表示式為

由式(1)可知,器件的能量轉(zhuǎn)換效率在標準入射光強度下與VOC,JSC和FF正相關(guān).傳統(tǒng)PSCs材料設(shè)計也緊密圍繞著設(shè)計合成具有高VOC和JSC的分子展開.通過數(shù)據(jù)集統(tǒng)計形成四者相互關(guān)系圖,如圖1所示.從圖1可以看出:VOC和JSC、VOC與FF之間雖有一定關(guān)系,但并不線性相關(guān);FF與JSC線性相關(guān),實際中還受制于器件制備、溶解度等影響[12].因此,將VOC,JSC和FF作為一個整體去考慮,使用能量轉(zhuǎn)換效率對PSCs性能進行評價.

圖1 V OC,J SC,F(xiàn)F和PCE分布及相互關(guān)系圖Fig.1 Distribution and interrelationship of V OC,J SC,F(xiàn)F and PCE

原則上,器件的電子特征與材料分子結(jié)構(gòu)有關(guān),器件的最終性能只取決于其材料,而制造技術(shù)和器件結(jié)構(gòu)的功能只是更好地發(fā)揮材料的作用.分子之間特征相似則化學(xué)性質(zhì)相似,反映在分子指紋中則具有相似的指紋,如芳香材料分子具有環(huán)狀大π鍵共軛結(jié)構(gòu),與該結(jié)構(gòu)類似的材料具有較高的電子傳輸能力,從而展現(xiàn)出較好的導(dǎo)電性和豐富的光學(xué)特性,是最有潛力的有機光電材料之一[13].

為了表示材料分子的化學(xué)結(jié)構(gòu),采用線性的字符串來描述材料分子的三維化學(xué)結(jié)構(gòu).通過開源工具RDKit,分別計算樣本SMILES生成長度為167位的分子訪問系統(tǒng)(molecular access system,MACCS)分子指紋和2 048位擴展分子指紋(extended connectivity fingerprint,ECFP)序列,完成分子結(jié)構(gòu)特征編碼,如圖2所示.對于聚合物PBDD4T-2F的重復(fù)單元,首先生成SMILES,然后分別計算兩種分子指紋并存儲,指紋序列中1表示具有某種結(jié)構(gòu)特征.該聚合物重復(fù)單元中存在甲基、芳香、六元環(huán)、氧元素和環(huán),故MACCS分子指紋序列中160,162,163,164和165位值為1.ECFP指紋長度更大,因此表示的特征細節(jié)更多.

圖2 分子指紋生成過程Fig.2 Molecular fingerprint generation process

另外,為提高機器學(xué)習效率,對數(shù)據(jù)集進行特征選擇以消除相關(guān)特征、無關(guān)特征和冗余特征.為消除特征之間值域差別較大帶來潛在權(quán)重的問題,對數(shù)據(jù)集除分子指紋外其他特征進行了標準化,形成1 056個給體材料樣本的數(shù)據(jù)集.

2 數(shù)據(jù)集聚類劃分

在監(jiān)督學(xué)習中,數(shù)據(jù)集和標簽集是缺一不可的,而無監(jiān)督學(xué)習的結(jié)果為已標記分類的數(shù)據(jù)集.無監(jiān)督學(xué)習中聚類算法采用一種探索性的分析方法,它從樣本屬性出發(fā),對數(shù)據(jù)集進行分簇和標記,這樣可以省去面對大量數(shù)據(jù)時人工分類和數(shù)據(jù)標記工作,同時聚類結(jié)果也可以為初步研究材料性能提供幫助.

2.1 聚類算法介紹

由于k-均值聚類(k-means)具有適合處理稀疏的高維數(shù)據(jù)、適應(yīng)各種數(shù)據(jù)類型等特點[14-15],因此采用此算法聚類.算法使用歐氏距離作為相似性的評價指標.對于輸入的數(shù)據(jù)集和分簇數(shù)k,首先堆積選取k個點作為初始聚類中心,迭代求解下面過程:計算各個樣本到中心的距離;按距離進行歸類;調(diào)整新的聚類中心到此類樣本的均值處.算法滿足下列條件:沒有(或最小數(shù)目)記錄對象被重新分配給不同的聚類;聚類中心不再發(fā)生變化;誤差平方和局部最小時結(jié)束,生成劃分為k類的數(shù)據(jù)集.

實驗使用基于Python語言的機器學(xué)習開源工具sklearn(scikit-learn)中KMeans模型.模型關(guān)鍵參數(shù)分簇數(shù)k一般根據(jù)數(shù)據(jù)分布和實際經(jīng)驗進行假定,本文使用手肘法結(jié)合輪廓系數(shù)法計算確定.

2.2 聚類簇數(shù)計算

2.2.1 手肘法

手肘法[16]中,使用誤差平方和(sum of the squared errors,SSE)數(shù)值的變化拐點來找出最佳的聚類簇數(shù).誤差平方和為所有簇中的全部數(shù)據(jù)點與簇中心的誤差距離平方累加和,代表了聚類效果的好壞,其計算如式(2)所示.

其中:Ci是第i個簇;p是Ci中的樣本點;mi是Ci的質(zhì)心(Ci中所有樣本的均值).

隨著k的增大,樣本劃分會更加精細,簇的聚合程度會逐漸提高,誤差平方和逐漸變??;當聚類簇數(shù)k不斷趨向于真實類簇數(shù)時,誤差平方呈現(xiàn)快速下降狀態(tài),當超過真實類簇數(shù)時,誤差平方和也會繼續(xù)下降并迅速趨于穩(wěn)定.k-SSE曲線呈現(xiàn)手肘的形狀,因此可以通過判定下降的拐點找出較合適的k值.

2.2.2 輪廓系數(shù)法

在聚類發(fā)現(xiàn)的過程中,最佳的分類具有其簇內(nèi)差異小,而簇外差異大的特點,輪廓系數(shù)s正是描述簇內(nèi)、外差異的關(guān)鍵指標.s的計算如式(3)所示.

其中:a表示樣本點與同一簇中所有其他點的平均距離,即樣本點與同一簇中其他點的相似度;b表示樣本點與下一個最近簇中所有點的平均距離,即樣本點與下一個最近簇中其他點的相似度.s取值范圍為(-1,1),其值越接近于1,則聚類效果越好;越接近-1,聚類效果越差.因此可以求得s的最大值而得到最佳分類簇數(shù),計算過程與肘部法類似.

2.3 聚類結(jié)果

在數(shù)據(jù)集的聚類中,嘗試探索能量轉(zhuǎn)換效率與分子結(jié)構(gòu)之間的關(guān)系,使用MACCS分子指紋與能量轉(zhuǎn)換效率的特征組合作為樣本劃分時,樣本劃分效果較差.由于數(shù)據(jù)集樣本數(shù)量不足,以及ECFP分子指紋長度(特征數(shù)量)與樣本數(shù)量相近的問題,在單獨使用ECFP分子指紋進行聚類數(shù)探索時無法收斂,出現(xiàn)過擬合問題,最終使用能量轉(zhuǎn)換效率作為聚類特征.

如圖3所示,輪廓系數(shù)最大值對應(yīng)k=2,這表示最佳聚類數(shù)為2,但是從手肘圖3可以看出,當k取2時,誤差平方和非常大,所以k=2不合理,考慮輪廓系數(shù)與誤差平方和取值比較合理的次大的k=5為最佳聚類系數(shù).

圖3 肘部法與輪廓系數(shù)法結(jié)果示意Fig.3 Illustration of the results of the elbow method and the silhouette method

使用Silhouette Visualizer可視化工具對樣本集群的密度和分離進行示意,如圖4所示.從圖4可以看出:以能量轉(zhuǎn)換效率為特征,聚類后的樣本劃分較為清晰;圖中類簇1圖形面積最大,說明歸屬類簇1的樣本數(shù)量最多;無輪廓系數(shù)為負數(shù)的部分,說明樣本歸類效果較好.

圖4 樣本集群的密度和分離示意Fig.4 Density and separation of sample clusters illustration

數(shù)據(jù)集類別標簽、各類樣本數(shù)量、能量轉(zhuǎn)換效率平均值等見表1.類別0,1,2,3,4依次對應(yīng)材料能量轉(zhuǎn)換效率性能由低到高的變化,各類別中能量轉(zhuǎn)換效率均值分布均勻,取值區(qū)間無交叉.由于缺乏高性能的材料數(shù)據(jù)(對應(yīng)類別4),數(shù)據(jù)集存在樣本不均勻問題.

表1 監(jiān)督學(xué)習數(shù)據(jù)集樣本劃分概況Tab.1 Overview of supervised learning datasets

3 隨機森林輔助材料篩選

3.1 隨機森林算法

隨機森林是一種基于統(tǒng)計的監(jiān)督學(xué)習算法[17].算法的核心思想就是許多棵隨機參數(shù)生成的決策樹組合成一個森林,通過統(tǒng)計每棵樹的結(jié)果進行分類和預(yù)測.算法能夠處理具有高維特征的輸入樣本,同時對缺省值也能得到較好的結(jié)果.在訓(xùn)練每棵樹的節(jié)點時,使用的特征是從所有特征中按照一定比例隨機地無放回地抽取,因此較好地解決了過擬合的問題.

3.2 隨機森林分類

使用隨機森林算法對已標記數(shù)據(jù)集進行訓(xùn)練和學(xué)習[18].通過在各類中隨機抽樣70個樣本,形成類型分布均勻的子集,按照8∶2的比例劃分為訓(xùn)練集和測試集.以樣本最高占據(jù)分子軌道、數(shù)均分子量(Mw)、光學(xué)帶隙(Eg)和分子指紋序列作為特征,材料性能類別作為標簽,對樣本進行訓(xùn)練.實驗使用sklearn中RandomForestClassifier模型,經(jīng)過調(diào)參,在MACCS分子指紋數(shù)據(jù)集使用森林中樹的數(shù)量為110棵,樹的深度為16層,子集特征為13個的超參數(shù).在ECFP分子指紋數(shù)據(jù)集使用森林中樹的數(shù)量為109棵,最大深度為16層,子集特征為20個的超參數(shù).

采用類似二分類的方法,依次統(tǒng)計每個類別與其他類別之間的二分類學(xué)習結(jié)果,繪制各類別受試者工作特征曲線(receiver operating characteristic curve,ROC曲線),對每類ROC曲線取平均值,即可得到最終的模型分類ROC曲線,如圖5所示.在MACCS分子指紋下AUC(area under curve,AUC)值為0.687 6,ECFP分子指紋下AUC為0.746 3,ECFP分子指紋數(shù)據(jù)集下模型展示出較好的性能.通過圖5(a)、(c)發(fā)現(xiàn),在類別0和類別4中分類效果較好.

圖5 隨機森林學(xué)習結(jié)果ROC曲線Fig.5 ROC curve of random forest learning results

在對隨機森林模型訓(xùn)練后,生成測試集混淆矩陣,見表2和表3.矩陣中每行表示一個實際分類的樣本,每列表示預(yù)測分類的結(jié)果,主對角線上的值表示被正確預(yù)測的樣本數(shù).由表2和表3分別計算兩種分子指紋數(shù)據(jù)集下準確率(Precision)、召回率(Recall)和F1-Score作為模型分類結(jié)果的評價指標,如表4~5所列.

表2 MACCS分子指紋數(shù)據(jù)集隨機森林分類結(jié)果Tab.2 Random forest prediction results of MACCSmolecular fingerprint dataset

表3 ECFP分子指紋數(shù)據(jù)集隨機森林預(yù)測結(jié)果Tab.3 Random forest prediction results of ECFP molecular fingerprint dataset

表4 MACCS分子指紋數(shù)據(jù)集隨機森林分類的性能評價Tab.4 Performance evaluation of random forest classification of MACCS molecular fingerprint dataset

由表4和表5可知:在類別0和類別4中的數(shù)據(jù)準確度、召回率和F1-Score較其他類別高,訓(xùn)練后的機器學(xué)習模型較好地區(qū)分了這兩類,同時表5中數(shù)值優(yōu)于表4,與圖5中ROC圖呈現(xiàn)的結(jié)論一致;由于ECFP擁有比MACCS更多的特征,因此在ECFP分子指紋數(shù)據(jù)集下模型分類結(jié)果更好.

表5 ECFP分子指紋數(shù)據(jù)集隨機森林分類的性能評價Tab.5 Performance evaluation of random forest classification of ECFP molecular fingerprint dataset

3.3 機器學(xué)習模型在有機光電材料篩選中的應(yīng)用

模型訓(xùn)練完成后,對于未知能量轉(zhuǎn)換效率的材料,可以將基本物理性能參數(shù)連同分子指紋作為測試樣本,使用模型進行分類預(yù)測,得到此材料性能類別,即對應(yīng)類別的能量轉(zhuǎn)換效率數(shù)值區(qū)間,再輔以經(jīng)驗判斷有無材料合成和器件制作的必要.

另外,訓(xùn)練后的機器學(xué)習模型建立了一種“結(jié)構(gòu)-性能”關(guān)系,可以從公開的有機材料數(shù)據(jù)庫中查詢數(shù)據(jù)來進行批量預(yù)測,根據(jù)預(yù)測結(jié)果實現(xiàn)材料的快速篩選.

4 結(jié)論

本文通過無監(jiān)督學(xué)習對數(shù)據(jù)自動分類標記,提高了數(shù)據(jù)集預(yù)處理的效率,同時在監(jiān)督學(xué)習分類中也展示出自動標記的數(shù)據(jù)集具有良好的質(zhì)量,為PSCs材料篩選設(shè)計提供了機器學(xué)習方法和素材.

從遷移學(xué)習場景來看,PSCs材料和光電探測器材料分子結(jié)構(gòu)相近,符合遷移學(xué)習的要求;從有機光電功能材料功能原理來看,材料光電特性的本質(zhì)是材料中電子的各種行為帶來的結(jié)果,與其分子結(jié)構(gòu)是密不可分的,高性能PSCs材料意味著高的光電性能,因此從結(jié)構(gòu)出發(fā)的機器學(xué)習方法同樣可以用在光電探測器等其它有機光電材料的設(shè)計篩選中.

綜上所述,將機器學(xué)習應(yīng)用于有機光電材料篩選與設(shè)計中,有助于加快更多潛在新的材料的發(fā)現(xiàn).另外,受制于缺乏大規(guī)模高質(zhì)量的數(shù)據(jù)集,未能取得更加準確的分類結(jié)果,更多的數(shù)據(jù)集的收集完善和其他機器學(xué)習方法的探索在今后的工作中將逐步展開.

猜你喜歡
類別聚類指紋
一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
基于知識圖譜的k-modes文本聚類研究
基于數(shù)據(jù)降維與聚類的車聯(lián)網(wǎng)數(shù)據(jù)分析應(yīng)用
為什么每個人的指紋都不一樣
一起去圖書館吧
基于模糊聚類和支持向量回歸的成績預(yù)測
簡析基于概率預(yù)測的網(wǎng)絡(luò)數(shù)學(xué)模型建構(gòu)
唯一的指紋
可疑的指紋
選相紙 打照片
时尚| 大关县| 鹤峰县| 富平县| 双牌县| 财经| 景德镇市| 平顺县| 郯城县| 黎平县| 广宁县| 舟曲县| 棋牌| 汕头市| 华宁县| 米林县| 乐都县| 屯门区| 察哈| 尖扎县| 久治县| 丹巴县| 台中市| 罗平县| 临邑县| 安达市| 江孜县| 榆林市| 南昌县| 务川| 五河县| 府谷县| 磴口县| 开封县| 雷山县| 呼伦贝尔市| 望都县| 凌海市| 盘锦市| 徐水县| 都安|