拉斯维加斯9888


電話
您的姓名 *
您的公司名稱 *
您的電話號碼 *
您的電子郵箱 *
需要 *
感興趣方向 *
留言 *
驗證碼 *
MaXFlow解決方案丨機器學習快速預測含氮分子的爆炸特性以發現新的含能材料
計算模擬平台
計算模擬平台
MaXFlow解決方案丨機器學習快速預測含氮分子的爆炸特性以發現新的含能材料
解決方案 | 2022-10-16 11:35
MaXFlow解決方案丨機器學習快速預測含氮分子的爆炸特性以發現新的含能材料
來源:計算模擬平台

摘要:含能材料廣泛應用於軍事、土木工程和空間探索等領域。新含能材料的發現是開發新一代武器、採礦、建築、火箭推進技術的基礎。本研究開發了一種機器學習輔助方法,通過高效預測和快速篩選來加速新含能材料的發現。建立了合適的神經網絡,根據不同含氮分子的結構準確地預測各種含氮分子的爆轟特性,包括密度(ρ)、爆速(D)和爆轟壓力(p)。此外,也確定了高精度擴展預測的最小數據庫容量。利用機器學習發現新的含能化合物的概念驗證研究,發現了31種具有出色爆轟性能的新含氮分子。預計在機器學習的輔助下,下一代含能材料的發展將大大加快。

 

引言

新型推進劑、煙火、炸藥的發展,對含能材料的要求不斷提高。應高效設計和開發更安全、更強大、更經濟的含能材料。實驗上由於數量巨大且安全性差的原因,合成所有可能的化合物並測試它們的性質是不現實的。因此,發展了一些計算和預測方法,以快速篩選候選分子。


近年來,隨着人工智能和機器學習技術的發展,神經網絡已被用於根據相應結構有效預測分子性質。無機固體的原子化能、能帶、鍵能、聚合物的介電擊穿強度、分子液體的臨界點性質和光合複合物的激子動力學等,被各種神經網絡預測,誤差很小。最近,一些研究人員將機器學習作為一種工具來預測含能材料的性質和篩選含能分子。Elton等人應用機器學習技術從分子結構預測CNOHF含能分子的性質。基於一個包含104個數據點的大數據集,通過機器學習預測了爆轟速度。結合機器學習(ML)、材料信息學(MI)和熱化學數據,根據高ΔHe值篩選分子候選物。基於機器學習的性質預測和分子篩選策略在發現新的高能密度材料方面具有很大的潛力。


為了有效地發現新的含能材料,對已開發的神經網絡的擴展預測是一項需要評估的額外要求。拉斯维加斯9888最近發起了一項研究,以基於機器學習高通量篩選發現新的碳氫化合物燃料。在小數據庫上訓練的最優神經網絡也可以應用到更大的數據庫中,準確預測新設計的含N分子的爆炸特性。有趣的含能材料的發現將大大加快。


這項工作試圖通過機器學習快速預測新型含能材料的爆轟性質,實現對新型含能材料的快速篩選。建立了各種不同體積的典型含能分子的結構-性質數據庫,並在此基礎上訓練了許多神經網絡,以準確地擴展預測爆轟性質。研究了數據庫樣本數量對機器學習擴展預測精度的影響。使用在較少樣本上訓練的已開發神經網絡,實現了對這些新分子的有效性質預測和快速篩選。最後,確定了31個具有高密度、高爆速和高爆壓的分子,其精度與理論計算相當。機器學習有望大大加快用於各種應用的新含能材料的設計和發現。這項工作的方案如圖1所示。


P1.png

圖1 機器學習的屬性預測和分子篩選示意圖。

 

2、數據庫與方法
2.1 數據

2.1.1數據集

拉斯维加斯9888使用了許多典型炸藥(TNT、CL-20、HMX、RDX等)作為初始數據集和分子骨架設計了436個包含碳(C)、氫(H)、氧(O)和氮(N)元素的分子,因為這些炸藥分子在實驗中具有出色的爆轟特性,並通過理論動力學分析進行了驗證。在這些「分子骨架」的基礎上,拉斯维加斯9888使用鍵長不等的取代基─NO2、─N─NO2、─O─NO2,短鍵長的N─NO2、NH2、─NH─NO2構建了新的分子。 如圖2所示,分子中包含的原子數為7至64,分子中氮的質量百分比為5.53%至59.32%。統計數據證實了該數據庫中設計的分子結構的多樣性。


P2.png

圖2 a)原子數和b)分子中氮的質量百分比的統計數據。


2.1.2. 計算爆轟特性的方法

密度(ρ)、起爆速度(D)和起爆壓力(P)是評價炸藥性能的關鍵指標。下面介紹這三個性質的理論計算方法。


理論密度ρ(g cm-3)採用由Politzer等人推導的式(1)計算


S1.png


M為分子質量(g mol−1),V(0.001)為分子電子密度的0.001電子玻爾輪廓線的體積(每分子cm3),ν表示在等值面上正負電勢的平衡程度,微信圖片_20221017134118.png是靜電電勢變異性的度量,係數 α、β和λ分別為0.9183,0.0028和0.0443。根據經驗Kamlet-Jacobs方程(式(2)和(3))分別估算了爆炸物的爆速D (km s−1)和爆壓P (GPa)。


S23.png

N是每克炸藥產生的氣體的摩爾數,微信圖片_20221017134246.png為氣態爆轟產物的平均分子量,Q是爆轟熱(cal  g-1),ρ是炸藥的密度(g cm-3)。


基於上述理論計算方法,拉斯维加斯9888對7種典型的爆炸分子進行了計算,並比較了理論計算值與實驗值的差異。7種典型炸藥的ρ、D和P的理論計算值與實驗值之間的MAEs分別為0.0905 g cm-3、0.5046 km s -1和2.190 GPa。結果(如表1)表明,本文所採用的計算方法對於預測爆轟性質和篩選目標分子具有足夠的準確性。然後用上述方法計算了數據庫中其他429個分子的爆炸性質。至此,436個分子的分子結構及其爆轟特性數據庫全部建立。


表1 七種典型炸藥的理論計算和實驗(括號內)性能比較。


T1.png

2.2 數據表達

根據之前的工作,庫侖矩陣及其本徵值已被初步證實是預測分子性質的有效表示。本文選擇包含分子結構和核電荷的庫侖矩陣作為機器學習的輸入。根據式(4)計算庫侖矩陣如下:


S4.png


其中,R為笛卡爾坐標,Z為核電荷,非對角元素表示原子i和j之間的庫侖斥力,對角元素表示原子能與核電荷的多項式(0.5微信圖片_20221016222726.png)擬合。這個數據庫中分子的原子數從7到64. 因此,拉斯维加斯9888在低維矩陣中填入0,得到64 x 64的均勻數據。然後由式(5)計算庫侖矩陣的本徵值。Cij為分子的庫侖矩陣。計算得到的本徵值也可以代表分子結構


S5.png


圖3為HMX的庫侖矩陣和對應的特徵值,深綠色表示值越小,深紅色表示值越大。每個參與分子的信息都以同樣的方式轉化。將設計的所有分子轉換為包含分子庫侖矩陣(436×64×64)、庫侖矩陣分子本徵值(436×64)和計算得到的三個爆轟性質張量(436×3)的新數據集,以庫侖矩陣分子本徵值(436×64)作為輸入,以2.1節中計算得到的爆轟性質張量(436×3)作為機器學習的輸出。


P3.png


圖3 HMX的分子結構、庫侖矩陣和本徵值。(深綠色表示值較小,深紅色表示值較大。)


2.3 神經網絡

在這項工作中,採用神經網絡來完成預測和篩選任務。構建了10個隱藏神經元和1個輸出層的神經網絡模型(圖4)。數據庫分為3部分,分別為訓練組、驗證組和測試組,比例分別為0.8:0.1:0.1。通過比較不同方法訓練過程的準確率和速度,拉斯维加斯9888選擇Levenberg-Marquardt (LM)算法,這需要更多的內存,但需要更少的時間。採用均方誤差(MAE)作為損失函數和收斂準則。採用LM算法的程序會自動疊代,直到達到收斂準則。訓練結束後,拉斯维加斯9888得到回歸函數,繪製出每個屬性的表現。未發現明顯的欠擬合或過擬合。最後,利用回歸函數計算了三種爆轟特性預測的線性相關係數(R)和平均絕對誤差(MAE)。


P4.png

圖4 神經網絡模型的示意圖

3、結果與討論
3.1利用機器學習預測爆炸性質

該神經網絡由10個隱藏神經元和1個輸出層組成,在自建的包含436個含N結構及其爆轟特性的數據庫上進行訓練。圖5顯示了密度(ρ)的擬合程度。當R趨於1時,數據點分佈在對角線(y = x)附近,預測效果較好。擬合結果表明,所設計的神經網絡對訓練數據集、驗證數據集和測試數據集的學習效果良好。


P5.png

圖5 由神經網絡通過訓練、驗證和測試預測的密度(ρ)(「目標」是目標值,「輸出」是預測值。)


R和MAE預測ρ、D和P的值匯總在表2中。MAE對應ρ、D、P理想性能值的百分比(ρ≈1.9 g cm-3, d≈9.0 km s-1, P≈40.0GPa)分別為1.36%、3.84%、3.73%。預測誤差得到了有效抑制。因此,所開發的神經網絡足夠準確和高效,可以直接根據給定的分子結構生成目標爆轟特性。

 

表2 使用神經網絡預測爆轟特性的MAE值。

T2.png


3.2機器學習的擴展預測

對給定的新分子結構的大數據庫進行擴展預測,可以實現對新能量分子的快速高通量篩選。在此之前,應在具有有限樣本和屬性數據的小型數據庫上訓練合適的神經網絡。在此,通過在不同樣本數的不同小型數據庫上進行訓練,開發了各種神經網絡。然後,對所獲得的神經網絡進行評估,以擴展預測新含氮分子的爆轟特性。進一步研究了數據庫樣本數量對機器學習擴展預測精度的影響。


建立4個包含不同樣本數(100、150、200、300)的小型數據庫對神經網絡進行訓練。數據庫中含N分子的類型選擇相近。然後,將揭示數據庫樣本的數量對訓練結果的影響。應變神經網絡隨後用於預測新分子的爆轟特性,形成一個大數據庫(436個樣本)。


如圖6所示,三種爆轟特性的MAEs均隨着訓練樣本從100增加到436而減小,且呈現先快後慢的趨勢。在300個樣本上訓練的神經網絡預測ρ、D和P的MAEs分別為0.0359 g cm-3、0.4548 km s-1和3.1873 GPa,對應的標準差分別為0.0046 g cm -3、0.0296 km s -1和0.5271 GPa。用436個樣本訓練的神經網絡預測ρ、D和P的MAEs分別為0.0303 ±0.0047 g cm-3、0.3929±0.0423 km s-1和2.3786±0.7888 GPa。通過比較MAEs及其標準差,300樣本訓練的神經網絡的預測精度已經接近436樣本訓練的神經網絡的預測精度。在選取的300個樣本上訓練的神經網絡已經可以實現高精度的擴展預測。因此,拉斯维加斯9888在300個樣本的小數據庫上訓練神經網絡,在後續研究中通過擴展預測來快速篩選高能量化合物。


P6.png

圖6 在不同的大小的數據庫上訓練的各種神經網絡預測含N分子a) ρ、 b) D和 c) P的MAE值。


然後將所有含N分子的結構輸入到在300個樣本的小數據庫上訓練的開發好的神經網絡中。利用循環代碼計算了所有分子的三種爆炸特性。這個過程在個人計算機上只花費0.038秒(CPU i5-7, 8gb RAM)。機器學習可以在很短的時間內完成大量分子的性質預測任務。與2.1.2節所述的基於分子建模和理論計算的傳統方法相比,機器學習方法的效率要高得多。


所開發的神經網絡預測的所有數據都被可視化地顯示在一個3D圖中,如圖7所示。深藍色表示較大的密度值,深紅色表示圖中較小的密度值。在坐標系中遠離原點的x、y、z三個坐標的數據點代表突出的爆轟特性。基於高效機器學習擴展預測建立的結構-性質數據庫,可以輕鬆篩選具有突出爆轟性質的有趣分子。因此,發展起來的基於小型數據庫的神經網絡可以通過擴展預測建立許多大型數據庫,並實現更多高能分子的高通量篩選。


P7.png

圖7 300個樣本的數據庫上訓練的神經網絡預測的所有分子的D(x軸)、P(y軸)和ρ(z軸)。(深藍色表示密度值較大,深紅色表示密度值較小。)


3.3新的含能材料

拉斯维加斯9888對數據庫中的三個關鍵屬性進行排名,篩選每個屬性(ρ,D和P)的前10個分子。密度最高的前10個分子(ρ)是213、336、25、27、432、37、26、20、209和36。擁有最高爆速(D)的前10個分子分別是209、211、213、4 24、434、148、436、149、20和3。P分子排名前10位的是213、149、434、148、209、424、4、430、3和105。根據性質值的不同,分子數的排列順序依次遞減。具有最高密度、最高爆速或最高爆壓的最佳分子各不相同。只有213號分子的三種性質都排在前十。為了發現更多潛在的高能分子,對數據庫進行了另一種方式的進一步篩選。典型的高能量材料通常具有ρ≈1.9 g cm−3、D≈9.0km s−1和P≈40.0 GPa的爆轟特性。因此,篩查標準設置為ρ≥1.9g cm−3,D≥9.0km s−1,以及P ≥ 40.0 GPa.經過篩選,得到了31個符合標準的分子。其分子結構如圖8所示。


P8.png

圖8 篩選的31個含N分子的分子結構。


根據分子結構,這31個分子可分為四種類型。有10個分子具有環狀硝基胺的結構,如圖8的第一行和第二行所示。這些具有能量環的硝胺可以具有單環(005和049)、熔融環(009、018、019和020)、雙環結構(194和195)或橋接環(320和335)。8種高能含N的化合物具有如圖8的第三行和第四行所示的籠狀結構。據推測,這些有趣的結構為設計和開發新型高能材料或提高現有炸藥的性能提供了指導。


上述四種含氮分子的平均含氮質量百分比分別為43.03%、31.22%、32.57%和35.40%。所有31個分子的平均含氮質量比例為38.96%。拉斯维加斯9888假設一定的含氮質量比例是保證這些化合物具有良好爆轟性能的標準之一。


為了驗證機器學習的預測並確認拉斯维加斯9888的篩選結果,拉斯维加斯9888比較了機器學習預測(紅點)和理論方法計算的31個分子的ρ、D和P的值,如圖9所示。用兩種方法計算出的密度、爆轟速度和爆轟壓力三種特性的變化趨勢高度一致。計算了通過機器學習預測爆轟特性的MAEs,31個分子中的ρ、D和P分別為0.0394g cm−3、0.5386km s−1和4.666 GPa。



P9.png

圖9 通過機器學習(紅點)預測和通過理論方法計算(黑方塊)的性質a)XX、 b) D和c)P。


相比之下,之前通過訓練開發的其他不同容量的數據庫(100、150、200和436)的神經網絡也通過擴展預測建立了結構-性能的大數據庫。在這些數據庫中,同樣的標準(ρ≥1.9g cm−3,D≥9.0km s−1,P ≥ 40.0 GPa)被用於篩選具有突出爆轟特性的新高能分子。得到不同的靶分子。


P10.png

圖10 優化後的No.164的分子結構


值得一提的是,在重組的31個分子中的No. 164分子是新的,這在以前的工作中沒有報道過。優化後的No. 164分子結構如圖10所示。它具有像CL-20這樣的籠狀結構,通過理論方法計算出的三種爆轟性能(ρ、D、P)均優於CL-20。No. 164的分子可能是新的含能材料的一個非常有競爭力的候選材料。拉斯维加斯9888目前正在探索這種有趣的含氮結構的合成,為驗證拉斯维加斯9888的預測,並為下一代含能材料的發展開闢新的途徑。除了爆轟速度和爆轟壓力的特性外,還有一些重要的因素,還需要考慮動力學穩定性、化學安全性等因素。在未來,當這些相關屬性的數據庫建立起來時,這些屬性可以基於機器學習快速預測。從這個角度來看,迫切需要更多的工作來通過機器學習發現新的潛在的能量材料。

4結論

總之,機器學習已經被引入來準確預測新的含N能量分子的爆轟特性。通過建立合適的神經網絡,有效地抑制了預測誤差,ρ、D和P的MAEs分別為0.0259 g cm−3、0.3456 km s−1和1.4933 GPa。300個的訓練數據庫量足以在合理選擇樣本結構的基礎上實現高精度的擴展預測。利用已開發的神經網絡建立了一個大型結構性質數據庫,篩選了31個高密度(ρ≥1.9 g cm−3)、高爆震速度(D≥9.0 km s−1)和高爆轟壓力(P≥40.0 GPa)的分子。這一概念驗證研究為發現有趣的含氮分子開闢了新的途徑,有望加速下一代高能材料的發展。

 

參考文獻:Advanced Theory and Simulations: Volume4, Issue6 June 2021 2100057.