姚建華 李佳 徐雯麗 蔣舒仰 胡靜
1中國(guó)科學(xué)院能量調(diào)控材料重點(diǎn)實(shí)驗(yàn)室,中國(guó)科學(xué)院上海有機(jī)化學(xué)研究所(上海 200032)
2鄭州工程技術(shù)學(xué)院 (河南鄭州 450044)
截至目前,美國(guó)SCIFINDER數(shù)據(jù)庫(kù)系統(tǒng)收錄的化合物數(shù)據(jù)已達(dá)1.55億,其中有很多化合物的化學(xué)結(jié)構(gòu)有多種表達(dá)形式,被稱為化學(xué)結(jié)構(gòu)表示的歧義性。這種歧義性給化學(xué)結(jié)構(gòu)的計(jì)算機(jī)處理帶來(lái)了困難。結(jié)構(gòu)歧義性產(chǎn)生的主要原因?yàn)椋海?)有些化合物能夠用多種都滿足價(jià)鍵理論的結(jié)構(gòu)式來(lái)表示;(2)某些化合物結(jié)構(gòu)不能用數(shù)學(xué)上的圖明確表示。
在眾多的化合物分子中,有些化合物有不止一個(gè)滿足價(jià)鍵理論的結(jié)構(gòu)表示方式,即可有多個(gè)結(jié)構(gòu)式表示同一個(gè)化合物分子。如化合物嘌啉,它的化學(xué)結(jié)構(gòu)式可以用如圖1所示的6種結(jié)構(gòu)式表達(dá),這6種表達(dá)式之間的主要區(qū)別是其中的雙鍵位置不同,但它們都滿足價(jià)鍵理論的要求。化學(xué)家在用結(jié)構(gòu)式來(lái)描述或討論嘌啉的化學(xué)物理性質(zhì)時(shí),可以從這6種結(jié)構(gòu)表示式中隨意挑選一個(gè)使用,但計(jì)算機(jī)自動(dòng)識(shí)別這6種結(jié)構(gòu)為同一個(gè)化合物,則需要采用專用的策略作預(yù)處理。
計(jì)算機(jī)處理歧義結(jié)構(gòu)時(shí)遇到的問(wèn)題主要有兩大類:(1)化合物分子與其結(jié)構(gòu)表達(dá)式之間缺少一對(duì)一的對(duì)應(yīng)關(guān)系;(2)某些歧義結(jié)構(gòu)不能用數(shù)學(xué)上的圖來(lái)表示。
所謂化合物分子與其結(jié)構(gòu)表達(dá)式之間缺少一對(duì)一的對(duì)應(yīng)關(guān)系,即一個(gè)化合物可有多種結(jié)構(gòu)表達(dá)式,如圖1所示。
圖1 嘌啉結(jié)構(gòu)的6種表達(dá)方式
所謂某些歧義結(jié)構(gòu)不能用數(shù)學(xué)上的圖來(lái)表示,是由于圖論的表達(dá)能力不能滿足化學(xué)鍵理論所要表達(dá)內(nèi)容的要求。如在價(jià)鍵理論中,將化學(xué)鍵描述為由原子間共享電子而形成。根據(jù)提供電子方式的不同,可以形成δ鍵、π鍵以及配價(jià)鍵等不同類型的化學(xué)鍵;根據(jù)共享電子云密度的不同,形成的化學(xué)鍵可分為單鍵、雙鍵、三鍵等。δ鍵是成鍵的兩原子各自提供一個(gè)電子;π鍵或配價(jià)鍵是由成鍵的兩原子可以各自提供一個(gè)電子,也可以一個(gè)原子提供空軌道而另一個(gè)提供共享的電子對(duì),甚至可以由成鍵的π電子來(lái)提供。遺憾的是,圖論無(wú)法表達(dá)化學(xué)鍵的軌道或電子信息。
對(duì)于具體某一類型的化合物而言,出現(xiàn)的歧義結(jié)構(gòu)的形式可能具有某種規(guī)律性。為此,不同的化學(xué)結(jié)構(gòu)處理系統(tǒng)都有對(duì)應(yīng)的處理策略和方法。這些方法主要包括:(1)輸入所有結(jié)構(gòu)式(Multiple-Acceptation);(2) 選擇某一結(jié)構(gòu)(Selection);(3) 轉(zhuǎn)換成某一確定結(jié)構(gòu)式(Transformation)。
這是3種方法中最簡(jiǎn)單的處理方式。即將一個(gè)化合物分子滿足價(jià)鍵理論的所有結(jié)構(gòu)都進(jìn)行編碼處理,并輸入到對(duì)應(yīng)的庫(kù)文件中。當(dāng)需要恢復(fù)時(shí),可采用任何一種形式的結(jié)構(gòu)式。注意,這里所謂的產(chǎn)生所有結(jié)構(gòu),并不是產(chǎn)生所有的同分異構(gòu)體,而是在保持化合物分子的物理化學(xué)性質(zhì)不變且滿足價(jià)鍵理論時(shí)的化學(xué)結(jié)構(gòu)表示形式的變化。為確保完整性和準(zhǔn)確性,應(yīng)盡可能窮盡一個(gè)化合物的所有結(jié)構(gòu)式,這將大大增加輸入結(jié)構(gòu)式的工作量,而且在結(jié)構(gòu)式的計(jì)算機(jī)處理過(guò)程中會(huì)遇到組合問(wèn)題,這將涉及計(jì)算機(jī)資源因素。因此,這種方法適用于那些結(jié)構(gòu)變化小,且不是很復(fù)雜的化合物,如碳水化合物和共振離子化合物。
對(duì)于碳水化合物而言,其存在方式處于一個(gè)動(dòng)態(tài)平衡之中,習(xí)慣上可寫成直鏈或環(huán)狀(五或六元環(huán))兩種形式,如圖2所示。在形成環(huán)狀結(jié)構(gòu)時(shí),羰基碳原子有兩種不同的構(gòu)型,從環(huán)狀形式到直鏈形式會(huì)丟失碳原子上的立體化學(xué)信息。此類結(jié)構(gòu)歧義性問(wèn)題可采用錄入全部可能的結(jié)構(gòu)形式的辦法來(lái)解決。
在輸入結(jié)構(gòu)時(shí),采用一種基于結(jié)構(gòu)式規(guī)則的自動(dòng)測(cè)試方法,從所有各種可能的結(jié)構(gòu)式中選出一個(gè)作為對(duì)應(yīng)的標(biāo)準(zhǔn)結(jié)構(gòu)式FG(Formal graph),并只輸入該結(jié)構(gòu)式。FG是在有限個(gè)不同結(jié)構(gòu)中選擇出來(lái)的最具代表性的一個(gè),它是采用某種判別過(guò)程后所得到的結(jié)構(gòu)式。顯然,這種方法應(yīng)滿足一定的要求,或有一個(gè)統(tǒng)一的格式。對(duì)不同類型的化合物,應(yīng)有不同的標(biāo)準(zhǔn)。
由于化學(xué)結(jié)構(gòu)式的描述是基于化學(xué)鍵理論,而化學(xué)鍵理論自身的不完備性使得對(duì)一些類型的化合物分子很難實(shí)現(xiàn)結(jié)構(gòu)描述。例如,采用Huckel規(guī)則或Craig規(guī)則來(lái)處理大環(huán)輪烯時(shí),當(dāng)輪烯(annulene)的n>26時(shí),即使符合Huckel規(guī)則,也已不為共振所穩(wěn)定,即已失去芳香性,再選用芳香鍵描述的結(jié)構(gòu)作為代表時(shí),似乎已不再合理。因而,該方法只對(duì)一些特定類型的化合物有效,如帶離域電荷的離子、配價(jià)鍵化合物、無(wú)機(jī)化合物、氮鹽及類似物、加成化合物及多肽等。
這是一種規(guī)范化處理方法,即將代表一化合物的所有可能的不同結(jié)構(gòu)表示形式都轉(zhuǎn)換成一個(gè)統(tǒng)一的結(jié)構(gòu)表達(dá)式,只對(duì)該規(guī)范化后的結(jié)構(gòu)表達(dá)式進(jìn)行編碼處理。在這個(gè)轉(zhuǎn)換過(guò)程中,需保留盡可能多的結(jié)構(gòu)特征信息。為此,在轉(zhuǎn)換過(guò)程中要對(duì)被轉(zhuǎn)換的部分進(jìn)行一定形式的標(biāo)記。通常不帶標(biāo)記的轉(zhuǎn)換,因?yàn)闀?huì)丟失太多的信息而不予考慮,而只考慮在采用規(guī)范化標(biāo)記圖(Normalized graph)的同時(shí)也錄入所有其他結(jié)構(gòu)式的轉(zhuǎn)換。規(guī)范化標(biāo)記圖是有限個(gè)不同結(jié)構(gòu)式F1,F(xiàn)2,…,F(xiàn)n的共有標(biāo)志,它是對(duì)所考慮的結(jié)構(gòu)式應(yīng)用某種規(guī)則處理后產(chǎn)生的結(jié)構(gòu)式。
這種方法的操作步驟主要包含4步:(1)對(duì)需錄入化合物的歧義結(jié)構(gòu)表達(dá)式進(jìn)行描述;(2)產(chǎn)生規(guī)范化標(biāo)記圖;(3)對(duì)規(guī)范化標(biāo)記圖進(jìn)行描述;(4)對(duì)有同一規(guī)范化標(biāo)記圖的化合物進(jìn)行關(guān)聯(lián)。
在結(jié)構(gòu)描述文件中,一般只記錄規(guī)范化標(biāo)記圖和無(wú)歧義的結(jié)構(gòu)。每個(gè)標(biāo)記圖中應(yīng)有指針指向放在稱為“原始結(jié)構(gòu)文件”的輔助文件中相應(yīng)的歧義結(jié)構(gòu)。這個(gè)文件被查詢時(shí),既可通過(guò)標(biāo)記圖也可通過(guò)出現(xiàn)過(guò)的結(jié)構(gòu)進(jìn)行查詢。為了生成標(biāo)記圖,不可能只確定一個(gè)總規(guī)則,因?yàn)檫@涉及到許多特定的規(guī)則,例如共振異構(gòu)、互變異構(gòu)等。但是,生成標(biāo)記圖的規(guī)則必須與描述化合物結(jié)構(gòu)的規(guī)則相一致。一般規(guī)范化標(biāo)記圖的產(chǎn)生不應(yīng)十分復(fù)雜,以便簡(jiǎn)化文件的使用。因此,只有最常見(jiàn)的那些歧義結(jié)構(gòu)是用標(biāo)記圖與結(jié)構(gòu)文件相關(guān)聯(lián)的。通常限于以下3種:互變異構(gòu)化合物、交替鍵化合物、金屬鹽類。
由于這種方法會(huì)使某些非正規(guī)畫法的化學(xué)結(jié)構(gòu)式中包含的信息丟失。例如,當(dāng)把用箭頭表示配位鍵的結(jié)構(gòu)式轉(zhuǎn)換成其他形式時(shí),就會(huì)丟失哪個(gè)原子給電子、哪個(gè)原子接受電子的信息。因而,這種方法的適用性有一定的范圍。
關(guān)于化合物分子結(jié)構(gòu)表示的歧義性問(wèn)題,目前還沒(méi)有一個(gè)通用的解決方法。以上提出的3種解決方法,各自有著不同的優(yōu)缺點(diǎn),不同的化學(xué)結(jié)構(gòu)處理系統(tǒng)可根據(jù)所處理的化合物類型采用相對(duì)應(yīng)的方法。在實(shí)際的結(jié)構(gòu)處理過(guò)程中,比較合理的解決辦法或一般原則,應(yīng)該能夠遵守化學(xué)中的近似原理,即輸入化學(xué)結(jié)構(gòu)應(yīng)最大限度地反映出化學(xué)家的習(xí)慣。