羅 佳,許小青,王煒祺,張 威
(江蘇衛(wèi)生健康職業(yè)學院 藥學院,南京 211800)
新藥研發(fā)長期受研發(fā)周期長、資金耗費巨大、成果回報率低等因素的困擾,世界主流藥企一直都在努力嘗試通過技術(shù)創(chuàng)新來加快新藥研發(fā)速度,提高成功率和降低成本,以期能更好地滿足日益增長的用藥需求。隨著以深度學習為代表的人工智能技術(shù)的蓬勃發(fā)展,在新藥研發(fā)產(chǎn)業(yè)鏈中交叉引入人工智能理論成為了當下的研究熱點,新藥研發(fā)產(chǎn)業(yè)鏈具有高度密集的可用數(shù)據(jù)集[1],深度學習理論具有強大的密集數(shù)據(jù)集隱性特征自感知屬性,為人工智能在新藥研發(fā)領(lǐng)域的應(yīng)用提供了先天優(yōu)勢。深度學習理論可以應(yīng)用于新藥研發(fā)的各個階段,在藥物發(fā)現(xiàn)及臨床前研究階段[2],主要應(yīng)用在靶點發(fā)現(xiàn)、先導化合物篩選等,在臨床試驗階段主要應(yīng)用在制劑研發(fā)、試驗優(yōu)化等,在審批上市階段,主要應(yīng)用在產(chǎn)品優(yōu)化與學術(shù)推廣等。深度學習理論不僅能夠挖掘出不易被發(fā)現(xiàn)的隱性關(guān)系,構(gòu)建藥物、疾病和基因之間的深層次關(guān)系,同時,可對候選化合物進行虛擬篩選,更快地篩選出具有較高活性的化合物,為后期臨床試驗做準備。
基于人工智能和大數(shù)據(jù)的精準藥物設(shè)計技術(shù)開發(fā)目前已經(jīng)逐漸成為學術(shù)界的研究熱點,國內(nèi)外諸多新藥研發(fā)領(lǐng)域的專家學者進行了大量工作并取得了豐碩成果,具有較大影響且代表人工智能藥物研發(fā)領(lǐng)域最新研究現(xiàn)狀的學術(shù)成果介紹如下。2018 年7 月,來自美國北卡羅來納大學藥物分子模擬實驗室的Alexander 等[3]在Science Advances 等人雜志上發(fā)文,系統(tǒng)闡述了利用深度強化學習方法從頭設(shè)計特定藥物活性的分子的技術(shù)路線及可行性,給出了一種用于從頭設(shè)計具有所需特性的分子的新型計算策略,稱為ReLeaSE(結(jié)構(gòu)演化的增強學習)并完成了仿真驗證[4];2019 年9月,藥物研發(fā)人工智能公司Insilico Medicine 與藥明康德聯(lián)合在Nature Biotechnology 報道了基于人工智能設(shè)計DDR1 抑制劑的成功案例,從靶點選擇到活性分子篩選和驗證,總時長耗費46 d,信息收集及數(shù)據(jù)整理7 d,建立深度學習模型12 d,優(yōu)化2 d,合成及動物實驗25 d。2019 年12 月,來自瑞士蘇黎世聯(lián)邦理工大學的Jose 等[5]在Nature 雜志上發(fā)文,詳細闡述了人工智能在活性小分子藥物發(fā)現(xiàn)中的重要作用,明確指出深度學習算法優(yōu)化和機器學習領(lǐng)域之間的交叉可能會導致藥物研發(fā)領(lǐng)域更快的發(fā)展;2020 年1 月,來自中科院上海藥物研究所的Yang 等[6]在Journal of Medicinal Chemistry(JMC)雜志上發(fā)文,通過深度學習技術(shù)發(fā)現(xiàn)P300/CBP 組蛋白乙酰轉(zhuǎn)移酶先導化合物,然后通過結(jié)構(gòu)改造發(fā)現(xiàn)活性最強的抑制劑,可作為潛在的臨床開發(fā)候選藥物進行廣泛的臨床前研究。
雖然基于人工智能和大數(shù)據(jù)的精準藥物設(shè)計技術(shù)開發(fā)已經(jīng)取得了令人矚目的成績,但是在學術(shù)研究、技術(shù)革新、落地產(chǎn)業(yè)化等層面還存在諸多問題,很大程度上制約了人工智能理論在新藥研發(fā)領(lǐng)域真正的落地開花,結(jié)合基于人工智能和大數(shù)據(jù)的精準藥物設(shè)計技術(shù)在國內(nèi)外的最新研究現(xiàn)狀,從技術(shù)壁壘、研發(fā)理念、產(chǎn)業(yè)化布局等角度簡單總結(jié)當前人工智能藥物研發(fā)領(lǐng)域存在的主要問題。
1)技術(shù)壁壘角度:人工智能理論發(fā)揮效能的催化劑是格式一致的有效密集數(shù)據(jù)集,但目前國內(nèi)外主流藥企具有很強的封閉性,新藥研發(fā)涉及到數(shù)據(jù)集大多作為商業(yè)秘密,導致訓練數(shù)據(jù)集格式多樣且共享性較差,為基于人工智能理論構(gòu)建統(tǒng)一規(guī)范的藥物研發(fā)隱性規(guī)律感知機制造成了困境。
2)研發(fā)理念角度:雖然國內(nèi)外主流藥企均已積極布局人工智能藥物研發(fā)領(lǐng)域的研究,由于長期受傳統(tǒng)藥物研發(fā)理念的束縛,國內(nèi)外主流藥企仍然把傳統(tǒng)藥物研發(fā)作為重點布局對象,對基于人工智能和大數(shù)據(jù)的精準藥物設(shè)計技術(shù)開發(fā)仍持觀望態(tài)度,在資金投入、政策扶持、人才引進等方面存在壁壘。
3)產(chǎn)業(yè)化布局角度:人工智能藥物研發(fā)領(lǐng)域的核心成果目前大多局限于學術(shù)領(lǐng)域,成果適用范圍往往局限在理想環(huán)境下的藥物實驗室,真正意義上的新藥成果極少。截至目前,還沒有一款人工智能藥物研發(fā)產(chǎn)品批準上市,因此,在大部分初創(chuàng)企業(yè)需要面對產(chǎn)出成果不足或者不優(yōu)而導致財務(wù)狀況堪憂的現(xiàn)狀下,企業(yè)需要合理地定位產(chǎn)業(yè)鏈角色,選擇適合的創(chuàng)新商業(yè)模式進行產(chǎn)業(yè)化布局,人工智能藥物研發(fā)的初創(chuàng)企業(yè)要積極跟學術(shù)界和產(chǎn)業(yè)龍頭合作,獲得優(yōu)質(zhì)數(shù)據(jù)是立足之本。
基于深度學習理論的藥物先導化合物自主感知及優(yōu)化策略研究整體的目標是開發(fā)一種先驗活性需求下的面向數(shù)以百萬計的小分子化合物最優(yōu)組合的人工智能算法,實現(xiàn)具有某種生物活性和特定化學結(jié)構(gòu)的先導化合物自主感知及優(yōu)化策略生成。基于深度學習理論的藥物先導化合物自主感知及優(yōu)化策略研究擬解決的關(guān)鍵問題包括分子結(jié)構(gòu)字符化、特征自主提取及感知、分子結(jié)構(gòu)優(yōu)化策略生成等[7]。其中,分子結(jié)構(gòu)字符化主要實現(xiàn)二維或者三維分子模型的字符化,便于人工智能算法進行精準特征的提取與學習;特征自主提取及感知主要對以SMILES 字符串形式表達的分子庫進行特征提取與學習,完成深度可分離卷積神經(jīng)網(wǎng)絡(luò)的預訓練,以生成化學結(jié)構(gòu)合理的SMILES 字符串,并使用預測模型來預測生成的化合物相關(guān)屬性;分子結(jié)構(gòu)優(yōu)化策略生成主要實現(xiàn)對自主生成的SMILES 字符串表達形式的分子結(jié)構(gòu)進行優(yōu)化擴展,優(yōu)化擴展的依據(jù)可以是模型新學習到的經(jīng)驗,也可以是目前已經(jīng)報道及具有潛在活性的先驗先導化合物。
基于深度學習理論的藥物先導化合物自主感知及優(yōu)化策略研究整體涉及分子結(jié)構(gòu)字符化子模型、特征自主感知子模型、分子優(yōu)化策略生成子模型3 個子模型。其中,分子結(jié)構(gòu)字符化子模型采用長短期記憶人工神經(jīng)網(wǎng)絡(luò)算法(LSTM)對ChEMBL 數(shù)據(jù)庫中的150 萬個分子進行特征訓練,選擇SMILES 作為分子表現(xiàn)形式,以此訓練分子結(jié)構(gòu)字符化子模型,使其學習自主生成SMILES 字符串的規(guī)則,以便生成合理的SMILES 字符串;特征自主感知子模型利用深度可分離卷積神經(jīng)網(wǎng)絡(luò)算法(DSC)對ChEMBL 數(shù)據(jù)庫中所有人源蛋白靶標的活性小分子進行迭代預訓練,構(gòu)建先導化合物活性與結(jié)構(gòu)之間的物理映射關(guān)系,實現(xiàn)先導化合物活性與結(jié)構(gòu)之間隱性知識的自主感知,利用特征自主感知子模型對分子結(jié)構(gòu)字符化子模型生成的SMILES 字符串進行活性預測,篩選符合特定活性的化合物庫;分子優(yōu)化策略生成子模型利用深度循環(huán)神經(jīng)網(wǎng)絡(luò)算法(RNN)實現(xiàn)分子優(yōu)化策略的自主生成,使用SMILES 字符串作為輸入向量來計算分子的相關(guān)屬性,并基于學習到的新經(jīng)驗(目前已經(jīng)報道及具有潛在活性的先驗先導化合物對模型等)對自主感知子模型預測的SMILES字符串進行活性優(yōu)化。
為了實現(xiàn)先導化合物自主感知及優(yōu)化策略生成,針對模型分子結(jié)構(gòu)字符化子模型,利用基于RDKit 的Python 腳本實現(xiàn)分子結(jié)構(gòu)SDF 格式與SMILES 格式的相互轉(zhuǎn)換,利用特定編輯軟件還原成二維圖形或分子的三維模型;針對模型自主感知子模型,利用ChEMBL數(shù)據(jù)庫中所有人源蛋白靶標的活性小分子對深度可分離卷積神經(jīng)網(wǎng)絡(luò)進行迭代預訓練,構(gòu)建先導化合物活性與結(jié)構(gòu)之間的物理映射關(guān)系,實現(xiàn)先導化合物活性與結(jié)構(gòu)之間隱性知識的自主感知,初步實現(xiàn)自主生成特定先驗活性的先導化合物;針對模型優(yōu)化策略生成子模型,提供具有良好人機交互的擴展API 接口,利用目前已經(jīng)報道及具有潛在活性的先驗先導化合物對模型進行優(yōu)化調(diào)整,為進一步獲得可用于合成及后續(xù)生物活性實驗的性質(zhì)較好先導化合物,通過若干特定規(guī)則對生成的先導化合物庫進行排序和篩選。模型設(shè)計完成并經(jīng)過系統(tǒng)性整合后,完成已知小分子活性環(huán)境下的效能仿真驗證。
聚焦基于深度學習理論的藥物先導化合物自主感知及優(yōu)化策略研究擬解決的關(guān)鍵問題針對開展研究過程中各個子階段的特點,采用差異化研究方法,以研究目標及擬解決的關(guān)鍵問題為導向,針對基于深度學習理論的藥物先導化合物自主感知及優(yōu)化策略研究整體涉及的3 個子模型分別采用貼切的研究方法,簡述如下。針對分子結(jié)構(gòu)字符化子模型采用數(shù)學建模、軟件編程實現(xiàn)的研究方法,具體利用長短期記憶人工神經(jīng)網(wǎng)絡(luò)算法(LSTM)對ChEMBL 數(shù)據(jù)庫中的150 萬個分子進行模型訓練,實現(xiàn)有效分子結(jié)構(gòu)的的自主生成;針對特征自主感知子模型采用數(shù)學建模、軟件編程實現(xiàn)、仿真驗證的研究方法,具體利用深度可分離卷積神經(jīng)網(wǎng)絡(luò)算法(DSC)對ChEMBL 數(shù)據(jù)庫中所有人源蛋白靶標的活性小分子進行迭代預訓練,實現(xiàn)對分子結(jié)構(gòu)字符化子模型生成的SMILES 字符串進行活性預測;針對分子優(yōu)化策略生成子模型采用數(shù)學建模、軟件編程實現(xiàn)、仿真驗證、試驗驗證的研究方法,利用深度循環(huán)神經(jīng)網(wǎng)絡(luò)算法(RNN)實現(xiàn)分子活性優(yōu)化策略的自主生成,進一步獲得可用于合成及后續(xù)生物活性試驗的性質(zhì)較好的先導化合物。
針對基于深度學習理論的藥物先導化合物自主感知及優(yōu)化策略研究3 項擬解決的關(guān)鍵問題分別給出便于計算機仿真及試驗驗證的具體技術(shù)路線。針對擬解決的關(guān)鍵問題一,選取ChEMBL 數(shù)據(jù)庫中的大約150萬個類藥分子作為分子結(jié)構(gòu)訓練數(shù)據(jù)源,利用基于RDKit 的Python 腳本實現(xiàn)分子結(jié)構(gòu)SDF 格式與SMILES 格式的相互轉(zhuǎn)換,利用特定編輯軟件還原成二維圖形或分子的三維模型[8],實現(xiàn)分子結(jié)構(gòu)訓練數(shù)據(jù)源轉(zhuǎn)換為SMILES 字符串分子表現(xiàn)形式,利用SMILES 字符串分子表現(xiàn)形式對長短期記憶人工神經(jīng)網(wǎng)絡(luò)算法(LSTM)進行迭代訓練,其中,長短期記憶人工神經(jīng)網(wǎng)絡(luò)算法(LSTM)采用多維網(wǎng)絡(luò)結(jié)構(gòu),包含4 個LSTM層、2 個Dropout 層、2 個TimeDistributed 層和1 用于激活過程的Softmax 函數(shù);針對擬解決的關(guān)鍵問題二,對ChEMBL 數(shù)據(jù)庫中所有人源蛋白靶標的活性小分子對深度可分離卷積神經(jīng)網(wǎng)絡(luò)算法(DSC)進行深度預訓練,構(gòu)建先導化合物活性與結(jié)構(gòu)之間的物理映射關(guān)系,對分子結(jié)構(gòu)字符化子模型生成的SMILES 字符串進行活性預測,其中深度可分離卷積神經(jīng)網(wǎng)絡(luò)算法(DSC)屬于深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其由一個擴展嵌入層、2 個可分離卷積層和2 個密集層組成,該網(wǎng)絡(luò)利用SMILES字符串作為輸入向量來預測分子的相關(guān)活性;針對擬解決的關(guān)鍵問題三,采用目前最新報道及具有潛在活性的先驗先導化合物對深度循環(huán)神經(jīng)網(wǎng)絡(luò)算法(RNN)進行循環(huán)訓練,向DSC 網(wǎng)絡(luò)添加額外的權(quán)重,保證在DSC 網(wǎng)絡(luò)始終可以循環(huán)獲取最新經(jīng)驗,實現(xiàn)分子活性優(yōu)化策略的自主生成,進一步獲得可用于合成及后續(xù)生物活性試驗的性質(zhì)較好的先導化合物。
聚焦以深度學習為代表的人工智能技術(shù)在新藥研發(fā)領(lǐng)域的廣闊應(yīng)用前景,選擇藥物早期發(fā)現(xiàn)階段的先導化合物發(fā)現(xiàn)及結(jié)構(gòu)優(yōu)化為切入點,開展了基于深度學習理論的藥物先導化合物自主感知及優(yōu)化策略研究。分析了基于人工智能和大數(shù)據(jù)的精準藥物設(shè)計技術(shù)在國內(nèi)外的最新研究現(xiàn)狀及發(fā)展趨勢,從技術(shù)壁壘、研發(fā)理念、產(chǎn)業(yè)化布局等角度簡單總結(jié)了當前人工智能藥物研發(fā)領(lǐng)域存在的主要問題,總結(jié)了基于深度學習理論的藥物先導化合物自主感知及優(yōu)化策略研究分子結(jié)構(gòu)字符化、特征自主提取及感知、分子結(jié)構(gòu)優(yōu)化策略生成3 個擬解決的關(guān)鍵問題。與基于深度學習理論的藥物先導化合物自主感知及優(yōu)化策略研究擬解決的關(guān)鍵問題相對應(yīng),設(shè)計了分子結(jié)構(gòu)字符化子模型、特征自主感知子模型、分子優(yōu)化策略生成3 個子模型,在此基礎(chǔ)上,給出了詳細科學的研究方法及技術(shù)路線,為人工智能藥物研發(fā)領(lǐng)域提供系統(tǒng)性研究案例借鑒。