任麗萍,潘賢潤,劉天元,楊 煜,寧 琳,張 楊
(1.成都東軟學(xué)院健康醫(yī)療科技學(xué)院 成都 611844;2.成都中醫(yī)藥大學(xué)醫(yī)學(xué)技術(shù)學(xué)院 成都 611137;3.筑波大學(xué)科學(xué)與技術(shù)學(xué)院 日本 筑波 3058577;4.成都中醫(yī)藥大學(xué)中醫(yī)藥創(chuàng)新研究院/交叉學(xué)科研究院 成都 611137)
細胞可通過各種化學(xué)或物理信號相互交流、應(yīng)答及協(xié)作[1]。在單細胞生物中,細胞間的信號可使不同細胞相互協(xié)調(diào),分工合作,繼而完成單個細胞無法單獨完成的任務(wù)。在多細胞生物中,細胞間信號可以使得細胞向不同方向特化形成不同的細胞類型,而不同種類的細胞之間又可以通過胞間信號傳遞與交流,有序組合形成肌肉、血液及神經(jīng)系統(tǒng)等組織和系統(tǒng),最終行使特定的生物學(xué)任務(wù)[2]。細胞這種從其他細胞或環(huán)境接收和處理各種信息,同時又通過信息的內(nèi)部運作對其他細胞與外環(huán)境做出響應(yīng)的過程被稱為細胞間通信。
單細胞測序技術(shù)的快速發(fā)展為細胞生物學(xué)提供了新的研究范式[3]。尤其是單細胞RNA 測序(single cell RNA sequencing, scRNA-seq)技術(shù),可在單細胞水平上精確表征組織及微環(huán)境中的細胞組成,提供對組織或微環(huán)境細胞異質(zhì)性和單細胞基因表達的高分辨率景觀,是剖析組織及微環(huán)境穩(wěn)態(tài)及動態(tài)過程的有力工具[4]。目前已有諸多研究利用scRNA-seq技術(shù)來繪制生理及病理情況下的組織及微環(huán)境的細胞圖譜,為解析組織與微環(huán)境中細胞間信號傳遞及調(diào)控機制提供了重要的技術(shù)支撐與數(shù)據(jù)基礎(chǔ)[4-5]。在單細胞水平上利用生物信息學(xué)方法,系統(tǒng)地解析組織及微環(huán)境中細胞間通信網(wǎng)絡(luò)及信息交流機制迅速成為細胞生物學(xué)研究的熱點[6-8]。近三年有諸多研究開發(fā)了基于單細胞測序數(shù)據(jù)的細胞間通信預(yù)測方法,極大地促進了單細胞層面細胞間信號轉(zhuǎn)導(dǎo)及機制研究[9-11]。同時,作為scRNA-seq 的補充,空間轉(zhuǎn)錄組學(xué)(spatial transcriptomics, ST)技術(shù)可繪制細胞單“點”或亞細胞分辨率下的基因表達。有研究提出將ST 數(shù)據(jù)與單細胞測序的數(shù)據(jù)結(jié)合來推斷細胞間通信以提高預(yù)測的準(zhǔn)確性及合理性[12]。本文首先簡要回顧了細胞間通信的基礎(chǔ)生物學(xué)過程,繼而結(jié)合國內(nèi)外基于單細胞測序的細胞間通信預(yù)測研究現(xiàn)狀,對目前細胞間通信相關(guān)蛋白質(zhì)配體-受體(ligand-receptor, L-R)互作數(shù)據(jù)庫、預(yù)測算法以及基準(zhǔn)評測研究進行綜述,總結(jié)存在的問題并提出展望。
細胞已經(jīng)進化出多種信號轉(zhuǎn)導(dǎo)機制來完成生物信息傳遞,如圖1a 所示[2]。在多細胞生物中,各種代謝物、生長因子、激素、神經(jīng)遞質(zhì)和細胞外基質(zhì)是細胞傳遞信號的關(guān)鍵分子,被稱為配體。而配體又可通過與細胞表面的受體特異性結(jié)合,將信號傳遞到受體細胞內(nèi)部。根據(jù)化學(xué)信號的形式,細胞間信號傳遞可主要分為自分泌、旁分泌、細胞黏附以及內(nèi)分泌4 種方式,如圖1b 所示。如血液中的代謝物可以觸發(fā)腺體細胞表面受體,導(dǎo)致細胞釋放葡萄糖調(diào)節(jié)所需的激素。神經(jīng)遞質(zhì)作為一類短程信號分子,可穿過相鄰神經(jīng)元之間或神經(jīng)元與肌肉細胞之間的微小空間,與其特異性受體結(jié)合傳遞神經(jīng)信號。某些細胞表面配體及受體還具有黏附能力,其不僅可在細胞之間傳遞信息,而且還能在物理上將這些細胞彼此連接。此外,某些配體不僅能在局部微環(huán)境中發(fā)揮作用,也可以通過內(nèi)分泌的方式,利用體液進行長距離傳播發(fā)揮信號傳遞作用[13],如促卵泡激素,其從哺乳動物的大腦通過血液傳播到卵巢觸發(fā)卵子釋放,這種通過體液的遠距離傳播信息的方式,在跨器官通信中起關(guān)鍵作用。
圖1 細胞間通信的生物學(xué)過程示意圖
此外,在靶細胞上的受體蛋白接收到配體傳遞的信號后會發(fā)生構(gòu)象變化,進而在細胞內(nèi)啟動一系列生化反應(yīng)。形成細胞內(nèi)信號通路,也稱為信號轉(zhuǎn)導(dǎo)級聯(lián)[14]。實際上,一個活躍的細胞無時無刻不在接收和響應(yīng)大量信號,且多個信號轉(zhuǎn)導(dǎo)通路同時在細胞質(zhì)中并行,這些通路之間又存在許多交叉點,構(gòu)成復(fù)雜的級聯(lián)串?dāng)_網(wǎng)絡(luò)(crosstalk)。最終,細胞通過這種高度復(fù)雜而精密的信號通路網(wǎng)絡(luò),不斷整合從外部環(huán)境接收到的所有信息,完成各種復(fù)雜的生物學(xué)任務(wù)[15]。
綜上所述,細胞間的通信過程可簡述為:細胞生產(chǎn)各種信號分子作為配體,當(dāng)其與自身或其他細胞的特異性受體結(jié)合時,會在該細胞內(nèi)進一步觸發(fā)一系列信號級聯(lián)事件,這些事件將配體傳遞的信號傳送到細胞內(nèi)部,并進一步將其放大,最終使得細胞執(zhí)行相應(yīng)的具體功能。而在細胞微環(huán)境中,各種信號分子允許微環(huán)境內(nèi)的細胞共享有關(guān)內(nèi)部和外部條件的信息,這些信息有助于細胞自行安排、協(xié)調(diào)完成各種復(fù)雜的生物學(xué)功能。但由于目前傳統(tǒng)生物實驗技術(shù)的局限,生物學(xué)家對細胞間及細胞內(nèi)的信號轉(zhuǎn)導(dǎo)過程的層次結(jié)構(gòu)及其高度集成及動態(tài)的過程的理解仍不清晰。相信隨著學(xué)科不斷的交叉融合發(fā)展,嘗試基于生物學(xué)實驗數(shù)據(jù)對細胞內(nèi)外分子信號網(wǎng)絡(luò)進行數(shù)學(xué)建模,創(chuàng)建算法用于解析目前條件下無法用實驗解析的結(jié)果,將是細胞間信號傳遞研究的新路徑[16]。
目前,基于單細胞測序的細胞間通信研究的主要原理是通過單細胞測序數(shù)據(jù)中配體及受體的mRNA 表達水平推測不同細胞群落中的細胞間通信關(guān)系,該過程主要依賴于蛋白質(zhì)L-R 互作先驗知識[6]。除DLRP[17]、IUPHAR/BPS[18]、KEGG[19]及HPMR[20]等單細胞測序時代之前的L-R 互作數(shù)據(jù)庫之外,近幾年針對單細胞測序細胞間通信研究的L-R 互作數(shù)據(jù)庫也陸續(xù)上線,如表1 所示。其中,2015 年文獻[21]從已知的L-R 數(shù)據(jù)庫如DLRP、IUPHAR/BPS 及HPMR 等收集并整合得到1 894條L-R 互作數(shù)據(jù),并構(gòu)建了144 種細胞間的通信網(wǎng)絡(luò)。同時,該課題組在2020 年進一步通過文獻挖掘及數(shù)據(jù)庫整合等方式將該數(shù)據(jù)集更新為2 293 條L-R 互作數(shù)據(jù),并命名為connectomeDB2020 數(shù)據(jù)庫[22]。CellPhoneDB 數(shù)據(jù)庫[10]通過文本挖掘及其他PPI 數(shù)據(jù)庫收集了1 396 條L-R 互作數(shù)據(jù),并開發(fā)了一個在線分析平臺用于scRNA-seq 數(shù)據(jù)的細胞間通信分析。CellTalkDB 數(shù)據(jù)庫[23]通過大規(guī)模地收集STRING v11 數(shù)據(jù)庫[24]中的L-R 互作數(shù)據(jù),并通過文獻挖掘驗證,最終收集了3 398 個人類的L-R 互作數(shù)據(jù)、2 021 個小鼠的L-R 互作數(shù)據(jù)。OmniPath 數(shù)據(jù)庫[25]通過收集數(shù)據(jù)庫來源的配受體數(shù)據(jù)及PPI 數(shù)據(jù),整合構(gòu)建了可用于細胞間通信分析的細胞間及細胞內(nèi)信號網(wǎng)絡(luò)數(shù)據(jù)集。Cellinker 數(shù)據(jù)庫[26]通過文本挖掘、數(shù)據(jù)庫整合以及同源分析等方法收集了超過3 700 條人類、3 300 條小鼠以及16 條冠狀病毒-人類的高置信的L-R 互作數(shù)據(jù),Cellinker 數(shù)據(jù)庫還收錄了超過400 條內(nèi)源性小分子-受體互作數(shù)據(jù),為細胞間通信預(yù)測研究提供了重要的數(shù)據(jù)基礎(chǔ)。同時,一些細胞間通信算法如SingleCellSignalR[11]及iTALK[27]等同樣構(gòu)建了L-R 互作數(shù)據(jù)集用于推測細胞間通信。上述L-R 互作數(shù)據(jù)資源為細胞間通信研究及細胞微環(huán)境信號轉(zhuǎn)導(dǎo)網(wǎng)絡(luò)研究奠定了重要的數(shù)據(jù)基礎(chǔ)。此外,文獻[28]繞過了L-R 互作數(shù)據(jù),開發(fā)了一個收錄高質(zhì)量的人類細胞互作的數(shù)據(jù)庫CITEdb,該數(shù)據(jù)庫通過文獻挖掘收集了728 條人類細胞互作數(shù)據(jù),為細胞間通信研究提供了重要的基準(zhǔn)數(shù)據(jù)集。
表1 部分細胞間通信相關(guān)L-R 互作數(shù)據(jù)庫與數(shù)據(jù)集
為幫助推測細胞間通信,近三年已開發(fā)了大量基于單細胞測序數(shù)據(jù)的細胞間通信算法和工具,如表2 所示。依據(jù)所采用的具體模型與策略,現(xiàn)有方法主要可分為4 類:1)基于配受體差異表達的方法;2)基于配受體表達結(jié)合統(tǒng)計檢驗的方法;3)基于L-R 互作下游細胞內(nèi)信號網(wǎng)絡(luò)的方法;4)結(jié)合ST 數(shù)據(jù)的方法[6]。
表2 部分細胞間通信預(yù)測算法
基于L-R 互作中配受體差異表達的方法包括iTALK[27]、PyMINer[29]以及CellTalker[30]等,其主要原理是篩選scRNA-seq 數(shù)據(jù)中不同細胞類型之間顯著差異表達的基因,并將差異基因列表中存在的L-R 互作定義為差異細胞間通信。此類方法對于推測不同細胞類型間特異的細胞間通信比較有效,但該策略忽略了在所有細胞類型之間都普遍且穩(wěn)定存在的通信關(guān)系[6]。此外,還有基于L-R 互作配受體表達矩陣分解的方法,代表性工具是scTensor[31],其使用張量模擬L-R 互作。從數(shù)據(jù)中生成了一個等級為3 的張量,其中兩個維度分別表示單細胞數(shù)據(jù)中每種細胞類型的配體和受體表達,第3 個維度代表所有L-R 互作。然后進行非負塔克分解來分解這個張量,產(chǎn)生3 個矩陣,其系數(shù)代表相互作用的細胞與其各自的配體和受體之間的關(guān)系。這種基于張量分解的方法,其隱變量的可解釋性依然存在問題[6]。
基于L-R 互作中配受體表達結(jié)合統(tǒng)計檢驗的方法包括CellPhoneDB[10],CellChat[32],NATMI[22]和ICELLNET[33]等,其方法原理主要是通過置換檢驗等統(tǒng)計檢驗方法評估L-R 互作中配體與受體表達之積或之和的統(tǒng)計顯著性。此類方法策略同樣過度依賴于配體受體的表達量高低,而對穩(wěn)定表達的L-R互作相關(guān)細胞間通信缺乏鑒定能力[34]??傮w而言,上述基于L-R 互作中配受體表達強度或特異性來推斷細胞間通信的方法存在明顯局限。首先,某些受體蛋白質(zhì)通常在細胞中表現(xiàn)出穩(wěn)定的表達水平,其表達量高低與細胞間通信強弱并不完全相關(guān)[25];且部分編碼細胞表面受體的mRNA 通常處于低豐度狀態(tài),這可能導(dǎo)致受體的表達無法在單細胞水平被檢測到,造成數(shù)據(jù)刪失[6,35];而上述方法最根本的問題在于其模型未考慮L-R 互作下游的細胞內(nèi)信號轉(zhuǎn)導(dǎo)過程[9]。
為解決上述問題,最近已有多種方法開始嘗試基于L-R 互作下游信號網(wǎng)絡(luò)的方式將細胞內(nèi)信號轉(zhuǎn)導(dǎo)過程也納入細胞間通信分析模型,包括CCCExplorer[36],SoptSC,NicheNet[9],CytoTalk[37],scMLnet[38]以及CellCall[34]等,其算法原理主要通過L-R 下游的信號轉(zhuǎn)導(dǎo)網(wǎng)絡(luò)、基因調(diào)控網(wǎng)絡(luò)或基因共表達網(wǎng)絡(luò)的拓撲結(jié)構(gòu)與基因表達來推測細胞間通信關(guān)系。如NicheNet 算法通過PageRank 方法計算細胞內(nèi)部轉(zhuǎn)錄因子(transcription factor, TF)調(diào)控網(wǎng)絡(luò)中TF 的靶基因與細胞外配體的相關(guān)性去推測細胞間通信。CytoTalk 算法通過PCSF(prize-collecting Steiner forest)方法篩選與細胞間L-R 互作相關(guān)的細胞內(nèi)基因共表達網(wǎng)絡(luò),繼而重建細胞間信號轉(zhuǎn)導(dǎo)網(wǎng)絡(luò)。CellCall 算法[34]可通過整合L-R 互作的表達和L-R 互作下游TF 的激活程度來推斷細胞間通信,其能夠同時推斷細胞間通信和相應(yīng)的細胞內(nèi)部信號。上述方法將細胞外信號與細胞內(nèi)信號結(jié)合,在一定程度上解決了細胞間信號轉(zhuǎn)導(dǎo)推斷方法過度依賴于配體與受體表達的問題,生物學(xué)模型相對合理,同時此類方法還增加了對細胞內(nèi)信號轉(zhuǎn)導(dǎo)網(wǎng)絡(luò)的推測能力。
細胞間通信的本質(zhì)是細胞膜表面或分泌型配體將生物信號擴散傳遞到微環(huán)境中附近的細胞,因此,配體在有限空間擴散率限制了組織或微環(huán)境中可發(fā)生通信的細胞數(shù)量及范圍。因此,有研究提出將空間轉(zhuǎn)錄組數(shù)據(jù)與單細胞測序的數(shù)據(jù)結(jié)合推斷細胞間通信以提高預(yù)測的準(zhǔn)確性及合理性。隨著ST 技術(shù)的不斷發(fā)展,目前已出現(xiàn)多種基于ST 數(shù)據(jù)的細胞間通信方法,如表3 所示。如Cell2Cell 通過對大量L-R 互作進行Bray-Curtis 樣評分,然后結(jié)合不同細胞之間的距離定義細胞間通信關(guān)系[39]。SpaOTsc 通過推斷配體、受體及細胞內(nèi)信號通路的推測信號發(fā)送細胞及接收細胞的空間分布,并通過空間最小傳輸距離推測細胞間通信[40]。stLearn 算法通過計算不同的空間簇中細胞多樣性以及相關(guān)L-R 互作的共表達分數(shù)去推測在空間中細胞間通信信號密集的熱點區(qū)域[41]。SVCA 算法主要使用概率模型來推斷細胞特異性基因如何受到鄰近細胞和外部環(huán)境的影響[42]。COMMOT 通過集體最佳傳輸方法來推斷空間轉(zhuǎn)錄組學(xué)中的通信,提出了一種處理復(fù)雜分子相互作用和空間約束的集體最佳傳輸方法[43]。其可解釋不同配體和受體物種間的競爭以及細胞間的空間距離。然而,細胞間通信是一個動態(tài)的變化過程,目前還未有方法考慮ST 數(shù)據(jù)中固有的動態(tài)時序信息。隨著ST 技術(shù)分辨率的進步,開發(fā)基于ST 數(shù)據(jù)時序信息的細胞間通信動態(tài)變化過程預(yù)測方法必將是下一步探究的方向[12]。
表3 部分結(jié)合ST 數(shù)據(jù)的細胞間通信預(yù)測方法
除了推測或量化細胞間通信關(guān)系外,目前各種方法還提供了豐富的細胞間通信分析結(jié)果的可視化策略,包括繪制Circos 圖、?;鶊D、熱圖以及氣泡圖等。在此,本文以CellCall 算法為例,簡略介紹幾種常見的細胞間通信可視化圖,如圖2 所示。CellCall 使用Circos 圖(圖2a)對數(shù)據(jù)中所有細胞間的通信總體呈現(xiàn),外圈線段代表不同的細胞,圈內(nèi)指向曲線代表不同細胞間的總體通信情況(顏色深淺表示通信強弱);CellCall 使用熱圖(圖2b)對細胞間L-R 互作的分數(shù)進行可視化,通常熱圖的行和列分別為細胞對以及L-R 互作對,而熱圖的顏色深淺則代表某對細胞的某對L-R 互作的通信得分;CellCall 使用氣泡圖(圖2c)呈現(xiàn)信號通路富集分析結(jié)果,其中氣泡大小代表P值,顏色深淺代表富集度;此外,CellCall 還使用?;鶊D(圖2d)呈現(xiàn)LR-TF 三元關(guān)系,使用GSEA 富集圖(圖2e)和山巒圖(圖2f)呈現(xiàn)了TF 激活程度??傊煌惴闪瞬煌目梢暬呗?,如不同于CellCall,一些算法如CellChat 等使用Circos 圖,而CellphoneDB等方法使用氣泡圖對細胞間L-R 互作進行可視化呈現(xiàn)。
圖2 細胞間通信的可視化策略
建立適當(dāng)?shù)幕鶞?zhǔn)數(shù)據(jù)是評價和比較已開發(fā)的各種細胞間通信預(yù)測方法的前提與基礎(chǔ)。然而,目前已鑒定的細胞間通信關(guān)系在多大程度上代表真實的生物學(xué)情況還尚未清楚。當(dāng)前評價算法的常用手段仍是通過濕實驗(如體內(nèi)成像)和下游功能研究(通過實驗干擾某些細胞間通信)來驗證具體某一特定細胞間通信是否存在[44-45]。同時,除了用作約束以優(yōu)化細胞間通信的推斷結(jié)果之外,ST 數(shù)據(jù)也可以用作評估假陽性率的基準(zhǔn)[46]。此外,也有研究通過計算機模擬仿真數(shù)據(jù)對細胞間通信推斷算法進行基準(zhǔn)測試[12]。為了比較各細胞間通信數(shù)據(jù)庫數(shù)據(jù)的重合率及結(jié)果的準(zhǔn)確性,文獻[47]系統(tǒng)比較分析了16 個L-R 互作數(shù)據(jù)資源以及7 種算法,結(jié)果發(fā)現(xiàn)大多數(shù)數(shù)據(jù)庫中的L-R 互作數(shù)據(jù)主要來源于KEGG[19],Reactome[48]和STRING[24]等數(shù)據(jù)庫,且不同數(shù)據(jù)資源在通路、功能分類、組織特異性蛋白質(zhì)等方面存在偏倚,提示各數(shù)據(jù)資源的選擇將會影響細胞間通信的預(yù)測。文獻[49]將ST 數(shù)據(jù)與scRNA-seq 數(shù)據(jù)相結(jié)合用于評價各細胞間通信的數(shù)據(jù)庫及算法的一致性,并將配受體間的互作信息分為基于細胞直接接觸的短程互作及基于分泌信號的遠程互作,其分析結(jié)果提示不同方法預(yù)測結(jié)果存在顯著差異,并建議在未來預(yù)測細胞間通信的工作中納入不同配受體間及細胞內(nèi)的調(diào)控信息,以提高預(yù)測的準(zhǔn)確性。
探究細胞間通信精細調(diào)控過程及全局特征有助于闡明機體的精細調(diào)控機制及內(nèi)環(huán)境穩(wěn)態(tài),也可為進一步探究機體疾病發(fā)生發(fā)展奠定理論基礎(chǔ)。盡管目前已經(jīng)有大量相關(guān)數(shù)據(jù)庫及算法用于研究細胞間通信,且相關(guān)算法仍在不斷推陳出新,但該領(lǐng)域仍然存在諸多挑戰(zhàn):1)細胞信號傳遞主要體現(xiàn)在蛋白水平而非基因?qū)用?,但基因表達并不一定產(chǎn)生蛋白質(zhì)表達,而現(xiàn)有預(yù)測方法均基于轉(zhuǎn)錄組學(xué)數(shù)據(jù),因此其預(yù)測結(jié)果不可避免會存在失真;2)同時,目前的方法只能用于預(yù)測組織或者微環(huán)境內(nèi)細胞間短程通信,而對內(nèi)分泌等遠程通信的研究還力有未逮;3)細胞間通信的物質(zhì)基礎(chǔ)除蛋白質(zhì)外,還包括大量其他非肽類的內(nèi)源性小分子(如小分子、碳水化合物、脂質(zhì)和核酸配體),但目前的數(shù)據(jù)庫及算法均只收錄了蛋白質(zhì)L-R 互作數(shù)據(jù),涵蓋的范圍存在明顯局限。
因此,未來的工作需進一步將細胞外信號與下游轉(zhuǎn)導(dǎo)信號結(jié)合以提高對細胞信號傳導(dǎo)的細胞類型特異性的理解;同時,還需增加單細胞多組學(xué)數(shù)據(jù),尤其是蛋白質(zhì)組以及代謝組學(xué)數(shù)據(jù)進行聯(lián)合分析,進一步提高預(yù)測的準(zhǔn)確性及全面性;此外,相關(guān)工具還需增加跨器官通信等遠程通信的解析能力,擴展預(yù)測方法的應(yīng)用范圍,為單細胞測序數(shù)據(jù)分析以及細胞間信號轉(zhuǎn)導(dǎo)網(wǎng)絡(luò)分子機制研究提供新的技術(shù)手段,為疾病機制、臨床診療及藥物開發(fā)研究提供關(guān)鍵的理論依據(jù)。