隨著單細胞測序技術的不斷開發(fā),目前可實現(xiàn)在單細胞中研究基因轉錄和表觀遺傳調控等相關生物學過程,單細胞基因組可以用于分類樣本中細胞類型,檢測樣本之間細胞類型組成和基因表達的變化,并跟蹤細胞譜系以及在發(fā)育和衰老階段狀態(tài)的變化等。最近利用微流控液滴或微孔來分離單個細胞的實驗方法使得單細胞基因組學的通量有了數(shù)量級提升。其基本原理為用單個液滴包裹單個細胞,在對每個細胞的mRNA測序前做逆轉錄時,為其加上獨一無二的標簽(barcode)序列。但其中會存在多個細胞被單個barcode標注的情況(稱之為doublets或multiplets)。雖然包含兩個具有相似轉錄狀態(tài)的細胞在許多分析中是可以接受的,但是結合具有不同轉錄狀態(tài)的細胞則會描繪出不存在的轉錄圖譜,這些圖譜會誤導下游的降維、聚類和差異表達等相關分析。這違背了單細胞技術的基本前提,可能導致錯誤的推斷。
近日,Cell Systems雜志在線發(fā)表了美國加州舊金山Calico生命科學公司David R.Kelley團隊題為“Solo:Doublet Identification in Single-Cell RNA-Seq via Semi-Supervised Deep Learning”的研究論文。提出了一種基于半監(jiān)督的深度學習方法Solo(https://github.com/calico/solo),運用神經(jīng)網(wǎng)絡框架來分類單細胞測序樣品中的doublets或multiplets結果,其相較于現(xiàn)有的方法表現(xiàn)出更加準確的特征。
Solo使用一個變化的自動編碼器在無監(jiān)督的情況下聚類細胞,然后在編碼器上附加一個前饋神經(jīng)網(wǎng)絡層,形成一個有監(jiān)督的分類器。之后訓練這個分類器在觀測數(shù)據(jù)中區(qū)分模擬的doublets的細胞。Solo算法使用半監(jiān)督的深神經(jīng)網(wǎng)絡模型來表示和分類細胞,可與通過實驗來檢測doublets細胞的方法相結合,進一步純化scRNA序列數(shù)據(jù),使之成為真正的單細胞。將Solo算法用于含有doublets細胞的多種細胞系和組織數(shù)據(jù)集上進行計算,結果表明其實際計算效果釋優(yōu)于現(xiàn)有的計算方法。通過Solo算法能夠有效分類和移除doublets細胞,使得在單細胞實驗中可以增加上機單細胞數(shù)量而大幅度降低成本,且不會對下游分析造成影響,從而能夠在單細胞轉錄組數(shù)據(jù)分析中發(fā)揮重要作用。