作為細(xì)胞異質(zhì)性研究的重要工具,單細(xì)胞轉(zhuǎn)錄組測序技術(shù)近年來蓬勃發(fā)展,并積累了大量研究數(shù)據(jù)。若能有效利用現(xiàn)有的單細(xì)胞數(shù)據(jù)進(jìn)行檢索與推斷,研究者便能更好地進(jìn)行新測序單細(xì)胞的注釋,以及綜合多數(shù)據(jù)集的研究。然而,精確的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)檢索和注釋需要克服兩個挑戰(zhàn):一、數(shù)據(jù)集之間的批次效應(yīng)(batch effect)會顯著影響細(xì)胞檢索的可靠性;二、目前缺少跨物種和平臺、具有高質(zhì)量注釋的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)庫。
日前,北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心(BIOPIC)、北京未來基因高精尖創(chuàng)新中心(ICG)、北京大學(xué)生命科學(xué)學(xué)院生物信息中心(CBI)、蛋白質(zhì)與植物基因研究國家重點實驗室的高歌課題組,在期刊Nature Communications上發(fā)表了題為“Searching large-scale scRNA-seq databases via unbiased cell embedding with Cell BLAST”的論文,發(fā)布了基于深度學(xué)習(xí)模型的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)檢索和注釋的新方法Cell BLAST,以及具備高質(zhì)量注釋的單細(xì)胞轉(zhuǎn)錄組參考數(shù)據(jù)庫ACA,為有效利用現(xiàn)有數(shù)據(jù)進(jìn)行細(xì)胞注釋和跨數(shù)據(jù)集研究提供了新的工具和資源。
Cell BLAST使用對抗自編碼器(Adversarial Autoencoder)進(jìn)行轉(zhuǎn)錄組數(shù)據(jù)降維,利用對抗學(xué)習(xí)策略來消除數(shù)據(jù)集間的批次效應(yīng),取得了優(yōu)于當(dāng)前其他同類工具的效果。此外作者基于該模型提出了一個新的、更為準(zhǔn)確的細(xì)胞相似性度量用于細(xì)胞檢索,在設(shè)計上考慮了單細(xì)胞轉(zhuǎn)錄組觀測本身所具有的不確定性。
除了可以用于細(xì)胞類型鑒定,Cell BLAST能靈敏地發(fā)現(xiàn)參考數(shù)據(jù)集中不存在的、未知的細(xì)胞類型(圖 a-c);此外,作者用一系列造血分化的數(shù)據(jù)集驗證了Cell BLAST還能用于注釋連續(xù)細(xì)胞狀態(tài)(圖 d-f)。
通過收集大量已發(fā)表的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù),作者建立了一個涵蓋2,989,582個單細(xì)胞、8個物種、27個不同的組織器官的數(shù)據(jù)庫,稱為Animal Cell Atlas (ACA)(圖 g-h)。作者對ACA中的細(xì)胞注釋進(jìn)行了詳細(xì)的整理,并使用Cell Ontology構(gòu)建了一套結(jié)構(gòu)化的細(xì)胞類型標(biāo)注,用于統(tǒng)一不同數(shù)據(jù)集中的標(biāo)注以及支持細(xì)胞類型的推斷。
Cell BLAST的應(yīng)用和ACA數(shù)據(jù)庫
該課題提供了在線檢索平臺,用戶可以直接上傳待注釋的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù),用ACA中的參考數(shù)據(jù)集進(jìn)行細(xì)胞檢索和自動注釋;同時也提供了Python包Cell BLAST,用戶可以使用包在自定義的參考數(shù)據(jù)集上進(jìn)行模型訓(xùn)練、檢索和定
制化分析。(100yiyao.com)