1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        Nature重磅綜述 |關(guān)于RNA-seq,你想知道的都在這

        共 37207字,需瀏覽 75分鐘

         ·

        2020-10-03 05:46


        編譯 |生信寶典,May

        校對(duì) |生信寶典

        生物信息學(xué)習(xí)的正確姿勢(shì)

        NGS系列文章包括NGS基礎(chǔ)、在線(xiàn)繪圖、轉(zhuǎn)錄組分析?Nature重磅綜述|關(guān)于RNA-seq你想知道的全在這、ChIP-seq分析?ChIP-seq基本分析流程、單細(xì)胞測(cè)序分析?(重磅綜述:三萬(wàn)字長(zhǎng)文讀懂單細(xì)胞RNA測(cè)序分析的最佳實(shí)踐教程)、DNA甲基化分析、重測(cè)序分析、GEO數(shù)據(jù)挖掘典型醫(yī)學(xué)設(shè)計(jì)實(shí)驗(yàn)GEO數(shù)據(jù)分析 (step-by-step)、批次效應(yīng)處理等內(nèi)容。

        摘要


        RNA測(cè)序(RNA-seq)在過(guò)往十年里逐漸成為全轉(zhuǎn)錄組水平分析差異基因表達(dá)和研究mRNA差異剪接必不可少的工具。隨著二代測(cè)序技術(shù) (NGS)的發(fā)展,RNA-seq的應(yīng)用也越來(lái)越廣。現(xiàn)已經(jīng)可以應(yīng)用于很多RNA層面的研究,比如單細(xì)胞基因表達(dá)、RNA翻譯(translatome)和RNA結(jié)構(gòu)組(structurome結(jié)構(gòu)組學(xué))。新的有意思的應(yīng)用,如空間轉(zhuǎn)錄組學(xué)(spatialomics)也在積極研究中。通過(guò)結(jié)合新興的三代長(zhǎng)讀長(zhǎng)long-readdirect RNA-seq技術(shù),以及更好的計(jì)算分析工具,RNA-seq幫助大家對(duì)RNA生物學(xué)的理解會(huì)越來(lái)越全面:從轉(zhuǎn)錄本在何時(shí)何地轉(zhuǎn)錄RNA折疊以及分子互作發(fā)揮功能等。


        前言


        RNA測(cè)序(RNA-seq)自誕生起就應(yīng)用于分子生物學(xué),幫助理解各個(gè)層面的基因功能?,F(xiàn)在的RNA-seq更常用于分析差異基因(DGE, differential gene expression),而從得到差異基因表達(dá)矩陣,該標(biāo)準(zhǔn)工作流程的基本分析步驟一直是沒(méi)有太大變化:


        • 始于濕實(shí)驗(yàn),提取RNA,富集mRNA或消除rRNA,合成cDNA和構(gòu)建測(cè)序文庫(kù)。

        • 然后在高通量平臺(tái)(通常是Illumina)上進(jìn)行測(cè)序,每個(gè)樣本測(cè)序reads深度為10-30 Million reads。

        • 最后一步是計(jì)算:比對(duì)/拼裝測(cè)序reads到轉(zhuǎn)錄本,計(jì)數(shù)與轉(zhuǎn)錄本比對(duì)上的reads數(shù)定量,樣本間過(guò)濾標(biāo)準(zhǔn)化,樣本組間基因/轉(zhuǎn)錄本統(tǒng)計(jì)差異分析。


        早期的RNA-seq實(shí)驗(yàn)從細(xì)胞群(如來(lái)源于某個(gè)組織或器官的細(xì)胞)中得到DGE數(shù)據(jù),并可以應(yīng)用于很多物種,如玉米(Zea mays),擬南芥(Arabiodopsis thaliana),釀酒酵母(Saccharomyces cerevisae),鼠(Mus musculus)和人(Homo sapiens)。雖然RNA-seq這個(gè)詞通常包含很多不同的RNA相關(guān)的方法或生物應(yīng)用,但DGE分析始終是它的主要應(yīng)用(表1),并且是DGE研究的常規(guī)工具。


        RNA-seq的廣泛應(yīng)用促進(jìn)了對(duì)許多生物層面的理解,如揭示了mRNA剪接的復(fù)雜性、非編碼RNA和增強(qiáng)子RNA調(diào)控基因表達(dá)的機(jī)制。RNA-seq的發(fā)展和進(jìn)步一直離不開(kāi)技術(shù)發(fā)展的支持(濕實(shí)驗(yàn)方面和計(jì)算分析方面),且與先前的基于基因芯片的技術(shù)比起來(lái),獲得的信息更多、偏好性更小。到目前為止,已從標(biāo)準(zhǔn)的RNA-seq流程中衍生出多達(dá)100種不同的應(yīng)用。大部分應(yīng)用都是基于Illumina short-read測(cè)序,但最近基于long-read RNA-seqdirect RNA sequencing (dRNA-seq)的方法可以幫助解決Illumina short-read技術(shù)處理不了的問(wèn)題。


        本文中,我們先熟悉'baseline'流程,用short-read RNA-seq技術(shù)分析DGE。先描述短讀長(zhǎng)測(cè)序的文庫(kù)構(gòu)建過(guò)程、實(shí)驗(yàn)設(shè)計(jì)注意事項(xiàng)和計(jì)算分析流程,探究其應(yīng)用如此廣泛的原因。然后描述單細(xì)胞轉(zhuǎn)錄組和空間轉(zhuǎn)錄組的發(fā)展和應(yīng)用。我們會(huì)舉例說(shuō)明RNA-seq在RNA生物學(xué)關(guān)鍵研究中的應(yīng)用,包括轉(zhuǎn)錄和翻譯的動(dòng)力學(xué)分析,RNA結(jié)構(gòu),RNA-RNA和RNA-蛋白質(zhì)間相互作用等。最后我們小小地展望一下RNA-seq的未來(lái),如單細(xì)胞和空間轉(zhuǎn)錄組是否也會(huì)是以后的常規(guī)分析,在什么情況下long reads會(huì)替代short reads RNA-seq。不過(guò)篇幅有限,本文對(duì)RNA-seq分析還是有照顧不到的地方,比如典型的有非編碼轉(zhuǎn)錄組,原核轉(zhuǎn)錄組和表觀轉(zhuǎn)錄組。


        圖一:short-read,long-read和direct RNA-seq技術(shù)和工作流程



        圖一:A


        3種RNA測(cè)序方式的建庫(kù)方法概覽:short-read測(cè)序(黑色),long-read cDNA測(cè)序(綠色)和long-read direct RNA-seq(藍(lán)色)。根據(jù)不同的應(yīng)用目的,文庫(kù)構(gòu)建的復(fù)雜性和偏好性不同。short-read和long-read cDNA的建庫(kù)方案在很多步驟是一樣的,比如在所有建庫(kù)方案中接頭連接是共有的。三種方法都會(huì)受到樣本質(zhì)量和文庫(kù)構(gòu)建上下游的計(jì)算問(wèn)題影響。



        圖一:B


        三種主要測(cè)序技術(shù)的比較。


        • Illumina workflow(左):

          建庫(kù)之后,單獨(dú)的cDNA分子在流動(dòng)槽中構(gòu)建測(cè)序簇,使用3’阻斷的熒光標(biāo)記的核苷酸進(jìn)行邊合成邊測(cè)序。在每一輪測(cè)序中,高速攝像機(jī)拍照捕獲當(dāng)前激發(fā)的熒光,來(lái)判斷當(dāng)前是哪個(gè)核苷酸合成進(jìn)來(lái),測(cè)序長(zhǎng)度在50-500 bp

        • The Pacific Biosciences workflow(中):

          建庫(kù)之后,每個(gè)分子與固定在納米孔底部的聚合酶結(jié)合。然后是邊合成邊測(cè)序,測(cè)序長(zhǎng)度可以高達(dá)50 kb。

        • The Oxford Nanopore workflow(右):

          建庫(kù)后,將單個(gè)分子加載到流動(dòng)槽中,在接頭連接過(guò)程中加上的分子馬達(dá)會(huì)與生物納米孔結(jié)合。馬達(dá)蛋白控制RNA鏈穿過(guò)生物納米孔,引起電流變化,從而推測(cè)出經(jīng)過(guò)的堿基序列,生成的測(cè)序reads大小為1-10 kb。


        圖一:C


        short-read,long-readdirect RNA-seq分析:


        人體中,超過(guò)90%的基因(gene n)會(huì)發(fā)生可變剪接,并生成至少兩種不同的表達(dá)形式(轉(zhuǎn)錄本x,y)。相比于long-read測(cè)序可以直接測(cè)到每一種不同的轉(zhuǎn)錄本,從而獲得更全面的信息,short-read的測(cè)序在檢測(cè)轉(zhuǎn)錄本上受限于短reads比對(duì)的模糊性。在short-read cDNA測(cè)序中,有很多reads比對(duì)回兩個(gè)不同轉(zhuǎn)錄本共享的外顯子上導(dǎo)致無(wú)法確定其真實(shí)來(lái)源??缭?個(gè)或多個(gè)外顯子的Junction reads可以改善轉(zhuǎn)錄異構(gòu)體的分析,但當(dāng)兩種轉(zhuǎn)錄異構(gòu)體共享剪接斷點(diǎn)時(shí)就無(wú)能為力了。這些問(wèn)題都增加了分析和解讀結(jié)果的復(fù)雜度。long-read cDNA方法能直接檢測(cè)全長(zhǎng)轉(zhuǎn)錄異構(gòu)體,從而移除或大幅減少檢測(cè)偏好,提高差異表達(dá)轉(zhuǎn)錄本分析的準(zhǔn)確率。


        而以上這些方法都依賴(lài)于cDNA轉(zhuǎn)換,這一過(guò)程抹去了有關(guān)RNA堿基修飾的信息,而且也只能粗略估計(jì)多聚腺苷酸(poly(A))尾巴的長(zhǎng)度,而direct RNA-seq可以直接分析全長(zhǎng)轉(zhuǎn)錄本異構(gòu)體、度量堿基修飾(比如N6-甲基腺苷(M6A))和檢測(cè)poly(A)尾巴長(zhǎng)度。


        RNA-seq技術(shù)的進(jìn)步


        NCBI Short Read Archive (SRA)數(shù)據(jù)共享平臺(tái)中多于95%的數(shù)據(jù)來(lái)自于Illumina short-read測(cè)序技術(shù)(表2)。目前幾乎所有已發(fā)布的mRNA-seq數(shù)據(jù)都是short-read測(cè)序所得,所以我們認(rèn)為這是RNA-seq技術(shù)的常規(guī)操作,接下來(lái)討論它的主要流程和限制。不過(guò)在轉(zhuǎn)錄異構(gòu)體檢測(cè)的研究(圖一;表1)方面,不斷進(jìn)步的long-read cDNA測(cè)序和dRNA-seq技術(shù)將向short-read測(cè)序技術(shù)的主導(dǎo)地位發(fā)起挑戰(zhàn)。

        測(cè)序技術(shù)平臺(tái)優(yōu)勢(shì)劣勢(shì)重要應(yīng)用
        short-read cDNAllumina, Ion Torrent①高通量,每次運(yùn)行產(chǎn)生的reads數(shù)是long-read平臺(tái)的100-1000倍之多;②測(cè)序偏好和錯(cuò)誤模式研究透徹(同聚物homopolymers對(duì)于Ion Torrent來(lái)說(shuō)仍然是個(gè)問(wèn)題);③可使用的方法和計(jì)算流程很多;④可用于降解了的RNA的分析樣品制備過(guò)程如反轉(zhuǎn)錄,PCR和片段選擇都會(huì)引入偏好性;轉(zhuǎn)錄異構(gòu)體的檢測(cè)和定量受限;新轉(zhuǎn)錄本的鑒定基于轉(zhuǎn)錄本拼裝步驟幾乎所有的RNA-seq應(yīng)用都是基于short-read cDNA測(cè)序:DGE (differential gene expression), WTA (whole- transcriptome analysis),小RNA,單細(xì)胞,空間轉(zhuǎn)錄組,新生轉(zhuǎn)錄本,翻譯組,RNA結(jié)構(gòu)組和RNA-蛋白質(zhì)相互作用分析等等。
        long-read cDNAPacBio, ONT①1–50kb的長(zhǎng)reads可以檢測(cè)很多全長(zhǎng)轉(zhuǎn)錄本 ②用于de novo轉(zhuǎn)錄組分析的計(jì)算方法簡(jiǎn)化很多①低-中通量,每個(gè)run獲得0.5 M-10 Million reads②樣品制備過(guò)程如反轉(zhuǎn)錄,PCR和片段選擇(部分方法需要)都會(huì)引入偏好性③不太適合降解了的RNA尤其適用于轉(zhuǎn)錄異構(gòu)體的發(fā)現(xiàn),無(wú)參轉(zhuǎn)錄組的de novo分析,融合轉(zhuǎn)錄本的發(fā)現(xiàn),HL A (human leukocyte antigen)和MHC (major histocompatibility complex)等復(fù)雜轉(zhuǎn)錄本分析
        Long-read RNAONT①1–50kb的長(zhǎng)reads可以檢測(cè)很多全長(zhǎng)轉(zhuǎn)錄本②用于de novo轉(zhuǎn)錄組分析的計(jì)算方法簡(jiǎn)化很多 ③樣品制備不需要反轉(zhuǎn)錄或PCR,降低了偏好性 ④可以檢測(cè)RNA堿基修飾 ⑤單分子測(cè)序直接估計(jì)poly(A)全長(zhǎng)①通量低,每個(gè)run僅生產(chǎn)0.5 M-1 Million reads②樣品準(zhǔn)備和測(cè)序過(guò)程偏好性不明確③不太適合降解了的RNA①尤其適用于轉(zhuǎn)錄異構(gòu)體的發(fā)現(xiàn),無(wú)參轉(zhuǎn)錄組的de novo分析,融合轉(zhuǎn)錄本的發(fā)現(xiàn),MHC和HLA等復(fù)雜轉(zhuǎn)錄本分析 ②適用于檢測(cè)核糖核酸修飾

        表1

        short-read cDNA測(cè)序用于差異基因分析


        short-read測(cè)序是檢測(cè)和定量轉(zhuǎn)錄組范圍基因表達(dá)的最常見(jiàn)方式,部分原因是因?yàn)樗缺磉_(dá)芯片更便宜、更易于應(yīng)用,但更主要的是它可以獲得全轉(zhuǎn)錄組水平高質(zhì)量的表達(dá)數(shù)據(jù)。采用Illumina的short-read測(cè)序做DGE分析的核心步驟包括RNA提取,cDNA合成,接頭連接,PCR擴(kuò)增,測(cè)序和數(shù)據(jù)分析(圖一)。由于mRNA片段化和基于beads的文庫(kù)純化過(guò)程中偏好150-200 bp的片段,導(dǎo)致這個(gè)方案最后獲得的cDNA片段都在200 bp以下。每個(gè)樣本平均測(cè)20-30 million reads,對(duì)每個(gè)基因或轉(zhuǎn)錄本進(jìn)行定量,再統(tǒng)計(jì)分析差異基因(參考RNA-seq數(shù)據(jù)分析部分)。short-read RNA-seq結(jié)果很穩(wěn)定,對(duì)RNA-seq的short-read測(cè)序技術(shù)多次測(cè)試比較發(fā)現(xiàn),其平臺(tái)內(nèi)和平臺(tái)間的相關(guān)性都很好。然而在樣本準(zhǔn)備和計(jì)算分析階段有一些步驟也會(huì)引入偏好性。這些限制會(huì)影響特定生物問(wèn)題的解釋?zhuān)热缯_地識(shí)別和定量一個(gè)基因的多個(gè)轉(zhuǎn)錄異構(gòu)體。這一局限與研究特別長(zhǎng)或特別多變的轉(zhuǎn)錄異構(gòu)體尤其相關(guān)。如人的轉(zhuǎn)錄組中,50%的轉(zhuǎn)錄本長(zhǎng)度大于2500 bp,轉(zhuǎn)錄本長(zhǎng)度范圍在186 bp到109 kb。盡管short-read ?RNA-seq 可以對(duì)更長(zhǎng)的轉(zhuǎn)錄本進(jìn)行細(xì)致的分析,但相應(yīng)的方法很難高通量化用于全轉(zhuǎn)錄組范圍的分析。其它的偏好性和限制可能來(lái)自于RNA-seq數(shù)據(jù)分析的計(jì)算方法,比如怎么處理在基因組上有多個(gè)匹配位置的序列。一個(gè)新的稱(chēng)為合成長(zhǎng)讀長(zhǎng)測(cè)序 (synthetic long reads)可以進(jìn)行全長(zhǎng)mRNA測(cè)序和解決一部分存在的問(wèn)題。在short-read RNA-seq建庫(kù)前利用唯一分子標(biāo)識(shí)符(UMI標(biāo)記cDNA分子,從而解決短讀長(zhǎng)問(wèn)題做到測(cè)序全長(zhǎng)mRNA?;谶@個(gè)技術(shù)可以對(duì)長(zhǎng)達(dá)4 kb的轉(zhuǎn)錄本異構(gòu)體進(jìn)行鑒定和定量。從根本上解決short-cDNA測(cè)序固有限制的最有效的方法還是long-read cDNA測(cè)序和dRNA-seq方法。

        long-read cDNA 測(cè)序


        盡管Illumina是目前主流的RNA-seq平臺(tái),但Pacific Biosciences(PacBio)和Oxford Nanopore(ONT)能在完整的RNA分子反轉(zhuǎn)錄為cDNA后進(jìn)行單分子長(zhǎng)讀長(zhǎng)測(cè)序。因?yàn)橄藄hort RNA-seq reads需要的組裝步驟,可以解決short reads測(cè)序相關(guān)的一些問(wèn)題。例如:序列比對(duì)的模糊性降低,可以鑒定更長(zhǎng)的轉(zhuǎn)錄本,這些有助于更好地檢測(cè)轉(zhuǎn)錄異構(gòu)體的多樣性。同時(shí)還可以降低許多short-read RNA-seq計(jì)算工具引入的剪接位點(diǎn)檢測(cè)的高假陽(yáng)性率。


        基于PacBio技術(shù)的Iso-Seq能夠檢測(cè)長(zhǎng)達(dá)15 kb的全長(zhǎng)轉(zhuǎn)錄本cDNA reads,這有助于發(fā)現(xiàn)大量先前未注釋的轉(zhuǎn)錄本,并通過(guò)全長(zhǎng)測(cè)序確認(rèn)了早期基于跨物種同源序列的基因預(yù)測(cè)結(jié)果。在標(biāo)準(zhǔn)的Iso-Seq實(shí)驗(yàn)流程中,模板置換逆轉(zhuǎn)錄酶可以將高質(zhì)量RNA轉(zhuǎn)化為用來(lái)測(cè)序的全長(zhǎng)cDNA。然后將得到的cDNA進(jìn)行PCR擴(kuò)增,并構(gòu)建PacBio單分子實(shí)時(shí)(single-molecule, real-time,SMRT)文庫(kù)。因?yàn)槎剔D(zhuǎn)錄本可以很快地?cái)U(kuò)散到測(cè)序芯片的活性表面造成一定的測(cè)序偏好,建議選擇1至4 kb長(zhǎng)度的轉(zhuǎn)錄本一起測(cè)序,以保證這一長(zhǎng)度范圍的長(zhǎng)短轉(zhuǎn)錄本有同等幾率進(jìn)行測(cè)序。同時(shí)PacBio測(cè)序?qū)δ0辶啃枨蠛艽?,要求進(jìn)行大體積PCR,需要優(yōu)化反應(yīng)體系降低過(guò)擴(kuò)增的影響。PCR末端修復(fù)和PacBio SMRT 接頭連接后,就可以進(jìn)行l(wèi)ong-read測(cè)序了;通過(guò)調(diào)整測(cè)序芯片的上樣條件可以進(jìn)一步控制測(cè)序片段的大小選擇偏好。


        ONT cDNA測(cè)序也可以測(cè)序全長(zhǎng)轉(zhuǎn)錄本,而且適用于單細(xì)胞測(cè)序。同樣使用模板置換逆轉(zhuǎn)錄來(lái)制備全長(zhǎng)cDNA,在加接頭制備測(cè)序文庫(kù)之前,可以自己決定是否進(jìn)行PCR擴(kuò)增。Direct cDNA測(cè)序可消除PCR偏差,獲得的測(cè)序結(jié)果質(zhì)量更高 ;PCR擴(kuò)增的cDNA文庫(kù)的測(cè)序產(chǎn)出(測(cè)序獲得的reads數(shù))更高,適用于樣本中RNA含量較少的情況。而目前還未在ONT cDNA測(cè)序中發(fā)現(xiàn)PacBio測(cè)序存在的轉(zhuǎn)錄本長(zhǎng)短選擇偏好。


        這些long-read cDNA方法都受模板置換逆轉(zhuǎn)錄酶限制。這個(gè)酶可以把全長(zhǎng)和截?cái)嗟腞NA都轉(zhuǎn)換成cDNA。反轉(zhuǎn)錄酶只將5’-capped mRNA轉(zhuǎn)換成cDNA,這樣就降低了由于RNA降解、RNA斷裂導(dǎo)致的轉(zhuǎn)錄本截?cái)嗌傻腸DNA和不完整的cDNA合成,從而提高數(shù)據(jù)質(zhì)量。但是這些逆轉(zhuǎn)錄酶對(duì)ONT平臺(tái)的測(cè)序reads讀長(zhǎng)有反作用。

        Long-read direct RNA 測(cè)序


        正如上面所討論的,long-read和baseline short-read 平臺(tái)一樣,都需要在測(cè)序之前將mRNA轉(zhuǎn)化成cDNA。近期Oxford Nanopore展示他們的納米孔測(cè)序技術(shù)能直接測(cè)序RNA,也就是說(shuō),建庫(kù)過(guò)程中沒(méi)有修復(fù)、cDNA合成、PCR擴(kuò)增這些過(guò)程,移除了這些操作過(guò)程的偏好并且保留了RNA上的表觀修飾信息,這一技術(shù)也稱(chēng)為dRNA-seq。直接從RNA建庫(kù)需要兩步接頭連接。首先,帶有oligo(dT)懸臂的duplex adaptor與mRNA的PolyA尾巴退火連接。后續(xù)是一個(gè)可選的逆轉(zhuǎn)錄操作,用于提高測(cè)序通量(一般推薦做)。第二個(gè)連接操作就是添加連有分子馬達(dá)的測(cè)序接頭用于后續(xù)測(cè)序。隨后文庫(kù)加載入MinION,啟動(dòng)3?poly(A)尾巴向5?cap端的RNA測(cè)序。早期研究表明,dRNA-seq的測(cè)序長(zhǎng)度在1000 bp左右,最大測(cè)序長(zhǎng)度超過(guò)10 kb。與短讀長(zhǎng)測(cè)序相比,長(zhǎng)讀長(zhǎng)測(cè)序可以改善轉(zhuǎn)錄異構(gòu)體的檢測(cè),估計(jì)PolyA尾巴的長(zhǎng)度進(jìn)行選擇性多腺苷酸化分析。Nanopolish-polya工具可以分析納米孔測(cè)序得到的數(shù)據(jù),計(jì)算基因間或轉(zhuǎn)錄本間的poly(A)尾的長(zhǎng)度。結(jié)果表明內(nèi)含子保留的轉(zhuǎn)錄本相比于完全剪切的轉(zhuǎn)錄本具有稍長(zhǎng)的PolyA尾巴。雖然dRNA-seq還處于起步階段,但是其能直接檢測(cè)RNA堿基修飾的潛力有望在表觀轉(zhuǎn)錄組領(lǐng)域促進(jìn)更新的發(fā)現(xiàn)。

        長(zhǎng)讀長(zhǎng)測(cè)序與短讀長(zhǎng)測(cè)序技術(shù)的比較


        雖然長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)在轉(zhuǎn)錄本分析方面比短讀長(zhǎng)測(cè)序技術(shù)有一些明顯的優(yōu)勢(shì),但是也存在一些局限。跟成熟的短讀長(zhǎng)技術(shù)平臺(tái)相比,長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)的測(cè)序通量低很多,錯(cuò)誤率更高。而長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)的主要優(yōu)勢(shì)即能測(cè)序更多的獨(dú)立轉(zhuǎn)錄本全長(zhǎng),依賴(lài)于高質(zhì)量的RNA文庫(kù)。這些局限會(huì)影響那些特別依賴(lài)長(zhǎng)讀長(zhǎng)測(cè)序?qū)嶒?yàn)的靈敏性和特異性。


        當(dāng)前長(zhǎng)讀長(zhǎng)測(cè)序方法的主要局限就是其通量低。在Illumina平臺(tái)上,一個(gè)RUN可以生成10^9-10^10條reads,而PacBio和ONT平臺(tái)上,一個(gè)RNA-seq RUN只能產(chǎn)生10^6-10^7 reads。這種低通量限制了應(yīng)用長(zhǎng)讀長(zhǎng)測(cè)序的項(xiàng)目的大?。▽?shí)驗(yàn)樣本的數(shù)目),并降低了差異基因表達(dá)檢測(cè)的靈敏性。當(dāng)然也不是所有的應(yīng)用都需要很高的測(cè)序深度。比如如果研究者關(guān)注的是轉(zhuǎn)錄異構(gòu)體的發(fā)現(xiàn)和鑒定,測(cè)序長(zhǎng)度比測(cè)序深度更重要。測(cè)序1百萬(wàn)個(gè)PacBio環(huán)形一致性序列 (circular consensus-sequencing, CCS) 可以保證長(zhǎng)度大于1 kb的高表達(dá)基因測(cè)通,ONT測(cè)序技術(shù)也是如此。因此,測(cè)序深度主要影響低中表達(dá)的基因。低通量的局限性在研究功能基因組進(jìn)行大規(guī)模差異基因分析時(shí)會(huì)更明顯。為了獲得足夠的以保證轉(zhuǎn)錄組表達(dá)變化檢測(cè)的準(zhǔn)確性,需要對(duì)多個(gè)樣品組的多個(gè)生物學(xué)重復(fù)同時(shí)進(jìn)行測(cè)序分析。在這些應(yīng)用上,長(zhǎng)讀長(zhǎng)技術(shù)不太可能取代短讀長(zhǎng)技術(shù),除非它們的通量能提高2個(gè)數(shù)量級(jí)。隨著全長(zhǎng)RNA-seq reads數(shù)目增加,轉(zhuǎn)錄本檢測(cè)的靈敏度將會(huì)達(dá)到Illumina平臺(tái)的水平,但有著更高的特異性。通過(guò)將Illumina 的短讀長(zhǎng)RNA-Seq與PacBio的長(zhǎng)讀長(zhǎng)Iso-Seq結(jié)合 (并且可能還與ONT方法結(jié)合),在保留轉(zhuǎn)錄本定量質(zhì)量的基礎(chǔ)上,可以增加RefSeq注釋的全長(zhǎng)轉(zhuǎn)錄異構(gòu)體檢測(cè)的數(shù)量、靈敏性和特異性。盡管當(dāng)前長(zhǎng)讀長(zhǎng)RNA-seq方法實(shí)驗(yàn)成本更高,但它們可以檢測(cè)短讀長(zhǎng)方法所遺漏的轉(zhuǎn)錄異構(gòu)體,尤其是那些難以測(cè)序但與臨床相關(guān)的區(qū)域,例如高度多態(tài)的人類(lèi)主要組織相容性復(fù)合體MHC或雄激素受體。


        長(zhǎng)讀長(zhǎng)測(cè)序平臺(tái)的第二個(gè)主要限制是其高錯(cuò)誤率,比成熟的Illumina測(cè)序儀要高出一到兩個(gè)數(shù)量級(jí)。長(zhǎng)讀長(zhǎng)測(cè)序平臺(tái)上生成的數(shù)據(jù)還包含更多的插入-缺失錯(cuò)誤。如果是做突變位點(diǎn)檢測(cè)這些錯(cuò)誤率/錯(cuò)誤形式會(huì)影響很大,但是對(duì)轉(zhuǎn)錄組分析影響并不是太大,只要能區(qū)分轉(zhuǎn)錄本和轉(zhuǎn)錄異構(gòu)體即可。如果是應(yīng)用于對(duì)錯(cuò)誤率敏感的項(xiàng)目,也有一些辦法進(jìn)行補(bǔ)救。PacBio SMRT測(cè)序平臺(tái)出現(xiàn)的典型測(cè)序錯(cuò)誤是隨機(jī)錯(cuò)誤,可以通過(guò)增加測(cè)序深度來(lái)進(jìn)行CCS序列矯正解決。在測(cè)序過(guò)程中,cDNA的長(zhǎng)度是人為選擇控制的,連接接頭后形成環(huán)形模板,每個(gè)分子可以被測(cè)序多次,從而產(chǎn)生長(zhǎng)度范圍是10-60 kb的連續(xù)長(zhǎng)序列,里面包含了原始cDNA的多份拷貝。這些長(zhǎng)序列經(jīng)過(guò)計(jì)算拆分成為單個(gè)cDNA子讀長(zhǎng) (subreads),并比對(duì)在一起互相校正獲得一致性序列。插入的cDNA分子測(cè)序到的次數(shù)越多,校正后錯(cuò)誤率越低;研究表明CCS可以將錯(cuò)誤率降低到與短讀長(zhǎng)相當(dāng)甚至更低的水平。但是,把平臺(tái)的測(cè)序能力用于讀取相同的分子更加加劇了其測(cè)序通量低的問(wèn)題,更少的獨(dú)立轉(zhuǎn)錄本會(huì)被測(cè)到。


        長(zhǎng)讀長(zhǎng)RNA-seq方法的敏感性還受到其他幾個(gè)因素的影響。首先,用于建庫(kù)的RNA分子需要是全長(zhǎng)轉(zhuǎn)錄本,但由于RNA提取、分離過(guò)程中會(huì)導(dǎo)致RNA斷裂或?qū)嶒?yàn)過(guò)程中RNA降解,使得理想狀態(tài)并非總能實(shí)現(xiàn)。這種情況在短讀長(zhǎng)RNA-seq中也會(huì)導(dǎo)致可控的3?端偏好,但對(duì)定位于應(yīng)用長(zhǎng)讀長(zhǎng)的RNA-seq分析全長(zhǎng)轉(zhuǎn)錄組的研究者來(lái)說(shuō),即使是低水平的RNA降解,效果也會(huì)受限。因此,相關(guān)研究者需要在RNA提取后進(jìn)行嚴(yán)格質(zhì)控。其次,中位讀長(zhǎng)長(zhǎng)度也會(huì)受到文庫(kù)制備中的技術(shù)問(wèn)題與技術(shù)偏好的限制,例如cDNA合成過(guò)程中的截?cái)嗷蚪到獾膍RNA反轉(zhuǎn)錄成的降解cDNA。最近研發(fā)的高效逆轉(zhuǎn)錄酶具有更好的鏈特異性和更均一的3’-5’轉(zhuǎn)錄本覆蓋,可能會(huì)改善這一過(guò)程。雖然還沒(méi)有廣泛使用,但是這些高效逆轉(zhuǎn)錄酶也提高了對(duì)結(jié)構(gòu)穩(wěn)定的RNAs(如tRNAs)的覆蓋檢測(cè),這是其它在基于oligo-dT和全轉(zhuǎn)錄組分析 (WTA) 的方法中使用的逆轉(zhuǎn)錄酶很難達(dá)到的效果。第三,長(zhǎng)讀長(zhǎng)測(cè)序平臺(tái)固有的偏好(如長(zhǎng)插入文庫(kù)在測(cè)序芯片上的更不容易進(jìn)行測(cè)序)會(huì)降低更長(zhǎng)轉(zhuǎn)錄本的覆蓋率。


        長(zhǎng)讀長(zhǎng)測(cè)序 (不管是基于cDNA還是RNA) 因?yàn)樽x長(zhǎng)長(zhǎng),解決了短讀長(zhǎng)測(cè)序方法用于轉(zhuǎn)錄異構(gòu)體分析的短板。長(zhǎng)讀長(zhǎng)方法可以獲得從Poly(A)尾巴到5?帽子的全長(zhǎng)轉(zhuǎn)錄本讀長(zhǎng)。因此,這些方法對(duì)轉(zhuǎn)錄本和轉(zhuǎn)錄異構(gòu)體的分析不再依賴(lài)于短序列重構(gòu)轉(zhuǎn)錄本或推測(cè)轉(zhuǎn)錄本的存在;而是每個(gè)測(cè)序到的reads都代表它所來(lái)源的RNA分子?;谌L(zhǎng)cDNA測(cè)序或dRNA-seq的差異基因分析依賴(lài)于PacBio和ONT技術(shù)的通量提高。長(zhǎng)讀長(zhǎng)RNA-seq與深度短讀長(zhǎng)RNA-seq技術(shù)結(jié)合的思路正在迅速被研究者用于更全面的分析,這非常類(lèi)似于基因組組裝所采取的混合組裝方式。隨著研究的深入,長(zhǎng)讀長(zhǎng)和dRNA-seq方法將會(huì)揭示:即便在研究的很透徹的物種中,已經(jīng)鑒定出的基因和轉(zhuǎn)錄本可能也只是冰山一角。隨著方法的成熟和測(cè)序通量的增加,基于長(zhǎng)讀長(zhǎng)的差異轉(zhuǎn)錄本分析將會(huì)成為常規(guī)研究?;诮M裝的長(zhǎng)讀長(zhǎng)RNA-seq (synthetic long-read RNA-seq)或其它技術(shù)的發(fā)展對(duì)這個(gè)領(lǐng)域的影響還有待觀察。從目前來(lái)看,Illumina短讀長(zhǎng)RNA-seq依然占據(jù)了該領(lǐng)域的主導(dǎo)地位。后面我們只會(huì)集中討論短讀長(zhǎng)測(cè)序。


        改良RNA-seq建庫(kù)方法


        RNA-seq方法源于早期的表達(dá)序列標(biāo)簽 (expressed-sequence tag)和表達(dá)芯片技術(shù),最初用于分析多聚腺苷酸化的轉(zhuǎn)錄本。但是,二代測(cè)序的應(yīng)用發(fā)現(xiàn)了這些方法的局限性,雖然在表達(dá)芯片中并不明顯。因此,在RNA-seq技術(shù)首次發(fā)表后不久,許多文庫(kù)制備方法的改進(jìn)相繼推出。例如,片段化RNA而非cDNA可以降低3'/5'偏好,鏈特異性文庫(kù)制備方法能夠更好的區(qū)分正鏈和負(fù)鏈轉(zhuǎn)錄的基因,這些改進(jìn)都能獲得更準(zhǔn)確的轉(zhuǎn)錄本豐度估計(jì)。片段化RNA和構(gòu)建鏈特異性文庫(kù)很快成了大部分RNA-seq文庫(kù)制備試劑盒的標(biāo)配。這里我們簡(jiǎn)要描述了RNA-seq方法的其它改進(jìn),以便研究者可以根據(jù)特定的生物學(xué)問(wèn)題或樣本自身特征進(jìn)行選擇。這些改進(jìn)包括不基于oligo-dT的RNA富集方法特異性富集3?或5?末端轉(zhuǎn)錄本的方法,使用UMIs區(qū)分PCR duplicates的方法,以及針對(duì)降解的RNA構(gòu)建文庫(kù)的方法。這些方法的組合(也包括dRNA-seq和后面提到的分析其它狀態(tài)的RNA的方法)允許研究者揭示由可變poly(A) (alternative poly(A), APA),或選擇性啟動(dòng)子 (alternative promoter)和可變剪接 (alternative splicing)導(dǎo)致的轉(zhuǎn)錄組的復(fù)雜性。

        Poly(A)富集的替代方法


        大多數(shù)發(fā)表的RNA-seq數(shù)據(jù)都是基于oligo-dT方法富集包含poly(A)尾巴的轉(zhuǎn)錄本,定位于分析轉(zhuǎn)錄組上的蛋白質(zhì)編碼區(qū) (生信寶典注部分lncRNA也有poly(A)尾巴)。但是這種方法除了會(huì)導(dǎo)致3?端偏好外,很多不含Poly-A尾巴的非編碼RNA,例如miRNA和增強(qiáng)子RNA不會(huì)被測(cè)到。完全不進(jìn)行選擇而使用全部提取的RNA也不合適,因?yàn)檫@會(huì)導(dǎo)致高達(dá)95%的測(cè)序數(shù)據(jù)來(lái)源于rRNA。因此,研究者選擇將oligo-dT富集用于mRNA-seq,移除rRNA進(jìn)行全轉(zhuǎn)錄組測(cè)序(WTA)。短鏈非編碼RNAs(如miRNA)既無(wú)法用oligo-dT方法富集,WTA測(cè)序中也很難覆蓋,因此對(duì)其研究需要特定的分離建庫(kù)方法,一般是切膠或磁珠分選后直接連接接頭 (sequential RNA ligation,通常構(gòu)建出來(lái)都是鏈特異性文庫(kù)) (生信寶典注:這一點(diǎn)尤其要注意)。


        WTA生成的RNA-seq數(shù)據(jù)包含編碼和一些非編碼RNA。WTA方法也適用于Poly-A尾巴與轉(zhuǎn)錄本其它部分分開(kāi)了的降解了的樣品。移除rRNA有兩種方法,一種是將rRNAs從總RNA中分離出來(lái)(所謂的pull-out法),另一種是使用RNAse H酶降解rRNA。這兩種方法都需要使用序列特異性和物種特異性的、能與細(xì)胞質(zhì)rRNA (5S rRNA,5.8S rRNA,18S rRNA和28S rRNA)和線(xiàn)粒體rRNA (12S rRNA和16S rRNA)互補(bǔ)的寡核苷酸探針。為了簡(jiǎn)化人類(lèi)、大鼠、小鼠或細(xì)菌 (16S和23S rRNA)樣本的處理,上述探針混合后再加入提取的總RNA中,與其中的rRNA雜交以便下一步的清除。其它高豐度的轉(zhuǎn)錄本,例如珠蛋白R(shí)NA (globin)或線(xiàn)粒體RNA也可以按照類(lèi)似的方法去除。Pull-out方法中探針是帶有生物素的,然后使用鏈霉素包裹的磁珠從總RNA溶液中除去探針-rRNA復(fù)合物,剩余的RNA用于建庫(kù)測(cè)序,試劑盒有Ribo-Zero (Illumina,USA) (生信寶典注:還是Illumina取名字霸氣)和RiboMinus (Thermo Fisher,USA)。RNAse H方法使用RNAse H (NEBNext RNA depletion(NEB,USA))和RiboErase (Kapa Biossystems,USA)降解oligo-DNA:RNA復(fù)合物。最近的比較表明,在RNA質(zhì)量高的前提下,這兩種方法都可以將產(chǎn)出數(shù)據(jù)中rRNA的比例降低至20%以下。但是,研究還表示RNase H方法比pull-out法的穩(wěn)定性要好。另外對(duì)應(yīng)用不同試劑盒獲得的數(shù)據(jù)進(jìn)行差異基因分析時(shí)要注意轉(zhuǎn)錄本長(zhǎng)度的偏好性的影響。作者還描述了另外一種類(lèi)似于RNase H的方法,效果也不錯(cuò)但之前沒(méi)有報(bào)道過(guò)。ZapR方法是Takara Bio的專(zhuān)利技術(shù),它使用一種酶來(lái)降解RNA-seq文庫(kù)中的rRNA片段。相比于oligo-dT RNA測(cè)序方法,rRNA移除建庫(kù)方法的一個(gè)局限是需要更高的測(cè)序深度,主要是因?yàn)槲膸?kù)中還有一定的rRNA留存。


        Oligo-dT和rRNA移除法都可以用于后續(xù)實(shí)驗(yàn)的DGE分析,研究者們通常會(huì)延續(xù)實(shí)驗(yàn)室一直使用的方法或最容易使用的方法。然而,對(duì)于這些方法的選擇需要根據(jù)情況做一些考量,尤其是那些易降解的樣本,如果采用WTA方法會(huì)檢測(cè)到更多的轉(zhuǎn)錄本,但是其實(shí)驗(yàn)成本也高于oligo-dT方法。

        富集RNA 3?端用于Tag RNA-seq以及可變多聚腺苷酸分析 (Enriching RNA 3?ends for Tag RNA- seq and alternative polyadenylation analysis)


        標(biāo)準(zhǔn)的短讀長(zhǎng)Illumina方法應(yīng)用于高質(zhì)量差異基因分析時(shí)需要對(duì)每個(gè)樣本測(cè)序1000萬(wàn)到3000萬(wàn)條(10M到30M條)reads。如果研究者只關(guān)注基因水平的表達(dá),并且樣本數(shù)目比較多和生物重復(fù)比較多時(shí),或者實(shí)驗(yàn)樣品材料受限時(shí),建議采用3?tag計(jì)數(shù)。由于測(cè)序集中在轉(zhuǎn)錄本的3?末端,需要的測(cè)序深度會(huì)降低,就可以降低成本或同時(shí)測(cè)序更多樣本。富集3?末端也可以用于檢測(cè)由于mRNA前體上發(fā)生的選擇性多聚腺苷酸化導(dǎo)致的單個(gè)轉(zhuǎn)錄本的poly(A)位點(diǎn)的變化。


        3? mRNA-seq方法中每個(gè)轉(zhuǎn)錄本獲得一條測(cè)序片段 (tag read),通常是對(duì)其3’末端的測(cè)序。tag read的數(shù)目理論上與轉(zhuǎn)錄本的豐度是成正比的。標(biāo)簽測(cè)序法 (tag-sequencing protocols),例如QuantSeq (Lexogen, Austria)通常比標(biāo)準(zhǔn)RNA-seq實(shí)驗(yàn)流程更為簡(jiǎn)單。標(biāo)簽測(cè)序法采用隨機(jī)引物或帶有oligo-dT的引物進(jìn)行PCR擴(kuò)增分選出轉(zhuǎn)錄本的3’末端的同時(shí)加上接頭序列,優(yōu)化掉了poly(A)富集、rRNA移除和接頭連接等步驟。這一方法可以在更低的測(cè)序深度條件下達(dá)到與標(biāo)準(zhǔn)RNA-seq相當(dāng)?shù)拿舾行?,因此可以混合更多樣本同時(shí)測(cè)序。因?yàn)椴恍枰紤]外顯子連接檢測(cè) (exon junction)和基因長(zhǎng)度歸一化,這一方法的數(shù)據(jù)分析也簡(jiǎn)化了(生信寶典注:其實(shí)也是需要考慮的,轉(zhuǎn)錄本末端或UTR區(qū)也會(huì)存在剪接,具體取決于測(cè)序讀長(zhǎng)和特定基因的結(jié)構(gòu)。不過(guò)如果使用STAR/BWA等有soft-clip機(jī)制的比對(duì)工具也可以不考慮。)。但是,3? mRNA-seq方法可能會(huì)受到轉(zhuǎn)錄本序列相似區(qū)域 (homopolymeric region) 導(dǎo)致的引物結(jié)合錯(cuò)誤進(jìn)而導(dǎo)致擴(kuò)增出錯(cuò)誤的片段的影響;也只能進(jìn)行非常有限的轉(zhuǎn)錄異構(gòu)體分析,這會(huì)抵消這一方法因?yàn)闇y(cè)序深度需求低帶來(lái)的高性?xún)r(jià)比,尤其是對(duì)于那些僅夠一次使用的樣本。


        mRNAs的選擇性多腺苷酸化(APA)會(huì)產(chǎn)生3? UTR長(zhǎng)度不等的轉(zhuǎn)錄異構(gòu)體。對(duì)于一個(gè)特定的基因來(lái)說(shuō),這不只是多轉(zhuǎn)錄出幾個(gè)異構(gòu)體,而是3?UTR中存在的順式調(diào)控元件會(huì)影響轉(zhuǎn)錄本自身的調(diào)控。能夠研究APA的方法可以讓研究者們對(duì)miRNA的調(diào)控、mRNA的穩(wěn)定性和定位、以及mRNA的翻譯有更多理解。APA法要求是富集轉(zhuǎn)錄本的3?末端,從而提升檢測(cè)信號(hào)和靈敏度,而前面提到的3? mRNA-seq標(biāo)簽測(cè)序法則正合適。其它方法如多聚腺苷酸位點(diǎn)測(cè)序 (polyadenylation site sequencing, PAS-seq)法,首先將mRNA打斷為150 bp左右的片段,然后使用帶有oligo-dT的引物進(jìn)行模板置換生成cDNA用于后續(xù)測(cè)序,其中的80%的測(cè)序序列來(lái)源于3?UTR。TAIL-seq則避免使用oligo-dT,RNA打斷前,先移除rRNA,然后在轉(zhuǎn)錄本poly(A)尾巴連接3?接頭。片段化后,再加上5?接頭就完成了文庫(kù)制備。在RNA-蛋白互作分析方法如交聯(lián)免疫沉淀 (cross-linking immunoprecipitation, CLIP)測(cè)序和dRNA-seq中也能評(píng)估APA。

        富集RNA 5?末端用于轉(zhuǎn)錄起始位點(diǎn)鑒定 (Enriching RNA 5?ends for transcription start- site mapping)


        富集5?端RNA (7-methylguanosine 5?-capped RNA)的測(cè)序的方法常用來(lái)鑒定啟動(dòng)子和轉(zhuǎn)錄起始位點(diǎn)(TSSs),可以做為DGE分析的補(bǔ)充。有多種方法都可以實(shí)現(xiàn)這個(gè)操作,但很少作為常規(guī)使用。在CAGE (cap analysis of gene expression)RAMPAGE (RNA annotation and mapping of promoters for analysis of gene expression)方法中,使用隨機(jī)引物完成cDNA第一條鏈合成后,mRNA 5?帽子結(jié)構(gòu)上用生物素標(biāo)記,然后使用鏈霉親和素富集5’ cDNA。CAGE使用II型限制性?xún)?nèi)切酶切割5?端接頭下游21-27 bp位置生成短cDNA序列。而RAMPAGE則使用模板置換 (template switching)來(lái)生成稍微長(zhǎng)一些的cDNA,進(jìn)行富集測(cè)序。單細(xì)胞標(biāo)簽?zāi)孓D(zhuǎn)錄測(cè)序技術(shù) (single-cell-tagged reverse transcription sequencing, STRT-seq)能夠在單細(xì)胞水平上鑒定TSS位點(diǎn)。這一方法使用生物素標(biāo)記的模板置換寡核苷酸來(lái)合成cDNA,磁珠捕獲并在5’端片段化然后測(cè)序。CAGE應(yīng)用到的5?末端標(biāo)記技術(shù)是由日本理化所 (Riken)開(kāi)發(fā)用于在早期功能基因研究中最大化獲得全長(zhǎng)cDNA的方法。日本理化所領(lǐng)導(dǎo)的小鼠功能注釋 (FANTOM, Functional Annotation of the Mouse)項(xiàng)目中使用CAGE技術(shù)鑒定了1300多個(gè)人類(lèi)和小鼠原代細(xì)胞、組織和細(xì)胞系的TSSs (轉(zhuǎn)錄起始位點(diǎn)),這充分顯示了CAGE的強(qiáng)大。在最近的一個(gè)方法比較研究中,CAGE也表現(xiàn)最佳。但是作者同時(shí)也說(shuō)到,僅使用5?末端捕獲測(cè)序鑒定出的TSS位點(diǎn)假陽(yáng)性比較多,建議結(jié)合其他獨(dú)立的方法進(jìn)一步驗(yàn)證,如DNase I測(cè)序或H3K4me3染色質(zhì)免疫共沉淀測(cè)序 (ChIP-seq)。

        使用唯一分子標(biāo)識(shí)符來(lái)檢測(cè)PCR重復(fù)


        RNA-seq數(shù)據(jù)通常有較高的重復(fù)率 (duplication rates),即許多測(cè)序序列會(huì)比對(duì)到轉(zhuǎn)錄組的相同位置。在全基因組測(cè)序中,比對(duì)到同一位置的序列被認(rèn)為是PCR擴(kuò)增引入的技術(shù)噪音,通常只保留1條用于后續(xù)分析;而在RNA-seq中,這些重復(fù)的序列則因?yàn)榭赡苁钦鎸?shí)的生物信號(hào)而被保留。高表達(dá)的轉(zhuǎn)錄本在樣本中可能有數(shù)百萬(wàn)份RNA拷貝,當(dāng)做為cDNA測(cè)序時(shí),產(chǎn)生相同的片段也是合理的。因此,在比對(duì) (alignment)過(guò)程中,不建議計(jì)算去除比對(duì)到同一位置的序列,因?yàn)樗鼈兇砹苏嬲纳镄盘?hào)。尤其是在使用單端測(cè)序 (single-end sequencing)時(shí)更是如此,因?yàn)橐粚?duì)片段只要一端序列相同就會(huì)被認(rèn)為是一個(gè)重復(fù) (duplicate);而雙端測(cè)序 (paired-end sequencing)中,片段化的兩端必須發(fā)生在同樣位置才會(huì)導(dǎo)致duplicate,而這個(gè)的發(fā)生概率比較低。但是,在制備cDNA文庫(kù)時(shí),由于PCR的偏好性,還是會(huì)引入duplication reads;很難去評(píng)估PCR引入的重復(fù)reads和生物重復(fù)reads的比例并把其作為一個(gè)質(zhì)控因素校正RNA-seq實(shí)驗(yàn)的結(jié)果。


        UMIs被認(rèn)為是一個(gè)處理擴(kuò)增偏好性的方法。在cDNA分子擴(kuò)增前加入隨機(jī)UMIs可以用于識(shí)別并計(jì)算移除PCR引入的重復(fù),而不影響到基因自身表達(dá)引入的重復(fù),進(jìn)而改善基因表達(dá)定量的結(jié)果和評(píng)估等位基因的轉(zhuǎn)錄。如果一對(duì)測(cè)序reads包含有相同的UMI并且比對(duì)到轉(zhuǎn)錄組的同樣位置,則被認(rèn)為是技術(shù)引入的重復(fù) (對(duì)單端測(cè)序來(lái)說(shuō),這里的一對(duì)測(cè)序reads是測(cè)序生成的兩條序列;對(duì)雙端測(cè)序來(lái)說(shuō),一對(duì)測(cè)序reads指同時(shí)包含左端和右端的兩條測(cè)序序列)。


        UMIs已經(jīng)被證明能夠通過(guò)降低檢測(cè)到的基因表達(dá)變化波動(dòng)和假陽(yáng)性率改善RNA-seq差異基因的統(tǒng)計(jì)分析。因?yàn)閱渭?xì)胞數(shù)據(jù)的擴(kuò)增偏好更嚴(yán)重,UMI的使用對(duì)單細(xì)胞數(shù)據(jù)結(jié)果可靠性至關(guān)重要。當(dāng)使用RNA-seq數(shù)據(jù)進(jìn)行變異檢測(cè) (variant calling)時(shí),UMIs也非常有用。高表達(dá)的轉(zhuǎn)錄本更容易達(dá)到適合變異檢測(cè)的高覆蓋率要求,尤其在考慮了重復(fù)reads時(shí),而UMIs可用于移除PCR擴(kuò)增引入的reads,從而校正等位基因頻率的計(jì)算。UMIs已成為單細(xì)胞RNA-seq (scRNA-seq)的文庫(kù)制備試劑盒的標(biāo)配,也越來(lái)越多的用于常規(guī)RNA-seq。

        改善降解了的RNA的分析


        RNA-seq文庫(kù)制備方法的發(fā)展也促進(jìn)了低質(zhì)量或降解了的RNA的分析,例如從臨床獲得的福爾馬林固定石蠟包埋(FFPE)存儲(chǔ)的樣本中的RNA。低質(zhì)量的RNA會(huì)導(dǎo)致不均勻的基因覆蓋,更高的DGE假陽(yáng)性率和更高的重復(fù)率,與文庫(kù)的復(fù)雜性呈負(fù)相關(guān)。文庫(kù)制備方法優(yōu)化的方向是盡量降低RNA降解的影響。這些方法在開(kāi)發(fā)基于RNA-seq的診斷技術(shù)中尤為重要,如類(lèi)似于基于21個(gè)基因RNA特征來(lái)預(yù)測(cè)乳腺癌復(fù)發(fā)的OncotypeDX試劑盒(尚不基于測(cè)序)類(lèi)似的檢測(cè)工具。雖然現(xiàn)在有幾種方法可以使用,但是比較研究顯示兩種方法表現(xiàn)最佳,即RNase H與RNA exome。如前所述,RNase H法使用核酸酶消化RNA:DNA復(fù)合物中的rRNA,但保留降解的mRNA用于后續(xù)測(cè)序。RNA exome方法使用寡核苷酸探針來(lái)捕獲RNA-seq文庫(kù)分子,非常類(lèi)似于外顯子測(cè)序 (exome sequencing)使用的策略。這兩種方法應(yīng)用簡(jiǎn)單,并都能在保留降解的和片段化的mRNA的前提下降低混入的rRNA的影響,進(jìn)而獲得高質(zhì)量的和高穩(wěn)定性的基因表達(dá)數(shù)據(jù)。3?末端標(biāo)記測(cè)序技術(shù)與擴(kuò)增子測(cè)序(PCR擴(kuò)增超過(guò)2萬(wàn)個(gè)外顯子)方法也可以用于分析降解的RNA,但這兩種方法并沒(méi)有RNase H方法應(yīng)用廣泛。


        設(shè)計(jì)更好的RNA-seq實(shí)驗(yàn)


        好的DGE RNA-seq實(shí)驗(yàn)設(shè)計(jì)對(duì)獲取高質(zhì)量和有生物意義的數(shù)據(jù)是至關(guān)重要的。特別需要考慮的是生物重復(fù)的數(shù)目、測(cè)序深度、采用單端還是雙端測(cè)序。

        生物重復(fù)與統(tǒng)計(jì)檢出力 (replication and experimental power)

        實(shí)驗(yàn)中必須包含足夠的生物學(xué)重復(fù)以捕獲組內(nèi)樣品自身存在的生物差異。定量分析的可信度更多地取決于生物重復(fù),而非測(cè)序深度或reads長(zhǎng)度。盡管RNA-seq的技術(shù)穩(wěn)定性高于微陣列平臺(tái),但生物系統(tǒng)固有的隨機(jī)變異要求進(jìn)行常規(guī)RNA-seq實(shí)驗(yàn)必須要重復(fù)一次。額外的重復(fù)能夠幫助發(fā)現(xiàn)異常樣品;并且在后續(xù)分析前,如有必要時(shí)移除或降低異常樣品的權(quán)重。確定最佳重復(fù)數(shù)需要仔細(xì)考慮幾個(gè)因素,包括預(yù)期的最小變化幅度 (effect size)、組內(nèi)變異、可接受的假陽(yáng)性和假陰性率以及最大能用于實(shí)驗(yàn)的樣本量,并且可以通過(guò)使用RNA-seq實(shí)驗(yàn)設(shè)計(jì)工具或統(tǒng)計(jì)功效工具進(jìn)行輔助設(shè)計(jì)。(http://www.biostathandbook.com/power.html )

        樣品生物學(xué)重復(fù)數(shù)據(jù)選擇?1必要性??2需要多少重復(fù)?

        確定實(shí)驗(yàn)的正確重復(fù)數(shù)并不總是那么容易。一項(xiàng)48個(gè)重復(fù)的酵母研究表明,當(dāng)分析中僅包含3個(gè)重復(fù)時(shí),許多用于DGE分析的工具僅檢測(cè)到20-40%的差異表達(dá)基因。該研究表明,至少應(yīng)使用六個(gè)生物重復(fù),這大大超過(guò)了RNA-seq文獻(xiàn)中通常報(bào)道的三個(gè)或四個(gè)重復(fù)。最近的一項(xiàng)研究表明,四個(gè)重復(fù)可能就足夠了,但它強(qiáng)調(diào)了測(cè)量生物學(xué)差異的必要性-例如,在確定出重復(fù)數(shù)之前先進(jìn)行預(yù)實(shí)驗(yàn)。對(duì)于高度多樣化的樣本(例如來(lái)自癌癥患者腫瘤的臨床組織),可能需要進(jìn)行更多重復(fù)才能檢測(cè)出高可信度的變化。

        確定最佳測(cè)序深度

        RNA-seq文庫(kù)構(gòu)建好后,就需要確定測(cè)序深度了。測(cè)序深度是指每個(gè)樣品獲得的測(cè)序序列數(shù)量。對(duì)于真核基因組中的bulk RNA DGE實(shí)驗(yàn),通常需要每個(gè)樣品大約10–30百萬(wàn)條測(cè)序reads。但是,多個(gè)物種的比較分析表明,對(duì)于最高表達(dá)的50%的基因來(lái)說(shuō),每個(gè)樣本只需要測(cè)序1百萬(wàn)條 reads就可以獲得與測(cè)序3千萬(wàn)條reads相似的表達(dá)定量結(jié)果。如果只關(guān)注最高表達(dá)的基因相對(duì)大的表達(dá)變化,并且有合適的生物學(xué)重復(fù),那么較少的測(cè)序就足以產(chǎn)生驅(qū)動(dòng)后續(xù)實(shí)驗(yàn)的假說(shuō)。測(cè)序完成后,估計(jì)的測(cè)序深度可以通過(guò)檢查樣品之間reads的分布和繪制飽和度曲線(xiàn)驗(yàn)證,并且飽和曲線(xiàn)還可以評(píng)估加測(cè)是否能提高檢測(cè)敏感性。隨著測(cè)序儀測(cè)序通量的增加,將一個(gè)實(shí)驗(yàn)的所有樣品混合到一起同時(shí)上機(jī)測(cè)序(甚至在同一個(gè)lane里面測(cè)序)是控制技術(shù)偏差的標(biāo)準(zhǔn)做法??偖a(chǎn)出reads數(shù)是樣本數(shù)與每個(gè)樣本期望獲得的reads數(shù)的乘積;如果有必要,混合的文庫(kù)測(cè)序足夠多的次數(shù)以達(dá)到所需的總reads數(shù)?;鞓訙y(cè)序需要仔細(xì)測(cè)定每個(gè)RNA-seq文庫(kù)的濃度,并假定混合的不同樣品中cDNA的總量相差不大(低方差),因此讀取的總reads數(shù)才能均勻地分到各個(gè)樣品中。在進(jìn)行昂貴的多通道混合測(cè)序之前,運(yùn)行單個(gè)lane確認(rèn)樣品之間cDNA總量相差不大是值得的預(yù)操作。

        選擇測(cè)序參數(shù):reads長(zhǎng)度和單端或雙端測(cè)序。

        最后需要確定的測(cè)序參數(shù)包括reads長(zhǎng)度以及是生成單端還是雙端reads。

        在許多測(cè)序應(yīng)用中,測(cè)序reads的長(zhǎng)度對(duì)數(shù)據(jù)可用性有很大影響,更長(zhǎng)的測(cè)序reads可以覆蓋更多的測(cè)序DNA。當(dāng)使用RNA-seq鑒定DGE時(shí),影響數(shù)據(jù)的可用性的重要因素是確定每個(gè)reads來(lái)自轉(zhuǎn)錄組中哪個(gè)基因的能力。一旦可以明確地確定reads位置,測(cè)序更長(zhǎng)的reads在基于定量的分析中就沒(méi)必要了。對(duì)于更定加性的RNA-seq分析(例如鑒定特定isoforms),更長(zhǎng)的reads可能會(huì)更有幫助。

        單端測(cè)序與雙端測(cè)序的問(wèn)題類(lèi)似。在單端測(cè)序中,每個(gè)cDNA片段的一個(gè)末端(3′或5′)用于產(chǎn)生測(cè)序reads,而雙端測(cè)序中每個(gè)片段產(chǎn)生兩個(gè)測(cè)序reads(一個(gè)3′和一個(gè)5′)。在需要測(cè)序盡可能多核苷酸的實(shí)驗(yàn)中,首選long-read paired-end測(cè)序。在DGE分析中,用戶(hù)只需要計(jì)算比對(duì)到轉(zhuǎn)錄本的reads數(shù)即可,故不需要對(duì)轉(zhuǎn)錄本片段的每個(gè)堿基都進(jìn)行測(cè)序。例如,將“短”的50 bp的單端測(cè)序與“長(zhǎng)”的100 bp的雙端測(cè)序的DGE分析比較表明單端測(cè)序也可以獲得一致的結(jié)果。這是因?yàn)閱味藴y(cè)序足以確定大多數(shù)測(cè)序片段來(lái)源的基因。相同的研究還表明,短的單端測(cè)序會(huì)降低檢測(cè)轉(zhuǎn)錄isoform的能力,更少的reads會(huì)跨越exon-exon junction。雙端測(cè)序還可以幫助消除序列比對(duì) (read mapping)的歧義,適用于可變外顯子定量 (alternative-exon),融合轉(zhuǎn)錄本檢測(cè)和新轉(zhuǎn)錄本發(fā)現(xiàn) ,尤其在注釋較差的轉(zhuǎn)錄組應(yīng)用中效果明顯。

        實(shí)際上,單端或雙端測(cè)序的選擇通常取決于成本或用戶(hù)可用的測(cè)序技術(shù)。在發(fā)布Illumina NovaSeq之前,在大多數(shù)情況下,單端測(cè)序每百萬(wàn)條reads的成本要低于paired-end測(cè)序,因此在相同的實(shí)驗(yàn)成本下,可以測(cè)序更多的重復(fù)或測(cè)序更深。如果需要在獲取大量較短的單端reads與生成較長(zhǎng)和/或雙端的reads之間進(jìn)行選擇,則測(cè)序深度的增加將對(duì)提高DGE檢測(cè)的敏感性更重要。


        RNA-seq數(shù)據(jù)分析


        在過(guò)去的十年中,用于分析RNA-seq以確定差異表達(dá)的計(jì)算方法的數(shù)量已成倍增加,即使對(duì)于簡(jiǎn)單的RNA-seq DGE,在每個(gè)階段的分析實(shí)踐中也存在很大差異。而且,每個(gè)階段使用的方法的差異以及不同技術(shù)組合形成的分析流程都可能會(huì)對(duì)從數(shù)據(jù)得出的生物學(xué)結(jié)論產(chǎn)生重大影響。最優(yōu)工具組合取決于研究的特定生物學(xué)問(wèn)題以及可用的計(jì)算資源。盡管有多種衡量方式,但我們對(duì)工具和技術(shù)的評(píng)估落腳點(diǎn)在它們鑒定出的差異基因的準(zhǔn)確性。為了完成這個(gè)評(píng)估,至少需要四個(gè)不同的分析階段(圖2;表2)。第一階段把測(cè)序平臺(tái)生成的原始測(cè)序數(shù)據(jù)比對(duì)到轉(zhuǎn)錄組。第二階段量化與每個(gè)基因或轉(zhuǎn)錄本來(lái)源的reads數(shù)量,構(gòu)建表達(dá)矩陣。該過(guò)程可能包括1個(gè)或多個(gè)子過(guò)程如比對(duì),組裝和定量,或者它也可以一個(gè)從讀取計(jì)數(shù)生成表達(dá)矩陣。通常有一個(gè)第三階段,包括過(guò)濾低表達(dá)的基因和至關(guān)重要的移除樣品間技術(shù)差異的標(biāo)準(zhǔn)化過(guò)程。DGE的最后階段是構(gòu)建樣本分組和其它協(xié)變量的統(tǒng)計(jì)模型,計(jì)算差異表達(dá)置信度。



        圖2

        第1階段-測(cè)序reads的比對(duì)和組裝

        測(cè)序完成后,分析的起點(diǎn)是包含測(cè)序堿基的FASTQ文件。最常見(jiàn)的第一步是將測(cè)序reads比對(duì)到已知的轉(zhuǎn)錄組(或注釋的基因組),將每個(gè)測(cè)序reads轉(zhuǎn)換為一個(gè)或多個(gè)基因組坐標(biāo)。傳統(tǒng)上,該過(guò)程是通過(guò)幾個(gè)不同的比對(duì)工具(如TopHat,STAR或HISAT)完成的,其都依賴(lài)參考基因組的存在。由于測(cè)序的cDNA來(lái)自RNA,可能跨越外顯子邊界,因此與參考基因組(包含內(nèi)含子和外顯子)比對(duì)時(shí)需要進(jìn)行剪接比對(duì),即允許reads中出現(xiàn)大片段gap。


        如果沒(méi)有可用的包含已知外顯子邊界的高質(zhì)量基因組注釋?zhuān)蛘呷绻M麑eads與轉(zhuǎn)錄本(而不是基因)相關(guān)聯(lián),則需要在比對(duì)后執(zhí)行轉(zhuǎn)錄組組裝步驟。諸如StringTie和SOAPdenovo-Trans之類(lèi)的組裝工具使用比對(duì)reads的gap來(lái)推測(cè)外顯子邊界和可能的剪接位點(diǎn)。轉(zhuǎn)錄本重頭組裝特別適用于參考基因組注釋缺失或不完整的物種,或者對(duì)異常轉(zhuǎn)錄本感興趣(例如在腫瘤組織中)的研究。轉(zhuǎn)錄組組裝方法受益于雙端測(cè)序和/或更長(zhǎng)的reads的使用,增加跨越splice junctions的可能性。但是,通常不需要從RNA-seq數(shù)據(jù)中從頭做轉(zhuǎn)錄組組裝來(lái)確定DGE (生信寶典注:無(wú)參分析組裝是必須的)。


        最近,涌現(xiàn)了一些計(jì)算效率高的“alignment free”工具,例如Sailfish,Kallisto和Salmon,它們將測(cè)序reads直接與轉(zhuǎn)錄本關(guān)聯(lián),而無(wú)需單獨(dú)的定量步驟。這些工具在定量高豐度(以及長(zhǎng)度更長(zhǎng))的轉(zhuǎn)錄本方面表現(xiàn)出很好的性能。但是,它們?cè)诙康拓S度或短轉(zhuǎn)錄本方面不夠準(zhǔn)確。(39個(gè)工具,120種組合深度評(píng)估 (轉(zhuǎn)錄組分析工具哪家強(qiáng)))


        不同的比對(duì)工具如何分配ambiguous reads的策略會(huì)影響最后的表達(dá)估計(jì)。對(duì)于可能來(lái)自多個(gè)不同基因、假基因或轉(zhuǎn)錄本的多映射reads (multi-map),這些影響尤為明顯。對(duì)12種基因表達(dá)估計(jì)方法的比較顯示,某些比對(duì)方法低估了許多臨床相關(guān)基因的表達(dá),這主要取決于對(duì)ambiguous reads的處理。在RNA-seq數(shù)據(jù)的計(jì)算分析中,對(duì)如何正確分配比對(duì)到多個(gè)位置的reads進(jìn)行模型探索仍然是研究的一個(gè)重點(diǎn)領(lǐng)域。一種常見(jiàn)的做法是在定量前過(guò)濾掉這些reads,但這會(huì)導(dǎo)致結(jié)果產(chǎn)生偏差。其他方法包括生成包含合并映射重疊區(qū)域的“融合”表達(dá)特征,以及計(jì)算每個(gè)基因的映射不確定性估計(jì),以用于后續(xù)的置信度的計(jì)算。


        第2階段-定量轉(zhuǎn)錄本豐度

        將reads比對(duì)到基因組或轉(zhuǎn)錄組后,下一步就是將它們分配給基因或轉(zhuǎn)錄本,獲得表達(dá)矩陣。不同的比較研究表明,定量過(guò)程中采用的方法對(duì)最終結(jié)果的影響最大,甚至比比對(duì)工具影響更大。單個(gè)基因(即該基因的所有轉(zhuǎn)錄亞型)的定量是基于轉(zhuǎn)錄組注釋計(jì)算與已知基因重疊的reads數(shù)。但是,把短reads分配到特定isoforms則需要統(tǒng)計(jì)模型估計(jì),尤其是很多reads不跨越剪接點(diǎn),并且不能明確分配給特定isoform時(shí)。即使在僅研究基因水平差異表達(dá)的情況下,定量isoform的差異也會(huì)獲得更準(zhǔn)確的結(jié)果,尤其是基因在不同條件下主要表達(dá)不同長(zhǎng)度的isoform時(shí)。例如,如果某個(gè)基因的一個(gè)isoform在一個(gè)樣品組中的長(zhǎng)度是另一樣品組中的isoforms的一半,但表達(dá)速率是后者的兩倍,則純基于基因的定量將無(wú)法檢測(cè)到這一表達(dá)差異。


        常用的定量工具包括RSEM,CuffLinks,MMSeq和HTSeq,以及上述的無(wú)比對(duì)直接定量工具?;趓eads計(jì)數(shù)的工具(例如HTSeq或featureCounts)通常會(huì)丟棄許多比對(duì)的序列,包括那些具有多個(gè)匹配位置或比對(duì)到多個(gè)表達(dá)特征的reads。這可以在隨后的分析中消除同源和重疊的轉(zhuǎn)錄本。RSEM使用期望最大化模型來(lái)分配模糊的reads,而無(wú)參考的比對(duì)方法(例如Kallisto)則將這些reads用于后續(xù)的定量,這可能會(huì)導(dǎo)致結(jié)果偏差。轉(zhuǎn)錄本豐度估計(jì)可以轉(zhuǎn)換成等效的read計(jì)數(shù),能完成這一轉(zhuǎn)換的部分工具依賴(lài)tximport包。量化步驟結(jié)束后會(huì)得到一個(gè)合并的表達(dá)矩陣,每個(gè)表達(dá)特征(基因或轉(zhuǎn)錄本)各占一行,每個(gè)樣品各占一列,中間的值是實(shí)際讀數(shù) (reads count)或估計(jì)的表達(dá)豐度。


        階段3-過(guò)濾和標(biāo)準(zhǔn)化

        通常,基因或轉(zhuǎn)錄本的reads count需要進(jìn)行過(guò)濾和標(biāo)準(zhǔn)化,以移除測(cè)序深度、表達(dá)模式和技術(shù)偏差的影響。過(guò)濾去除在所有樣本中都低豐度表達(dá)的基因是很直接的方式,并且已經(jīng)證明可以改善對(duì)真正差異表達(dá)基因的檢測(cè)。標(biāo)準(zhǔn)化表達(dá)矩陣的方法要復(fù)雜一些。簡(jiǎn)單的轉(zhuǎn)換可以校正豐度,降低GC含量和測(cè)序深度的影響。如今人們已經(jīng)認(rèn)識(shí)到諸如早期應(yīng)用的RPKM之類(lèi)的方法是不夠的,并已被能夠校正樣本之間更細(xì)微差異的方法所替代,例如四分位數(shù)或中位數(shù)歸一化。什么?你做的差異基因方法不合適?


        比較研究表明,normalization方法的選擇可能對(duì)最終結(jié)果和生物學(xué)結(jié)論有重要影響。大多數(shù)基于計(jì)算的標(biāo)準(zhǔn)化方法依賴(lài)于兩個(gè)關(guān)鍵假設(shè):首先,大多數(shù)基因的表達(dá)水平在生物重復(fù)中變化不大;第二,不同的樣本組總的mRNA水平?jīng)]有顯著差異。而當(dāng)這些基本假設(shè)不成立時(shí),就需要仔細(xì)考慮是否以及如何執(zhí)行標(biāo)準(zhǔn)化了。例如,如果一組特定的基因在一個(gè)樣品組中高表達(dá),而相同的基因加上另一組基因在另一個(gè)樣品組中表達(dá),那么簡(jiǎn)單地標(biāo)準(zhǔn)化測(cè)序深度是不合適的,因?yàn)樵诘诙€(gè)樣本組中相同數(shù)目的reads會(huì)分給更多數(shù)目的基因。標(biāo)準(zhǔn)化方法如edgeR所使用的的M-值的加權(quán)截尾均值 (trimmed mean of M-values , TMM)可以處理這一情況。確定合適的標(biāo)準(zhǔn)化方法是困難的;一種選擇是嘗試使用多種方法進(jìn)行分析,然后比較結(jié)果的一致性。如果結(jié)果對(duì)標(biāo)準(zhǔn)化方法高度敏感,則應(yīng)進(jìn)一步探索數(shù)據(jù)以確定差異的來(lái)源。必須注意,這一比較不會(huì)被用于選擇與原始假設(shè)吻合的結(jié)果的歸一化方法。


        解決此類(lèi)問(wèn)題的一種方法是使用spike-in對(duì)照RNA-即在文庫(kù)制備過(guò)程中引入預(yù)定濃度的外源RNA序列。RNA-seq常用的spike-in有 External RNA Controls Consortium mix (ERCCs),spike-in RNA variants (SIRVs)和sequencing spike-ins (Sequins)。由于spike-in的RNA濃度是預(yù)先知道的,并且濃度與產(chǎn)生的reads的數(shù)量直接相關(guān),因此可以校準(zhǔn)樣品中轉(zhuǎn)錄本的表達(dá)水平。有人認(rèn)為,如果沒(méi)有spike-in對(duì)照,則不能正確地分析總體表達(dá)變化較大的項(xiàng)目。然而,在實(shí)踐中,可能難以始終如一地以預(yù)設(shè)水平摻入spike-ins ,并且它們?cè)跇?biāo)準(zhǔn)化基因水平上的reads計(jì)數(shù)時(shí)比在轉(zhuǎn)錄本水平上更可靠,因?yàn)閱蝹€(gè)isoform可以在樣品中以顯著不同的濃度表達(dá)。目前,盡管已發(fā)表的RNA-seq DGE實(shí)驗(yàn)中spike-in對(duì)照并未得到廣泛使用,但隨著單細(xì)胞實(shí)驗(yàn)的開(kāi)展這一狀況可能會(huì)改變,因?yàn)閱渭?xì)胞RNA-seq中spike-in應(yīng)用廣泛,當(dāng)然前提是這個(gè)技術(shù)能進(jìn)一步優(yōu)化達(dá)到穩(wěn)定的水平。


        階段4-差異表達(dá)分析

        獲得表達(dá)矩陣后,就可以構(gòu)建統(tǒng)計(jì)模型評(píng)估哪些轉(zhuǎn)錄本發(fā)生了顯著的表達(dá)改變。有幾個(gè)常用工具可以完成此任務(wù);一些基于基因水平的表達(dá)計(jì)數(shù),其它的基于轉(zhuǎn)錄本水平的表達(dá)計(jì)數(shù)。基因水平的工具通常依賴(lài)于比對(duì)的reads計(jì)數(shù),并使用廣義線(xiàn)性模型來(lái)進(jìn)行復(fù)雜實(shí)驗(yàn)設(shè)計(jì)的評(píng)估。這些工具包括EdgeR,DESeq2limma + voom等工具,這些工具計(jì)算效率高并且彼此之間結(jié)果穩(wěn)定性好。評(píng)估差異isoforms表達(dá)的工具,例如CuffDiff,MMSEQ和Ballgown,往往需要更多的計(jì)算資源,并且結(jié)果的變化也更大。但是,在差異表達(dá)工具應(yīng)用之前的操作(即關(guān)于比對(duì)、定量、過(guò)濾和標(biāo)準(zhǔn)化)對(duì)最終結(jié)果的影響更大

        表2


        其它非bulk RNA分析


        來(lái)自組織和/或細(xì)胞群體的RNA-seq徹底革新了我們對(duì)生物學(xué)的理解,但是它無(wú)法簡(jiǎn)單地用于解析特定的細(xì)胞類(lèi)型,并且不能保留空間信息,這些對(duì)于理解生物系統(tǒng)的復(fù)雜性都是至關(guān)重要的。使用戶(hù)能夠處理非bulk RNA的方法與標(biāo)準(zhǔn)RNA-seq protocols非常相似,但是可以解決的問(wèn)題卻截然不同。單細(xì)胞測(cè)序已經(jīng)揭示了在過(guò)去我們認(rèn)為研究透徹的疾病中存在著未知的細(xì)胞類(lèi)型,例如發(fā)現(xiàn)肺離子細(xì)胞 (ionocyte cells),這可能與囊性纖維化的病理學(xué)機(jī)制有關(guān)??臻g分辨率的RNA-seq對(duì)實(shí)體組織中細(xì)胞間相互作用也有了新的發(fā)現(xiàn),例如揭示成年心臟組織中存在一小部分胎兒標(biāo)志物基因表達(dá)的細(xì)胞群體。在可預(yù)見(jiàn)的將來(lái),Bulk RNA-seq將仍然是占主導(dǎo)地位且有價(jià)值的工具。但是,單細(xì)胞實(shí)驗(yàn)和分析方法正在被研究人員迅速采用,并且隨著空間RNA-seq方法的成熟,它們也有可能成為常規(guī)RNA-seq工具的一部分。兩種方法都將提高我們探究多細(xì)胞生物復(fù)雜性的能力,并且可能都需要與bulk RNA-seq方法結(jié)合使用。在這里,我們簡(jiǎn)要介紹了主要的單細(xì)胞和空間分辨轉(zhuǎn)錄組方法,它們與bulk RNA-seq的區(qū)別以及用戶(hù)需要考慮的新問(wèn)題。

        圖3


        單細(xì)胞分析

        scRNA-seq最早于2009年報(bào)道,方法是在含有裂解緩沖液的Eppendorf管中分離單個(gè)卵母細(xì)胞。其在新生物學(xué)問(wèn)題的應(yīng)用,以及可用的實(shí)驗(yàn)和計(jì)算方法發(fā)展之快以至于最新的綜述也迅速過(guò)時(shí)了。每種scRNA-seq方法都需要解離實(shí)體組織,分離單個(gè)細(xì)胞(使用非常不同的方法),并對(duì)其RNA進(jìn)行標(biāo)記和擴(kuò)增以進(jìn)行測(cè)序,并且所有步驟都脫胎于bulk RNA-seq protocols。單細(xì)胞轉(zhuǎn)錄組教程匯總


        機(jī)械分解和collagenase及DNase的酶解在單細(xì)胞懸浮液中產(chǎn)生的活細(xì)胞比例最高,但是這一比例具有高度組織特異性,最好根據(jù)經(jīng)驗(yàn)確定,并且要非常小心。一旦制備了單細(xì)胞懸液,就可以通過(guò)各種方法分離單個(gè)細(xì)胞(圖3a);由于大多數(shù)實(shí)驗(yàn)室都可以使用流式細(xì)胞儀,因此最容易獲得的方法是將細(xì)胞直接分選到含有裂解緩沖液的微量滴定板中。對(duì)于更高通量的實(shí)驗(yàn),存在多種用于分離細(xì)胞的技術(shù),但需要構(gòu)建或購(gòu)買(mǎi)特定的單細(xì)胞儀器。單個(gè)細(xì)胞可以在微流體芯片中進(jìn)行物理捕獲,或按照泊松分布模型加載到納米孔設(shè)備中,也可以通過(guò)基于液滴的微流控技術(shù)(例如在Drop-Seq,InDrop中)分離單細(xì)胞并與后續(xù)反應(yīng)試劑包裹在一個(gè)液滴中,或者采用原位序列條形碼標(biāo)記(例如單細(xì)胞組合索引RNA測(cè)序(sci-RNA-seq)和基于分池連接的轉(zhuǎn)錄組測(cè)序(split-pool ligation-based transcriptome sequencing, SPLiT-seq))。單細(xì)胞分離后會(huì)被裂解釋放RNA到溶液中以進(jìn)行cDNA合成,并用于RNA-seq文庫(kù)制備。通常在文庫(kù)制備過(guò)程中會(huì)使用PCR擴(kuò)增單個(gè)細(xì)胞的RNA。這一步擴(kuò)增會(huì)引入PCR偏差,需要使用UMI進(jìn)行校正。盡管由于逆轉(zhuǎn)錄過(guò)程符合Poisson采樣分布,但只有10–20%的轉(zhuǎn)錄本會(huì)被逆轉(zhuǎn)錄,限制了轉(zhuǎn)錄本檢測(cè)的敏感性,不過(guò)各種方法都可以生成可用的數(shù)據(jù)。在濕實(shí)驗(yàn)室之外,計(jì)算方法也在迅速發(fā)展,并且最近出現(xiàn)了關(guān)于scRNA-seq實(shí)驗(yàn)的設(shè)計(jì)指南。方法學(xué)的飛速發(fā)展意味著scRNA-seq方法的技術(shù)會(huì)快速過(guò)時(shí)。盡管如此,Ziegenhain等人提供了scRNA-seq方法的綜述,強(qiáng)調(diào)了UMI在數(shù)據(jù)分析中的重要性,并展示了所比較的的六種方法中哪一種最敏感。但是,他們的研究不包括被廣泛采用的10X Genomics技術(shù)。


        用戶(hù)選擇scRNA-seq方法時(shí)應(yīng)考慮的主要因素包括他們是否需要測(cè)序全長(zhǎng)轉(zhuǎn)錄本,測(cè)序更多細(xì)胞(廣度)或每個(gè)細(xì)胞測(cè)序更深獲得更多轉(zhuǎn)錄本(深度)和實(shí)驗(yàn)預(yù)算之間的權(quán)衡。全長(zhǎng)scRNA-seq方法通常具有較低的通量,因?yàn)槊總€(gè)細(xì)胞需要獨(dú)立處理直到獲得最終的scRNA-seq庫(kù)。然而,這一方法允許用戶(hù)研究可變剪接和等位基因特異性表達(dá)。非全長(zhǎng)檢測(cè)方法只測(cè)序轉(zhuǎn)錄本的3’或5’末端,這在檢測(cè)isoforms表達(dá)時(shí)會(huì)受限,但是由于在單個(gè)細(xì)胞cDNA合成后可以pool到一起,因此可以分析的細(xì)胞數(shù)量要高出2-3個(gè)數(shù)量級(jí)。單細(xì)胞測(cè)序的廣度是指同時(shí)測(cè)序的細(xì)胞、組織或樣品的數(shù)量,而深度是指給定數(shù)量的測(cè)序reads可分析覆蓋多少轉(zhuǎn)錄本。盡管實(shí)驗(yàn)中能測(cè)序的細(xì)胞數(shù)量是由選擇的方法決定的,但它確實(shí)具有一定的靈活性,隨著所分析的細(xì)胞數(shù)量的增加,增加的測(cè)序成本通常會(huì)限制轉(zhuǎn)錄組測(cè)序的深度。因此,可以根據(jù)廣度和深度這兩個(gè)維度來(lái)評(píng)估不同的scRNA-seq系統(tǒng)。通常,基于X孔板 (plate-based)的方法或微流控方法通常捕獲最少的細(xì)胞,但每個(gè)細(xì)胞檢測(cè)更多的基因,而基于液滴的系統(tǒng)可用于分析最大數(shù)量的細(xì)胞,如有的項(xiàng)目一次分析超過(guò)一百萬(wàn)個(gè)細(xì)胞。


        scRNA-seq的發(fā)展正在推動(dòng)大規(guī)模的細(xì)胞圖譜項(xiàng)目,以期確定生物體或組織中所有細(xì)胞類(lèi)型。Human Cell AtlasNIH Brain Initiative項(xiàng)目分別對(duì)人體和大腦中存在的所有細(xì)胞類(lèi)型進(jìn)行測(cè)序。The Human Cell Atlas旨在在第一階段對(duì)3千萬(wàn)至1億個(gè)細(xì)胞進(jìn)行測(cè)序,并且隨著技術(shù)的發(fā)展,其廣度和深度將不斷增加。該項(xiàng)目的最新成果包括發(fā)現(xiàn)肺離子細(xì)胞 (ionocyte cells),以及發(fā)現(xiàn)兒童和成人的腎臟癌起源于不同細(xì)胞類(lèi)型。但是,研究者應(yīng)該意識(shí)到scRNA-seq技術(shù)幾乎可以應(yīng)用于任何生物體。最近,對(duì)擬南芥根細(xì)胞原生質(zhì)體的單細(xì)胞分析表明,即使植物細(xì)胞堅(jiān)硬的細(xì)胞壁都不是分離單細(xì)胞并且進(jìn)行測(cè)序的障礙。scRNA-seq正在迅速成為生物學(xué)家工具箱的標(biāo)配,并可能在10年內(nèi)像今天的bulk RNA-seq一樣廣泛使用。

        空間分辨的RNA-seq方法

        當(dāng)前的bulk和scRNA-seq方法為用戶(hù)提供了有關(guān)組織或細(xì)胞群體的高度詳細(xì)的數(shù)據(jù),但都沒(méi)有保留細(xì)胞的空間位置信息,這降低了確定細(xì)胞所處環(huán)境與基因表達(dá)之間關(guān)系的能力。實(shí)現(xiàn)空間轉(zhuǎn)錄組學(xué)研究方法的兩個(gè)技術(shù)是“空間編碼” (spatial encoding)和“原位轉(zhuǎn)錄組學(xué)” (in situ transcriptomics)??臻g編碼方法在RNA-seq文庫(kù)制備過(guò)程中記錄空間信息,方法是分離空間固定的細(xì)胞 (spatially restricted cells)(例如通過(guò)激光捕獲顯微切割(LCM)),或根據(jù)分離前的位置加入條形碼編碼 (從組織切片中捕獲mRNA)。原位轉(zhuǎn)錄組學(xué)方法是在組織切片內(nèi)的細(xì)胞進(jìn)行RNA進(jìn)測(cè)序或RNA成像獲得表達(dá)數(shù)據(jù)。我們推薦對(duì)此感興趣的讀者閱讀最近的相關(guān)綜述以獲得更多了解。


        LCM配合RNA-seq已成功從組織切片中分離和測(cè)序單個(gè)細(xì)胞或特定區(qū)域。盡管需要專(zhuān)用設(shè)備,但LCM在許多機(jī)構(gòu)中廣泛可用。盡管它可以實(shí)現(xiàn)高空間分辨率,但是卻很費(fèi)力,因此很難做大規(guī)模。在Spatial Transcriptomics(美國(guó)10X Genomics公司)和Slide-seq方法中,采用寡核苷酸芯片 (oligo- arrayed microarray slides)和布滿(mǎn)寡核苷酸的凝珠 (densely packed oligo-coated beads) 直接從冷凍組織切片中捕獲RNA進(jìn)行測(cè)序。寡核苷酸包含spatial barcode,UMI和oligo-dT引物,可唯一識(shí)別每個(gè)轉(zhuǎn)錄本及其位置。測(cè)序reads比對(duì)回玻片坐標(biāo)獲得空間基因表達(dá)信息。已經(jīng)證明,Spatial Transcriptomics可用于多種物種的組織,包括小鼠腦和人乳腺癌組織、人心臟組織和擬南芥花序組織。Slide-seq是一項(xiàng)最新開(kāi)發(fā)的技術(shù),已顯示可用于小鼠大腦的冷凍切片分析。這些直接的mRNA捕獲方法不需要專(zhuān)門(mén)的設(shè)備,具有相對(duì)簡(jiǎn)單的分析方法,并且可能大規(guī)模應(yīng)用于許多組織。但是,有兩個(gè)重要的問(wèn)題有待解決。首先,該技術(shù)只能應(yīng)用于新鮮的冷凍組織。其次,分辨率受到芯片大小和寡核苷酸凝珠間距的限制;當(dāng)前應(yīng)用的芯片大小分別為6.5×7 mm和3×3 mm,限制了可以檢測(cè)的組織切片的大小。Spatial Transcriptomics的凝珠直徑為100 μm,間隔為100 μm,這意味著它們不夠小或不夠密,以致無(wú)法實(shí)現(xiàn)單細(xì)胞分辨率。Slide-seq的凝珠 (beads)小得多,直徑僅為10 μm,并且堆積致密,提供了十倍的空間分辨率,大約一半的beads可以獲得單個(gè)細(xì)胞數(shù)據(jù)。計(jì)算整合分析組織消化分離后scRNA-seq與空間編碼數(shù)據(jù)可以提高分辨率,但是還需要隨著技術(shù)的發(fā)展這才能成為常規(guī)的RNA-seq工具。


        能替代上述空間分辨RNA-seq方法的技術(shù)包括原位測(cè)序基于成像的單分子熒光原位雜交技術(shù)。與RNA-seq方法相比,這些方法產(chǎn)生的轉(zhuǎn)錄組譜更窄(能檢測(cè)的轉(zhuǎn)錄本更少),但可直接檢測(cè)RNA,而靶向方法則可分析低豐度轉(zhuǎn)錄本。同時(shí),它們提供有關(guān)組織結(jié)構(gòu)和微環(huán)境的信息,并可生成亞細(xì)胞數(shù)據(jù)。雖然取得了很多進(jìn)展,但基于成像的方法的主要局限性是對(duì)高分辨率或超高分辨率顯微鏡與自動(dòng)流控相結(jié)合的需求,以及成像所花費(fèi)的時(shí)間可能長(zhǎng)達(dá)數(shù)小時(shí),甚至數(shù)天。相較于測(cè)序成本以快于摩爾定律預(yù)測(cè)的速度下降,讓基于成像的系統(tǒng)能進(jìn)行高通量分析處理的機(jī)會(huì)卻很有限。


        目前,上述所有提到的空間轉(zhuǎn)錄組學(xué)方法都受到無(wú)法生成深度轉(zhuǎn)錄組數(shù)據(jù)、細(xì)胞分辨率和/或成本(時(shí)間和/或金錢(qián))非常高的限制,但是相關(guān)方法正在迅速改進(jìn),并且已經(jīng)應(yīng)用于臨床樣品。用于空間組轉(zhuǎn)錄組學(xué)分析的特定計(jì)算方法開(kāi)始出現(xiàn)。此外,原位RNA測(cè)序和基于成像的方法的進(jìn)步已使獲得10^3至10^5個(gè)細(xì)胞的轉(zhuǎn)錄組數(shù)據(jù)成為可能,這于基于液滴的單細(xì)胞方法可獲得的細(xì)胞量相似。未來(lái)的發(fā)展可能會(huì)使空間轉(zhuǎn)錄組學(xué)可以被更廣泛的用戶(hù)使用。但是,大多數(shù)用戶(hù)可能不太需要真正的單細(xì)胞或亞細(xì)胞分辨率。這樣,對(duì)檢測(cè)更多轉(zhuǎn)錄本的需求和對(duì)廣泛的組織或樣品的適用性可能會(huì)推動(dòng)這些技術(shù)在特定領(lǐng)域的發(fā)展。如果可以克服空間轉(zhuǎn)錄組技術(shù)的這些局限性,那么它可能會(huì)被廣泛采用。


        非穩(wěn)定狀態(tài)RNA的分析


        DGE研究使用RNA-seq來(lái)測(cè)量穩(wěn)態(tài)mRNA水平,這是通過(guò)平衡mRNA轉(zhuǎn)錄、加工和降解的速率來(lái)維持的。但是,RNA-seq也可用于研究轉(zhuǎn)錄和翻譯的過(guò)程和動(dòng)態(tài)變化,這些研究為基因表達(dá)研究提供了新的視角。

        捕獲新生RNA測(cè)量活躍轉(zhuǎn)錄

        基因表達(dá)實(shí)質(zhì)上是一個(gè)動(dòng)態(tài)過(guò)程,DGE分析無(wú)法檢測(cè)復(fù)雜轉(zhuǎn)錄響應(yīng)過(guò)程中的細(xì)微和快速變化,也不能鑒定不穩(wěn)定的非編碼RNA(例如增強(qiáng)子RNA)。RNA-seq可用于定位TSS并定量正在轉(zhuǎn)錄的新生RNA,從而能夠研究RNA動(dòng)力學(xué)。但是,與DGE分析相比,新生RNA的研究具有挑戰(zhàn)性,因?yàn)樗鼈兊陌胨テ诙糖邑S度低。因此,了解RNA動(dòng)力學(xué)的重要性催生了多種分析新生RNA研究方法。這些方法揭示了啟動(dòng)子的不同轉(zhuǎn)錄程度,轉(zhuǎn)錄激活狀態(tài)的RNA聚合酶II(Pol II)在啟動(dòng)子近端的停留是基因表達(dá)調(diào)控的關(guān)鍵步驟,新生RNA可以直接調(diào)節(jié)轉(zhuǎn)錄,并且它的序列和結(jié)構(gòu)影響轉(zhuǎn)錄延伸、暫停和停滯 (stalling),以及染色體修飾酶和增強(qiáng)子RNAs的結(jié)合。旨在區(qū)分新轉(zhuǎn)錄的RNA和其他RNA的新生RNA-seq方法可以大致分為三類(lèi):run-on方法,基于Pol II免疫沉淀(IP)的方法代謝標(biāo)記方法(圖4)。

        圖4


        Run-on方法依賴(lài)于轉(zhuǎn)錄時(shí)摻入核苷酸類(lèi)似物,用于從總RNA中富集新生RNA,并可以測(cè)量RNA瞬時(shí)轉(zhuǎn)錄(圖4a)。Global run-on sequencing(GRO-seq)和precision nuclear run-on sequencing(PRO-seq)通過(guò)在轉(zhuǎn)錄過(guò)程中分別將5-溴尿苷5′-三磷酸(BrU)或生物素標(biāo)記的核苷酸摻入新生RNA中來(lái)實(shí)現(xiàn)這一目標(biāo)。在添加外源生物素標(biāo)記的核苷酸并恢復(fù)轉(zhuǎn)錄之前,分離細(xì)胞核并洗去內(nèi)源核苷酸。測(cè)序免疫沉淀或親和層析富集的新生轉(zhuǎn)錄本可以確定轉(zhuǎn)錄組范圍內(nèi)活性轉(zhuǎn)錄的RNA聚合酶的位置和活性。取決于轉(zhuǎn)錄時(shí)摻入的標(biāo)記核苷酸的數(shù)量,GRO-seq只能達(dá)到10-50 bp的分辨率,這降低了TSS定位的精度。PRO-seq可實(shí)現(xiàn)單堿基分辨率的定位,因?yàn)樵谏锼睾塑账釗饺牒筠D(zhuǎn)錄會(huì)停止,從而可以確定摻入位點(diǎn)。Run-on方法在概念上很簡(jiǎn)單-僅將摻入修飾了的核苷酸的RNA分子富集用于測(cè)序,但實(shí)際上,背景非新生RNA的存在會(huì)增加所需的讀取深度。這些方法的使用揭示了在啟動(dòng)子上發(fā)散或雙向轉(zhuǎn)錄起始的程度,并確定了增強(qiáng)子RNA在調(diào)節(jié)基因表達(dá)中的作用。通過(guò)結(jié)合對(duì)5′-帽RNA的特異性富集,GRO-cap,PRO-cap或小的5′-帽RNA測(cè)序(START-seq)提高了檢測(cè)轉(zhuǎn)錄起始的敏感性和特異性和捕獲可能在轉(zhuǎn)錄過(guò)程中被加工去除的RNA,減少轉(zhuǎn)錄后加帽的RNA產(chǎn)生的背景信號(hào)。


        Pol II IP方法,例如native elongating transcription sequencing (NET-seq) 和native elongating transcript sequencing for mammalian chromatin (mNET-seq),使用anti-FLAG (for FLAG-tagged Pol II) 或其它結(jié)合Pol II C末端功能域(CTD)的各種抗體拉下Pol II相關(guān)的RNA。盡管非新生的Pol II結(jié)合的RNA和背景mRNA會(huì)導(dǎo)致更高的測(cè)序深度并混淆分析,但富集測(cè)序與這些染色質(zhì)復(fù)合物相關(guān)的新生RNA可用于繪制TSS位點(diǎn)。NET-seq可能特異性較低,與Pol II強(qiáng)相關(guān)的任何RNA都可能污染新生RNA的富集,NET-seq數(shù)據(jù)中存在的tRNA和小核仁RNA可以說(shuō)明這一點(diǎn)。在mNET-seq中使用的多種CTD抗體揭示了CTD修飾調(diào)控轉(zhuǎn)錄的機(jī)制,檢測(cè)RNA加工中間體并能夠?qū)⑻囟≒ol II的新生RNA定位于TSS。然而,這些能力是以更復(fù)雜的實(shí)驗(yàn)為代價(jià)的,需要更多的細(xì)胞和更高的總體測(cè)序成本。


        用核苷酸類(lèi)似物4-硫尿苷(4 sU)進(jìn)行代謝標(biāo)記 (metabolic pulse-labelling)可以鑒定新生的RNA(圖4c)。但是,在需要較長(zhǎng)標(biāo)記時(shí)間的方法中,大多數(shù)轉(zhuǎn)錄本都會(huì)被標(biāo)記,限制其靈敏度。通過(guò)特異地靶向RNA的3′末端(即最接近RNA聚合酶的新轉(zhuǎn)錄的RNA),瞬時(shí)轉(zhuǎn)錄組測(cè)序(TT-seq)和硫醇(SH)-連接的烷基化RNA代謝測(cè)序(SLAMseq)減少5’RNA的信號(hào)。TT-seq將標(biāo)記時(shí)間限制為5分鐘,以便僅標(biāo)記新轉(zhuǎn)錄本的3′末端,并且在生物素親和純化之前增加RNA片段化步驟以富集標(biāo)記的RNA。SLAM-seq整合了3′mRNA-seq文庫(kù)制備(盡管它也可以使用其他文庫(kù)制備方法,例如miRNA文庫(kù)),只測(cè)序標(biāo)記了的新轉(zhuǎn)錄的RNA,而不是整個(gè)轉(zhuǎn)錄本。另外,在SLAM-seq中,在RNA提取后加入碘乙酰胺,用于烷基化整合到新生的RNA中的4 sU殘基。這一修飾誘導(dǎo)了逆轉(zhuǎn)錄依賴(lài)的胸腺嘧啶至胞嘧啶(T> C)核苷酸轉(zhuǎn)換,在測(cè)序分析中會(huì)被檢測(cè)為“突變”,從而直接鑒定出4 sU整合位點(diǎn)。但是,低整合率意味著只有少數(shù)4 sU位點(diǎn)被轉(zhuǎn)換為了胞嘧啶,限制檢測(cè)敏感性。TUC-seqTimeLapse-seq這兩種方法也使用T> C突變分析,但不富集3’末端。他們已用于探索細(xì)胞干擾后的轉(zhuǎn)錄響應(yīng)和測(cè)量RNA半衰期。


        用于新生RNA分析的方法尚未直接做過(guò)比較。檢測(cè)新生RNA的測(cè)序方法都受到非特異性背景和/或降解的RNA混入的負(fù)面影響,使得測(cè)序需要更高的深度。通過(guò)僅測(cè)序RNA 3′末端,PRO-seq,TT-seq和SLAM-seq中非新生RNA的影響會(huì)被降低,但是幾乎沒(méi)有證據(jù)表明任何一種方法會(huì)優(yōu)于其他方法。親和層析捕獲比較費(fèi)力,并且需要比代謝標(biāo)記法更高的起始RNA,但是確定標(biāo)記 (pulse-labelling)所需的時(shí)間很復(fù)雜,標(biāo)記時(shí)間短時(shí)后續(xù)用于分析的RNA也會(huì)少,限制了檢測(cè)敏感性。近來(lái)組織特異性RNA標(biāo)記技術(shù)和用于“突變”分析的新計(jì)算方法的發(fā)展,可能會(huì)促使用戶(hù)對(duì)新生RNA和其他RNA的檢測(cè)從生化(基于生物素的)富集轉(zhuǎn)換為生信富集。新生RNA檢測(cè)方法的進(jìn)一步發(fā)展以及它們與其他方法(例如空間轉(zhuǎn)錄組或RNA–RNA和RNA–蛋白質(zhì)相互作用方法)的結(jié)合,將使我們對(duì)轉(zhuǎn)錄過(guò)程有更深入的了解。

        核糖體圖譜定量活性轉(zhuǎn)錄

        RNA-seq的主要重點(diǎn)在于分析樣品中現(xiàn)存的mRNA的種類(lèi)和數(shù)量,但是mRNA的存在并不直接對(duì)應(yīng)于蛋白質(zhì)的產(chǎn)生。兩種方法-多聚核糖體圖譜 (polysomal profiling)和Ribo-seq技術(shù)允許我們跳出轉(zhuǎn)錄研究翻譯組。核糖體翻譯mRNA是受到高度調(diào)控的,蛋白質(zhì)水平主要由翻譯活性決定。Polysomal profiling和Ribo-seq幫助研究一個(gè)轉(zhuǎn)錄本上結(jié)合了多少核糖體及它們?cè)谵D(zhuǎn)錄本上的分布規(guī)律(圖5)。這允許我們推斷在特定時(shí)間或細(xì)胞狀態(tài)下哪些轉(zhuǎn)錄本正在活躍翻譯。兩種方法均假設(shè)mRNA上的核糖體密度與蛋白質(zhì)合成水平相關(guān)。樣品比較分析發(fā)現(xiàn)在發(fā)育過(guò)程中或翻譯失調(diào)相關(guān)疾病中,如纖維化,阮病毒病或癌癥,處理前后隨著時(shí)間推移的核糖體動(dòng)力學(xué)。

        圖5

        Polysome profiling多核糖體分析使用蔗糖梯度超速離心法將多個(gè)核糖體結(jié)合的mRNA (polysomal fraction)與單個(gè)或無(wú)核糖體結(jié)合的mRNA (monosomal fraction)分離分別用于RNA-seq文庫(kù)制備(圖5a)。在polysomal fraction比monosomal fraction中檢測(cè)到更高豐度的mRNAs翻譯活性更高。該方法不僅可以推斷單個(gè)mRNA的翻譯狀態(tài),還可以生成核糖體占有率和密度的高分辨率圖譜(盡管它無(wú)法確定核糖體的位置)。后續(xù)也對(duì)原始方法進(jìn)行了一些改進(jìn)。例如,使用非線(xiàn)性蔗糖梯度改善了在不同濃度蔗糖溶液臨界濃度處多聚核糖體mRNA的收集;應(yīng)用Smart-seq文庫(kù)制備方法可以檢測(cè)低至10 ng的多聚核糖體mRNA;使用更高分辨率的蔗糖梯度和深度測(cè)序允許檢測(cè)轉(zhuǎn)錄本異構(gòu)體特異性翻譯。然而,多核糖體譜分析只能產(chǎn)生相對(duì)低分辨率的翻譯譜,并且是需要專(zhuān)門(mén)設(shè)備,限制了其廣泛使用。


        Ribo-seq基于RNA印記,最初是在酵母中開(kāi)發(fā)。它使用環(huán)己酰胺抑制翻譯延伸進(jìn)而導(dǎo)致核糖體停滯在mRNA上。用RNase I消化mRNA會(huì)留下核糖體保護(hù)的20–30個(gè)核苷酸印記,用于后續(xù)構(gòu)建RNA-seq文庫(kù)(圖5b)。Ribo-seq可以獲得高分辨率翻譯譜,同時(shí)檢測(cè)單個(gè)轉(zhuǎn)錄本上核糖體豐度和定位。能夠獲得多聚核糖體分析無(wú)法檢測(cè)到的核糖體在轉(zhuǎn)錄本上位置的分布,意味著可以檢測(cè)到影響蛋白質(zhì)表達(dá)調(diào)控的翻譯暫停事件 (translation pausing)。Ribo-seq技術(shù)的優(yōu)化包括緩沖液和酶的優(yōu)化,可以更清楚地揭示Ribo-seq數(shù)據(jù)的3 bp周期性,以及barcode和UMI的使用可以確定單分子事件。盡管最近開(kāi)發(fā)了用于尋找開(kāi)放閱讀框,用于差異或isoforms水平翻譯分析和用于研究密碼子偏好性的特定工具,但標(biāo)準(zhǔn)RNA-seq工具仍可用于計(jì)算分析。Ribo-seq的主要局限性在于依賴(lài)超速離心和由于核酸酶批次間活性的差異需要憑經(jīng)驗(yàn)確定消化條件。


        前面提到的方法不能區(qū)分翻譯起始、延伸和終止的信號(hào),但是對(duì)Ribo-seq的改進(jìn)使得可以對(duì)翻譯動(dòng)力學(xué)進(jìn)行進(jìn)一步研究。定量翻譯起始測(cè)序(QTI-seq)通過(guò)化學(xué)“凍結(jié)”富集起始核糖體,同時(shí)從相關(guān)mRNA中去除延伸核糖體來(lái)定位翻譯起始位點(diǎn) (生信寶典注:原文寫(xiě)的是maps transcription initiation sites,應(yīng)該是筆誤)。在組裝成熟核糖體之前,Translation complex profile sequencing (TCP-seq)通過(guò)富集與成熟核糖體RNA組裝前的40S核糖體小亞基結(jié)合的RNA來(lái)定位翻譯起始位點(diǎn)。同時(shí),由于這種方法保留了核糖體的完整性,因此也可以分析和比較80S核糖體部分,從而獲得更完整的翻譯動(dòng)力學(xué)分析(圖5b)。


        所有的翻譯組方法在概念上都是相似的;他們假設(shè)mRNA核糖體密度與蛋白質(zhì)合成水平相關(guān)。盡管它們的樣品制備方案不同,但是都需要大量的起始細(xì)胞。最終,可能需要將它們與RNA-seq結(jié)合以了解基因表達(dá)水平,并與蛋白質(zhì)組學(xué)結(jié)合以確定蛋白質(zhì)水平,才能全面了解mRNA翻譯。如果想詳細(xì)了解翻譯組分析,文中也推薦了其它綜述。


        超越基因表達(dá)分析


        RNA在其他生物分子和生物過(guò)程(例如剪接和翻譯)的調(diào)控中起著重要作用,這些過(guò)程涉及RNA與各種蛋白質(zhì)和/或其他RNA分子的相互作用。RNA-seq可用于探究分子內(nèi)和分子間RNA-RNA相互作用(RRI),或RNA與蛋白質(zhì)的互作,從而可以更深入地了解轉(zhuǎn)錄和翻譯過(guò)程(圖6)。為互作組 (interactome)分析而開(kāi)發(fā)的各種方法都有一個(gè)共同點(diǎn):富集相互作用的RNA。一些方法利用了天然的生物相互作用,另一些方法則在目標(biāo)分子之間發(fā)生瞬時(shí)結(jié)合或共價(jià)結(jié)合。大多數(shù)使用抗體,親和層析或探針雜交來(lái)富集用于測(cè)序的RNA。在這里,我們簡(jiǎn)要介紹基于RNA-seq的結(jié)構(gòu)組 (structurome)和互作組 (interactome)。

        圖6

        通過(guò)分子內(nèi)RNA相互作用探測(cè)RNA結(jié)構(gòu)

        核糖體RNA和tRNA構(gòu)成細(xì)胞的大部分RNA。它們與其他有特定結(jié)構(gòu)的非編碼RNA一起在基因調(diào)控到翻譯的多種細(xì)胞過(guò)程發(fā)揮作用。用于解析RNA結(jié)構(gòu)的方法主要有兩種,分別是基于核酶的方法化學(xué)探針?lè)?/span>。核糖核酸酶消化法于1965年首次用于確定(tRNA-Ala)RNA結(jié)構(gòu)。在隨后的40年中開(kāi)發(fā)了化學(xué)方法,例如基于引物延伸化學(xué)分析進(jìn)行選擇性2′-羥基乙酰化法(SHAPE),可以在堿基對(duì)分辨率下確定tRNA-Asp的結(jié)構(gòu)。但是,只有將各種核酶法和化學(xué)法與RNA-seq結(jié)合使用,才能進(jìn)行全轉(zhuǎn)錄組范圍而非單個(gè)RNA水平的結(jié)構(gòu)分析,這會(huì)加深我們關(guān)于RNA對(duì)結(jié)構(gòu)組復(fù)雜性和重要性的理解。在這里,我們著眼于核酶法和化學(xué)探針?lè)ㄖg的主要差異(圖6a)。請(qǐng)閱讀Strobedl的綜述做更全面的了解。


        核酶法,例如RNA結(jié)構(gòu)并行分析法(PARS, parallel analysis of RNA-structure)和片段測(cè)序(FRAG-seq, fragmentation sequencing),使用可以消化單鏈RNA(ssRNA)或雙鏈RNA(dsRNA)的核酶。核酸酶消化后剩余的RNA用作RNA-seq文庫(kù)制備。隨后通過(guò)對(duì)所得RNA-seq數(shù)據(jù)進(jìn)行計(jì)算分析,確定結(jié)構(gòu)化(雙鏈)和非結(jié)構(gòu)化(單鏈)區(qū)域。核酸酶簡(jiǎn)單易用并允許對(duì)ssRNA和dsRNA進(jìn)行研究,但由于核酸酶消化的隨機(jī)性,它們的分辨率比化學(xué)法要低。此外,核酶的大體型使得它們不能進(jìn)入細(xì)胞,進(jìn)而不適用于體內(nèi)研究。


        化學(xué)映射方法使用與RNA分子反應(yīng)的化學(xué)探針標(biāo)記結(jié)構(gòu)化或非結(jié)構(gòu)化核苷酸。這些標(biāo)記可阻止逆轉(zhuǎn)錄或?qū)е耤DNA誤整合 (micincorporation),進(jìn)而可通過(guò)對(duì)RNA-seq reads進(jìn)行測(cè)序和分析以獲得結(jié)構(gòu)組學(xué)結(jié)果。SHAPE測(cè)序(SHAPE–seq)通過(guò)與RNA骨架的核-2′-羥基反應(yīng)來(lái)標(biāo)記未配對(duì)的ssRNA,發(fā)夾環(huán)中的堿基堆積會(huì)降低標(biāo)記效率。Structure–seq和硫酸二甲酯測(cè)序(DMS-seq, dimethyl sulfate )用DMS標(biāo)記腺嘌呤和胞嘧啶殘基,阻斷了逆轉(zhuǎn)錄,使得能夠通過(guò)分析所得的截?cái)郼DNA推斷出RNA結(jié)構(gòu)。SHAPE和突變圖譜分析(SHAPE–MaP)和DMS突變圖譜分析(DMS–MaPseq)都優(yōu)化了實(shí)驗(yàn)條件提高逆轉(zhuǎn)錄酶的合成能力并防止cDNA截?cái)唷O喾?,化學(xué)標(biāo)記會(huì)導(dǎo)致誤摻入事件,然后使用RNA-seq數(shù)據(jù)分析這些“突變”以揭示RNA結(jié)構(gòu)。化學(xué)探針是小分子,可以在體內(nèi)研究更具生物學(xué)意義的結(jié)構(gòu)體;由于細(xì)胞內(nèi)環(huán)境的動(dòng)態(tài)變化,數(shù)據(jù)的變異度也會(huì)高一些?;瘜W(xué)法還可以用于進(jìn)行新生RNA的結(jié)構(gòu)分析,并揭示共轉(zhuǎn)錄RNA折疊的順序。


        核酸酶和逆轉(zhuǎn)錄阻斷法通常產(chǎn)生短RNA片段,并且僅檢測(cè)單個(gè)消化位點(diǎn)或化學(xué)標(biāo)記,而誤摻入和突變檢測(cè)方法每條測(cè)序reads可能檢測(cè)到多個(gè)化學(xué)標(biāo)記位點(diǎn)。這些方法都不是沒(méi)有偏好的, 逆轉(zhuǎn)錄阻斷效率不會(huì)達(dá)到100%,誘導(dǎo)突變的化學(xué)標(biāo)記可能會(huì)阻斷cDNA的合成,這兩個(gè)因素都會(huì)影響數(shù)據(jù)的分析解釋。Spike-in對(duì)照可能會(huì)提高結(jié)構(gòu)組分析的質(zhì)量,但尚未得到廣泛使用。SHAPE方法的比較揭示了僅在體內(nèi)實(shí)驗(yàn)中明顯的效率差異,強(qiáng)調(diào)了比較此類(lèi)復(fù)雜方法時(shí)需要特殊注意。


        這些方法揭示了RNA結(jié)構(gòu)在基因和蛋白質(zhì)調(diào)控機(jī)制中的新作用。例如,對(duì)DMS數(shù)據(jù)的分析發(fā)現(xiàn),RNA結(jié)構(gòu)可以調(diào)節(jié)APA,并可能減緩催化活性區(qū)域的翻譯,從而為蛋白質(zhì)折疊提供更多時(shí)間減少錯(cuò)誤折疊事件。可能需要結(jié)合使用多種結(jié)構(gòu)RNA-seq方法才能獲得完整的結(jié)構(gòu)組圖譜。隨著該領(lǐng)域研究的深入,我們可能會(huì)發(fā)現(xiàn)RNA結(jié)構(gòu)與發(fā)育或疾病狀態(tài)之間的聯(lián)系。最近的結(jié)果表明異常RNA結(jié)構(gòu)在重復(fù)擴(kuò)增導(dǎo)致的疾病中可能有調(diào)控作用。最終,結(jié)構(gòu)組分析可以促使開(kāi)發(fā)靶向結(jié)構(gòu)清晰的RNA的小分子,從而開(kāi)辟疾病治療藥物開(kāi)發(fā)的新領(lǐng)域。

        探索RNA–RNA分子間互作 (RRI)

        分子間RRI在轉(zhuǎn)錄后調(diào)控中起重要作用,例如miRNA靶向3’UTR。已經(jīng)開(kāi)發(fā)的用于研究分子間RRI的工具,可用于靶向和全轉(zhuǎn)錄組的分析。這些方法有共同的操作流程,其中RNA分子在斷裂和就近自連之前先進(jìn)行交聯(lián)固定互作狀態(tài)(圖6b)。通過(guò)不同方法生成的大多數(shù)(但不是全部)嵌合cDNA源自穩(wěn)定堿基配對(duì)(即相互作用)的RNA分子之間的連接。靶向方法,例如CLASH (crosslinking, ligation and sequencing of hybrids),RIA-seq (RNA interactome analysis and sequencing), RAP-RNA (RNA antisense purification followed by RNA sequencing)可以生成單個(gè)RNA的深度相互作用圖譜。CLASH可使用IP富集法分析特定蛋白質(zhì)復(fù)合物介導(dǎo)的RRI,而RIA–seq使用反義寡核苷酸pull down與靶標(biāo)RNA相互作用的RNA。兩種方法都不能區(qū)分直接和間接RRI,這使生物學(xué)解釋變得復(fù)雜。為了提高RRI分析的分辨率,RAP–RNA使用psoralen和其他交聯(lián)劑,然后用反義寡核苷酸捕獲RNA,并通過(guò)高通量RNA-seq檢測(cè)直接和間接RRI。盡管該方法確實(shí)允許進(jìn)行更特異的分析,但它需要準(zhǔn)備多個(gè)文庫(kù)(每種交聯(lián)劑一個(gè))。


        全轉(zhuǎn)錄組方法與靶向方法基本相似:相互作用的RNA在體內(nèi)進(jìn)行交聯(lián)并富集。富集通過(guò)減少連接反應(yīng)中攜帶的非相互作用RNA的量來(lái)提高特異性,可以通過(guò)2D凝膠純化富集(如PARIS,psoralen analysis of RNA interactions and structures法中)或使用生物素親和層析富集( 如 SPLASH,sequencing of psoralen crosslinked, ligated and selected hybrids),或通過(guò)RNase R消化去除未交聯(lián)的RNA(如LIGR-seq,ligation of interacting RNA followed by RNA- seq)。連接后,去交聯(lián),然后進(jìn)行RNA-seq文庫(kù)制備和測(cè)序。PARIS方法產(chǎn)生最大數(shù)目的相互作用,但每個(gè)樣品需要7500萬(wàn)條測(cè)序reads,比其他RRI方法要多很多,并且是DGE分析平均測(cè)序深度的兩倍以上。


        整合RNA互作數(shù)據(jù)分析可以同時(shí)對(duì)多種相互作用進(jìn)行探索,并揭示了不同種類(lèi)RNA的RRI分布的變異??偟膩?lái)講,90%的RRI有mRNA參與。近一半有miRNA或長(zhǎng)鏈非編碼RNA參與,并且大多數(shù)互作都靶向mRNA。這些數(shù)據(jù)整合比較分析揭示了特定RNA種類(lèi)在不同方法中存在很大偏好性,這導(dǎo)致方法之間幾乎沒(méi)有檢測(cè)到共有的互作。因此,要完整了解RRI,可能需要使用不止一種方法。但是,RRI方法存在一些局限性。也許最具挑戰(zhàn)性的是RRI是動(dòng)態(tài)的,并且受結(jié)構(gòu)構(gòu)象和其他分子間相互作用的影響,如果沒(méi)有重復(fù),結(jié)果就很難解釋。分子內(nèi)相互作用為分子間RRI分析增加了噪音,這要求將高度結(jié)構(gòu)化的RNA(例如rRNA)過(guò)濾并去除。其他問(wèn)題包括RNA提取過(guò)程中的相互作用破壞,需要穩(wěn)定的交聯(lián)方法,但最常用的RRI交聯(lián)試劑 psoralen和4′-氨基-甲基三氧雜沙侖(AMT)-僅能低效交聯(lián)嘧啶,降低了方法的敏感性。此外,鄰近連接步驟效率低下,并且可能同時(shí)連接相互作用和非相互作用的RNA,從而進(jìn)一步降低了靈敏度。

        研究RNA與蛋白質(zhì)的相互作用。

        ChIP-seq已成為探索DNA-蛋白質(zhì)相互作用的必不可少的工具。一種類(lèi)似的IP方法可以用于研究RNA與蛋白質(zhì)的相互作用。RNA與蛋白質(zhì)的相互作用方法也依靠IP,利用一種針對(duì)感興趣的蛋白的抗體來(lái)捕獲其結(jié)合的RNA進(jìn)行分析(最初是結(jié)合微陣列芯片使用)(圖6c)。各種RNA與蛋白質(zhì)相互作用方法之間最明顯的區(qū)別是互作的RNA和蛋白質(zhì)是否進(jìn)行交聯(lián)以及如何交聯(lián):有些方法避免交聯(lián)(直接IP),另一些方法則使用甲醛進(jìn)行交聯(lián),而另一些方法則使用紫外線(xiàn)(UV)進(jìn)行交聯(lián)。.最簡(jiǎn)單的方法是RIP-seq( RNA
        immunoprecipitation and sequencing ),通常但并非總是使用細(xì)胞內(nèi)未加改造的蛋白的抗體富集,并且不需要RNA片段化處理。其操作簡(jiǎn)單使得該方法易于采用。RIP-seq可以獲得有生物意義的分析結(jié)果,但是有兩個(gè)大的缺點(diǎn)。首先,用于保持RNA與蛋白質(zhì)相互作用的溫和洗滌條件意味著相對(duì)高水平的非特異性結(jié)合片段也會(huì)得以富集。第二,RNA片段化步驟的缺失降低了結(jié)合位點(diǎn)的分辨率。因此,RIP-seq結(jié)果高度可變,并取決于RNA-蛋白質(zhì)結(jié)合的天然穩(wěn)定性。使用甲醛交聯(lián)在RNA及其相互作用的蛋白質(zhì)之間產(chǎn)生可逆的共價(jià)鍵可以提高穩(wěn)定性并減少非特異性RNA的pull down,但是甲醛也會(huì)產(chǎn)生蛋白質(zhì)-蛋白質(zhì)交聯(lián)??梢酝ㄟ^(guò)與0.1%甲醛進(jìn)行輕度交聯(lián)(比用于ChIP–seq研究的低10倍)來(lái)緩和這種影響,這在在多個(gè)蛋白質(zhì)靶標(biāo)上獲得了高質(zhì)量的結(jié)果。


        在CLIP中引入的254-nm UV交聯(lián)是一項(xiàng)至關(guān)重要的改進(jìn),它提高了RNA-蛋白質(zhì)相互作用分析方法的特異性和結(jié)合位點(diǎn)鑒定的分辨率。UV交聯(lián)會(huì)在蛋白質(zhì)和RNA的相互作用位點(diǎn)之間建立共價(jià)鍵,但至關(guān)重要的是,不會(huì)導(dǎo)致互作蛋白的交聯(lián)。這樣可以穩(wěn)定RNA與蛋白質(zhì)的結(jié)合,從而允許使用之前會(huì)破壞RNA-蛋白互作的更嚴(yán)格的富集操作,減少背景信號(hào)。隨后,CLIP protocol已成為許多方法開(kāi)發(fā)的基礎(chǔ)。單核苷酸分辨率CLIP(iCLIP)將UMI納入文庫(kù)制備中以去除PCR重復(fù)。同時(shí)它還利用交聯(lián)核苷酸上cDNA合成過(guò)程中普遍存在的未成熟終止的優(yōu)勢(shì),通過(guò)截?cái)嗟腸DNA擴(kuò)增獲得單核苷酸分辨率的交聯(lián)位點(diǎn)的定量檢測(cè)圖譜。PAR-CLIP(Photoactivatable- ?ribonucleoside-enhanced CLIP)通過(guò)使用4 sU和356-nm UV交聯(lián)獲得單核苷酸分辨率的RNA-蛋白互作圖譜。4 sU在細(xì)胞培養(yǎng)過(guò)程中被整合進(jìn)入內(nèi)源性RNA,而356 nm的紫外線(xiàn)照射僅在4 sU插入位點(diǎn)產(chǎn)生交聯(lián)(獲得高特異性)。在所得序列數(shù)據(jù)中檢測(cè)反轉(zhuǎn)錄誘導(dǎo)的T>C替換可實(shí)現(xiàn)堿基對(duì)分辨率的檢測(cè)解析,并可區(qū)分交聯(lián)片段與非交聯(lián)片段,從而進(jìn)一步降低背景信號(hào)。對(duì)CLIP的最新改進(jìn)提高了它的效率和敏感性。紅外CLIP(irCLIP)采用紅外凝膠可視化和基于beads的純化功能取代了放射性同位素檢測(cè)。這些改變使得試驗(yàn)操作更簡(jiǎn)單,而且僅需20,000個(gè)細(xì)胞 (iCLIP通常需要1-2百萬(wàn)個(gè)細(xì)胞)就可以進(jìn)行RNA-蛋白質(zhì)互作分析。eCLIP (enhanced CLIP)去掉了RNA-蛋白質(zhì)復(fù)合物的質(zhì)控和可視化過(guò)程,將樣品barcode與RNA adaptor結(jié)合在一起,使多個(gè)樣品可以更早地混合,并用beads代替凝膠進(jìn)行片段富集。這些更改旨在簡(jiǎn)化用戶(hù)的操作,作為ENCODE項(xiàng)目的一部分,已經(jīng)針對(duì)近200種蛋白質(zhì)進(jìn)行了eCLIP實(shí)驗(yàn)。但是,irCLIP和eCLIP目前均未得到廣泛采用,部分原因是eCLIP和irCLIP敏感性的某些提高可能是由于特異性的降低所致;支持這一結(jié)論的是,這兩種方法檢測(cè)到的PTBP1結(jié)合位點(diǎn)處結(jié)合基序和調(diào)控的外顯子富集度降低。由于大量公開(kāi)可用的數(shù)據(jù)為計(jì)算分析提供了新的資源,因此重點(diǎn)考慮CLIP數(shù)據(jù)的質(zhì)量控制,過(guò)濾,鑒定結(jié)合位點(diǎn) (peak calling)和標(biāo)準(zhǔn)化所采用的方法,這些都會(huì)影響數(shù)據(jù)的生物學(xué)解釋。對(duì)此感興趣的讀者建議繼續(xù)閱讀推薦的綜述。


        某些RRI方法和所有的RNA-蛋白質(zhì)的互作檢測(cè)依賴(lài)于IP富集,因此僅能應(yīng)用于有比較好的結(jié)合抗體的蛋白質(zhì)的分析,而且非特異性抗體結(jié)合仍然是一個(gè)問(wèn)題-盡管不只限于該領(lǐng)域。RNA結(jié)構(gòu)也影響RNA與蛋白質(zhì)的相互作用;一些蛋白質(zhì)識(shí)別特定的RNA二級(jí)結(jié)構(gòu)或與這些結(jié)構(gòu)競(jìng)爭(zhēng)結(jié)合RNA,這使體外的發(fā)現(xiàn)用于研究體內(nèi)生物調(diào)控變得復(fù)雜。此外,RRI和RNA-蛋白質(zhì)相互作用方法通常檢測(cè)的是特定轉(zhuǎn)錄本或特定位置互作的平均值。實(shí)驗(yàn)方法、計(jì)算方法和單分子測(cè)序的進(jìn)一步發(fā)展可能有助于解析這些內(nèi)部的生物差異。


        結(jié)論


        Wang,Gerstein和Snyder在他們的預(yù)測(cè)中認(rèn)為:RNA-seq將“給真核轉(zhuǎn)錄組分析帶來(lái)革命性變革”。但是,即使他們也可能對(duì)技術(shù)拓展應(yīng)用到如此之多的RNA層面感到驚訝。今天,我們可以分析RNA生物學(xué)的許多方面,這對(duì)功能基因組的理解,研究發(fā)育以及引起癌癥和其他疾病的分子失調(diào)都是必不可少的。盡管生物學(xué)發(fā)現(xiàn)階段還遠(yuǎn)遠(yuǎn)沒(méi)有結(jié)束,但臨床已經(jīng)在使用基于RNA-seq的檢測(cè)試驗(yàn)。單細(xì)胞測(cè)序已成為許多實(shí)驗(yàn)室的標(biāo)配,空間單細(xì)胞組學(xué)分析隨著方法的進(jìn)一步發(fā)展也很可能會(huì)遵循類(lèi)似的發(fā)展路徑。對(duì)大部分的研究者而言,長(zhǎng)讀長(zhǎng)測(cè)序方法有可能取代Illumina的短讀長(zhǎng)RNA-seq作為默認(rèn)的研究方法。為了使這種情況發(fā)生,就增加通量和降低錯(cuò)誤率方面,長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)還需要進(jìn)行重大改進(jìn)。如果長(zhǎng)讀長(zhǎng)測(cè)序變得與短讀長(zhǎng)測(cè)序一樣便宜可靠,那么除了對(duì)RNA降解的樣品之外,鑒定mRNA isoforms都會(huì)首選長(zhǎng)讀長(zhǎng)測(cè)序??紤]到這一點(diǎn),任何關(guān)于RNA-seq在未來(lái)十年內(nèi)發(fā)展的預(yù)測(cè)都可能會(huì)過(guò)于保守。


        轉(zhuǎn)錄組研究

        單細(xì)胞系列教程


        ChIP-seq專(zhuān)題


        Reference

        Stark R, Grzelak M, Hadfield J. RNA sequencing: the teenage years. Nat Rev Genet. 2019 Jul 24. doi: 10.1038



        往期精品

        畫(huà)圖三字經(jīng)?生信視頻?生信系列教程?

        心得體會(huì)?TCGA數(shù)據(jù)庫(kù)?Linux?Python?

        高通量分析?免費(fèi)在線(xiàn)畫(huà)圖?測(cè)序歷史?超級(jí)增強(qiáng)子

        生信學(xué)習(xí)視頻?PPT?EXCEL?文章寫(xiě)作?ggplot2

        海哥組學(xué)?可視化套路?基因組瀏覽器

        色彩搭配?圖形排版?互作網(wǎng)絡(luò)

        自學(xué)生信?2019影響因子?GSEA?單細(xì)胞?

        后臺(tái)回復(fù)“生信寶典福利第一波”或點(diǎn)擊閱讀原文獲取教程合集

        瀏覽 18
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            影音先锋久久 | 美女一级全黄大片 | 婷婷社区五月天 | 欧美性色A片免费免费观看的 | 欧美性爱XXXX黑人XYX性爽 | 大香蕉在线网站 | 国产美女黄网站免费 | 亚洲国产精品网站 | 国产又粗又硬又爽 | 亚洲精品白浆 |