- 首頁(yè) 今日動(dòng)態(tài) 人才市場(chǎng) 新技術(shù)專(zhuān)欄 中國(guó)科學(xué)人 云展臺(tái) 云講堂直播 會(huì)展中心 特價(jià)專(zhuān)欄 技術(shù)快訊 免費(fèi)試用

-
生物通官微
陪你抓住生命科技
跳動(dòng)的脈搏
體外轉(zhuǎn)錄測(cè)序揭示RNA-seq的終極誤差
【字體: 大 中 小 】 時(shí)間:2014年07月14日 來(lái)源:生物通
編輯推薦:
最近,美國(guó)賓夕法尼亞大學(xué)、土耳其科克大學(xué)、美國(guó)三角研究園和約翰霍普金斯大學(xué)的研究人員,共同在國(guó)際生物學(xué)權(quán)威期刊《Genome Biology》發(fā)表的一項(xiàng)研究中,提出并應(yīng)用體外轉(zhuǎn)錄測(cè)序(IVT-seq),來(lái)更好地理解RNA-seq中出現(xiàn)的偏差。
生物通報(bào)道:高通量RNA測(cè)序(RNA-seq)是了解轉(zhuǎn)錄調(diào)控的一種強(qiáng)大技術(shù)。利用RNA-seq,我們不僅可以更好地進(jìn)行傳統(tǒng)的基因差異表達(dá)分析,而且還可以全面地研究可變剪接、RNA編輯、等位基因特異性表達(dá)和確定新的轉(zhuǎn)錄本(編碼RNA和非編碼RNA)。
與更成熟的、以RNA表達(dá)分析為基礎(chǔ)的微陣列相反,RNA-seq的靈活性可讓研究人員針對(duì)不同的目標(biāo)(例如據(jù)腺苷酸化轉(zhuǎn)錄本、小RNA測(cè)序、總RNA測(cè)序等),開(kāi)發(fā)出許多不同的方案。然而,這種靈活性同樣可能有復(fù)雜的技術(shù)偏差,因?yàn)檠芯咳藛T經(jīng)常使用不同的方法,進(jìn)行RNA提取、大小選擇、片段化、轉(zhuǎn)換為cDNA、擴(kuò)增和最后測(cè)序。
盡管在生成和分析RNA序列數(shù)據(jù)方面已經(jīng)取得了進(jìn)展,但是我們對(duì)于各種方案所引入的技術(shù)偏差了解相對(duì)較少。了解這些偏差對(duì)于差異分析至關(guān)重要,以避免實(shí)驗(yàn)假象并實(shí)現(xiàn)這一強(qiáng)大技術(shù)的所有潛能。
研究人員一直都在試圖了解這些誤差,以往的工作確定了幾個(gè)來(lái)源,包括GC含量和PCR富集、通過(guò)隨機(jī)引物的反轉(zhuǎn)錄啟動(dòng)、在邊合成邊測(cè)序反應(yīng)中引入的讀長(zhǎng)誤差、以及各種核糖體RNA(rRNA)subtraction方法引起的偏差。揭示這些偏差來(lái)源的研究,通常使用計(jì)算方法對(duì)現(xiàn)有的測(cè)序數(shù)據(jù)進(jìn)行分析,以評(píng)估各種測(cè)序技術(shù)和文庫(kù)構(gòu)建的性能。這種方法的一個(gè)缺點(diǎn)是,它可能很難知道覆蓋中的異,F(xiàn)象是自然存在還是由技術(shù)問(wèn)題引起。例如,幾乎所有的RNA-seq研究有外顯子內(nèi)覆蓋的差異,這可能來(lái)自于共有外顯子部分的自然發(fā)生的剪接變體,或者可能是由文庫(kù)構(gòu)建或測(cè)序過(guò)程中的技術(shù)誤差引起。
考慮到研究人員正在不斷開(kāi)發(fā)新的測(cè)序方法和文庫(kù)構(gòu)建方案,我們需要一種方法來(lái)評(píng)估該技術(shù)中每種新方案所引起的技術(shù)偏差。一種有吸引力的選擇是,從已在體外轉(zhuǎn)錄(vitro transcribed,IVT)自cDNA克隆的RNA,來(lái)生成文庫(kù),其中每個(gè)堿基的核苷酸序列是已知的,剪接模式被建立并不能違反,轉(zhuǎn)錄本之間的表達(dá)水平已知是一致的。
因此,在覆蓋或表達(dá)中任何觀察到的偏差,一定是技術(shù)性的,而非生物性的。這是計(jì)算機(jī)研究人員通常用來(lái)開(kāi)發(fā)和評(píng)估比對(duì)算法的模擬數(shù)據(jù)的實(shí)驗(yàn)對(duì)應(yīng)物。2011年,Jiang及其同事使用類(lèi)似的方法,分析了來(lái)自于枯草桿菌(Bacillus subtilis)的96個(gè)合成序列或深海噴口微生物Methanocaldococcus jannaschii基因組,這些生物沒(méi)有RNA剪接或聚腺苷酸化。然而,這項(xiàng)工作的重點(diǎn)是構(gòu)建一套有用的標(biāo)準(zhǔn),能用于下游分析,而不是探索一組復(fù)雜哺乳動(dòng)物樣本中的文庫(kù)構(gòu)建偏差。
最近,美國(guó)賓夕法尼亞大學(xué)、土耳其科克大學(xué)、美國(guó)三角研究園和約翰霍普金斯大學(xué)的研究人員,共同在國(guó)際生物學(xué)權(quán)威期刊《Genome Biology》發(fā)表的一項(xiàng)研究中,提出并應(yīng)用IVT-seq,來(lái)更好地理解RNA-seq中出現(xiàn)的偏差。簡(jiǎn)而言之,就是首先產(chǎn)生、匯集單個(gè)質(zhì)粒,并進(jìn)行體外轉(zhuǎn)錄。其次,將這種RNA與復(fù)雜的小鼠總RNA以不同的濃度混合,然后在Illumina平臺(tái)上,利用兩種最常見(jiàn)的RNA測(cè)序方案(polyA seq或total RNA seq)進(jìn)行測(cè)序。
研究人員在大多數(shù)IVT轉(zhuǎn)錄本中發(fā)現(xiàn)了覆蓋偏差,超過(guò)50%在轉(zhuǎn)錄本覆蓋范圍內(nèi)表現(xiàn)出超過(guò)2倍的變化,10%具有大于10倍的、由文庫(kù)準(zhǔn)備和測(cè)序引起的差異。此外,研究人員發(fā)現(xiàn)6%以上的IVT轉(zhuǎn)錄本包含高的、不可預(yù)測(cè)的測(cè)序覆蓋區(qū)域,它們?cè)跇颖局g顯著不同。這些偏差在復(fù)制之間是高度可重復(fù)的,表明外顯子水平的量化可能是不可取的。
此外,研究人員利用幾種不同的RNA選擇方法(rRNA去除、polyA選擇和非選擇),構(gòu)建了來(lái)自原始質(zhì)粒模板的測(cè)序文庫(kù)。他們發(fā)現(xiàn),rRNA去除和polyA選擇是這種覆蓋偏差的一個(gè)重要原因,計(jì)算分析表明,轉(zhuǎn)錄本代表性差的區(qū)域與低復(fù)雜度的序列相關(guān)?傊,這些結(jié)果,IVT-seq方法用于描述和識(shí)別測(cè)序技術(shù)中的覆蓋偏差源是實(shí)用的。
(生物通:王英)
生物通推薦原文摘要:
IVT-seq reveals extreme bias in RNA-sequencing
Background: RNA-seq is a powerful technique for identifying and quantifying transcription and splicing events, both known and novel. However, given its recent development and the proliferation of library construction methods, understanding the bias it introduces is incomplete but critical to realizing its value.
Results: We present a method, in vitro transcription sequencing (IVT-seq), for identifying and assessing the technical biases in RNA-seq library generation and sequencing at scale.
We created a pool of over 1000 in vitro transcribed (IVT) RNAs from a full-length human cDNA library and sequenced them with polyA and total RNA-seq, the most common protocols. Because each cDNA is full length, and we show IVT is incredibly processive, each base in each transcript should be equivalently represented.
However, with common RNA-seq applications and platforms, we find 50% of transcripts have more than 2-fold and 10% have more than 10-fold differences in within-transcript sequence coverage. We also find greater than 6% of transcripts have regions of dramatically unpredictable sequencing coverage between samples, confounding accurate determination of their expression.
We use a combination of experimental and computational approaches to show rRNA depletion is responsible for the most significant variability in coverage, and several sequence determinants also strongly influence representation.
Conclusions: These results show the utility of IVT-seq for promoting better understanding of bias introduced by RNA-seq. We find rRNA depletion is responsible for substantial, unappreciated biases in coverage introduced during library preparation.
生物通微信公眾號(hào)
今日動(dòng)態(tài) | 人才市場(chǎng) | 新技術(shù)專(zhuān)欄 | 中國(guó)科學(xué)人 | 云展臺(tái) | BioHot | 云講堂直播 | 會(huì)展中心 | 特價(jià)專(zhuān)欄 | 技術(shù)快訊 | 免費(fèi)試用
版權(quán)所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
聯(lián)系信箱:
粵ICP備09063491號(hào)