
-
生物通官微
陪你抓住生命科技
跳動的脈搏
Arraystar LncRNA芯片:比RNA-seq更適合于LncRNAs表達(dá)譜檢測[新品推薦]
【字體: 大 中 小 】 時間:2014年10月10日 來源:康成生物
編輯推薦:
長鏈非編碼RNA(Long non-coding RNAs , LncRNAs)是長度超過200nt的非蛋白編碼轉(zhuǎn)錄本。LncRNAs在正常的生理過程和疾病中發(fā)揮重要功能,已成為科學(xué)研究熱點。對于LncRNAs基因表達(dá)譜檢測,芯片技術(shù)比RNA-seq有許多重要且不可替代的優(yōu)勢,仍然是LncRNAs表達(dá)譜檢測的首選平臺。
芯片作為一個成熟的技術(shù)平臺,幾十年來被廣泛用于基因表達(dá)譜的檢測。近年來,二代測序技術(shù)(Next Generation Sequencing , NGS)通過量化整個轉(zhuǎn)錄組上的轉(zhuǎn)錄本reads密度來檢測基因表達(dá)水平,被越來越多的應(yīng)用于基因表達(dá)研究。長鏈非編碼RNA(Long non-coding RNAs , LncRNAs)是長度超過200nt的非蛋白編碼轉(zhuǎn)錄本。LncRNAs在正常的生理過程和疾病中發(fā)揮重要功能,已成為科學(xué)研究熱點。對于LncRNAs基因表達(dá)譜檢測,芯片技術(shù)比RNA-seq有許多重要且不可替代的優(yōu)勢,仍然是LncRNAs表達(dá)譜檢測的首選平臺(附表),原因有如下幾方面:
• LncRNAs比蛋白編碼RNAs表達(dá)水平低
• RNA-seq對于低豐度轉(zhuǎn)錄本的定量不可靠
• 增加測序深度不能提高低豐度轉(zhuǎn)錄本的檢測準(zhǔn)確度
• RNA-Seq不能精確定量LncRNA與RNA-Seq數(shù)據(jù)分析不成熟密切相關(guān)
• 芯片比RNA-Seq更適合低豐度LncRNAs 表達(dá)譜的檢測
LncRNAs比蛋白編碼RNAs表達(dá)水平低
LncRNAs的一個普遍特征是表達(dá)水平很低[1-5],LncRNAs的平均表達(dá)水平約為蛋白編碼基因的1/10[4-7]

*圖釋:LncRNAs(藍(lán)色)和蛋白編碼轉(zhuǎn)錄本(紅色)在人體組織中的表達(dá)分布[7]。縱軸上的表達(dá)水平以log10RPKM表示。
RNA-seq對于低豐度轉(zhuǎn)錄本的定量不可靠
對于低豐度的RNA,由于測序深度有限造成的泊松抽樣誤差是RNA-Seq誤差的主要來源。因此,低表達(dá)的轉(zhuǎn)錄本不能被RNA-seq可靠檢測,需要進行富集檢測[8]。
在一個包含331M 50bp reads的RNA-Seq數(shù)據(jù)庫(三次技術(shù)重復(fù))中分析發(fā)現(xiàn)基因表達(dá)水平與測量精度之間的聯(lián)系[9]。如圖所示,基因表達(dá)水平越高,定量越準(zhǔn)確;反之,基因表達(dá)水平越低,定量的相對誤差越高。由于LncRNAs的表達(dá)水平遠(yuǎn)低于蛋白編碼基因,絕大部分低豐度的LncRNAs無法通過RNA-seq準(zhǔn)確定量(相對誤差高于20%)。

*圖釋:標(biāo)準(zhǔn)偏差與表達(dá)水平的關(guān)系。Y軸為三次技術(shù)重復(fù)的標(biāo)準(zhǔn)偏差,每個灰色點代表一個轉(zhuǎn)錄本。在陰影區(qū),灰度代表密度,灰度越深,密度越大。如圖中所示,轉(zhuǎn)錄本平均表達(dá)水平越低,標(biāo)準(zhǔn)偏差越高;表達(dá)水平越高,標(biāo)準(zhǔn)偏差越低,定量越可靠,相對誤差低于20%。在RNA-Seq中,只有41%的轉(zhuǎn)錄本能夠被準(zhǔn)確定量(水平虛線以下);而對于高表達(dá)的轉(zhuǎn)錄本(垂直虛線右側(cè)),其中高達(dá)84%的轉(zhuǎn)錄本的定量是可靠的。這可以從垂直虛線右側(cè)而不是左側(cè)的高密度區(qū)落在了水平虛線以下看出[9]。
增加測序深度不能提高低豐度轉(zhuǎn)錄本的檢測準(zhǔn)確度
增加RNA-Seq測序深度可以提高表達(dá)譜的檢測準(zhǔn)確度。通常,100M reads對于大部分基因和轉(zhuǎn)錄本的檢測是足夠的,但如果要對多數(shù)(72%)基因的表達(dá)水平進行準(zhǔn)確定量則需要500M reads[10]。然而,在對不同豐度的PHB、CD74和BRD4轉(zhuǎn)錄本亞型的研究中發(fā)現(xiàn),提高測序深度能夠明顯提高高豐度轉(zhuǎn)錄本的檢測準(zhǔn)確度,但是并不能提高低豐度轉(zhuǎn)錄本的檢測準(zhǔn)確度 [10]。
總的來說,無限制的增加測序深度并不能無限的提高低豐度轉(zhuǎn)錄本表達(dá)水平的檢測準(zhǔn)確度。由測序深度增加而提高的準(zhǔn)確度將逐漸趨于飽和[9]。在RNA-Seq數(shù)據(jù)中,僅7%的高豐度轉(zhuǎn)錄本占總測序reads數(shù)的比例高達(dá)75%。增加的數(shù)據(jù)量絕大部分浪費在少量高豐度的轉(zhuǎn)錄本上,例如管家基因。這意味著低豐度LncRNA的表達(dá)水平不僅在通常的測序深度下不能夠準(zhǔn)確檢測,即使盡可能增加測序深度也不能夠?qū)崿F(xiàn)對低豐度LncRNAs的準(zhǔn)確檢測。此外,隨著測序深度的增加RNA樣品中加工不完全的RNA檢出率提高,從而引起LncRNA檢測準(zhǔn)確性的下降。

*圖釋: 定量可靠(誤差低于20%)的轉(zhuǎn)錄本數(shù)目與測序深度的關(guān)系。X軸的帶括號數(shù)字表示總測序reads數(shù)。額外的內(nèi)部刻度線表示值得測序分析的測序運行數(shù)。右Y軸為所有已知的可被可靠定量的轉(zhuǎn)錄本的比例。小圓圈表示在完整的測序運行中的reads數(shù)(331M reads)。外推的S型曲線表示RNA-Seq能可靠檢測的轉(zhuǎn)錄本最多只能到60%,即使reads數(shù)達(dá)到10bn。

RNA-Seq不能精確定量LncRNA與RNA-Seq數(shù)據(jù)分析不成熟密切相關(guān)
迄今為止,RNA-Seq數(shù)據(jù)分析方法在外顯子檢測及RNA定量等過程中存在諸多誤差。例如:1)對LncRNA外顯子序列的識別效率低。蛋白編碼基因的外顯子可以通過參考基因組上的翻譯起始位點,終止位點,以及剪切供體和受體位點直接識別,而LncRNA無法通過這些特征位點直接識別。此外,LncRNA的表達(dá)水平比蛋白編碼基因低,即使在相同的覆蓋深度下,檢測的靈敏度也低于蛋白編碼基因2)對LncRNA的組裝精度很低 (下圖),而且無法通過增加測序深度提高組裝精度。這是由于RNA樣品中含有加工不完全的RNA或是轉(zhuǎn)錄噪音,隨著測序深度的增加它們被測出來的頻率越高,因此隨著測序深度的增加,組裝精度不斷下降。3)定量不準(zhǔn)確。通過比較RNA-Seq與NanoString的結(jié)果發(fā)現(xiàn):RNA-Seq的定量結(jié)果與NanoString之間相關(guān)性很低(R: 0.34-0.68),而且很多被NanoString檢測到的轉(zhuǎn)錄本通過RNA-Seq無法檢測到。

*圖釋:通過RNA-Seq數(shù)據(jù)進行LncRNA組裝的精度很低。圖中橫軸代表正確組裝的轉(zhuǎn)錄本占已報道的人類轉(zhuǎn)錄本的比例,綠點代表蛋白編碼轉(zhuǎn)錄本,紅點代表非編碼轉(zhuǎn)錄本(LncRNA)。能被正確組裝的蛋白編碼轉(zhuǎn)錄本不到已知轉(zhuǎn)錄本的30%,而能被正確組裝的LncRNA比例更低,只有不到20%。
芯片比RNA-Seq更適合低豐度LncRNA 表達(dá)譜的檢測
芯片的原理是通過與序列特異性探針的雜交識別RNA。對于特定的基因,即使雜交體系中存在高豐度的無關(guān)序列也不會影響該基因的雜交結(jié)果,因而對于低豐度表達(dá)譜的檢測幾乎無影響。而RNA-Seq的數(shù)據(jù)中,大部分測序reads被表達(dá)豐度很高的RNA如管家基因占據(jù),從而導(dǎo)致低豐度的RNA只有很低的覆蓋深度。低覆蓋深度意味著低靈敏度和低可靠性。因此,芯片更適合低豐度RNA的檢測。例如,芯片一般能夠檢測到7000~12,000個 LncRNAs,而RNA-Seq 多達(dá)120M reads也只能夠檢測到1000~4000個 LncRNAs [11]。
雖然RNA-seq可以同時檢測已知和未知的序列,但隨著數(shù)十年的人類表達(dá)序列檢測的數(shù)據(jù)累積,RNA-seq能發(fā)現(xiàn)的新轉(zhuǎn)錄譜越來越少[10]。更多時候,RNA-seq文庫構(gòu)建時產(chǎn)生的人為序列和不成熟的RNA會被誤認(rèn)作新的轉(zhuǎn)錄本。隨著高級的芯片設(shè)計,轉(zhuǎn)錄本亞型可以被芯片上針對外顯子連接點的特異性探針?biāo)鶇^(qū)分。涵蓋絕大多數(shù)已知和最新LncRNA并且能夠特異性檢測轉(zhuǎn)錄本亞型的芯片,由于具有比RNA-Seq更高的靈敏度,仍然是研究者的首選。
附表. Arraystar LncRNA芯片和RNA-Seq對LncRNAs表達(dá)譜檢測的比較
|
RNA-Seq | |
|
不受高豐度RNAs的干擾,序列特異性的芯片探針可以高效的識別低豐度的LncRNA。 |
基因表達(dá)水平越低,檢測效率越低。低豐度RNAs的測序深度會被高豐度RNAs降低,導(dǎo)致低豐度RNAs的檢測不可靠。 |
|
對于低豐度RNAs,如LncRNAs,有更高的靈敏度[12]。芯片通常可以檢測到7000~12000個LncRNAs。 |
對于低豐度RNAs,靈敏度很低。多達(dá)120M的reads只能檢測到1000~4000個LncRNAs[11]。 |
|
實驗流程簡單成熟,在aRNA的合成/標(biāo)記過程中沒有序列偏好性 |
大部分測序技術(shù)在建庫過程中對樣品進行了PCR擴增,而PCR對高GC含量區(qū)域的擴增效率不高,從而導(dǎo)致了后續(xù)的測序偏好性。 |
|
數(shù)據(jù)分析流程簡單,方法成熟,對LncRNA的分析誤差小。 |
數(shù)據(jù)分析流程繁瑣,方法不成熟,在LncRNA的數(shù)據(jù)匹配,組裝,定量等過程中存在諸多誤差。例如:1)RNA樣品的來源與參考基因組的來源不同,在匹配過程中往往存在差異。2)對LncRNA外顯子序列的識別效率低。3)對LncRNA的組裝精度很低。4)定量不準(zhǔn)確。 |
|
芯片的操作過程,例如樣品標(biāo)記和芯片雜交可以同時應(yīng)用于大量樣本。對于大量樣本的研究和含有很多數(shù)據(jù)點的科研項目,更高的樣本同時處理能力是至關(guān)重要的 [12]。 |
RNA-Seq一次只能對一個或幾個樣品進行測序,延長了時間。 |
康成生物獨家提供技術(shù)服務(wù)
康成生物國內(nèi)獨家提供Arraystar LncRNA芯片全程優(yōu)質(zhì)技術(shù)服務(wù);目前康成客戶LncRNA芯片研究文章已達(dá)60余篇,其中3篇發(fā)表在國際頂尖雜志Hepatology上。詳情請訪問康成生物官網(wǎng)www.kangchen.com.cn或來電咨詢,免費熱線:400-886-5058;800-820-5058。
參考文獻(xiàn)
1. Kampa, D., et al., Novel RNAs identified from an in-depth analysis of the transcriptome of human chromosomes 21 and 22. Genome Res, 2004. 14(3): p. 331-42.
2. Cawley, S., et al., Unbiased mapping of transcription factor binding sites along human chromosomes 21 and 22 points to widespread regulation of noncoding RNAs. Cell, 2004. 116(4): p. 499-509.
3. Ravasi, T., et al., Experimental validation of the regulated expression of large numbers of non-coding RNAs from the mouse genome. Genome Res, 2006. 16(1): p. 11-9.
4. Cabili, M.N., et al., Integrative annotation of human large intergenic noncoding RNAs reveals global properties and specific subclasses. Genes Dev, 2011. 25(18): p. 1915-27.
5. Guttman, M., et al., Ab initio reconstruction of cell type-specific transcriptomes in mouse reveals the conserved multi-exonic structure of lincRNAs. Nat Biotechnol, 2010. 28(5): p. 503-10.
6. Yan, L., et al., Single-cell RNA-Seq profiling of human preimplantation embryos and embryonic stem cells. Nat Struct Mol Biol, 2013.
7. Derrien, T., et al., The GENCODE v7 catalog of human long noncoding RNAs: analysis of their gene structure, evolution, and expression. Genome Res, 2012. 22(9): p. 1775-89.
8. Jiang, L., et al., Synthetic spike-in standards for RNA-seq experiments. Genome Res, 2011. 21(9): p. 1543-51.
9. Labaj, P.P., et al., Characterization and improvement of RNA-Seq precision in quantitative transcript expression profiling. Bioinformatics, 2011. 27(13): p. i383-91.
10. Toung, J.M., et al., RNA-sequence analysis of human B-cells. Genome Res, 2011. 21(6): p. 991-8.
11. Kretz, M., et al., Suppression of progenitor differentiation requires the long noncoding RNA ANCR. Genes Dev, 2012. 26(4): p. 338-43.
12. Xu, W., et al., Human transcriptome array for high-throughput clinical studies. Proc Natl Acad Sci U S A, 2011. 108(9): p. 3707-12.