
-
生物通官微
陪你抓住生命科技
跳動的脈搏
三篇文章介紹RNA-Seq數據分析的新工具[新品推薦]
【字體: 大 中 小 】 時間:2015年03月17日 來源:生物通
編輯推薦:
新年伊始,RNA-Seq的數據分析方法就如雨后春筍般涌現。在最近的一個月內,三篇介紹RNA-Seq數據分析新方法的文章發表在Nature集團旗下的刊物上,其中一篇發表在《Nature Methods》上,另外兩篇都發表在《Nature Biotechnology》上。
新年伊始,RNA-Seq的數據分析方法就如雨后春筍般涌現。在最近的一個月內,三篇介紹RNA-Seq數據分析新方法的文章發表在Nature集團旗下的刊物上,其中一篇發表在《Nature Methods》上,另外兩篇都發表在《Nature Biotechnology》上。
有趣的是,這三篇文章都有一位共同的作者,那就是約翰霍普金斯大學計算生物學中心的Steven Salzberg。Salzberg是生物信息學和計算生物學領域的杰出科學家,在基因組組裝上經驗豐富,曾參與人類基因組計劃。自新一代測序出現以來,他和他的團隊開發了一系列應用程序,其中Bowtie和TopHat程序被廣泛下載和引用。
這三篇文章分別介紹了三種新工具:HISAT、StringTie和Ballgown。它們分別取代了Salzberg之前開發的早期工具,為RNA-Seq的原始讀取到差異表達分析提供了一種全新的方式。
HISAT全稱為Hierarchical Indexing for Spliced Alignment of Transcripts,由約翰霍普金斯大學開發。它取代Bowtie/TopHat程序,能夠將RNA-Seq的讀取與基因組進行快速比對。這項成果發表在3月9日的《Nature Methods》上。
HISAT利用大量FM索引,以覆蓋整個基因組。以人類基因組為例,它需要48,000個索引,每個索引代表~64,000 bp的基因組區域。這些小的索引結合幾種比對策略,實現了RNA-Seq讀取的高效比對,特別是那些跨越多個外顯子的讀取。盡管它利用大量索引,但HISAT只需要4.3 GB的內存。這種應用程序支持任何規模的基因組,包括那些超過40億個堿基的。
HISAT軟件可從以下地址獲取:http://ccb.jhu.edu/software/hisat/index.shtml。
StringTie則由約翰霍普金斯大學聯合德州大學西南醫學中心開發,能夠組裝轉錄本并預計表達水平。它應用網絡流算法和可選的de novo組裝,將復雜的數據集組裝成轉錄本。與Cufflinks等程序相比,在分析模擬和真實的數據集時,StringTie實現了更完整、更準確的基因重建,并更好地預測了表達水平。
例如,對于從人類血液中獲得的9000萬個讀取,StringTie正確組裝了10,990個轉錄本,而第二名的組裝程序Cufflinks只組裝了7,187個,提高了53%。對于模擬的數據集,StringTie正確組裝了7,559個轉錄本,比Cufflinks的6,310個提高了20%。此外,它的運行速度也比其他組裝軟件更快。StringTie軟件可從以下地址獲取:http://ccb.jhu.edu/software/stringtie/。
Ballgown于3月初發表在《Nature Biotechnology》上,是開展差異表達分析的工具。它能利用RNA-Seq實驗的數據,預測基因、轉錄本或外顯子的差異表達。Ballgown軟件的詳細說明如下:https://github.com/alyssafrazee/ballgown。(生物通 薄荷)
原文檢索:
HISAT: a fast spliced aligner with low memory requirements
StringTie enables improved reconstruction of a transcriptome from RNA-seq reads
Ballgown bridges the gap between transcriptome assembly and expression analysis