
-
生物通官微
陪你抓住生命科技
跳動的脈搏
零成本大幅提高蛋白質組鑒定能力?暨大研發另類質譜鑒定算法策略
【字體: 大 中 小 】 時間:2017年10月24日 來源:暨南大學
編輯推薦:
暨南大學的研究人員利用翻譯組測序(RNC-seq)數據作為穩態細胞內蛋白質的“標準答案”,并另辟蹊徑,提出了蛋白水平上的一種簡單有效的多算法結果整合策略,不用做額外的實驗,零成本輕松提高蛋白質組鑒定數量,同時有效降低假陽性率。
鳥槍法質譜(shotgun mass spectrometry)是蛋白質組研究的標準研究方法。從質譜譜圖中鑒定蛋白質需要依賴搜庫算法,現有許多算法被開發出來,常見的如Andromeda(Maxquant), Mascot, COMPASS, X!Tandem, pFind, InsPecT, ProVerB, Dispec, MassWiz等,算法原理各不相同,各種搜庫算法對同一質譜數據的鑒定結果互相存在很大差異,于是研究人員經常會面臨“搜庫算法哪家強”的糾結。也有一些策略試圖在肽段水平上整合各算法的結果,如Scaffold, iProphet等,但效果都很一般。
之所以難以研發有效的整合算法,關鍵原因之一是所有的搜庫算法都會產生一定的假陽性率(FDR),而由于長期以來受限于蛋白質組學技術的精度局限,某一細胞內總共有多少種蛋白質一直就沒有標準答案,從而難以準確評價各種方法所帶來的FDR,只能毛估,這樣一來就存在著很大的不確定性。在沒有標準答案的情況下,貿然合并多種算法的結果將導致假陽性率的迅速累積,使得最終結果變得很不可靠。
針對這一蛋白質組學界的“老大難”問題,暨南大學翻譯組學實驗室利用翻譯組測序(RNC-seq)數據作為穩態細胞內蛋白質的“標準答案”,并另辟蹊徑,提出了蛋白水平上的一種簡單有效的多算法結果整合策略,不用做額外的實驗,零成本輕松提高蛋白質組鑒定數量,同時有效降低假陽性率。
由于翻譯組測序具有遠高于蛋白質質譜的靈敏度和準確性,可以基本窮盡細胞中正在合成的蛋白質,因此被作為人類蛋白質組計劃的核心支柱之一(Zhong et al., Journal of Proteome Research 2014),可以用作“標準答案”的基準來評價與整合各算法的蛋白質鑒定結果。分析顯示,7種主流搜庫算法各行其是,只有一半的蛋白質被所有算法鑒定到;與翻譯組“標準答案”相比,其假陽性率都高達4-5%,遠超過其自身預估的1%。因此,若取各算法的并集將導致假陽性率的進一步累積上升,若取各算法結果的交集將大幅度降低鑒定的蛋白質數量,皆不可取。
研究者注意到,那些僅被一個算法所鑒定到的蛋白質,其鑒定質量普遍較低,因此提出一種簡便得出奇的整合策略:若有2個或更多個算法鑒定到了同一個蛋白質,則認為此蛋白質鑒定是可靠的。再次采用翻譯組“標準答案”進行評價,發現此方法不但顯著提高了蛋白質鑒定數量,也同時顯著降低了假陽性率,提高了鑒定的可靠性。這一成績大大優于傳統的圖譜或肽段水平的整合策略Scaffold和iProphet。
不僅如此,確認了可靠鑒定的蛋白質后,還可以發揮將各算法數學模型各自的優勢,將所鑒定出的肽段直接全算在一起,取長補短,從而大幅度提高蛋白質的肽段覆蓋率。此項能力不但優于所有的搜庫算法,更是傳統整合策略所望塵莫及的。
這項“7個算法中有2個算法鑒定到就算數”的蛋白質鑒定策略可以被應用于任何場合,發揮這種新策略的優勢根本不需要任何額外的實驗,只需要計算機多計算一會兒,幾乎是零成本的。因此,這項成果將造福所有需要用到蛋白質組學的研究者,輕松實現“又要馬兒跑,又要馬兒不吃草”。
所以今后如果有人再問你“搜庫算法哪家強?”你可以回答“取長補短見真章!”
該項成果2017年10月1日發表于人類蛋白質組計劃的官方刊物Journal of Proteome Research, C-HPP Special Issue. 通訊作者是暨南大學翻譯組學實驗室的負責人張弓教授,翻譯組學領域的建立者,其成果被選入國家統編教材。目前,張弓教授是中國生化與分子生物學學會蛋白質組學專業委員會(CNHUPO)理事,中國分子系統生物學專業委員會委員,國家優秀青年基金獲得者,國家863青年科學家,國家****“青年拔尖人才”,深圳市龍華區第一屆政協常委。
原文標題:
Protein-Level Integration Strategy of Multiengine MS Spectra Search Results for Higher Confidence and Sequence Coverage