?????? 近日,Nature系列刊物scientific reports在線發(fā)布了上海交通大學(xué)生命科學(xué)技術(shù)學(xué)院韋朝春副教授研究團(tuán)隊(duì)以博士生胡智強(qiáng)為第一作者的文章Revealing Missing Human Protein Isoforms Based on Ab Initio Prediction, RNA-seq and Proteomics,通過從DNA序列直接預(yù)測的方法結(jié)合其他證據(jù)預(yù)測人類基因組蛋白質(zhì)。本研究成果是與澳大利亞阿德萊德大學(xué)、美國范德堡大學(xué)、上海第二軍事醫(yī)科大學(xué)以及上海生物信息技術(shù)研究中心合作完成的,項(xiàng)目計(jì)算得到了上海交通大學(xué)超算中心支持。
?????? 人類基因組究竟能編碼多少個蛋白質(zhì)?在人類基因組工程項(xiàng)目完成10多年后,這個問題似乎有些過時。盡管目前人們已經(jīng)知道能夠編碼蛋白質(zhì)的人類基因的數(shù)量是2萬多個,但是由于可變剪切機(jī)制,同一個基因可以表達(dá)成多個不同的蛋白質(zhì),這2萬多個人類基因究竟能編碼多少個蛋白質(zhì)目前仍然是個謎。
?????? 雖然各種高通量測序方法進(jìn)展飛速,但是很多蛋白質(zhì)只在特定的組織、一定的發(fā)育階段或者特定條件下才表達(dá),通過實(shí)驗(yàn)的方法檢測人類所有蛋白質(zhì)在目前技術(shù)條件下幾乎不可能。然而,從人類基因組序列直接預(yù)測蛋白質(zhì)序列的方法可以避免這個缺陷。
?????? 韋朝春研究團(tuán)隊(duì)開發(fā)了一個直接從基因組序列從頭預(yù)測可變剪切的方法,結(jié)合現(xiàn)有的海量基因表達(dá)數(shù)據(jù),包括轉(zhuǎn)錄組和蛋白質(zhì)組數(shù)據(jù),找到了約3萬個現(xiàn)有數(shù)據(jù)庫中沒有的蛋白質(zhì)序列。隨機(jī)抽樣并設(shè)計(jì)實(shí)驗(yàn)驗(yàn)證表明約85%的預(yù)測結(jié)果可以得到實(shí)驗(yàn)驗(yàn)證。這些蛋白質(zhì)序列使現(xiàn)有數(shù)據(jù)庫中約完整的蛋白質(zhì)序列數(shù)量增加到約9萬個。和公共數(shù)據(jù)庫中已有的蛋白質(zhì)相比,這些新發(fā)現(xiàn)的蛋白質(zhì)的表達(dá)具有更高的組織特異性,表達(dá)量相對較低,因而也更難被發(fā)現(xiàn)。根據(jù)這些結(jié)果,他們預(yù)測了人類基因組編碼的蛋白質(zhì)的數(shù)量不少于20萬個。
?????? 這一結(jié)果提高了我們對基因組復(fù)雜性的理解,為生物醫(yī)學(xué)研究的廣泛領(lǐng)域提供了更完整的人類參考基因組注釋,具有重要的理論指導(dǎo)意義和實(shí)際應(yīng)用價值。
版權(quán)與免責(zé)聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點(diǎn)或證實(shí)其真實(shí)性,也不構(gòu)成其他建議。僅提供交流平臺,不為其版權(quán)負(fù)責(zé)。如涉及侵權(quán),請聯(lián)系我們及時修改或刪除。郵箱:sales@allpeptide.com