2020年6月10日,國際生物信息學(xué)權(quán)威期刊Briefings in Bioinformatics(影響因子IF: 9.101)在線發(fā)表了我校生命科學(xué)學(xué)院、省部共建草原家畜生殖調(diào)控與繁育國家重點實驗室左永春教授為通訊作者,博士生鄭磊為第一作者的關(guān)于約化氨基酸序列l(wèi)ogo的最新數(shù)據(jù)分析平臺RaacLogo的科研成果,題目為“RaacLogo: a new sequence logo generator by using reduced amino acid clusters”。本研究得到國家自然科學(xué)基金(61561036, 61702290, 61861036)、內(nèi)蒙古杰出青年培育基金(2017JQ04)和內(nèi)蒙古青年科技英才(NJYT-18-B01)項目的資助支持。
蛋白質(zhì)是生命活動主要的承擔(dān)者,生命的進(jìn)化最終都體現(xiàn)在蛋白質(zhì)功能的多樣化上。蛋白質(zhì)是由20種氨基酸編碼的,相比于ATGC的DNA遺傳信息,氨基酸字母表顯示出極大地復(fù)雜性和多樣性。這就產(chǎn)生了一系列非常有趣的問題:生命為什么會選擇20種氨基酸作為標(biāo)準(zhǔn)字母表?更少的氨基酸能否組成或滿足一個蛋白質(zhì)執(zhí)行功能的基本組成單元?我們能否用更少的氨基酸創(chuàng)造出擺脫當(dāng)前遺傳法則,設(shè)計更為獨特的生命?理論上,具有相似性質(zhì)、原子排列或頻率分布的天然氨基酸可以被合并,并用更小數(shù)量的約化字母表來表示編碼的氨基酸。蛋白質(zhì)氨基酸約化分析是對生命進(jìn)化本質(zhì)的探索,同時對于蛋白質(zhì)合成、拓?fù)浣Y(jié)構(gòu)預(yù)測,以及藥物設(shè)計等具有重要的意義。
理論上,具有相似性質(zhì)、原子排列或頻率分布的天然氨基酸可以被合并,并用更小數(shù)量的約化字母表來表示編碼的氨基酸。最簡單的約化方案是以極性或者親疏水性作為標(biāo)準(zhǔn),將20種氨基酸只約化為兩個字母。當(dāng)然,這種極端的方法產(chǎn)生的蛋白質(zhì),一定長度的序列所能承載的信息實在太少,幾乎不可能完成復(fù)雜的生命活動。那如果是3個,5個,10個呢?另外,氨基酸字母表的大小直接決定的序列motif的復(fù)雜性和多樣性。而氨基酸序列l(wèi)ogo作為蛋白質(zhì)序列保守度的可視化圖形,對研究同源蛋白質(zhì)的系統(tǒng)發(fā)育和功能差異,以及蛋白質(zhì)定向分子設(shè)計具有非常重要的意義。然而傳統(tǒng)的logo圖形包括了20種氨基酸字母,顯示出極大地復(fù)雜性和多樣性。由于在logo生成過程中缺少對氨基酸性質(zhì)等生物學(xué)因素的考慮,往往會導(dǎo)致對蛋白質(zhì)功能進(jìn)化保守性的評估出現(xiàn)偏差。左永春教授課題組基于氨基酸約化的方法,建立了能夠簡化氨基酸序列復(fù)雜性的RaacLogo,使基于信息學(xué)的logo圖形具有了生物學(xué)意義,更好的反映了蛋白序列的功能保守性。RaacLogo作為一個新的簡化氨基酸字母的logo生成器,包含了40多種聚類算法和74種約化后的氨基酸字母,這些字母被提取生成673個約化的氨基酸簇(RAACs),用于簡化復(fù)雜的logo字母。當(dāng)20個氨基酸按照一定的相似性聚類到更小的字母表中,使蛋白質(zhì)的復(fù)雜性將大大降低一些功能保守區(qū)域?qū)⒈桓逦仫@示出來,從而減少了過擬合的機(jī)會,降低了計算障礙,減少了信息冗余。
近年來,左永春教授圍繞“基于氨基酸約化的蛋白質(zhì)結(jié)構(gòu)和功能解析”展開了一系列研究工作和大數(shù)據(jù)平臺開發(fā),2017年,課題組構(gòu)建了國際上首個氨基酸約化蛋白質(zhì)序列生物大數(shù)據(jù)在線分析平臺,論文發(fā)表在生物信息學(xué)核心期刊Bioinformatics選為當(dāng)年首期目錄出版論文(Bioinformatics. 33(1):122-124),該平臺引起國際同行們的廣泛關(guān)注和使用,被國際生物信息權(quán)威軟件庫OMICTOOLS收錄(收錄編號:OMICS_08205),當(dāng)年給予5星推薦指數(shù),連續(xù)兩年被ESI 1% 高被引數(shù)據(jù)庫收錄。在此基礎(chǔ)上,2019年,課題組構(gòu)建完成了包含更全氨基酸約化字母表涉及700余種約化類型的數(shù)據(jù)庫RAACBook,并開發(fā)基于人工智能機(jī)器學(xué)習(xí)的蛋白質(zhì)特征提取和功能分類預(yù)測平臺,成果發(fā)表在國際生物數(shù)據(jù)庫權(quán)威期刊Database雜志上(2019:baz131,1-12),相關(guān)軟件獲批計算機(jī)軟件著作權(quán)(2019SR0467812)。另外,課題組還解析了DNA去甲基化關(guān)鍵蛋白TET家族功能發(fā)揮的序列基礎(chǔ)(Briefings in Bioinformatics. 2019, 20 (5), 1826-1835)。
通訊作者簡介:左永春,教授,博士生導(dǎo)師,2011年畢業(yè)于內(nèi)蒙古大學(xué),獲生物物理學(xué)理學(xué)博士學(xué)位,國際Frontier期刊出版社的Topics Guest Editor,Current Gene Therapy期刊編委,國家自然科學(xué)基金評審專家,教育部學(xué)位論文通訊評審專家等。以內(nèi)蒙古大學(xué)為第一(通訊)作者單位在專業(yè)領(lǐng)域內(nèi)Briefings in bioinformatics、Bioinformatics、GigaScience等國際期刊上發(fā)表學(xué)術(shù)論文60多篇,成果受到美國藝術(shù)與科學(xué)院院士、臺灣中央研究院院士等同行專家的積極評價,被Nature和PNAS等累計引用1000多次(Google, H=18),多篇成果入選ESI 1%高被引論文,建立了草原家畜生殖調(diào)控與繁育生物大數(shù)據(jù)分析平臺。內(nèi)蒙古自治區(qū)優(yōu)秀博士學(xué)位論文和杰出青年培育基金獲得者;內(nèi)蒙古自治區(qū)高等學(xué)校青年科技英才,內(nèi)蒙古自治區(qū)草原英才,以及新世紀(jì)321人才工程等。
論文鏈接:https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbaa096/5855392