6月12日,我院戚繼課題組在《Methods in Ecology and Evolution》雜志在線發(fā)表題為“PhyloMCL: accurate clustering of hierarchical orthogroups guided by phylogenetic relationship and inference of polyploidy events”的研究論文,該算法為基因組尺度上研究真核生物間的同源基因提供了準確高效的新工具。
圖. PhyloMCL與同類方法在動物和植物基因組中的分析結果比較
準確判斷物種間同源基因的相互關系對于推斷基因的分子生物學功能、大尺度重建基因家族的系統(tǒng)發(fā)育關系、重建真核生物各類群的進化歷史至關重要。同源基因識別與聚類往往是分子遺傳學和基因組學研究的必要步驟。動植物基因組中存在大量的重復基因,極大增加了基因組的復雜性。一方面重復基因通過累積隨機突變發(fā)生新功能化和亞功能化,為新基因和新功能的產生提供了源泉,有利于促進增加物種的環(huán)境適應性;另一方面,重復的存在也對如何準確識別同源基因的生物信息學方法開發(fā)提出了挑戰(zhàn),難點包括同源基因突變速率異質性、基因融合和基因分裂等復雜進化事件。特別是脊椎動物祖先、被子植物祖先和內部類群發(fā)生的染色體多倍化事件進一步增加了正確判斷同源基因親緣關系的困難程度。
該研究提出了一種基于馬爾可夫基因聚類的生物信息學新方法PhyloMCL(https://phylomcl.sourceforge.io/),納入了生物類群的系統(tǒng)發(fā)育關系作為物種框架參考,并充分考慮了不同分類層次的染色體多倍化對重復基因保留程度的影響,可以在多物種的全基因組規(guī)模上準確識別基因的直系和旁系同源關系,并以層次同源聚類的方式展現(xiàn)具體結果。為驗證方法的有效性,該文章分別采用動物和植物的多組基因組進行準確性評估:(1)將該方法應用到12個后生動物的基因組聚類分析時,召回率和準確率分別達到87.8%和83.2%,大幅超過已發(fā)表的同類研究方法;(2)該方法在分析25個種子植物基因組時,可以準確識別初被子植物進化過程中的多次多倍體事件。該方法進一步將個體植物基因組中數(shù)以萬計的旁系同源基因劃分為不同的演化起源,成功識別出各分類層次發(fā)生的內/外旁系同源基因,準確性超過90%。PhyloMCL得益于Markov聚類策略和物種樹指導,可以在可承受的時間內準確地對數(shù)百萬個同源基因進行分類,從而滿足了測序基因組快速增長帶來的植物學研究挑戰(zhàn)。
綜上所述,PhyloMCL方法采用馬爾可夫聚類策略并充分納入物種親緣框架和多倍化因素的考量,可以在同時對上百個基因組中數(shù)以百萬級別的同源基因進行準確高效的分類,解決了基因組高速增長為分子遺傳學和基因組學帶來的挑戰(zhàn)。
我院16級博士生周盛予為本研究的第一作者,遺傳工程國家重點實驗室的戚繼研究員和江西農業(yè)大學的國春策教授為文章的共同通訊作者。該研究獲得國家自然科學基金和復旦大學遺傳工程國家重點實驗室的共同資助。
全文鏈接:https://besjournals.onlinelibrary.wiley.com/doi/full/10.1111/2041-210X.13401
版權與免責聲明:本網頁的內容由收集互聯(lián)網上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點或證實其真實性,也不構成其他建議。僅提供交流平臺,不為其版權負責。如涉及侵權,請聯(lián)系我們及時修改或刪除。郵箱:sales@allpeptide.com