2021年04月15日 瀏覽次數(shù): 0
? ? ? ?近日,交叉信息研究院2018級在讀碩士生劉俊林、陳奕熹和交叉信息研究院助理教授吳文斐等作者合作完成的論文《ATP:面向多租戶的深度學(xué)習(xí)訓(xùn)練聚合傳輸協(xié)議》(ATP: Innetwork Aggregation for Multitenant Learning)獲得第18屆USENIX網(wǎng)絡(luò)系統(tǒng)設(shè)計與實(shí)現(xiàn)年會(Symposium on Network System Design and Implementation)最佳論文獎。這是清華大學(xué)首次以第一作者單位獲得該會議的最佳論文獎,亦是中國高校(含港澳臺地區(qū))首次在該會議取得最佳論文獎。
圖1?吳文斐研究組
?
? ? ? ?隨著機(jī)器學(xué)習(xí)數(shù)據(jù)量和模型規(guī)模的擴(kuò)大以及其應(yīng)用場景的擴(kuò)展(例如聯(lián)邦學(xué)習(xí)),機(jī)器學(xué)習(xí)系統(tǒng)逐步以分布式的方式來部署和實(shí)現(xiàn),尤其是在數(shù)據(jù)中心或多租戶多訓(xùn)練工作同步進(jìn)行的私有集群場景。在最近的一些工作指出,部分訓(xùn)練工作的網(wǎng)絡(luò)傳輸時長占著訓(xùn)練時間愈來愈高的比例,甚至已經(jīng)成為瓶頸,制約著分布式學(xué)習(xí)系統(tǒng)的整體效率。與此同時,通過對分布式學(xué)習(xí)訓(xùn)練的研究,文章作者注意到分布式訓(xùn)練的網(wǎng)絡(luò)傳輸部分有著可以優(yōu)化的流量模式,再利用與可編程網(wǎng)絡(luò)的共同設(shè)計,提出了ATP系統(tǒng)。
圖2?ATP?聚合過程圖示
?
? ? ? ?ATP是一套面向于多租戶多機(jī)架場景的機(jī)器學(xué)習(xí)訓(xùn)練加速協(xié)議,利用可編程交換機(jī)技術(shù)對分布式訓(xùn)練的網(wǎng)絡(luò)傳輸部分進(jìn)行聚合優(yōu)化,建立了一套由終端主機(jī)網(wǎng)絡(luò)協(xié)議棧和可編程交換機(jī)共同交互組成的高速分布式訓(xùn)練協(xié)議,在網(wǎng)絡(luò)中提供盡力服務(wù)(best-effort)及資源動態(tài)分配(dynamic)的聚合語義,并考慮了多租戶場景下的競爭策略,重新設(shè)計了丟包恢復(fù)和擁塞控制算法。實(shí)驗(yàn)表明ATP協(xié)議在各個不同的模型中效能超越了現(xiàn)時主流通用的分布式框架,并在競爭嚴(yán)重的多租戶場景下維持了十分良好的效能。
?
? ? ? 圖3?ATP?與不同體系結(jié)構(gòu)的訓(xùn)練效果的對比
?
?????此項(xiàng)工作由吳文斐助理教授研究組與威斯康星大學(xué)麥迪遜分校Aditya Akella教授研究組合作完成。劉俊林同學(xué)為論文第一作者,吳文斐助理教授為通訊作者。
? ? ? ?NSDI是USENIX旗下的旗艦會議之一,也是計算機(jī)網(wǎng)絡(luò)系統(tǒng)領(lǐng)域的頂級會議。NSDI側(cè)重于網(wǎng)絡(luò)系統(tǒng)的設(shè)計與實(shí)現(xiàn),享負(fù)盛名的大數(shù)據(jù)系統(tǒng)Spark就發(fā)表在2012年的NSDI大會上,并取得當(dāng)年的最佳論文獎。本屆NSDI大會共收到369篇投稿論文,并最終接收59篇,接收率為16%,每屆NSDI大會都會評選出1篇最佳論文。
?
版權(quán)與免責(zé)聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點(diǎn)或證實(shí)其真實(shí)性,也不構(gòu)成其他建議。僅提供交流平臺,不為其版權(quán)負(fù)責(zé)。如涉及侵權(quán),請聯(lián)系我們及時修改或刪除。郵箱:sales@allpeptide.com