2017年07月04日 瀏覽次數(shù): 0
2017可靠系統(tǒng)和網(wǎng)絡(luò)國(guó)際會(huì)議(DSN 2017)6月26至29日在美國(guó)丹佛市召開(kāi)。交叉信息院徐葳助理教授研究組的研究論文《分析四年的數(shù)據(jù)中心硬件故障日志,我們學(xué)到了什么?》(What Can We Learn from Four Years of Data Center Hardware Failures?)獲得最佳論文獎(jiǎng),是國(guó)內(nèi)單位歷史上首次獲得此項(xiàng)獎(jiǎng)勵(lì)。論文第一作者、交叉信息院2014級(jí)博士研究生王國(guó)賽在大會(huì)全體會(huì)議上做了口頭報(bào)告。
DSN'17指導(dǎo)委員會(huì)主席Felicita Di Giandomenico教授為王國(guó)賽頒發(fā)證書(shū)
論文定量分析了百度數(shù)據(jù)中心四年以來(lái)的服務(wù)器故障報(bào)告。服務(wù)器硬件故障是大規(guī)模數(shù)據(jù)中心的可靠性的重要影響因素。此前針對(duì)故障模式的研究主要集中在高性能計(jì)算集群或者單一硬件設(shè)備上。然而,數(shù)據(jù)中心普遍采用商品化的、相對(duì)不可靠硬件,同時(shí)運(yùn)行高度異構(gòu)的硬件和軟件,這使其故障模型也相對(duì)復(fù)雜。王國(guó)賽同學(xué)全面系統(tǒng)地分析了過(guò)去四年百度數(shù)據(jù)中心中對(duì)上十萬(wàn)臺(tái)服務(wù)器監(jiān)控采集得到的29萬(wàn)條硬件故障操作單,并從時(shí)間、空間、硬件設(shè)備、產(chǎn)品線、運(yùn)維人員的響應(yīng)等多個(gè)維度分析硬件故障的規(guī)律和模式。論文不僅驗(yàn)證或拓展了此前相關(guān)研究提出的結(jié)論,而且從許多方面揭示了全新的故障規(guī)律和模式,核心發(fā)現(xiàn)包括:數(shù)據(jù)中心中硬件故障在時(shí)間上分布極不均衡,在空間上分布有時(shí)不均衡;數(shù)據(jù)中心中關(guān)聯(lián)故障尤其是批次故障非常普遍;在硬件可靠性影響著軟件容錯(cuò)設(shè)計(jì)的同時(shí),軟件的冗余也在影響著運(yùn)維人員對(duì)于硬件故障的處理策略等等。這一研究對(duì)于深入理解數(shù)據(jù)中心的故障模式,以及下一代數(shù)據(jù)中心的容錯(cuò)的軟、硬件和運(yùn)維設(shè)計(jì),都有重要的啟示作用。
此項(xiàng)工作由徐葳研究組和和百度公司智能數(shù)據(jù)中心團(tuán)隊(duì)(Data Center Intelligence/Interconnection)合作完成,論文第一作者是王國(guó)賽,通訊作者是徐葳助理教授。研究工作得到國(guó)家自然科學(xué)基金、清華大學(xué)自主科研項(xiàng)目、教育部在線教育研究中心(全通項(xiàng)目)等項(xiàng)目經(jīng)費(fèi)支持。DSN是系統(tǒng)與網(wǎng)絡(luò)可靠性領(lǐng)域的頂級(jí)會(huì)議,已經(jīng)連續(xù)舉辦47屆。本年度DSN從220篇投稿中錄用了49篇論文,錄用率為22.3%,其中來(lái)自國(guó)內(nèi)單位的論文僅4篇。會(huì)議最佳論文獎(jiǎng)歷經(jīng)程序委員會(huì)推薦、指導(dǎo)委員會(huì)提名的嚴(yán)格評(píng)選流程,最終由全體參會(huì)者在3篇提名論文中投票選出。
?
版權(quán)與免責(zé)聲明:本網(wǎng)頁(yè)的內(nèi)容由收集互聯(lián)網(wǎng)上公開(kāi)發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點(diǎn)或證實(shí)其真實(shí)性,也不構(gòu)成其他建議。僅提供交流平臺(tái),不為其版權(quán)負(fù)責(zé)。如涉及侵權(quán),請(qǐng)聯(lián)系我們及時(shí)修改或刪除。郵箱:sales@allpeptide.com