2020年01月09日 瀏覽次數(shù): 0
?近日,深度學(xué)習(xí)領(lǐng)域頂級會(huì)議International Conference on?Learning Representations(ICLR,國際表征學(xué)習(xí)大會(huì))公布了2020年論文錄用情況,交叉信息院共11篇論文被大會(huì)接收,其中5篇(5人次)來自交叉信息院研究生,6篇(5人次)來自計(jì)算機(jī)科學(xué)實(shí)驗(yàn)班(姚班)計(jì)科60。
?
圖自論文《梯度下降可最大化齊次神經(jīng)網(wǎng)絡(luò)的分類間隔》(呂凱風(fēng),李建)
?
2018級碩士生王同翰、2019級博士生王鑒浩、2015級博士生朱廣翔、2019級碩士生駱軒源和2019級博士生呂凱風(fēng)發(fā)表的5篇論文中,研究內(nèi)容涵蓋多智能體強(qiáng)化學(xué)習(xí)中的探索-利用困境、可擴(kuò)展多智能體學(xué)習(xí)的值函數(shù)分解、深度強(qiáng)化學(xué)習(xí)的樣本效率、深度學(xué)習(xí)中梯度算法的泛化誤差界、以及深度學(xué)習(xí)中梯度算法的隱式偏好等問題。其中,由我院李建副教授指導(dǎo)呂凱風(fēng)共同完成的論文《梯度下降可最大化齊次神經(jīng)網(wǎng)絡(luò)的分類間隔》為口頭報(bào)告論文(Talk);由我院張崇潔助理教授指導(dǎo)王同翰和王鑒浩共同完成的論文《基于相互影響的多智能體協(xié)作探索》為大會(huì)亮點(diǎn)論文(Spotlight)。
?
王遠(yuǎn)皓、董克凡、張?zhí)炜v、王蘊(yùn)韻和鄒岳松5名計(jì)科60同學(xué)累計(jì)發(fā)表的6篇論文中,研究內(nèi)容涵蓋強(qiáng)化學(xué)習(xí)中免模型算法的高采樣效率、分布式老虎機(jī)任務(wù)中的悔恨值最小化的問題、局部求解最小最大優(yōu)化問題、神經(jīng)網(wǎng)絡(luò)的泛化性能、泛音卷積運(yùn)算和對超圖的特征學(xué)習(xí)問題等。其中,王遠(yuǎn)皓同學(xué)此次發(fā)表3篇一作論文。張?zhí)炜v合作完成的論文《兩層神經(jīng)網(wǎng)絡(luò)的漸進(jìn)泛化分析》入選大會(huì)亮點(diǎn)論文(Spotlight)。
?
ICLR是公認(rèn)的深度學(xué)習(xí)領(lǐng)域國際頂級會(huì)議之一,關(guān)注有關(guān)深度學(xué)習(xí)各個(gè)方面的前沿研究。近年來因在人工智能、統(tǒng)計(jì)和數(shù)據(jù)科學(xué)領(lǐng)域以及機(jī)器視覺、語音識(shí)別、文本理解等重要應(yīng)用領(lǐng)域中發(fā)布了眾多極其有影響力的論文而廣受關(guān)注。ICLR采取完全公開評審規(guī)則,任何對論文有興趣的研究者都可以參與到關(guān)于論文評審意見的討論中。這使得ICLR論文評審的透明性和廣泛性在深度學(xué)習(xí)頂會(huì)中獨(dú)樹一幟,同時(shí)也大大增加了論文被接收的難度。ICLR 2020共有2594篇論文提交,其中48篇被接收為Talk,107篇被接收為Spotlight,532篇作為Poster。
?
發(fā)表論文信息:
1.Gradient Descent Maximizes the Margin of Homogeneous Neural Networks. Kaifeng?Lyu, Jian Li. (Talk)
由我院李建副教授指導(dǎo)呂凱風(fēng)共同完成的論文《梯度下降可最大化齊次神經(jīng)網(wǎng)絡(luò)的分類間隔》研究了梯度下降算法在齊次神經(jīng)網(wǎng)絡(luò)訓(xùn)練中對不同最優(yōu)解的隱式偏好。常見的齊次神經(jīng)網(wǎng)絡(luò)包括了ReLU激活的全連接或卷積神經(jīng)網(wǎng)絡(luò),分析梯度下降在這類網(wǎng)絡(luò)上是否會(huì)收斂到分類間隔較大的最優(yōu)解,可以幫助我們更好地理解神經(jīng)網(wǎng)絡(luò)的優(yōu)化及泛化問題。本文的理論分析表明,離散的梯度下降和連續(xù)的梯度流在最小化齊次神經(jīng)網(wǎng)絡(luò)的邏輯損失或交叉熵?fù)p失的過程中,也會(huì)逐漸增大標(biāo)準(zhǔn)化分類間隔的一個(gè)光滑版變種。經(jīng)過足夠長的訓(xùn)練,標(biāo)準(zhǔn)化分類間隔及其光滑版變種還將收斂到同一極限,并且該極限和一個(gè)分類間隔最大化問題的KKT點(diǎn)處值相等。本文的結(jié)果極大地推廣了前人在線性網(wǎng)絡(luò)上得到的類似結(jié)果;相比于前人在齊次網(wǎng)絡(luò)上的研究,也在使用的假設(shè)更弱的情況下給出了更量化的結(jié)果。
2.Influence-Based Multi-Agent Exploration. Tonghan Wang*, Jianhao Wang*,Yi Wu, Chongjie Zhang. (Spotlight)
由我院張崇潔助理教授指導(dǎo),2018級碩士生王同翰及2019級博士生王鑒浩共同完成的論文《基于相互影響的多智能體協(xié)作探索》研究了強(qiáng)化學(xué)習(xí)中的經(jīng)典問題:探索-利用困境。多智能體強(qiáng)化學(xué)習(xí)一直缺少有效的探索策略。該論文首次提出通過激勵(lì)智能體間相互影響來提高協(xié)作探索的框架與方法。作者提出了利用互信息和交互價(jià)值來形式化刻畫智能體間的相互影響,進(jìn)一步推導(dǎo)了互信息和交互價(jià)值相對于智能體策略的導(dǎo)數(shù),將兩者的優(yōu)化融入到了經(jīng)典的策略梯度強(qiáng)化學(xué)習(xí)框架中,得到了簡潔的優(yōu)化公式。該方法揭示了多智能體協(xié)作探索與個(gè)體內(nèi)在獎(jiǎng)賞分配之間的聯(lián)系,并在測試集上取得了超過其他算法至少2倍的探索效率。
3.Generalization of Two-Layer Neural Networks: An Asymptotic Viewpoint. Jimmy Ba,Murat Erdogdu, Taiji Suzuki, Denny Wu, Tianzong Zhang. (Spotlight)
由計(jì)科60張?zhí)炜v同學(xué)合作完成的論文《兩層神經(jīng)網(wǎng)絡(luò)的漸進(jìn)泛化分析》主要聚焦于神經(jīng)網(wǎng)絡(luò)的泛化性能。這一問題是現(xiàn)在機(jī)器學(xué)習(xí)領(lǐng)域的重要課題。該論文討論了漸近意義下兩層神經(jīng)網(wǎng)絡(luò)的泛化性能問題。特別地,在漸近意義下(即高維、多神經(jīng)元、多樣本,且三者以同一速率趨于無窮時(shí)),對于最小二乘的線性回歸問題,該論文計(jì)算了以不同方法優(yōu)化(以不同初值優(yōu)化第一層或第二層)帶來的測試誤差的準(zhǔn)確值,而已有文獻(xiàn)一般只給出了誤差界。該文章對于研究神經(jīng)網(wǎng)絡(luò)中過參數(shù)化和初值的作用有一定指導(dǎo)意義。
4.Q-learning with UCB Exploration is Sample Efficient for Infinite-Horizon MDP. Yuanhao?Wang, Kefan Dong, Xiaoyu Chen, Liwei Wang. (Poster)
由計(jì)科60董克凡、王遠(yuǎn)皓兩位同學(xué)在北京大學(xué)王立威教授指導(dǎo)下完成的論文《在無限長馬爾可夫決策過程中采用UCB探索策略的Q學(xué)習(xí)算法具有高采樣效率》研究了強(qiáng)化學(xué)習(xí)中的一個(gè)基本問題:免模型算法是否具有高采樣效率?最近,Jinet al. 提出了采用置信區(qū)間上界(UCB)探索策略的Q學(xué)習(xí)算法,并證明了在有限長馬爾可夫決策過程中有接近最優(yōu)的表現(xiàn)。這篇論文進(jìn)一步研究了無限長、有折扣獎(jiǎng)勵(lì)、不使用生成模型的馬爾科夫決策過程中采用UCB探索的Q學(xué)習(xí)算法,并證明了該算法的采樣效率優(yōu)于之前的結(jié)果,并且是接近最優(yōu)的。
5.Distributed Bandit Learning: Near-Optimal Regret with Efficient Communication. Yuanhao?Wang, Jiachen Hu, Xiaoyu Chen, Liwei Wang. (Poster)
計(jì)科60的王遠(yuǎn)皓同學(xué)與合作者完成的論文《分布式老虎機(jī):用高效的通信達(dá)到接近最優(yōu)的悔恨值》研究了在分布式老虎機(jī)任務(wù)中的悔恨最小化的問題:M個(gè)玩家在一個(gè)中央服務(wù)器協(xié)調(diào)下合作,希望最小化總體的悔恨值,且以總通信數(shù)據(jù)量計(jì)量的通信開銷盡量小。對于分布式K臂老虎機(jī),該論文提出了一個(gè)悔恨值接近最優(yōu)同時(shí)通信開銷僅有O(Mlog(MK))的協(xié)議。這里的通信開銷與總時(shí)間T無關(guān),與臂的數(shù)量只有對數(shù)級的依賴,并且與下界只有一個(gè)對數(shù)因子的差距。對于分布式d維線性老虎機(jī),該論文提出了一個(gè)悔恨值接近最優(yōu)同時(shí)通信開銷為\Tilde{O}(Md)的協(xié)議,其中通信開銷對T只有對數(shù)級的依賴。
6.On Solving Minimax Optimization Locally: A Follow-the-Ridge Approach. Yuanhao?Wang, Guodong Zhang, Jimmy Ba. (Poster)
計(jì)科60的王遠(yuǎn)皓同學(xué)與合作者共同完成的論文《局部求解最小最大優(yōu)化問題:跟隨山脊法》在最小最大優(yōu)化問題上提出了新算法。許多現(xiàn)代的機(jī)器學(xué)習(xí)任務(wù)都可以描述成在序貫博弈中尋找均衡的問題。特別地,兩人零和序貫博弈,也稱為最小最大優(yōu)化,正受到越來越多的關(guān)注。由于梯度下降在有監(jiān)督學(xué)習(xí)中獲得了成功,將其應(yīng)用到最小最大優(yōu)化中是一個(gè)很自然的想法。然而,研究者發(fā)現(xiàn)簡單地應(yīng)用梯度下降是無法找到某些局部最小最大點(diǎn)的,而且會(huì)錯(cuò)誤地收斂到非局部最小最大點(diǎn)。這篇文章提出了一個(gè)稱為跟隨山脊法的新算法,并且證明了它收斂且只會(huì)收斂到局部最小最大點(diǎn)。他們從理論上證明了該算法能減小梯度方法帶來的旋轉(zhuǎn)現(xiàn)象,并且與預(yù)條件法和動(dòng)量法兼容。實(shí)驗(yàn)表明,跟隨山脊法能解決簡單的最小最大問題,還能改進(jìn)對抗生成網(wǎng)絡(luò)訓(xùn)練的收斂性。
7.Deep Audio Priors Emerge From Harmonic Convolutional Networks. Zhoutong Zhang, Yunyun?Wang, Chuang Gan, Jiajun Wu, Joshua B. Tenenbaum, Antonio Torralba, WilliamT. Freeman. (Poster)
由計(jì)科60 王蘊(yùn)韻同學(xué)參與完成的論文《泛音卷積網(wǎng)絡(luò)產(chǎn)生深度音頻先驗(yàn)》提出了適用于音頻處理網(wǎng)絡(luò)的泛音卷積運(yùn)算,并研究了不同聲音架構(gòu)捕捉深度音頻先驗(yàn)的能力。泛音卷積運(yùn)算充分利用了自然聲音中泛音的特性,使得卷積關(guān)注在泛音結(jié)構(gòu)而非普通卷積的鄰域結(jié)構(gòu)上。相對于傳統(tǒng)的音頻網(wǎng)絡(luò),泛音卷積網(wǎng)絡(luò)可以更有效地捕捉深度音頻先驗(yàn)。在無監(jiān)督音頻還原任務(wù)和音源分離任務(wù)上,泛音卷積網(wǎng)絡(luò)也取得了更好的表現(xiàn)。
8.Hyper-SAGNN: a self-attention based graph neural network for hypergraphs.Ruochi Zhang, Yuesong Zou, Jian Ma. (Poster)
由計(jì)科60的鄒岳松同學(xué)參與完成的論文《Hyper-SAGNN:一種基于自注意機(jī)制的針對超圖的圖神經(jīng)網(wǎng)絡(luò)》研究了對超圖的特征學(xué)習(xí)問題。超圖是一種廣義上的圖,它的一條邊——超邊可以連接任意數(shù)量的頂點(diǎn)。使用超圖能更有效地描述真實(shí)世界網(wǎng)絡(luò)數(shù)據(jù),例如論文的共同作者關(guān)系。傳統(tǒng)方法將超邊中元素拆成兩兩關(guān)系或者對超邊建立新節(jié)點(diǎn),這樣做的同時(shí)丟失了信息。亦有直接對超邊進(jìn)行學(xué)習(xí)的研究,但要求超邊大小須統(tǒng)一。該論文提出了一種直接針對超邊的基于自注意力特征提取模型,該模型在超邊大小不一致時(shí)同樣有效。同時(shí)該論文將點(diǎn)特征提取的node2vec算法推廣到了超圖,用該方法計(jì)算出的點(diǎn)特征初始化模型可以加速收斂。Hyper-SAGNN在準(zhǔn)確率上較傳統(tǒng)方法和前人的超邊學(xué)習(xí)模型上均有顯著提升。此外該模型還可用于離群值鑒定,推測超邊中關(guān)系與其他頂點(diǎn)較弱的點(diǎn),這使得它有應(yīng)用于超圖降噪的潛力。
9.Learning Nearly Decomposable Value-Functions via Communication Minimization. Tonghan?Wang*, Jianhao Wang*, Chongyi Zheng, Chongjie Zhang. (Poster)
由我院張崇潔助理教授指導(dǎo),2018級碩士生王同翰及2019級博士生王鑒浩共同完成的論文《學(xué)習(xí)近似可分解值函數(shù)》提出了新穎的基于值函數(shù)的多智能體強(qiáng)化學(xué)習(xí)算法。為了提高多智能體強(qiáng)化學(xué)習(xí)的可擴(kuò)展性,該論文首次提出了近似最簡可分解值函數(shù)結(jié)構(gòu)以及學(xué)習(xí)方法,解決了傳統(tǒng)完全可分解值函數(shù)的局限性。該方法通過分析智能體決策過程之間的相互依賴性,動(dòng)態(tài)最大化分解智能體的決策,并學(xué)習(xí)通過最少信息傳遞來有效提高多智能體系統(tǒng)的整體協(xié)作。在具體實(shí)現(xiàn)上,該方法通過最大化傳遞信息與局部值函數(shù)之間的互信息,并最小化信息的熵來構(gòu)造近似最簡可分解值函數(shù)結(jié)構(gòu),并進(jìn)一步通過推導(dǎo)變分下限使得優(yōu)化目標(biāo)變得可計(jì)算。在星際爭霸2局部戰(zhàn)役測試集上,該算法比已有多智能體強(qiáng)化學(xué)習(xí)算法展現(xiàn)了明顯更優(yōu)的性能,并可以在大多數(shù)任務(wù)下達(dá)到80%以上的值函數(shù)分解程度。
10.Episodic Reinforcement Learning with Associative Memory. Guangxiang Zhu*,Zichuan Lin*, Guangwen Yang, Chongjie Zhang. (Poster)
由我院助理教授張崇潔老師指導(dǎo),我院2015級博士生朱廣翔及計(jì)算機(jī)系2016級博士生林子釧共同完成的論文《基于聯(lián)想記憶的情景控制強(qiáng)化學(xué)習(xí)》著眼于提高深度強(qiáng)化學(xué)習(xí)的樣本利用效率。認(rèn)知學(xué)研究發(fā)現(xiàn),人類的高效學(xué)習(xí)部分源于類似情景控制的學(xué)習(xí)模式。在日常學(xué)習(xí)中我們會(huì)記住一些成功的經(jīng)歷,每當(dāng)遇到一個(gè)新情景時(shí),我們會(huì)從記憶中搜索過去遇到過的相似經(jīng)歷,根據(jù)當(dāng)時(shí)成功的策略來做出快速?zèng)Q策。該論文提出了一個(gè)新穎的策略學(xué)習(xí)框架,結(jié)合情景控制和強(qiáng)化學(xué)習(xí),將情景記憶中有關(guān)系的經(jīng)歷關(guān)聯(lián)起來,將獨(dú)立的記憶碎片連結(jié)形成了聯(lián)想記憶網(wǎng),更高效地利用已有的成功經(jīng)歷來提高強(qiáng)化學(xué)習(xí)效率。具體來說,該論文基于狀態(tài)轉(zhuǎn)換函數(shù)進(jìn)行建圖,將所有記憶中的狀態(tài)關(guān)聯(lián)起來,并開發(fā)了一個(gè)高效的傳播算法,使得值函數(shù)可以在圖上進(jìn)行快速更新迭代,最后利用它們更好地指導(dǎo)強(qiáng)化學(xué)習(xí)。在經(jīng)典Atari游戲上的實(shí)驗(yàn)結(jié)果表明,該方法提高4倍以上學(xué)習(xí)效率。
11.On Generalization Error Bounds of Noisy Gradient Methods for Non-ConvexLearning. Jian Li, Xuanyuan Luo, Mingda Qiao. (Poster)
由2019級碩士生駱軒源及2018屆姚班校友喬明達(dá)在我院李建副教授的指導(dǎo)下,共同合作完成的論文《論非凸學(xué)習(xí)下有噪聲梯度方法的泛化誤差上界》主要在理論上分析了若干學(xué)習(xí)算法的泛化能力。泛化誤差也即一個(gè)學(xué)習(xí)算法在訓(xùn)練集和真實(shí)未知數(shù)據(jù)集上表現(xiàn)的差距,是機(jī)器學(xué)習(xí)理論最重要的問題之一?;谠撐男绿岢?/span>Bayes-Stability理論框架,作者得到了比前人更優(yōu)的SGLD的期望泛化誤差上界O(G/n),其中G和n分別是訓(xùn)練路徑上梯度的范數(shù)之和以及訓(xùn)練集大小。同時(shí)該上界對于非高斯噪音、動(dòng)量加速、和滑動(dòng)平均等擴(kuò)展情況一樣成立。除此之外,該文還證明了連續(xù)時(shí)間朗之萬運(yùn)動(dòng)(CLD)任意時(shí)刻的Log-Sobolev不等式,基于該結(jié)論,作者證明了在加入了l2正則化之后,CLD的期望泛化誤差以O(1/n)的速度減小,并且該上界可以與訓(xùn)練時(shí)間無關(guān)。
?
(文/孫帥)
?
?
?
?
版權(quán)與免責(zé)聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點(diǎn)或證實(shí)其真實(shí)性,也不構(gòu)成其他建議。僅提供交流平臺(tái),不為其版權(quán)負(fù)責(zé)。如涉及侵權(quán),請聯(lián)系我們及時(shí)修改或刪除。郵箱:sales@allpeptide.com