交叉信息院擬入職助理教授吳翼帶來多智能體強(qiáng)化學(xué)習(xí)講座
2019年10月24日 瀏覽次數(shù): 0
? ? ? ?10月24日下午,交叉信息院姚班2010級(jí)校友、擬入職助理教授吳翼帶來題為“Curriculum, Evolution and Emergent Complexity with Multi-Agent Reinforcement Learning”的講座。本次講座由交叉信息院吳文斐助理教授主持,交叉信息院助理教授馬愷聲、于洋以及近40名叉院學(xué)子共同聽取了講座。
? ? ? 吳翼在講座中介紹了其最新的研究成果——利用多智能體深度強(qiáng)化學(xué)習(xí)(multi-agent deep reinforcement learning)使智能體自動(dòng)習(xí)得與人類行為相似的策略和技能。吳翼以人類智能的誕生為切入點(diǎn),探討了“智能”的本源。他回顧了“達(dá)爾文的麻雀(Darwin’s finch)”的故事,總結(jié)了人類進(jìn)化出智能的四個(gè)關(guān)鍵點(diǎn):?進(jìn)化總是從簡到繁循序漸進(jìn)的;不同物種之間通過互動(dòng)(interaction)而共同進(jìn)化;地球生態(tài)圈的復(fù)雜性導(dǎo)致了物種的多樣性和復(fù)雜性;?進(jìn)化需要一個(gè)較大的種群,而較大的種群也往往會(huì)有相應(yīng)的群體行為。? ? ?受生物進(jìn)化的啟發(fā),吳翼指出,要搭建真正的人工智能,則需要滿足模擬環(huán)境足夠復(fù)雜和多智能體需要循序漸進(jìn)的共同進(jìn)化?(co-evolve)。基于這兩個(gè)準(zhǔn)則,吳翼介紹了兩項(xiàng)最新的工作:通過捉迷藏游戲讓智能體在物理環(huán)境下學(xué)會(huì)復(fù)雜表現(xiàn);如何有效使用強(qiáng)化學(xué)習(xí)在智能體數(shù)量很大的情況下學(xué)出群體行為。
? ? ? 在第一項(xiàng)工作中,吳翼展示了OpenAI?多智能體研究團(tuán)隊(duì)的最新成果——在捉迷藏游戲中,僅僅使用簡單的+1/-1獎(jiǎng)勵(lì),以及大規(guī)模強(qiáng)化學(xué)習(xí)、智能體自動(dòng)進(jìn)化,便掌握了工具使用,并總結(jié)出了6個(gè)不同的套路和反套路。此外,吳翼也展示了在研究過程中智能體習(xí)得的出人意料的表現(xiàn),如利用物理引擎的bug得出的非常規(guī)策略等。為了能夠量化研究智能體行為的復(fù)雜性,吳翼所在的OpenAI團(tuán)隊(duì)提出了5個(gè)不同的智能體測試,在這些測試中,通過強(qiáng)化學(xué)習(xí)得到智能體都能夠得到最高的分?jǐn)?shù)。在這個(gè)工作的末尾,吳翼也總結(jié)和這個(gè)工作的核心點(diǎn):多智能體強(qiáng)化學(xué)+復(fù)雜模擬環(huán)境→類似人類的智能行為;并提出了進(jìn)一步研究的方向。? ? ?在第二項(xiàng)工作中,吳翼展示了他與研究組的最新算法:Evolutionary Population Curriculum?(EPC)。該工作從人的個(gè)體發(fā)展經(jīng)歷出發(fā),提出需要得出大規(guī)模智能體的群體智能,必須從簡單場景出發(fā)——即先從比較少量智能體出發(fā),逐步提高智能體的規(guī)模并最終得出復(fù)雜的群體行為。吳翼分析了這個(gè)漸進(jìn)訓(xùn)練過程中的技術(shù)問題,并提出使用基于注意力機(jī)智的策略表示,以及基于進(jìn)化算法的目標(biāo)修正算法。吳翼在三個(gè)不同的游戲場景下展示了EPC算法的顯著效果,并定量的分析了EPC算法的優(yōu)秀的泛化性和穩(wěn)定性。吳翼總結(jié)了這個(gè)工作的核心,即循序漸進(jìn)的訓(xùn)練以及進(jìn)化算法的使用,并提出了若干開放問題(open?question)。? ? ?講座的最后,吳翼就目前強(qiáng)化學(xué)習(xí)的進(jìn)展做了深度總結(jié),并對(duì)利用多智能體深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)強(qiáng)人工智能提出了展望與希冀。? ? ?吳翼現(xiàn)任OpenAI 多智能體研究團(tuán)隊(duì)的研究員,擬于2020年加入交叉信息院擔(dān)任助理教授,師從Stuart Russell教授,于加州大學(xué)伯克利分校獲得博士學(xué)位,研究聚焦于人工智能、深度強(qiáng)化學(xué)習(xí)、概率編程語言、自然語言處理等領(lǐng)域,其論文 Value Iteration Network榮獲NIPS 2016年度最佳論文獎(jiǎng)。
?
文、圖/ 吳晨
版權(quán)與免責(zé)聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點(diǎn)或證實(shí)其真實(shí)性,也不構(gòu)成其他建議。僅提供交流平臺(tái),不為其版權(quán)負(fù)責(zé)。如涉及侵權(quán),請(qǐng)聯(lián)系我們及時(shí)修改或刪除。郵箱:sales@allpeptide.com