ICLR 2021最佳論文放榜!清華宋飏等3位一作華人學生獲最佳論文獎!

新智元報道
新智元報道
來源:iclr
編輯:LRS、yaxin
【新智元導讀】ICLR2021 今天在官網(wǎng)公布了最佳論文獎!一作華人學生3篇論文獲得了最佳論文獎,2篇來自Deepmind,還有谷歌、斯坦福大學等機構的研究人員都取得了佳績。
剛剛,ICLR2021 公布了最佳論文獎!

今年,共有8篇最佳論文勝出,其中3篇是華人學生一作,2篇是來自Deepmind,還有谷歌、斯坦福大學等機構的研究人員都取得了佳績。
ICLR 是深度學習領域的頂級會議,今年的 ICLR 2021大會從5月4日到5月8日在奧地利維也納舉行。
本屆ICLR共收到了2997篇論文投稿,相比去年的2594篇論文投稿,增加了15.5%。
其中860篇論文被接收,接受率為28.7%,這些論文有53篇Oral,114篇Spotlight以及693 Poster。
8篇論文獲最佳論文!華人一作占3席
最佳論文1:超復數(shù)乘法的參數(shù)量只需要1/n
標題:Beyond Fully-Connected Layers with Quaternions: Parameterization of Hypercomplex Multiplications with 1/n Parameters
《比全連接更強:超復數(shù)乘法的參數(shù)量只需要1/n》
作者:Aston Zhang, Yi Tay, Shuai Zhang, Alvin Chan, Anh Tuan Luu, Siu Cheung Hui, Jie Fu
作者機構:谷歌研究院,蘇黎世聯(lián)邦理工大學,南洋理工大學,Mila
論文地址:https://openreview.net/pdf?id=rcQdycl0zyk
表示學習在超復數(shù)空間的表示學習的有效性已經(jīng)得到了驗證?;谒脑獢?shù)(quaternions)的全連接層(四元數(shù)就是四維空間的超復數(shù))的漢密爾頓乘積已經(jīng)取代了傳統(tǒng)的實數(shù)矩陣乘法,并且在性能不變的情況下,可學習的參數(shù)量降低為原來的1/4,在多種應用場景得到了驗證。

但是一個限制就是只有幾個固定的維度可以使用,如四維、八維或十六維,為了使用超復數(shù)乘法,智能犧牲模型的靈活性。
基于這個目的,這篇文章提出了一種參數(shù)化超復數(shù)乘法,使模型能夠與數(shù)據(jù)無關地學習乘法規(guī)則。這個模型不僅包括漢密爾頓乘積,通過設置任意1/n的可學習參數(shù),也使模型更靈活。
使用LSTM和Transformer模型對自然語言推理、機器翻譯、文本風格遷移的實驗上,證明了所提出方法的架構靈活性和有效性。

本文的第一作者是Aston Zhang,是亞馬遜Web Services的高級科學家,伊利諾伊大學香檳分校獲得計算機科學博士學位。
出版《動手學深度學習》,面向中文讀者的「能運行、可討論」的深度學習教科書,被全球 40 個國家 175 所大學用于教學,由四位主要作者和GitHub貢獻者共同編著。

最佳論文2 :重新思考可微分NAS方法中的架構選擇
標題:Rethinking Architecture Selection in Differentiable NAS
作者:Ruochen Wang, Minhao Cheng, Xiangning Chen, Xiaocheng Tang, and Cho-Jui Hsieh
作者機構:加州伯克利大學
論文地址:https://openreview.net/forum?id=PKubaeJkw3
自谷歌2016年提出了基于強化學習神經(jīng)網(wǎng)絡架構搜索(NAS)一來,一些關于NAS方法泉涌而出,其中最有影響力的工作就是DARTS。
NAS以其搜索效率高、搜索過程簡單等優(yōu)點成為當前最流行的神經(jīng)網(wǎng)絡結構搜索方法之一。
它借鑒了早期谷歌提出的weight sharing的搜索思想,將搜索架構建模為矩陣α使用可微分的策略對矩陣α與網(wǎng)絡參數(shù)進行交替優(yōu)化,在分類和其他任務上都取得了很好的效果。
來自加州大學洛杉磯分校的研究人員發(fā)現(xiàn)DARTS有一些顯而易見的缺點,他們重新審視了DARTS方法中的Architecture Selection,發(fā)現(xiàn)很多論文中都在重點討論搜索中超圖網(wǎng)絡的優(yōu)化問題,很少有學者去關注架構問題。
論文中作者重新評估了幾個可微分的 NAS 方法與所提出的架構選擇,發(fā)現(xiàn)架構參數(shù)α中的權重參數(shù)在很多情況下并不能衡量對應候選操作對于supernet的重要性。
在預訓練DARTS supernet中隨機選擇了三條邊,作者分別計算了其中不同候選操作對應的α值與離散化精度。

作者按照對搜索網(wǎng)絡的貢獻度來進行候選操作的選擇,并進一步提出了一種alternative perturbation-based的架構選擇方法,這一方法在DARTS、SDARTS、SDAS等一些NAS模型上取得了性能的提升。
論文一作Ruochen Wang來自洛杉磯加州大學(UCLA),他目前是UCLA亨利·薩穆埃利工程與應用科學學院研究生研究助理。
Ruochen Wang在2015年獲得密歇根大學計算機科學、統(tǒng)計學學士學位,2020年獲得密歇根大學和洛杉磯加州大學的計算機科學碩士學位。

最佳論文3:基于隨機微分方程的分數(shù)生成式建模
標題:Score-Based Generative Modeling through Stochastic Differential Equations
作者:Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole
作者機構:斯坦福大學,谷歌
論文地址:https://openreview.net/pdf?id=PxTIG12RRHS
從數(shù)據(jù)中生成噪聲是很簡單的,從噪聲中找到數(shù)據(jù)則需要生成式的模型。這篇文章提出隨機查分方程(SDE),通過逐漸注入噪聲,把一個復雜的數(shù)據(jù)分布轉換到一個已知的先驗分布。另外一個對稱的逆時SDE通過把噪聲逐漸去處,把先驗分布轉換回數(shù)據(jù)分布。
至關重要的是,逆時SDE僅依賴于擾動數(shù)據(jù)分布的時間相關梯度場(場也叫做分數(shù))。

由于利用了基于分數(shù)的生成式模型的優(yōu)勢,這篇論文提出的模型能夠準確地使用神經(jīng)網(wǎng)絡來估計分數(shù),并且使用幾個SDE求解器來生成樣例。
論文中提出的框架封裝了之前基于分數(shù)的生成式模型,擴散概率模型,兼容新的采樣過程,并且具有不同的建模能力。
除此之外,一個預測校正器框架被用來糾正離散化的逆時SDE在演化過程中的誤差。
一個等價的神經(jīng)ODE能夠從與SDE相同的分布中采樣數(shù)據(jù),額外計算精確的概率,提升采樣效率。

本文提供了一個新的途徑使用基于分數(shù)的模型解決時序反向問題,在基于類別的生成、圖像修復、著色實驗中得到了驗證。
由于多種架構上的改進,本文在CIFA-10數(shù)據(jù)集上的非條件圖像生成實驗上達到SOTA,評分9.89,F(xiàn)ID 2.20,2.99bits/dim的概率,在1024*1024圖像生成上,首次闡述了如何基于分數(shù)生成模型高保真地生成圖像。

論文一作宋飏本科畢業(yè)于清華大學物理系,現(xiàn)為斯坦福大學計算機系博士生,他的導師是斯坦福大學計算機科學學院Stefano Ermon教授。
目前致力于研究具有靈活的模型結構,穩(wěn)定的訓練方式,優(yōu)異的樣本質量,以及能夠自由控制的新型生成式模型。
他表示自己對生成模型的各種應用很感興趣,比如解決逆問題,以及減少機器學習系統(tǒng)的安全漏洞。

還有5篇論文獲得最佳論文獎,它們分別是:
論文4
標題:Complex Query Answering with Neural Link Predictors
作者:Erik Arakelyan, Daniel Daza, Pasquale Minervini, and Michael Cochez
作者機構:UCL 人工智能中心、阿姆斯特丹大學、Discovery Lab
論文地址:https://openreview.net/forum?id=Mos9F9kDwkz
論文5
標題:EigenGame: PCA as a Nash Equilibrium
作者:ZIan Gemp, Brian McWilliams, Claire Vernade, and Thore Graepel
作者機構:Deepmind
論文地址:https://openreview.net/forum?id=NzTU59SYbNq
論文6
標題:Learning Mesh-Based Simulation with Graph Networks
作者:Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez, and Peter Battaglia
作者機構:Deepmind
論文地址:https://openreview.net/forum?id=roNqYL0_XP
論文7
標題:Neural Synthesis of Binaural Speech From Mono Audio
作者:Alexander Richard, Dejan Markovic, Israel D. Gebru, Steven Krenn, Gladstone Alexander Butler, Fernando Torre, and Yaser Sheikh
作者機構:Facebook Reality Labs
論文地址:https://openreview.net/forum?id=uAX8q61EVRu
論文8
標題:Optimal Rates for Averaged Stochastic Gradient Descent under Neural Tangent Kernel Regime
作者:Atsushi Nitanda, and Taiji Suzuki
作者機構:東京大學,國立研究開發(fā)法人理化學研究所(Riken),科學技術振興機構
論文地址:https://openreview.net/pdf?id=PULSD5qI2N1
參考資料:
https://iclr-conf.medium.com/announcing-iclr-2021-outstanding-paper-awards-9ae0514734ab
https://zhuanlan.zhihu.com/p/344538995
https://twitter.com/davencheung/status/1377584920453857286?s=21

