NeruIPS 2022 | 騰訊AI Lab入選論文解讀
騰訊 AI Lab 共有 13 篇論文被本屆會議接收,其中 1 篇被選為口頭報告,以及 2 篇 Spotlight。本文為部分論文解讀,主要聚焦機器學習及計算機視覺領域,并關注 AI 與生命科學領域的結合應用。

機器學習
Learning Neural Set Functions Under the Optimal Subset Oracle
基于最優(yōu)子集的神經(jīng)集合函數(shù)學習方法EquiVSet
本文由騰訊 AI Lab 主導,與帝國理工大學,中山大學合作完成,已被會議選為口頭報告(Oral Presentation)。
集合函數(shù)被廣泛應用于各種場景之中,例如商品推薦、異常檢測和分子篩選等。在這些場景中,集合函數(shù)可以被視為一個評分函數(shù):其將一個集合作為輸入并輸出該集合的分數(shù)。我們希望從給定的集合中選取出得分最高的子集。鑒于集合函數(shù)的廣泛應用,如何學習一個適用的集合函數(shù)是解決許多問題的關鍵。
本工作提出了一個基于最大似然的集合函數(shù)學習方法EquiVSet。該方法滿足以下四個集合函數(shù)學習的準則:1)置換不變性;2)支持不同的集合大小;3)最小先驗;4)可擴展性。該方法由以下部件組成:基于能量模型的集合概率質量函數(shù);滿足置換不變性的DeepSet類型架構;平均場變分推斷和它的均攤版本。由于這些結構的巧妙組合,本文提出的方法在三個實際應用場景中(商品推薦,異常檢測和分子篩選)的性能遠遠超過基線方法。

Stability Analysis and Generalization Bounds of Adversarial Training
對抗訓練的穩(wěn)定性分析和泛化邊界
本文由騰訊 AI Lab 主導,與香港中文大學(深圳),深圳市大數(shù)據(jù)研究院合作完成,已被會議評為 Spotlight 論文。
在對抗訓練中,深度神經(jīng)網(wǎng)絡可以非常好的擬合訓練數(shù)據(jù)集上的對抗樣本,但針對測試集上的對抗樣本泛化能力較差,這種現(xiàn)象稱為魯棒性過擬合,并且在常見數(shù)據(jù)集(包括 SVHN、CIFAR-10、CIFAR-100 和 ImageNet)上對神經(jīng)網(wǎng)絡進行對抗訓練時均可以觀察到這種現(xiàn)象。
本文采用一致穩(wěn)定性的工具來研究對抗性訓練的魯棒性過擬合問題。一個主要挑戰(zhàn)是對抗訓練的外層函數(shù)是不光滑的,使得現(xiàn)有的分析技術無法直接應用過來。為了解決這個問題,本文提出了 η 近似平滑度假設。我們表明對抗訓練的外層函數(shù)滿足η 平滑度假設,其中 η 是與對抗擾動量相關的一個常數(shù)。針對滿足 η 近似平滑度的損失函數(shù)(包括對抗訓練損失),本文給出了隨機梯度下降 (SGD)算法的基于穩(wěn)定性的泛化邊界。
該項工作的結果從一致穩(wěn)定性的角度提供了對魯棒性過擬合的不同理解。此外,文章展示了一些流行的對抗性訓練技術(包括早期停止、循環(huán)學習率和隨機權重平均等)在理論上可以促進穩(wěn)定性。

Adversarial Task Up-sampling for Meta-learning
基于對抗任務上采樣的元學習任務增廣
本文由騰訊 AI Lab 主導,與香港城市大學合作完成。
元學習的成功是基于訓練任務的分布涵蓋測試任務的假設。如果訓練任務不足或訓練任務分布非常集中,這個假設不再成立,從而導致元學習模型出現(xiàn)數(shù)據(jù)記憶或者過度擬合,損害元學習模型在新任務的泛化性。這個問題的解決方案是對訓練任務進行任務增廣,但如何產(chǎn)生大量的有效增廣任務仍然是一個待解決的問題。
本文提出通過任務上采樣網(wǎng)絡,學習任務的表示和基于對抗的上采樣算法(Adversarial Task Up-sampling, ATU),并從任務表示中應用上采樣算法采樣增廣任務。通過最大化對抗性損失,增廣任務可以最大程度地提高元學習模型的泛化能力。在小樣本正弦回歸和圖像分類數(shù)據(jù)集上,我們實驗驗證了ATU的增廣任務生成質量和對元學習算法泛化性的提高明顯超越已有的元學習任務增廣算法。

Improve Task-Specific Generalization in Few-Shot Learning via Adaptive Vicinal Risk Minimization
提高小樣本學習的任務泛化性——基于任務自適應VRM的單任務優(yōu)化算法
本文由騰訊 AI Lab 主導,與香港城市大學合作完成。
元學習算法提高了小樣本學習中總體任務的泛化能力,但是忽略了單任務的泛化能力。由于小樣本學習任務中,訓練數(shù)據(jù)的分布可能偏離真實分布,通過ERM優(yōu)化的模型難以泛化到未見過的數(shù)據(jù)。
為了解決該問題,本文提出基于任務自適應的臨近分布損失最小化算法(Adaptive Vicinal Risk Minimization)。 該項工作使用隨機游走算法,計算訓練數(shù)據(jù)訪問無標簽數(shù)據(jù)的概率,并根據(jù)這個概率分布為每個訓練數(shù)據(jù)構建臨近分布。訓練數(shù)據(jù)的臨近分布可以更好地擬合數(shù)據(jù)的真實分布,從而降低過擬合,提高優(yōu)化算法對單個任務的泛化性。在三個標準的小樣本學習的數(shù)據(jù)集上,本文提出的算法明顯超越了基線算法。

計算機視覺
OST: Improving Generalization of DeepFake Detection via One-Shot Test-Time Training
OST:一種提高假臉檢測泛化性的方法
本文由騰訊 AI Lab 主導,與阿德萊德大學合作完成。
現(xiàn)有的假臉檢測方法普遍存在泛化性不足的問題:當造假方法未出現(xiàn)在訓練階段時,現(xiàn)有的方法通常不能有效的判斷給定人臉圖片的真假。
本文為提高假臉檢測的泛化性提供了一個新的測試時訓練思路。具體來說,當給定一個已完成訓練的檢測器和任意一張測試圖片,首先基于這張圖片生成一張假圖,由于這張假圖標簽已知,可以用它在測試階段繼續(xù)更新檢測模型。為了更好的利用預訓練模型與更快的更新速度,本工作用元學習概念來作為基本框架。
通過在多個標桿數(shù)據(jù)集上的實驗,該方法不僅能提高檢測器在各種未知造假方法上的準確率,也能有效提高檢測器在遇到不同后處理方法時的泛化性。

Boosting the Transferability of Adversarial Attacks with Reverse Adversarial Perturbation
通過反向梯度擾動提升對抗樣本的遷移性
本文由騰訊 AI Lab 主導,與香港中文大學(深圳),深圳市大數(shù)據(jù)研究院,京東探索研究院合作完成。
對抗樣本通過注入難以察覺的擾動來使得模型產(chǎn)生錯誤的預測,目前深度神經(jīng)網(wǎng)絡已被證明容易受到對抗樣本的攻擊。由于真實場景下,深度模型結構和網(wǎng)絡參數(shù)對攻擊者而言是不可知的,研究對抗樣本的可遷移性對深度系統(tǒng)的安全性而言非常重要。許多現(xiàn)有的工作表明,對抗樣本可能會過度擬合生成它們的代理模型,從而限制了其遷移到不同目標模型時的攻擊性能。
為了減輕對抗樣本對代理模型的過度擬合,本文提出了一種新的攻擊方法,稱為反向對抗擾動攻擊(RAP)。具體來說,不同于現(xiàn)有的最小化單個對抗樣本的損失,RAP目標于尋找具有一致性低對抗攻擊損失的區(qū)域。RAP 的對抗攻擊過程可以表述為一個min-max雙層優(yōu)化問題。在每一步的迭代中,RAP首先計算基于當前對抗樣本點的一個最弱的攻擊方向,并疊加到對抗樣本上。通過將 RAP 集成到攻擊的迭代過程中,我們的方法可以找到具有一致性低對抗攻擊損失的區(qū)域,降低對抗樣本對模型對決策邊界的變化的敏感性,進而減輕其對代理模型的過擬合。
綜合實驗比較表明,RAP 可以顯著提高對抗遷移性。此外,RAP 可以自然地與許多現(xiàn)有的黑盒攻擊技術相結合,以進一步提高遷移攻擊性能。最后,針對 Google Cloud Vision API的目標攻擊實現(xiàn)顯示我們的方法獲得了 22% 的性能提升。

AdaptFormer: Adapting Vision Transformers for Scalable Visual Recognition
AdaptFormer:一種可適配多種視覺識別任務的的適應性 ViT
本文由騰訊AI Lab主導,與香港大學,香港中文大學合作完成。
在計算機視覺中,預訓練的ViT(Vision Transformers)獲得了很好的效果。然而,將一個ViT適配于不同的圖像和視頻數(shù)據(jù)是非常有挑戰(zhàn)性的,因為計算開銷和存儲負擔都很重,每一個模型都需要獨立并且完全的訓練從而適配于不同的任務。這樣一個完全訓練的適配限制了其往不同數(shù)據(jù)域的遷移性。
為了解決這個問題,本文提出了一個有效的針對 ViT 的遷移方式,稱為 Adaptformer。其可以將一個ViT適配到不同的圖像和視頻任務中。這樣一個適配比先前的機制有很多優(yōu)勢。第一, Adaptformer 僅僅引入輕量級的模型。在額外增加2%的參數(shù)量的情況下,其在不更新原有模型參數(shù)的情況下,提升了原有ViT模型的遷移性,在視頻分類任務中超越了完全訓練模型的效果。第二,其可以方便的植入現(xiàn)有模型中并跟隨不同視覺任務變化而相應調整。第三,大量的圖像和視頻實驗表明 Adaptformer 可以很好的提升 ViT 在目標數(shù)據(jù)源的效果。舉例來說,在更新 1.5% 的額外參數(shù)量時,其可以比完全訓練模型,在 SSV2 獲得 10% 和在 HMDB51 獲得 19% 的額外提升。

One Model to Edit Them All: Free-Form Text-Driven Image Manipulation with Semantic Modulations
一個模型搞定圖像編輯:利用語義調制實現(xiàn)基于自由文本的圖像編輯
本文由騰訊 AI Lab 主導,與清華大學、香港科技大學合作完成。
利用文本個性化輸入的方式,可以使得用戶在圖像編輯中方便地描述其意圖?;?stylegan 的視覺隱空間和 CLIP 的文本空間,研究關注于如何將這兩個空間進行匹配,從而實現(xiàn)基于文本的屬性編輯。目前來看,隱空間的匹配都是經(jīng)驗性設計的。從而導致每一個圖像編輯模型,只能處理一種固定的文本輸入。
本文提出了一種叫自由形式 CLIP 的方法,期望能夠構建一個自動的隱空間對齊的方式,從而一個圖像編輯模型可以處理多種多樣的文本輸入。該方法有一個跨模態(tài)語義調制模塊,其包含了語義對齊和注入。語義對齊通過線性映射的方式自動實現(xiàn)了隱空間匹配,該映射是靠交叉注意力實現(xiàn)的。在對齊之后,我們將文本的語義信息注入視覺隱空間中。對于一類圖像,我們可以用多種文本信息進行編輯。與此同時,我們觀察到盡管訓練時候我們用單一的文本語義。在測試中可以用多種文本語義同時進行圖像編輯。
在實驗中,我們在三類圖像上對我們的算法進行了評估。實驗結果表明我們算法有效的進行了語義準確和視覺真實的圖像編輯。

VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training
視頻 MAE:遮蓋的自動編碼器在自監(jiān)督視頻預訓練中是有效利用數(shù)據(jù)的學習器
本文由騰訊 AI Lab 主導,與南京大學合作完成。
在大數(shù)據(jù)進行視頻 Transformer 預訓練往往能夠比在小數(shù)據(jù)集上取得更優(yōu)的性能。本文指出,視頻的遮蓋式自動編碼器在自監(jiān)督視頻預訓練中是一個有效利用數(shù)據(jù)的學習器。作者受最近圖像的遮蓋式編碼器啟發(fā),提出了視頻管道式遮蓋的的方式,該遮蓋需要用一個非常大的比例。而這樣一個簡單的設計會使得視頻恢復更具有挑戰(zhàn)性,同時對自監(jiān)督學習更具有意義,因為可以在預訓練中有效提取更多的視頻表征。
該項工作有三個重要的發(fā)現(xiàn)。第一,用一個極端比例的掩膜依然能夠獲得很好的效果。在時間維度冗余的視頻內容支持我們這樣一個極端比例的掩膜設計。第二,視頻MAE在小數(shù)據(jù)集上也能夠取得很好的性能。這可能是因為任務本身對數(shù)據(jù)的充分利用。第三,我們展示了數(shù)據(jù)質量比數(shù)量更重要。跨域問題在預訓練和實際后續(xù)訓練中比較重要。
實驗證明,該算法在不利用外部額外數(shù)據(jù)前提下,利用原始的 ViT 結構可以在 K400 上取得 84.7% 的準確率,在 SSV2 上取得 75.3% 的準確率,在 HMDB51 上取得 61.1% 的準確率。

AI+生命科學
TreeMoco: Contrastive Neuron Morphology Representation Learning
TreeMoco:神經(jīng)元形態(tài)表征對比學習
本文由騰訊 AI Lab 主導, 與賓夕法尼亞大學、東南大學合作完成。
神經(jīng)元形態(tài)學是描繪神經(jīng)元細胞類型、分析大腦發(fā)育過程和評估神經(jīng)系統(tǒng)疾病病理變化的關鍵指標。傳統(tǒng)分析主要依賴于啟發(fā)式特征和人眼觀察。用于定量并全面描述神經(jīng)元形態(tài)的特征在很大程度上依然缺失。
為了填補這一空白,該項工作采用 Tree-LSTM 網(wǎng)絡對神經(jīng)元形態(tài)進行編碼,并引入了名為 TreeMoco 的自監(jiān)督學習框架在無標簽信息的前提下學習特征。
作者來自三種不同公共資源的 2403 個小鼠大腦的高質量 3D 神經(jīng)元重建上測試了 TreeMoco。結果表明,TreeMoco 在分類主要腦細胞類型和識別亞型方面均有效。據(jù)目前所知,TreeMoco 是第一個探索通過對比學習來學習神經(jīng)元樹形態(tài)表示的嘗試,它具有為定量神經(jīng)元形態(tài)分析提供新思路的巨大潛力。


Equivariant Graph Hierarchy-based Neural Networks
等變圖層次網(wǎng)絡
本文由騰訊 AI Lab 主導,與清華大學,中國人民大學高瓴人工智能學院合作完成。
等變圖神經(jīng)網(wǎng)絡(EGNs)在描述多體物理系統(tǒng)的動態(tài)方面具有強大的功能。現(xiàn)有的等變圖神經(jīng)網(wǎng)絡的消息傳遞機制捕捉復雜系統(tǒng)的空間/動力學層次,特別是限制了子結構的發(fā)現(xiàn)和系統(tǒng)全局信息的融合。
本文提出的等變圖層次網(wǎng)絡(EGHN),由三個關鍵部分組成:廣義等值矩陣消息傳遞(EMMP)、E-Pool 和 E-UnPool。特別是,EMMP 能夠提高傳統(tǒng)等變量消息傳遞的表達能力,E-Pool 將得到節(jié)點的更抽象的層次結構。而 E-UnPool 則利用高層信息來更新低層節(jié)點的動態(tài)。
本文證明了 E-Pool 和 E-UnPool 是等變的,以滿足物理對稱性。大量的實驗評估驗證了我們的EGHN在多個應用中的有效性,包括多物體動力學模擬、運動捕捉和蛋白質動力學建模。正如它們的名字所暗示的,E-Pool 和 E-UnPool 都被保證是等價的,以滿足物理對稱性。大量的實驗評估驗證了我們的 EGHN 在多個應用中的有效性,包括多物體動力學模擬、運動捕捉和蛋白質動力學建模。

Learning Causally Invariant Representations for Out-of-Distribution Generalization on Graphs
面向圖數(shù)據(jù)分布外泛化的因果表示學習
本文由騰訊 AI Lab 與香港中文大學,香港浸會大學和悉尼大學合作完成,已被會議評為 Spotlight 論文。
近年來,盡管在圖像等歐式數(shù)據(jù)上使用因果不變性原理進行分布外泛化(Out-of-Distribution generalization)取得了一定的成功,但對圖數(shù)據(jù)的研究仍然有限。與歐式數(shù)據(jù)不同,圖的復雜性對采用因果不變性原理的使用提出了獨特的挑戰(zhàn)。首先,圖上的分布偏移(Distribution shifts)既可以在節(jié)點屬性上出現(xiàn),也可以在圖結構上出現(xiàn),給圖上不變性的識別帶來了很大的困難。此外,先前大部分歐式數(shù)據(jù)上的分布外泛化算法所需要的域(Domain)或環(huán)境劃分信息,在圖數(shù)據(jù)上也很難獲得,給面向圖數(shù)據(jù)的分布外泛化算法開發(fā)帶來了更大的挑戰(zhàn)。
為了在圖數(shù)據(jù)上也能做到分布外泛化,本文提出了一個新的框架,稱為因果關系啟發(fā)不變圖學習 (CIGA),以識別和利用圖數(shù)據(jù)上的因果不變性,使得模型能夠在圖上的各種分布變化下實現(xiàn)良好的泛化性能。具體來說,我們首先用因果圖建模了圖上可能的分布變化,并推導出,當模型只關注包含有關標簽成因的最多信息的子圖時,可以實現(xiàn)圖上的分布外泛化。為此,我們提出了一個信息論目標,以提取最大程度地保留不變的同類信息的所需子圖,使用這類子圖進行學習和預測則可不受分布變化的影響。
本文對 16 個合成數(shù)據(jù)集和真實世界數(shù)據(jù)集的廣泛實驗,包括在 AI 制藥相關的分子屬性預測數(shù)據(jù)集 DrugOOD 上,驗證了 CIGA 在圖上(節(jié)點屬性、圖結構、圖大小等)各種分布偏移下良好的分布外泛化能力。

文章轉自騰訊AI Lab微信(tencent_ailab)

分享
收藏
點贊
在看

