NeurIPS-21遷移學(xué)習(xí)、元學(xué)習(xí)、自監(jiān)督學(xué)習(xí)新數(shù)據(jù)集概覽

極市導(dǎo)讀
?本文總結(jié)了NeurIPS 2021中有關(guān)遷移學(xué)習(xí)、預(yù)訓(xùn)練、自監(jiān)督學(xué)習(xí)、領(lǐng)域自適應(yīng)、元學(xué)習(xí)等相關(guān)的數(shù)據(jù)集和評測方案。?>>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿
機(jī)器學(xué)習(xí)頂級會議 「NeurIPS 2021」 今年舉辦了一個(gè)特殊的track: Datasets and Benchmark,其主要用于收錄最新的數(shù)據(jù)集和評測方案。此track包含兩輪投稿,目前第一輪投稿已結(jié)束,其接收的論文均在OpenReview平臺上放出。
我們對論文進(jìn)行了概覽,挑選出了其中與 「遷移學(xué)習(xí)」、「預(yù)訓(xùn)練」、「自監(jiān)督學(xué)習(xí)」、「領(lǐng)域自適應(yīng)」、「元學(xué)習(xí) 等話題相關(guān)的數(shù)據(jù)集和評測方案,其中不乏有來自牛津大學(xué)VGG組的數(shù)據(jù)集。這幾個(gè)數(shù)據(jù)集也從醫(yī)學(xué)圖像、對話系統(tǒng)、遙感圖像、多模態(tài)等領(lǐng)域全面覆蓋了當(dāng)前的研究熱點(diǎn),值得大家用來進(jìn)行更大規(guī)模的研究和評測。
所有數(shù)據(jù)集地址:
https://openreview.net/group?id=NeurIPS.cc/2021/Track/Datasets_and_Benchmarks/Round1
投稿鏈接:
https://neurips.cc/Conferences/2021/CallForDatasetsBenchmarks
下面是我們找出來與上述話題密切相關(guān)的幾個(gè)數(shù)據(jù)集,一起來看看吧。
FHIST
標(biāo)題:FHIST: A Benchmark for Few-shot Classification of Histological Images 領(lǐng)域:醫(yī)療、腫瘤、組織學(xué) 任務(wù):分類 模態(tài):圖像 用途:few-shot / transfer / meta-learning 鏈接:https://openreview.net/forum?id=aAMgwCmP930
FHIST是一個(gè)由多個(gè)公開數(shù)據(jù)集組成的醫(yī)學(xué)數(shù)據(jù)集,其主要是分類任務(wù),由CRC-TP、NCT-CRC-He-100K、LC25000、BreakHis這四個(gè)公開數(shù)據(jù)集構(gòu)成,其中每個(gè)公開數(shù)據(jù)集可以當(dāng)做一個(gè)domain(但它們的類別彼此不同)。論文建議由數(shù)量最多的CRC-TP當(dāng)做source domain,其他三個(gè)按照與其相關(guān)程度分別當(dāng)做3個(gè)target domain來測試元學(xué)習(xí)和遷移學(xué)習(xí)算法,如下圖所示:

這些數(shù)據(jù)集的統(tǒng)計(jì)信息如下圖所示:

BiToD
標(biāo)題:A Bilingual Multi-Domain Dataset For Task-Oriented Dialogue Modeling 領(lǐng)域:NLP、對話、雙語 任務(wù):對話生成 模態(tài):文本 用途:預(yù)訓(xùn)練、跨語言遷移學(xué)習(xí) 鏈接:https://openreview.net/forum?id=dA2Q8CfmGpp
BiToD是由香港科技大學(xué)開放的一個(gè)中英文雙語對話數(shù)據(jù)集,包含了Restaurant、Attraction、Metro、Weather、Hotel這5個(gè)domain,因此可以進(jìn)行多領(lǐng)域的遷移。除此之外,該數(shù)據(jù)集也可以進(jìn)行跨語言的遷移學(xué)習(xí)。下圖展示了中文和英文兩個(gè)語言的對話截圖。

DABS
標(biāo)題:DABS: a Domain-Agnostic Benchmark for Self-Supervised Learning 領(lǐng)域:多模態(tài) 任務(wù):多任務(wù) 模態(tài):多模態(tài) 用途:自監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí) 鏈接:https://openreview.net/forum?id=Uk2mymgn_LZ
DABS是由斯坦福大學(xué)從多個(gè)數(shù)據(jù)集中收集整理的,其被用于進(jìn)行領(lǐng)域無關(guān)(Domain-agnostic)的自監(jiān)督學(xué)習(xí)。其包括6個(gè)模態(tài)的數(shù)據(jù):自然圖像、語音、文本、醫(yī)學(xué)圖像、傳感器、帶有標(biāo)注的圖片。該數(shù)據(jù)集要求開發(fā)的新算法必須在所有的模態(tài)上進(jìn)行自監(jiān)督訓(xùn)練,然后遷移到屬于這些領(lǐng)域的若干個(gè)下游任務(wù),以此來評價(jià)方法對于領(lǐng)域無關(guān)的數(shù)據(jù)的有效性。如下圖所示。


LoveDA
標(biāo)題:LoveDA: A Remote Sensing Land-Cover Dataset for Domain Adaptation Semantic Segmentation 領(lǐng)域:遙感圖像 任務(wù):語義分割 模態(tài):圖像 用途:遷移學(xué)習(xí)、領(lǐng)域自適應(yīng) 鏈接:https://openreview.net/forum?id=_-O9SefMb99
LoveDA (名字挺好)是由武漢大學(xué)開放的一個(gè)用于評價(jià)領(lǐng)域自適應(yīng) (Domain adaptation)算法在遙感圖像上進(jìn)行語義分割的數(shù)據(jù)集。它包含了7個(gè)類別、3338張圖像,由來自城市和郊區(qū)的圖像組成,它包含了86516個(gè)圖像標(biāo)注。如下圖所示。

PASS
標(biāo)題:PASS: An ImageNet replacement for self-supervised pretraining without humans 領(lǐng)域:圖像 任務(wù):分類 模態(tài):圖像 用途:自監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí) 鏈接:https://openreview.net/forum?id=BwzYI-KaHdr
PASS數(shù)據(jù)集全稱Pictures without humAns for Self-Supervision,來自大名鼎鼎的牛津大學(xué)VGG組。此數(shù)據(jù)是一個(gè)完全無標(biāo)注的數(shù)據(jù)集,包含128萬張圖像。提出此數(shù)據(jù)集的原因是考慮于ImageNet的版權(quán)和隱私問題,并不是很好用。它的特點(diǎn)是不包括任何人和身體部位,因此排除了版權(quán)問題。此數(shù)據(jù)集用于進(jìn)行自監(jiān)督訓(xùn)練,論文中也評價(jià)了多種在此數(shù)據(jù)集上預(yù)訓(xùn)練的模型遷移到其他下游任務(wù)上的表現(xiàn)。

其他非數(shù)據(jù)集的benchmark
A Unified Few-Shot Classification Benchmark to Compare Transfer and Meta Learning Approaches
https://openreview.net/forum?id=Q0hm0_G1mpH 來自Google,用于在一些已有的圖像數(shù)據(jù)集上對遷移學(xué)習(xí)和元學(xué)習(xí)進(jìn)行比較。
ImageNet-21K Pretraining for the Masses
https://openreview.net/forum?id=Zkj_VcZ6ol 來自阿里巴巴達(dá)摩院,提供了一些通用的訓(xùn)練方法,使普通人能輕易地在ImageNet-21K數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。
A Benchmark of Medical Out of Distribution Detection
https://openreview.net/forum?id=oUg5rC_95OM 來自蒙特利爾和多倫多大學(xué),在一些公開數(shù)據(jù)集上評測了一些主流的OOD算法。
SHIFTs
標(biāo)題:Shifts: A Dataset of Real Distributional Shift Across Multiple Large-Scale Tasks
領(lǐng)域:機(jī)器翻譯、天氣預(yù)測、自動假設(shè)汽車行動預(yù)測
任務(wù):分類、回歸
模態(tài):圖像、文本、表格數(shù)據(jù)
用途:few-shot / transfer / meta-learning / domain adaptation / domain generalization
鏈接:https://openreview.net/pdf?id=qM45LHaWM6E
SHIFTs是一個(gè)由3個(gè)大型數(shù)據(jù)集組成的,包含了機(jī)器翻譯、天氣預(yù)測、自動假設(shè)汽車行動預(yù)測這三個(gè)任務(wù)。其主要用來測試distribution shift,由俄羅斯搜索巨頭Yandex發(fā)布。這三大任務(wù)均包含了大量的out-of-distribution任務(wù),因此,在分類、預(yù)測、回歸等任務(wù)上均可以用來測試模型對于不同分布數(shù)據(jù)的魯棒性。
Yandex還財(cái)大氣粗地舉辦了一個(gè)shifts challenge,號召大家來參加比賽刷分(已于11月7日截止)。相信在今后會有更多的好工作用shift數(shù)據(jù)集來評測。

ClimART
標(biāo)題:ClimART: A Benchmark Dataset for Emulating Atmospheric Radiative Transfer in Weather and Climate Models
領(lǐng)域:數(shù)值模擬、地球物理、生態(tài)環(huán)境學(xué)
任務(wù):環(huán)境檢測
模態(tài):圖像
用途:遷移學(xué)習(xí)
鏈接:https://openreview.net/pdf?id=FZBtIpEAb5J
由加拿大蒙特利爾大學(xué)等學(xué)校聯(lián)合發(fā)布的ClimART數(shù)據(jù)集是一個(gè)面向地球天氣、氣候進(jìn)行模擬的數(shù)據(jù)集。該數(shù)據(jù)集收集了從1979年到2014年的氣候信息,由多張截圖(snapshot)以及龐大的統(tǒng)計(jì)信息構(gòu)成,共計(jì)1.5TB。這個(gè)數(shù)據(jù)集可以進(jìn)行大氣環(huán)境預(yù)測等任務(wù)。同時(shí),因?yàn)殡S著時(shí)間變化,環(huán)境也在一直變化,所以,該數(shù)據(jù)集提供了一個(gè)絕佳的out-of-distribution的測試環(huán)境。

FS-Mol
標(biāo)題:FS-Mol: A Few-Shot Learning Dataset of Molecules
領(lǐng)域:分子生物學(xué)、藥物發(fā)現(xiàn)
任務(wù):分類、預(yù)測
模態(tài):文本、圖
用途:小樣本學(xué)習(xí)、自監(jiān)督學(xué)習(xí)、預(yù)訓(xùn)練、遷移學(xué)習(xí)
鏈接:https://github.com/microsoft/FS-Mol
來自微軟研究院等多個(gè)單位的FS-Mol數(shù)據(jù)集是一個(gè)用于為分子結(jié)構(gòu)提供few-shot learning的數(shù)據(jù)集。其是通過進(jìn)行小樣本的遷移學(xué)習(xí),進(jìn)而可以達(dá)到藥物發(fā)現(xiàn)(drug discovery)等目的。該數(shù)據(jù)集包含了5120次試驗(yàn)、233786個(gè)獨(dú)特的化合物,可以進(jìn)行分類、結(jié)構(gòu)預(yù)測等通用的任務(wù)。除此之外,作者還提供了一個(gè)通用的benchmark,在此數(shù)據(jù)集上實(shí)現(xiàn)和評測了多種小樣本學(xué)習(xí)算法、自監(jiān)督、圖算法等,為今后的研究提代了統(tǒng)一的平臺。

LTD
標(biāo)題:Seasons in Drift: A Long-Term Thermal Imaging Dataset for Studying Concept Drift
領(lǐng)域:熱感圖像
任務(wù):檢測
模態(tài):視頻、圖像
用途:遷移學(xué)習(xí)、領(lǐng)域自適應(yīng)
鏈接:https://openreview.net/pdf?id=LjjqegBNtPi
LTD的全稱是Long-term Thermal Drift,由長達(dá)8個(gè)月熱感圖和視頻監(jiān)測構(gòu)成,用于進(jìn)行concept drift檢測。該數(shù)據(jù)集包含了來自不同季節(jié)、時(shí)間、環(huán)境的變化圖像和視頻,以此來進(jìn)行concept drift檢測。

RAFT
標(biāo)題:RAFT: A Real-World Few-Shot Text Classification Benchmark
領(lǐng)域:文本分類
任務(wù):分類
模態(tài):文本
用途:小樣本學(xué)習(xí)、遷移學(xué)習(xí)、domain adaptation / generalization
鏈接:https://openreview.net/pdf?id=bgWHz41FMB7
RAFT(Real-world Annotated Few-shot Tasks)用來評估大規(guī)模小樣本的文本分類。其包含了眾多數(shù)據(jù)集的任務(wù):ADE、Banking77等。作者構(gòu)建了一個(gè)統(tǒng)一的評測標(biāo)準(zhǔn)來進(jìn)行跨任務(wù)、小樣本的文本分類評測。

KeSpeech
標(biāo)題:KeSpeech: An Open Source Speech Dataset of Mandarin and Its Eight Subdialects
領(lǐng)域:語音
任務(wù):分類
模態(tài):語音
用途:遷移學(xué)習(xí)、domain adaptation / generalization
鏈接:https://openreview.net/pdf?id=b3Zoeq2sCLq
KeSpeech包含了來自27237個(gè)說話人、34個(gè)中國城市、1542個(gè)小時(shí)的普通話+8種方言的數(shù)據(jù),用來進(jìn)行跨語言語音識別、預(yù)訓(xùn)練等任務(wù)。

如果覺得有用,就請分享到朋友圈吧!
公眾號后臺回復(fù)“transformer”獲取最新Transformer綜述論文下載~

#?CV技術(shù)社群邀請函?#

備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測-深圳)
即可申請加入極市目標(biāo)檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群
每月大咖直播分享、真實(shí)項(xiàng)目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~

