收藏 | 機器學習數(shù)據(jù)集匯總收集
點擊上方“小白學視覺”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達
(Stanford)69G大規(guī)模無人機(校園)圖像數(shù)據(jù)集【Stanford】
http://cvgl.stanford.edu/projects/uav_data/
人臉素描數(shù)據(jù)集【CUHK】
http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html
自然語言推理(文本蘊含標記)數(shù)據(jù)集【NYU】
https://www.nyu.edu/projects/bowman/multinli/
Berkeley圖像分割數(shù)據(jù)集BSDS500【Berkeley】
https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/resources.html
寵物圖片(分割)數(shù)據(jù)集【Oxford】
http://www.robots.ox.ac.uk/~vgg/data/pets/
發(fā)布ADE20K場景感知/解析/分割/多目標識別數(shù)據(jù)集【MIT】
https://groups.csail.mit.edu/vision/datasets/ADE20K/
多模態(tài)二元行為數(shù)據(jù)集【GaTech】
http://www.cbi.gatech.edu/mmdb/
Fashion-MNIST風格服飾圖像數(shù)據(jù)集【肖涵】
https://github.com/zalandoresearch/fashion-mnist
大型(50萬)LOGO標志數(shù)據(jù)集
https://data.vision.ee.ethz.ch/cvl/lld/
4D掃描(60fps移動非剛性物體3D掃描)數(shù)據(jù)集【D-FAUST】
http://dfaust.is.tue.mpg.de
基于MNIST的視覺計數(shù)合成數(shù)據(jù)集Counting MNIST
http://fomoro.com/tools/counting-mnist/
YouTube MV視頻數(shù)據(jù)集【Keunwoo Choi】
https://github.com/keunwoochoi/YouTube-music-video-5M
計算機視覺合成數(shù)據(jù)集/工具大列表【unrealcv】
https://github.com/unrealcv/synthetic-computer-vision
動物屬性標記數(shù)據(jù)集【ChristophH. Lampert/Daniel Pucher/JohannesDostal】
http://cvml.ist.ac.at/AwA2/
日本漫畫數(shù)據(jù)集Manga109
http://dl.acm.org/citation.cfm?doid=3011549.3011551
俯拍舞蹈視頻數(shù)據(jù)集
http://homepages.inf.ed.ac.uk/rbf/CEILIDHDATA/
Pixiv(著色)圖片數(shù)據(jù)集【Jerry Li】
https://github.com/jerryli27/pixiv_dataset
e-VDS視頻數(shù)據(jù)集
https://engineering.purdue.edu/elab/eVDS/#download
Quick, Draw!簡筆畫涂鴉數(shù)據(jù)集
https://github.com/googlecreativelab/quickdraw-dataset
簡筆畫涂鴉數(shù)據(jù)集【hardmaru】
https://github.com/hardmaru/sketch-rnn-datasets
服飾人像生成模型(&Chictopia10K[HumanParsing]時尚人像解析數(shù)據(jù)集)【Christoph Lassner/Gerard Pons-Moll/Peter V. Gehler】
http://files.is.tue.mpg.de/classner/gp/
COCO像素級標注數(shù)據(jù)集
https://github.com/nightrome/cocostuff
大規(guī)模街道級圖片(分割)數(shù)據(jù)集【Peter Kontschieder】
http://blog.mapillary.com/product/2017/05/03/mapillary-vistas-dataset.html
大規(guī)模日語圖片描述數(shù)據(jù)集
https://github.com/STAIR-Lab-CIT/STAIR-captions
Cityscapes街景語義分割數(shù)據(jù)集(50城30類5k細標20k粗標圖片及標記視頻)
https://github.com/mcordts/cityscapesScripts
(街頭)時尚服飾數(shù)據(jù)集(2000+標注圖片)
https://github.com/bearpaw/clothing-co-parsing
PyTorch實現(xiàn)的VOC2012數(shù)據(jù)集Pixel-wise目標分割【BodoKaiser】
https://github.com/bodokaiser/piwise
Twenty Billion Neurons對象復雜運動與交互視頻數(shù)據(jù)集【Nikita Johnson】
https://www.re-work.co/blog/the-something-something-video-dataset
(20萬)英文笑話數(shù)據(jù)集【TaivoPungas】
https://github.com/taivop/joke-dataset
機器學習保險行業(yè)問答開放數(shù)據(jù)集【HainWang】
https://github.com/shuzi/insuranceQA
保險行業(yè)問答(QA)數(shù)據(jù)集【Minwei Feng】
https://github.com/shuzi/insuranceQA
Stanford NLP發(fā)布新的多輪、跨域、任務導向對話數(shù)據(jù)集【Mihail Eric】
https://github.com/keunwoochoi/YouTube-music-video-5M
實體/名詞語義關系標記數(shù)據(jù)集【David S. Batista】
https://github.com/davidsbatista/Annotated-Semantic-Relationships-Datasets
NLVR:自然語言基礎數(shù)據(jù)集(對象分組、數(shù)量、比較及空間關系推理)
http://lic.nlp.cornell.edu/nlvr/
2.8萬文章/10萬問題大規(guī)模(英語考試)閱讀理解數(shù)據(jù)集
https://github.com/qizhex/RACE_AR_baselines
錯誤拼寫數(shù)據(jù)集
http://www.dcs.bbk.ac.uk/~ROGER/corpora.html
文本簡化數(shù)據(jù)集
http://www.cs.pomona.edu/~dkauchak/simplification/
英語詞/句/語義框架框架標注數(shù)據(jù)集FrameNet
https://framenet.icsi.berkeley.edu/fndrupal/
(又一個)自然語言處理(NLP)數(shù)據(jù)集列表【Nicolas Iderhoff】
https://github.com/niderhoff/nlp-datasets
跨語種/多樣式/多粒度文本相似性檢測數(shù)據(jù)集
https://github.com/FerreroJeremy/Cross-Language-Dataset
Quora數(shù)據(jù)集:400000行潛在重復問題
http://qim.ec.quoracdn.net/quora_duplicate_questions.tsv
文本分類數(shù)據(jù)集
http://disi.unitn.it/moschitti/corpora.htm
Frames:Maluuba對話數(shù)據(jù)集
https://datasets.maluuba.com/Frames/dl
跨域(Amazon商品評論)情感數(shù)據(jù)集
http://www.cs.jhu.edu/~mdredze/datasets/sentiment/
語義網(wǎng)機器學習系統(tǒng)評價/基準數(shù)據(jù)集集合
http://dws.informatik.uni-mannheim.de/en/research/a-collection-of-benchmark-datasets-for-ml
數(shù)據(jù)科學/機器學習數(shù)據(jù)集匯總
https://elitedatascience.com/datasets
CORe50:連續(xù)目標識別數(shù)據(jù)集【VincenzoLomonaco&DavideMaltoni】
https://vlomonaco.github.io/core50/
(Matlab)數(shù)據(jù)集統(tǒng)計分布自動發(fā)現(xiàn)【Isabel Valera】
http://proceedings.mlr.press/v70/valera17a.html
(建筑物)損害評估數(shù)據(jù)集【tsunami】
https://github.com/faiton713/ABCDdataset
IndieWeb社交圖譜數(shù)據(jù)集【IndieWeb】
http://www.indiemap.org
DeepMind開源環(huán)境/數(shù)據(jù)集/代碼集合【DeepMind】
https://deepmind.com/research/open-source/
鳥叫聲數(shù)據(jù)集【xeno-canto】
http://www.xeno-canto.org
Wolfram數(shù)據(jù)集倉庫
https://datarepository.wolframcloud.com
大型音樂分析數(shù)據(jù)集FMA
https://github.com/mdeff/fma
(300萬)Instacart在線雜貨購物數(shù)據(jù)集【Jeremy Stanley】
https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2
用于欺詐檢測的合成財務數(shù)據(jù)集【TESTIMON】
https://www.kaggle.com/ntnu-testimon/paysim1
NSynth:大規(guī)模高質量音符標記音頻數(shù)據(jù)集
https://magenta.tensorflow.org/datasets/nsynth
LIBSVM格式分類/回歸/多標簽/字符串數(shù)據(jù)集
https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html
筆記本電腦用logistic回歸擬合100G數(shù)據(jù)集【DmitriySelivanov】
http://dsnotes.com/post/2017-02-07-large-data-feature-hashing-and-online-learning-part-2/
StackExchange近似/重復問題數(shù)據(jù)集
http://nlp.cis.unimelb.edu.au/resources/cqadupstack/
2010-2017最全KDD CUP賽題回顧及數(shù)據(jù)集
http://suo.im/2kRoQ1
食譜數(shù)據(jù)集:帶有評級、營養(yǎng)及類別信息的超過2萬種食譜【HugoDarwood】
https://www.kaggle.com/hugodarwood/epirecipes
奧斯卡數(shù)據(jù)集【Academy of Motion Picture Arts and Sciences】
https://www.kaggle.com/theacademy/academy-awards
計算醫(yī)療庫:(TensorFlow)大型醫(yī)療數(shù)據(jù)集分析與機器學習建?!続kshayBhat】
https://github.com/AKSHAYUBHAT/ComputationalHealthcare
聚類數(shù)據(jù)集
https://cs.joensuu.fi/sipu/datasets/
官方開放氣候數(shù)據(jù)集
https://pan.baidu.com/s/1i52Xarb
全球恐怖襲擊事件數(shù)據(jù)集【START Consortium】
https://www.kaggle.com/START-UMD/gtd
七個機器學習時序數(shù)據(jù)集
https://machinelearningmastery.com/time-series-datasets-for-machine-learning/
大型眾包關系數(shù)據(jù)庫自然語言查詢語義解析數(shù)據(jù)集(8萬+查詢樣本)
http://t.cn/RNMr09n
賽馬賠率數(shù)據(jù)集
http://t.cn/RNf0tXN
新的YELP數(shù)據(jù)集:包含470萬評論和15.6萬商家
http://t.cn/RNG6JYi
JMIR數(shù)據(jù)集專刊《JMIR Data》
http://t.cn/RCIhmvS
日文木版印刷文字識別數(shù)據(jù)集
http://t.cn/RCZPfYB
多模態(tài)二元行為數(shù)據(jù)集
http://t.cn/RCzFn1g
機器學習論文/數(shù)據(jù)集/工具集錦(日文)
http://t.cn/RKV7x2A
機器學習公司的十大數(shù)據(jù)搜集策略
http://t.cn/R54rtvd
NLP數(shù)據(jù)集加載工具集
http://t.cn/RaYwYXl
日語相似詞數(shù)據(jù)集
http://t.cn/RaVFV35
大規(guī)模人本完形填空(多選閱讀理解)數(shù)據(jù)集
http://t.cn/Rac2Pey
高質量免費數(shù)據(jù)集列表
http://t.cn/R6B1aqa
《數(shù)據(jù)之美》自然語言數(shù)據(jù)集/代碼
http://t.cn/hBOTM4
微軟數(shù)據(jù)集MS MARCO,閱讀理解領域的「ImageNet」
http://t.cn/RIMqGBK
AI2科學問答數(shù)據(jù)集(多選)
http://t.cn/RI5liwJ
(分類,跟蹤,分割,檢測等)
搜狗實驗室數(shù)據(jù)集:
http://www.sogou.com/labs/dl/p.html
互聯(lián)網(wǎng)圖片庫來自sogou圖片搜索所索引的部分數(shù)據(jù)。其中收集了包括人物、動物、建筑、機械、風景、運動等類別,總數(shù)高達2,836,535張圖片。對于每張圖片,數(shù)據(jù)集中給出了圖片的原圖、縮略圖、所在網(wǎng)頁以及所在網(wǎng)頁中的相關文本。200多G
http://www.imageclef.org/
IMAGECLEF致力于位圖片相關領域提供一個基準(檢索、分類、標注等等) Cross Language Evaluation Forum (CLEF) 。從2003年開始每年舉行一次比賽.
http://staff.science.uva.nl/~xirong/index.php?n=Main.Dataset
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關微信群。請勿在群內發(fā)送廣告,否則會請出群,謝謝理解~

