1. 機(jī)器學(xué)習(xí)經(jīng)典開(kāi)源數(shù)據(jù)集盤(pán)點(diǎn)

        共 1692字,需瀏覽 4分鐘

         ·

        2022-04-19 02:29

        在機(jī)器學(xué)習(xí)任務(wù)實(shí)施前,如何快速尋找到可用數(shù)據(jù)集,是令每一位研究人員最頭痛的事情。本文為大家列舉了八大主流數(shù)據(jù)集來(lái)源,不僅包含大量的數(shù)據(jù)集信息,而且包含了描述、用法以及一些實(shí)施案例等。

        01 Kaggle數(shù)據(jù)集

        Kaggle數(shù)據(jù)集地址
        https://www.kaggle.com/datasets

        這是我最喜歡的數(shù)據(jù)集之一,每個(gè)數(shù)據(jù)集都對(duì)應(yīng)于一個(gè)小型社區(qū),你可以在其中討論數(shù)據(jù)、查找公共代碼,或者在其中創(chuàng)建自己的項(xiàng)目。這里包含了大量不同類(lèi)型、不同結(jié)構(gòu)的數(shù)據(jù)集內(nèi)容。同時(shí),還可以在其中獲取到與每個(gè)數(shù)據(jù)集關(guān)聯(lián)的資料,其中包含了許多數(shù)據(jù)科學(xué)家們提供的數(shù)據(jù)集分析筆記等。

        02 Amazon數(shù)據(jù)集

        AWS開(kāi)放數(shù)據(jù)地址
        https://registry.opendata.aws/

        這個(gè)數(shù)據(jù)集中包含了不同領(lǐng)域的數(shù)據(jù)內(nèi)容,例如:公共交通、生態(tài)資源、衛(wèi)星圖像等。同時(shí)提供了搜索功能,以幫助用戶(hù)找到所需的數(shù)據(jù)集,還有各種數(shù)據(jù)集的描述信息以及用例,非常易于使用。

        數(shù)據(jù)集存儲(chǔ)在Amazon Web Services(AWS)資源中,對(duì)于使用AWS構(gòu)建自己機(jī)器學(xué)習(xí)實(shí)驗(yàn)的用戶(hù)來(lái)說(shuō),傳輸速度將非常塊。

        03 UCI機(jī)器學(xué)習(xí)數(shù)據(jù)集

        UCI數(shù)據(jù)集地址:
        https://archive.ics.uci.edu/ml/datasets.html

        這個(gè)數(shù)據(jù)集來(lái)自于加州大學(xué)信息與計(jì)算機(jī)科學(xué)學(xué)院,其中包含了100多個(gè)數(shù)據(jù)集。根據(jù)機(jī)器學(xué)習(xí)問(wèn)題的類(lèi)型對(duì)數(shù)據(jù)集進(jìn)行分類(lèi),可找到單變量或多變量時(shí)間序列數(shù)據(jù)集,以及分類(lèi)、回歸或推薦系統(tǒng)的數(shù)據(jù)集。

        04 Google??
        數(shù)據(jù)集搜索引擎

        Google數(shù)據(jù)集搜索引擎
        https://toolbox.google.com/datasetsearch

        在2018年末,Google推出了數(shù)據(jù)集搜索服務(wù)。這是一個(gè)可以按名稱(chēng)搜索數(shù)據(jù)集的搜索引擎,目標(biāo)是為數(shù)萬(wàn)個(gè)不同數(shù)據(jù)集存儲(chǔ)庫(kù)提供統(tǒng)一搜索入口,非常好用。

        05 微軟數(shù)據(jù)集

        在2018年7月,微軟與外界研究社區(qū)一起,發(fā)布了微軟研究開(kāi)發(fā)數(shù)據(jù)。

        微軟數(shù)據(jù)集地址:
        https://msropendata.com/

        它包含了云服務(wù)器中的數(shù)據(jù)存儲(chǔ)庫(kù),致力于促進(jìn)全球研究社區(qū)的協(xié)作,并在其中提供了一系列用于已發(fā)表研究的數(shù)據(jù)集內(nèi)容。

        06 Awesome??開(kāi)放數(shù)據(jù)集收藏列表

        Awesom Public Datasets
        https://github.com/awesomedata/awesome-public-datasets

        本數(shù)據(jù)集列表中,按主題整理了大量的數(shù)據(jù)集內(nèi)容,例如:生物學(xué)、經(jīng)濟(jì)學(xué)、教育等。其中列出的大多數(shù)數(shù)據(jù)集都是免費(fèi)的,但在使用任何數(shù)據(jù)集之前,均需檢查數(shù)據(jù)集的許可要求。

        07 政府?dāng)?shù)據(jù)集

        許多國(guó)家均在網(wǎng)絡(luò)上提供了多種公眾可用的政府?dāng)?shù)據(jù)集內(nèi)容,例如:

        歐洲政府?dāng)?shù)據(jù)集
        https://data.europa.eu/euodp/data/dataset

        美國(guó)政府?dāng)?shù)據(jù)集
        https://www.data.gov/

        新西蘭政府?dāng)?shù)據(jù)集
        https://catalogue.data.govt.nz/dataset

        印度政府?dāng)?shù)據(jù)集
        https://data.gov.in/

        北愛(ài)爾蘭公共數(shù)據(jù)集
        https://www.opendatani.gov.uk/

        08 VisualData數(shù)據(jù)集

        VisualData數(shù)據(jù)集
        https://www.visualdata.io/

        視覺(jué)數(shù)據(jù)包含了一些用于構(gòu)建計(jì)算機(jī)視覺(jué)模型的優(yōu)秀數(shù)據(jù)集,用戶(hù)可通過(guò)某個(gè)CV主題查詢(xún),例如語(yǔ)義分割、圖像標(biāo)題、圖像生成、自動(dòng)駕駛汽車(chē)等內(nèi)容。

        總之,從目前觀察到的現(xiàn)象看,似乎存在一個(gè)全球性的方向,即向研究與機(jī)器學(xué)習(xí)社區(qū)提供越來(lái)越多的數(shù)據(jù)。這些新數(shù)據(jù)集的社區(qū)將繼續(xù)發(fā)展并使數(shù)據(jù)更加易用,以便眾包與計(jì)算機(jī)科學(xué)界能夠繼續(xù)快速創(chuàng)新,并為未來(lái)生活帶來(lái)更多創(chuàng)造性的方案。

        原文鏈接:
        https://medium.com/datadriveninvestor/top-8-sources-for-machine-learning-and-analytics-datasets-5d2d94ada8ab?
        僅供學(xué)術(shù)分享,侵刪

        瀏覽 87
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
          
          

            1. 日本东京热一区二区 | 国产成人精品久久久 | 欧美不卡一区二区 | 伊人在线观看免费完整版 | 91午夜理伦私人影院 |