1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        下載kaggle數(shù)據(jù)集的小妙招

        共 2525字,需瀏覽 6分鐘

         ·

        2021-03-11 15:12

        ↑↑↑點擊上方藍字,回復(fù)資料,10個G的驚喜

        kaggle是很多數(shù)據(jù)分析和機器學(xué)習(xí)初學(xué)者非常喜愛的數(shù)據(jù)科學(xué)競賽平臺。

        這個平臺上有很多接近現(xiàn)實業(yè)務(wù)場景的數(shù)據(jù)集,非常適合練手。

        今天向大家推薦一個下載kaggle數(shù)據(jù)集的小工具——kaggleAPI 

        配置好之后,可以寫個腳本,以后下載數(shù)據(jù)就方便多了。

        安裝

        pip install kaggle

        安裝完畢之后執(zhí)行

        kaggle compeitions list

        然后就會報錯,提示沒有kaggle.json文件,不用理他。
        這一步主要是讓其運行后生成配置文件夾,一般在C盤-用戶-用戶名下的.kaggle

        配置

        登錄kaggle官網(wǎng)右上角頭像處點擊,選擇Account進去之后滾動到最下面API處,選擇Create New API Token

        然后就會自動下載一個kaggle.json文件,另存到第一步那個.kaggle文件夾

        下載數(shù)據(jù)集

        再執(zhí)行以下

        kaggle compeitions list

        可以看到近期的一些競賽,重點關(guān)注以下獎金??

        除了list,kaggle competitions 還有一些其他用法,不展開講了。

        kaggle competitions {list, files, download, submit, submissions, leaderboard}

        大家最關(guān)心的數(shù)據(jù)集下載

        kaggle datasets{list,files,download,create,version,init,metadata,status}

        比較常用的是:list(可用數(shù)據(jù)集列表)、files(數(shù)據(jù)文件)、download(下載)

        kaggle datasets list

        用法

        usage: kaggle datasets list [-h] [--sort-by SORT_BY]
        [--size SIZE] [--file-type FILE_TYPE] [--license LICENSE_NAME] 
        [--tags TaG_IDS] [-s SEARCH] [-m] [--user USER] [-p PAGE] [-v]

        這個里面還有2個常用的參數(shù):-s 搜索,后面可以加關(guān)鍵詞;-p 展示多少行,默認(rèn)是20

        kaggle datasets download

        用法

        usage: kaggle datasets download 
        [-h] [-f FILE_NAME] [-p PATH] [-w] [--unzip]
        [-o] [-q][dataset]

        更真實的用法

        如果單純在cmd執(zhí)行個下載指令就大材小用了,我們還可以用kaggleAPI寫shell腳本完成更復(fù)雜的用法,比如:

        #!/bin/sh
        DATASET="noxmoon/chinese-official-daily-news-since-2016"
        ARCHIVE_FILE="chinese-official-daily-news-since-2016.zip"
        DATA_FILE="chinese_news.csv"
        DATA_DIR="data"
        COL_NAME="headline"
        LINES=3000
        OUTPUT_FILE="headlines.txt"

        if [ -d ${DATA_DIR} ]; then
          echo ${DATA_DIR}' exists, please remove it before running the script'
          exit 1
        fi

        echo "Creating dir"
        mkdir -p ${DATA_DIR}
        cd ${DATA_DIR}
        kaggle datasets download -d ${DATASET}
        unzip ${ARCHIVE_FILE}

        echo "Deleting original dataset archive"
        rm -f ${ARCHIVE_FILE}

        echo "Extracting, cutting, shuffling data"
        awk  -v col=$COL_NAME -F "\"*,\"*" '{print $COL_NAME}' $DATA_FILE | shuf -n 3000 > ${OUTPUT_FILE}

        下載-解壓一氣呵成!

        如有收獲,歡迎給個在看!轉(zhuǎn)發(fā)!

        也可以加一下老胡的微信
        圍觀朋友圈~~~


        推薦閱讀

        (點擊標(biāo)題可跳轉(zhuǎn)閱讀)

        100天搞定機器學(xué)習(xí)|Day1-62 合集

        所以,機器學(xué)習(xí)和深度學(xué)習(xí)的區(qū)別是什么?
        墻裂建議收藏,100道Python練手題目

        老鐵,三連支持一下,好嗎?↓↓↓

        瀏覽 60
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            黄色操逼视频在线观看 | 国产黄片观看 | 操操操屄 | 成人AV一AV二 | www.啪啪 | 一女二男3p波多野结衣 | 在线观看亚洲国产 | 日本操逼视频免费观看 | 人妻中文字幕一区二区三区三区 | 青春草在线观看 |