1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        PyTorch常見踩坑匯總

        共 3812字,需瀏覽 8分鐘

         ·

        2021-02-22 11:41


        作者:郁振波

        轉自:Datawhale


        最近剛開始用pytorch不久,陸陸續(xù)續(xù)踩了不少坑,記錄一下,個人感覺應該都是一些很容易遇到的一些坑,也在此比較感謝幫我排坑的小伙伴,持續(xù)更新,也祝愿自己遇到的坑越來越少。


        首先作為tensorflow的骨灰級玩家+輕微強迫癥患者,一路打怪升級,從0.6版本用到1.2,再用到1.10,經歷了tensorfow數個版本更迭,這里不得不說一下tf.data.dataset+tfrecord使用起來效率遠比dataloader高的多。


        tensorflow有一個比較好用的隊列機制,tf.inputproducer + tfrecord, 但是inputproducer有一個bug,就是無法對每個epoch單獨shuffle,它只能整體shuffle,也就意味著我們無法進行正常的訓練流程(train幾個epoch,在validation上測一個epoch,最終選一個validation上的最好的結果,進行test)。后來我當時給官方提了一個issue,官方當時的回答是,這個bug目前無法解決,但是他們在即將到來的tf1.2版本中, 推出的新型數據處理API tf.contrib.data.dataset(tf1.3版本將其合并到了tf.data.dataset)可以完美解決這個bug,并且將于tf2.0摒棄tf.input_producer。然后tf1.2版本剛出來以后,我就立馬升級并且開始tf.data.dataset踩坑,踩了大概2周多的坑,(這個新版的API其實功能并不是非常強大,有不少局限性,在此就不展開)。


        好像扯遠了,回歸pytorch,首先讓我比較尷尬的是pytorch并沒有一套屬于自己的數據結構以及數據讀取算法,dataloader個人感覺其實就是類似于tf中的feed,并沒有任何速度以及性能上的提升。


        先總結一下遇到的坑:


        1. 沒有比較高效的數據存儲,tensorflow有tfrecord, caffe有l(wèi)mdb,cv.imread在網絡訓練過程中實屬浪費時間。這里感謝一下小智大神@智天成


        解決方案:


        當時看到了一個還不錯的github鏈接:


        https://github.com/Lyken17/Efficient-PyTorch


        主要是講如何使用lmdb,h5py,pth,lmdb,n5等數據存儲方式皆可以。


        個人的感受是,h5在數據調用上比較快,但是如果要使用多線程讀寫,就盡量不要使用h5,因為h5的多線程讀寫好像比較麻煩。


        http://docs.h5py.org/en/stable/mpi.html


        這里貼一下h5數據的讀寫代碼(主要需要注意的是字符串的讀寫需要encode,decode,最好用create_dataset,直接寫的話讀的時候會報錯):


        寫:    imagenametotal_.append(os.path.join('images', imagenametotal).encode())    with h5py.File(outfile) as f:        f.create_dataset('imagename', data=imagenametotal_)        f['part'] = parts_        f['S'] = Ss_        f['image'] = cvimgs讀:with h5py.File(outfile) as f:    imagename = [x.decode() for x in f['imagename']]    kp2ds = np.array(f['part'])    kp3ds = np.array(f['S'])    cvimgs = np.array(f['image'])


        2. gpu imbalance,這里感謝一下張航學長@張航


        老生常談的問題,第一個GPU顯存占用多一點。


        張航學長提了一個開源的gpu balance的工具—PyTorch-Encoding。


        https://github.com/zhanghang1989/PyTorch-Encoding


        使用方法還是比較便捷的,如下所示:


        from balanced_parallel import DataParallelModel, DataParallelCriterionmodel = DataParallelModel(model, device_ids=gpus).cuda()criterion = loss_fn().cuda()


        這里其實有2個注意點,第一,測試的時候需要手動將gpu合并,代碼如下:


        from torch.nn.parallel.scatter_gather import gatherpreds = gather(preds, 0)


        第二,當loss函數有多個組成的時候,比如 loss = loss1 + loss2 + loss3


        那么需要把這三個loss寫到一個class中,然后再forward里面將其加起來。


        其次,我們還可以用另外一個函數distributedDataParallel來解決gpu imbalance的問題。


        使用方法如下:(注:此方法好像無法和h5數據同時使用)


        from torch.utils.data.distributed import DistributedSamplerfrom torch.nn.parallel import DistributedDataParallel
        torch.distributed.init_process_group(backend="nccl")# 配置每個進程的gpulocal_rank = torch.distributed.get_rank()torch.cuda.set_device(local_rank)device = torch.device("cuda", local_rank)
        #封裝之前要把模型移到對應的gpumodel.to(device)model = torch.nn.parallel.DistributedDataParallel(model,device_ids=[local_rank], output_device=local_rank)
        #原有的dataloader上面加一個數據sampletrain_loader = torch.utils.data.DataLoader( train_dataset, sampler=DistributedSampler(train_dataset) )


        3. gpu利用率不高+gpu現存占用浪費


        常用配置:


        (1)主函數前面加:(這個會犧牲一點點現存提高模型精度)


        cudnn.benchmark = Truetorch.backends.cudnn.deterministic = Falsetorch.backends.cudnn.enabled = True


        (2)訓練時,epoch前面加:(定期清空模型,效果感覺不明顯)


        torch.cuda.empty_cache()


        (3)無用變量前面加:(同上,效果某些操作上還挺明顯的)


        del xxx(變量名)


        (4)dataloader的長度_len_設置:(dataloader會間歇式出現卡頓,設置成這樣會避免不少)


        def __len__(self):    return self.images.shape[0]


        (5)dataloader的預加載設置:(會在模型訓練的時候加載數據,提高一點點gpu利用率)


        train_loader = torch.utils.data.DataLoader(        train_dataset,        pin_memory=True,    )


        (6)網絡設計很重要,外加不要初始化任何用不到的變量,因為pyroch的初始化和forward是分開的,他不會因為你不去使用,而不去初始化。


        (7)最后放一張目前依舊困擾我的圖片:

        可以看到,每個epoch剛開始訓練數據的時候,第一個iteration時間會占用的非常多,pytorch這里就做的很糟糕,并不是一個動態(tài)分配的過程,我也看到了一個看上去比較靠譜的解決方案,解決方案如下:在深度學習中喂飽 GPU


        但是我看了下代碼,可能需要重構dataloader,看了評論好像還有問題,有點懶,目前還沒有踩坑,準備后面有時間踩一下。


        往期精彩:

        【原創(chuàng)首發(fā)】機器學習公式推導與代碼實現30講.pdf

        【原創(chuàng)首發(fā)】深度學習語義分割理論與實戰(zhàn)指南.pdf

        ?談中小企業(yè)算法崗面試

        ?算法工程師研發(fā)技能表

        ?真正想做算法的,不要害怕內卷

        ?技術學習不能眼高手低

        ?技術人要學會自我營銷

        ?做人不能過擬合

        點個在看

        瀏覽 67
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            啪在线视频| 中国少妇精品 OOO喷水 | 国产情色在线 | 大鸡巴欧美 | 日本免费一级片 | 和欧美老外做爰 | 日韩免费成人 | 國产一二三内射在线看片 | 少妇乱婬AAA高清视频真爽 | www.91爱爱.com |