1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        【深度學(xué)習(xí)】PyTorch 常用 Tricks 總結(jié)

        共 6383字,需瀏覽 13分鐘

         ·

        2022-05-27 21:25

        作者:z.defying

        轉(zhuǎn)載自:Datawhale


        目錄:

        1 指定GPU編號(hào)

        2 查看模型每層輸出詳情

        3 梯度裁剪

        4 擴(kuò)展單張圖片維度

        5 獨(dú)熱編碼

        6 防止驗(yàn)證模型時(shí)爆顯存

        7 學(xué)習(xí)率衰減

        8 凍結(jié)某些層的參數(shù)

        9 對(duì)不同層使用不同學(xué)習(xí)率


        1. 指定GPU編號(hào)


        設(shè)置當(dāng)前使用的GPU設(shè)備僅為0號(hào)設(shè)備,設(shè)備名稱為?/gpu:0
        os.environ["CUDA_VISIBLE_DEVICES"] = "0"


        設(shè)置當(dāng)前使用的GPU設(shè)備為0, 1號(hào)兩個(gè)設(shè)備,名稱依次為?/gpu:0、/gpu:1:?
        os.environ["CUDA_VISIBLE_DEVICES"] = "0,1"?,根據(jù)順序表示優(yōu)先使用0號(hào)設(shè)備,然后使用1號(hào)設(shè)備。


        指定GPU的命令需要放在和神經(jīng)網(wǎng)絡(luò)相關(guān)的一系列操作的前面。


        2. 查看模型每層輸出詳情


        Keras有一個(gè)簡潔的API來查看模型的每一層輸出尺寸,這在調(diào)試網(wǎng)絡(luò)時(shí)非常有用?,F(xiàn)在在PyTorch中也可以實(shí)現(xiàn)這個(gè)功能。


        使用很簡單,如下用法:


        from torchsummary import summarysummary(your_model, input_size=(channels, H, W))


        input_size?是根據(jù)你自己的網(wǎng)絡(luò)模型的輸入尺寸進(jìn)行設(shè)置。


        https://github.com/sksq96/pytorch-summary


        3. 梯度裁剪(Gradient Clipping)


        import torch.nn as nn
        outputs = model(data)loss= loss_fn(outputs, target)optimizer.zero_grad()loss.backward()nn.utils.clip_grad_norm_(model.parameters(), max_norm=20, norm_type=2)optimizer.step()

        nn.utils.clip_grad_norm_?的參數(shù):

        • parameters?– 一個(gè)基于變量的迭代器,會(huì)進(jìn)行梯度歸一化

        • max_norm?– 梯度的最大范數(shù)

        • norm_type?– 規(guī)定范數(shù)的類型,默認(rèn)為L2


        知乎用戶 @不橢的橢圓 提出:梯度裁剪在某些任務(wù)上會(huì)額外消耗大量的計(jì)算時(shí)間。


        4. 擴(kuò)展單張圖片維度


        因?yàn)樵谟?xùn)練時(shí)的數(shù)據(jù)維度一般都是 (batch_size, c, h, w),而在測試時(shí)只輸入一張圖片,所以需要擴(kuò)展維度,擴(kuò)展維度有多個(gè)方法:


        import cv2import torch
        image = cv2.imread(img_path)image = torch.tensor(image)print(image.size())
        img = image.view(1, *image.size())print(img.size())
        # output:# torch.Size([h, w, c])# torch.Size([1, h, w, c])

        import cv2import numpy as np
        image = cv2.imread(img_path)print(image.shape)img = image[np.newaxis, :, :, :]print(img.shape)
        # output:# (h, w, c)# (1, h, w, c)

        或(感謝知乎用戶?@coldleaf?的補(bǔ)充)

        import cv2import torch
        image = cv2.imread(img_path)image = torch.tensor(image)print(image.size())
        img = image.unsqueeze(dim=0) print(img.size())
        img = img.squeeze(dim=0)print(img.size())
        # output:# torch.Size([(h, w, c)])# torch.Size([1, h, w, c])# torch.Size([h, w, c])


        tensor.unsqueeze(dim):擴(kuò)展維度,dim指定擴(kuò)展哪個(gè)維度。

        tensor.squeeze(dim):去除dim指定的且size為1的維度,維度大于1時(shí),squeeze()不起作用,不指定dim時(shí),去除所有size為1的維度。


        5. 獨(dú)熱編碼


        在PyTorch中使用交叉熵?fù)p失函數(shù)的時(shí)候會(huì)自動(dòng)把label轉(zhuǎn)化成onehot,所以不用手動(dòng)轉(zhuǎn)化,而使用MSE需要手動(dòng)轉(zhuǎn)化成onehot編碼。


        import torchclass_num = 8batch_size = 4
        def one_hot(label): """ 將一維列表轉(zhuǎn)換為獨(dú)熱編碼 """ label = label.resize_(batch_size, 1) m_zeros = torch.zeros(batch_size, class_num) # 從 value 中取值,然后根據(jù) dim 和 index 給相應(yīng)位置賦值 onehot = m_zeros.scatter_(1, label, 1) # (dim,index,value)
        return onehot.numpy() # Tensor -> Numpy
        label = torch.LongTensor(batch_size).random_() % class_num # 對(duì)隨機(jī)數(shù)取余print(one_hot(label))
        # output:[[0. 0. 0. 1. 0. 0. 0. 0.] [0. 0. 0. 0. 1. 0. 0. 0.] [0. 0. 1. 0. 0. 0. 0. 0.] [0. 1. 0. 0. 0. 0. 0. 0.]]


        https://discuss.pytorch.org/t/convert-int-into-one-hot-format/507/3


        6. 防止驗(yàn)證模型時(shí)爆顯存


        驗(yàn)證模型時(shí)不需要求導(dǎo),即不需要梯度計(jì)算,關(guān)閉autograd,可以提高速度,節(jié)約內(nèi)存。如果不關(guān)閉可能會(huì)爆顯存。


        with torch.no_grad():    # 使用model進(jìn)行預(yù)測的代碼????pass

        感謝知乎用戶 @zhaz 的提醒,我把?torch.cuda.empty_cache()?的使用原因更新一下。


        這是原回答:

        Pytorch 訓(xùn)練時(shí)無用的臨時(shí)變量可能會(huì)越來越多,導(dǎo)致 out of memory ,可以使用下面語句來清理這些不需要的變量。


        官網(wǎng)上的解釋為:

        Releases all unoccupied cached memory currently held by the caching allocator so that those can be used in other GPU application and visible innvidia-smi.torch.cuda.empty_cache()


        意思就是PyTorch的緩存分配器會(huì)事先分配一些固定的顯存,即使實(shí)際上tensors并沒有使用完這些顯存,這些顯存也不能被其他應(yīng)用使用。這個(gè)分配過程由第一次CUDA內(nèi)存訪問觸發(fā)的。


        ?torch.cuda.empty_cache()?的作用就是釋放緩存分配器當(dāng)前持有的且未占用的緩存顯存,以便這些顯存可以被其他GPU應(yīng)用程序中使用,并且通過?nvidia-smi命令可見。注意使用此命令不會(huì)釋放tensors占用的顯存。


        對(duì)于不用的數(shù)據(jù)變量,Pytorch 可以自動(dòng)進(jìn)行回收從而釋放相應(yīng)的顯存。


        更詳細(xì)的優(yōu)化可以查看:
        優(yōu)化顯存使用:
        https://blog.csdn.net/qq_28660035/article/details/80688427
        顯存利用問題:
        https://oldpan.me/archives/pytorch-gpu-memory-usage-track


        7. 學(xué)習(xí)率衰減


        import torch.optim as optimfrom torch.optim import lr_scheduler
        # 訓(xùn)練前的初始化optimizer = optim.Adam(net.parameters(), lr=0.001)scheduler = lr_scheduler.StepLR(optimizer, 10, 0.1) # # 每過10個(gè)epoch,學(xué)習(xí)率乘以0.1
        # 訓(xùn)練過程中for n in n_epoch: scheduler.step() ...

        8. 凍結(jié)某些層的參數(shù)


        參考:Pytorch 凍結(jié)預(yù)訓(xùn)練模型的某一層
        https://www.zhihu.com/question/311095447/answer/589307812


        在加載預(yù)訓(xùn)練模型的時(shí)候,我們有時(shí)想凍結(jié)前面幾層,使其參數(shù)在訓(xùn)練過程中不發(fā)生變化。


        我們需要先知道每一層的名字,通過如下代碼打?。?/span>


        net = Network()  # 獲取自定義網(wǎng)絡(luò)結(jié)構(gòu)for name, value in net.named_parameters():    print('name: {0},\t grad: {1}'.format(name, value.requires_grad))

        假設(shè)前幾層信息如下:


        name: cnn.VGG_16.convolution1_1.weight,   grad: Truename: cnn.VGG_16.convolution1_1.bias,   grad: Truename: cnn.VGG_16.convolution1_2.weight,   grad: Truename: cnn.VGG_16.convolution1_2.bias,   grad: Truename: cnn.VGG_16.convolution2_1.weight,   grad: Truename: cnn.VGG_16.convolution2_1.bias,   grad: Truename: cnn.VGG_16.convolution2_2.weight,   grad: Truename: cnn.VGG_16.convolution2_2.bias,   grad: True


        后面的True表示該層的參數(shù)可訓(xùn)練,然后我們定義一個(gè)要凍結(jié)的層的列表:


        no_grad = [    'cnn.VGG_16.convolution1_1.weight',    'cnn.VGG_16.convolution1_1.bias',    'cnn.VGG_16.convolution1_2.weight',    'cnn.VGG_16.convolution1_2.bias']


        凍結(jié)方法如下:


        net = Net.CTPN()  # 獲取網(wǎng)絡(luò)結(jié)構(gòu)for name, value in net.named_parameters():    if name in no_grad:        value.requires_grad = False    else:        value.requires_grad = True

        凍結(jié)后我們?cè)俅蛴∶繉拥男畔ⅲ?/span>


        name: cnn.VGG_16.convolution1_1.weight,   grad: Falsename: cnn.VGG_16.convolution1_1.bias,   grad: Falsename: cnn.VGG_16.convolution1_2.weight,   grad: Falsename: cnn.VGG_16.convolution1_2.bias,   grad: Falsename: cnn.VGG_16.convolution2_1.weight,   grad: Truename: cnn.VGG_16.convolution2_1.bias,   grad: Truename: cnn.VGG_16.convolution2_2.weight,   grad: Truename: cnn.VGG_16.convolution2_2.bias,   grad: True

        可以看到前兩層的weight和bias的requires_grad都為False,表示它們不可訓(xùn)練。


        最后在定義優(yōu)化器時(shí),只對(duì)requires_grad為True的層的參數(shù)進(jìn)行更新。


        optimizer = optim.Adam(filter(lambda p: p.requires_grad, net.parameters()), lr=0.01)

        9. 對(duì)不同層使用不同學(xué)習(xí)率


        我們對(duì)模型的不同層使用不同的學(xué)習(xí)率。


        還是使用這個(gè)模型作為例子:


        net = Network()  # 獲取自定義網(wǎng)絡(luò)結(jié)構(gòu)for name, value in net.named_parameters():    print('name: {}'.format(name))
        # 輸出:# name: cnn.VGG_16.convolution1_1.weight# name: cnn.VGG_16.convolution1_1.bias# name: cnn.VGG_16.convolution1_2.weight# name: cnn.VGG_16.convolution1_2.bias# name: cnn.VGG_16.convolution2_1.weight# name: cnn.VGG_16.convolution2_1.bias# name: cnn.VGG_16.convolution2_2.weight# name: cnn.VGG_16.convolution2_2.bias

        對(duì) convolution1 和 convolution2 設(shè)置不同的學(xué)習(xí)率,首先將它們分開,即放到不同的列表里:


        conv1_params = []conv2_params = []
        for name, parms in net.named_parameters(): if "convolution1" in name: conv1_params += [parms] else: conv2_params += [parms]
        # 然后在優(yōu)化器中進(jìn)行如下操作:optimizer = optim.Adam( [ {"params": conv1_params, 'lr': 0.01}, {"params": conv2_params, 'lr': 0.001}, ], weight_decay=1e-3,)

        我們將模型劃分為兩部分,存放到一個(gè)列表里,每部分就對(duì)應(yīng)上面的一個(gè)字典,在字典里設(shè)置不同的學(xué)習(xí)率。當(dāng)這兩部分有相同的其他參數(shù)時(shí),就將該參數(shù)放到列表外面作為全局參數(shù),如上面的`weight_decay`。


        也可以在列表外設(shè)置一個(gè)全局學(xué)習(xí)率,當(dāng)各部分字典里設(shè)置了局部學(xué)習(xí)率時(shí),就使用該學(xué)習(xí)率,否則就使用列表外的全局學(xué)習(xí)率。

        往期精彩回顧




        瀏覽 41
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            久久视频免费在线观看 | 另类激情五月天 | 秋霞网一区二区 | 荡娇妻荒淫史1~5全文阅读 | 五月丁香乱伦 | 免费看黄 的网站 | 久久国产乱子 | 国产主播一区二区三区 | 日本免费高清一区二区三区 | 国产精品中文字幕在线播放 |