干貨 | 百度實(shí)習(xí)算法崗面試題分享!

問題1:LR推導(dǎo)目標(biāo)函數(shù)并求梯度
邏輯回歸損失函數(shù)及梯度推導(dǎo)公式如下:

求導(dǎo):


問題2:GBDT和XGBOOST差別
1、利用二階信息;
2、處理缺失值;
3、弱分類器選擇;
4、列抽樣和行抽樣;
5、正則項(xiàng)做預(yù)剪枝;
6、并行化處理(特征排序等)。

?
問題3:Batch Normalization 缺點(diǎn)
batch太小,會(huì)造成波動(dòng)大;對于文本數(shù)據(jù),不同有效長度問題;測試集上兩個(gè)數(shù)據(jù)均值和方差差別很大就不合適了
附:LN是對一個(gè)樣本的一個(gè)時(shí)間步上的數(shù)據(jù)進(jìn)行減均除標(biāo)準(zhǔn)差,然后再回放(參數(shù)學(xué)習(xí))對應(yīng)到普通線性回歸就是一層節(jié)點(diǎn)求均除標(biāo)準(zhǔn)差。

?
問題4:分詞如何做
基于規(guī)則(超大詞表);基于統(tǒng)計(jì)(兩字同時(shí)出現(xiàn)越多,就越可能是詞);基于網(wǎng)絡(luò)LSTM+CRF詞性標(biāo)注,也可以分詞。

?
問題5:Adam缺點(diǎn)
后期梯度很小,幾乎不動(dòng)了,沒有SGD好,前期快是優(yōu)點(diǎn);泛化能力不強(qiáng)。

問題6:各類激活函數(shù)優(yōu)缺點(diǎn)
常見的激活函數(shù)有:Sigmoid、Tanh、ReLU、Leaky ReLU
Sigmoid函數(shù):
特點(diǎn):它能夠把輸入的連續(xù)實(shí)值變換為0和1之間的輸出,特別的,如果是非常大的負(fù)數(shù),那么輸出就是0;如果是非常大的正數(shù),輸出就是1。
缺點(diǎn):
缺點(diǎn)1:在深度神經(jīng)網(wǎng)絡(luò)中梯度反向傳遞時(shí)導(dǎo)致梯度消失,其中梯度爆炸發(fā)生的概率非常小,而梯度消失發(fā)生的概率比較大。
缺點(diǎn)2:Sigmoid 的 output不是0均值(即zero-centered)。
缺點(diǎn)3:其解析式中含有冪運(yùn)算,計(jì)算機(jī)求解時(shí)相對來講比較耗時(shí)。對于規(guī)模比較大的深度網(wǎng)絡(luò),這會(huì)較大地增加訓(xùn)練時(shí)間。
Tanh函數(shù):
特點(diǎn):它解決了Sigmoid函數(shù)的不是zero-centered輸出問題,收斂速度比sigmoid要快,然而,梯度消失(gradient vanishing)的問題和冪運(yùn)算的問題仍然存在。
ReLU函數(shù):
特點(diǎn):
1.ReLu函數(shù)是利用閾值來進(jìn)行因變量的輸出,因此其計(jì)算復(fù)雜度會(huì)比剩下兩個(gè)函數(shù)低(后兩個(gè)函數(shù)都是進(jìn)行指數(shù)運(yùn)算)
2.ReLu函數(shù)的非飽和性可以有效地解決梯度消失的問題,提供相對寬的激活邊界。
3.ReLU的單側(cè)抑制提供了網(wǎng)絡(luò)的稀疏表達(dá)能力。
?
ReLU的局限性:在于其訓(xùn)練過程中會(huì)導(dǎo)致神經(jīng)元死亡的問題。
這是由于函數(shù)f(x)=max(0,x)導(dǎo)致負(fù)梯度在經(jīng)過該ReLU單元時(shí)被置為0,且在之后也不被任何數(shù)據(jù)激活,即流經(jīng)該神經(jīng)元的梯度永遠(yuǎn)為0,不對任何數(shù)據(jù)產(chǎn)生響應(yīng)。在實(shí)際訓(xùn)練中,如果學(xué)習(xí)率(Learning Rate)設(shè)置較大,會(huì)導(dǎo)致超過一定比例的神經(jīng)元不可逆死亡,進(jìn)而參數(shù)梯度無法更新,整個(gè)訓(xùn)練過程失敗。
Leaky ReLu函數(shù):
LReLU與ReLU的區(qū)別在于, 當(dāng)z<0時(shí)其值不為0,而是一個(gè)斜率為a的線性函數(shù),一般a為一個(gè)很小的正常數(shù), 這樣既實(shí)現(xiàn)了單側(cè)抑制,又保留了部分負(fù)梯度信息以致不完全丟失。但另一方面,a值的選擇增加了問題難度,需要較強(qiáng)的人工先驗(yàn)或多次重復(fù)訓(xùn)練以確定合適的參數(shù)值。
基于此,參數(shù)化的PReLU(Parametric ReLU)應(yīng)運(yùn)而生。它與LReLU的主要區(qū)別是將負(fù)軸部分斜率a作為網(wǎng)絡(luò)中一個(gè)可學(xué)習(xí)的參數(shù),進(jìn)行反向傳播訓(xùn)練,與其他含參數(shù)網(wǎng)絡(luò)層聯(lián)合優(yōu)化。而另一個(gè)LReLU的變種增加了“隨機(jī)化”機(jī)制,具體地,在訓(xùn)練過程中,斜率a作為一個(gè)滿足某種分布的隨機(jī)采樣;測試時(shí)再固定下來。Random ReLU(RReLU)在一定程度上能起到正則化的作用。
?
ELU函數(shù):
ELU函數(shù)是針對ReLU函數(shù)的一個(gè)改進(jìn)型,相比于ReLU函數(shù),在輸入為負(fù)數(shù)的情況下,是有一定的輸出的,而且這部分輸出還具有一定的抗干擾能力。這樣可以消除ReLU死掉的問題,不過還是有梯度飽和和指數(shù)運(yùn)算的問題。

?
問題7:畫一下Transformer結(jié)構(gòu)圖


問題8:word2vector負(fù)采樣時(shí)為什么要對頻率做3/4次方?
在保證高頻詞容易被抽到的大方向下,通過權(quán)重3/4次冪的方式,適當(dāng)提升低頻詞、罕見詞被抽到的概率。如果不這么做,低頻詞,罕見詞很難被抽到,以至于不被更新到對應(yīng)Embedding。
— 推薦閱讀 — 最新大廠面試題
干貨資料
AI開源項(xiàng)目論文
NLP ( 自然語言處理 )
CV(計(jì)算機(jī)視覺)
推薦
戳↓↓“閱讀原文”領(lǐng)取PDF!

