【機(jī)器學(xué)習(xí)基礎(chǔ)】3 個(gè)優(yōu)秀的模型調(diào)優(yōu)策略
點(diǎn)擊關(guān)注公眾號(hào),干貨及時(shí)送達(dá)
作者:Xiaoyou Wang?轉(zhuǎn)自:機(jī)器之心編譯
無論是 Kaggle 競(jìng)賽還是工業(yè)部署,機(jī)器學(xué)習(xí)模型在搭建起來之后都面臨著無盡的調(diào)優(yōu)需求。在這個(gè)過程中我們要遵循怎樣的思路呢?
https://www.mage.ai/blog/definitive-guide-to-accuracy-precision-recall-for-product-developers
https://www.mage.ai/blog/product-developers-guide-to-ml-regression-model-metrics



創(chuàng)建一個(gè)功能來計(jì)算文本中的字母數(shù)。
創(chuàng)建一個(gè)功能來計(jì)算文本中的單詞數(shù)。
創(chuàng)建一個(gè)理解文本含義的特征(例如詞嵌入)。
過去 7 天、30 天或 90 天的聚合用戶事件計(jì)數(shù)。
從日期或時(shí)間戳特征中提取「日」、「月」、「年」和「假期后的天數(shù)」等特征。



嘗試所有改進(jìn)模型的策略。
將模型性能與你必須驗(yàn)證的其他一些指標(biāo)進(jìn)行比較,以驗(yàn)證模型是否有意義。
在進(jìn)行了幾輪模型調(diào)整后,評(píng)估一下繼續(xù)修改和性能提升百分點(diǎn)之間的性價(jià)比。
如果模型表現(xiàn)良好,并且在嘗試了一些想法后幾乎沒有繼續(xù)改進(jìn),請(qǐng)將模型部署到生產(chǎn)過程中并測(cè)量實(shí)際性能。
如果真實(shí)條件下的性能和測(cè)試環(huán)境中類似,那你的模型就算可以用了。如果生產(chǎn)性能比訓(xùn)練中的性能差,則說明訓(xùn)練中存在一些問題,這可能是因?yàn)檫^擬合或者數(shù)據(jù)泄露。這意味著還需要重新調(diào)整模型。
推薦閱讀
(點(diǎn)擊標(biāo)題可跳轉(zhuǎn)閱讀)
機(jī)器學(xué)習(xí)最困難的部分:超參數(shù)調(diào)試
神經(jīng)網(wǎng)絡(luò)之CNN與RNN的關(guān)系
【機(jī)器學(xué)習(xí)基礎(chǔ)】多標(biāo)簽分類的玩法
老鐵,三連支持一下,好嗎?↓↓↓?
