1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        自動化機器學(xué)習(xí)(AutoML)入門簡介

        共 2412字,需瀏覽 5分鐘

         ·

        2021-07-14 19:15


        導(dǎo)讀

        近期在學(xué)習(xí)研究一些關(guān)于自動化機器學(xué)習(xí)方面的論文,本文作為該系列的第一篇文章,就AutoML的一些基本概念和現(xiàn)狀進行簡單分享,權(quán)當(dāng)抱磚引玉。


        圖片源自《Taking Human out of Learning Applications: A Survey on Automated Machine Learning》2018


        在算法行業(yè)有這樣一句話,大意是說80%的時間用在做數(shù)據(jù)清洗和特征工程,僅有20%的時間用來做算法建模,其核心是在說明數(shù)據(jù)和特征所占比重之大。與此同時,越來越多的數(shù)據(jù)從業(yè)者們也希望能夠降低機器學(xué)習(xí)的入門門檻,尤其是降低對特定領(lǐng)域的業(yè)務(wù)經(jīng)驗要求、算法調(diào)參經(jīng)驗等。基于這一背景,AutoML應(yīng)運而生。


        如何理解AutoML呢?從字面意思來看,AutoML即為Auto+ML,是自動化+機器學(xué)習(xí)兩個學(xué)科的結(jié)合體;從技術(shù)角度來說,則是泛指在機器學(xué)習(xí)各階段流程中有一個或多個階段采取自動化而無需人工參與的實現(xiàn)方案。例如在本文開篇引用的AutoML經(jīng)典圖例中:其覆蓋了特征工程(Feature Engineering)、模型選擇(Model Selection)、算法選擇(Algorithm Selection)以及模型評估(Model Evaluation)4個典型階段,而僅有問題定義、數(shù)據(jù)準(zhǔn)備和模型部署這三部分工作交由人工來實現(xiàn)。


        AutoML,與其說是一項技術(shù),不如稱之為一種思想:即將一門學(xué)科的技術(shù)(自動化)引入另一門學(xué)科(機器學(xué)習(xí))的思想。所以從某種角度來說,AutoML本不是什么新鮮技術(shù),也并見得需要創(chuàng)新性突破可言。那是什么促使其誕生并盛行于當(dāng)下呢?原因主要有三:
        • 數(shù)據(jù)從業(yè)者的懶惰。俗話說,懶惰是人類進步的源動力,這一點在AutoML這件事上體現(xiàn)的淋漓盡致。因為數(shù)據(jù)從業(yè)者們渴望從繁雜冗長的數(shù)據(jù)清洗、特征工程以及調(diào)參煉丹的無趣過程中解脫出來,自然而然的想法就是希望這一過程能夠Auto起來!當(dāng)然,這一過程也可正面解讀為對技術(shù)精進的不懈追求……
        • 對降低ML入門門檻的期盼。毫無疑問,以機器學(xué)習(xí)為代表的AI行業(yè)是當(dāng)下最熱門技術(shù)之一,也著實在很多場景解決了不少工程化的問題,所以越來越多的數(shù)據(jù)從業(yè)者投身其中。但并不是每名算法工程師或者數(shù)據(jù)科學(xué)家都有充分的業(yè)務(wù)經(jīng)驗和煉丹技巧,所以更多人是希望能夠降低這一入門門檻,簡化機器學(xué)習(xí)建模流程。
        • 足夠的數(shù)據(jù)體量和日益提升的算法算力??陀^來講,沒有足夠的數(shù)據(jù)量談Auto是不切實際的,因為不足以學(xué)到足夠的知識以實現(xiàn)Auto;而另一方面,AutoML的實現(xiàn)過程其實充滿了大量的迭代運算,所以完成單次的AutoML意味著約等于成百上千次的單次ML,其時間成本不得不成為AutoML領(lǐng)域的一個不容忽視的約束條件,而解決這一問題則一般需依賴優(yōu)秀的算法和充足的算力。


        上面介紹了AutoML的產(chǎn)生原因,其實是回答了Why的問題。與Why相對應(yīng)的一般就是What和How的問題。那么AutoML是What呢?當(dāng)然,這里不打算用開篇圖例中的模塊來講解What的問題,而是用人話來說說AutoML當(dāng)下的幾個熱點:
        • 模型選擇(Model Selection)以及超參優(yōu)化(HPO)。這兩個階段可能是AutoML里最早涉及和最為關(guān)鍵的技術(shù),早期的AutoML產(chǎn)品/工具其實也是主攻這兩個方向,例如Auto-WEKA和Auto-Sklearn就都是以這兩方面的實現(xiàn)為主。其中模型選擇其實主要還是枚舉為主,即將常用的模型逐一嘗試而后選出最好的模型或其組合。而HPO則相當(dāng)于是加強版的GridSearch,都是解決最優(yōu)超參數(shù)的問題,只是解決的算法不同罷了,其中基于貝葉斯的超參優(yōu)化是主流。
        • 自動化特征工程(AutoFE)。AutoFE是解決原始特征表達信息不充分或者存在冗余的問題,相應(yīng)的解決方案就是特征衍生+特征選擇,而AutoFE一般是考慮這兩個過程的聯(lián)合實現(xiàn)抑或加一些創(chuàng)新的優(yōu)化設(shè)計。
        • 元學(xué)習(xí)(Meta Learning)和遷移學(xué)習(xí)(Transfer Learning)。前面提到的模型選擇,雖然多數(shù)產(chǎn)品都是對候選模型進行枚舉嘗試,但也有更為優(yōu)秀的實現(xiàn)方案,那就是元學(xué)習(xí)。例如Auto-Sklearn中其實是集成了元學(xué)習(xí)的功能,在處理新的數(shù)據(jù)集學(xué)習(xí)任務(wù)時可以借鑒歷史任務(wù)而會自動選擇更為可能得到較好性能的模型,這個過程也稱之為warn-start。如果說元學(xué)習(xí)適用于經(jīng)典機器學(xué)習(xí)算法,那么遷移學(xué)習(xí)其實則主要適用于深度學(xué)習(xí)技術(shù):通過對歷史任務(wù)的學(xué)習(xí)經(jīng)驗對后續(xù)類似場景的神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計提供一定的先驗信息。
        • 神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(NAS)。同樣是針對深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)架構(gòu),當(dāng)沒有任何經(jīng)驗可供遷移時,那么如何設(shè)計和構(gòu)建神經(jīng)網(wǎng)絡(luò)架構(gòu)就是一個需要慎重考慮的問題。對此的解決方案即為NAS——neural architecture search!
        簡單說完Why和What的問題之后,介紹How的問題就不那么簡單了。這本身是一個需要持續(xù)理解和不斷精進的過程,如果現(xiàn)在來說也只能描述的主流產(chǎn)品一級:Auto-WEKA、Hyperopt-Sklearn、Auto-Sklearn、TPOT、H2O、AutoGluon……這份清單其實可以羅列幾十種,遍布國內(nèi)外。
        當(dāng)然,羅列是一回事,講得清楚用得嫻熟則又是另一回事了……


        相關(guān)閱讀:


        瀏覽 66
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            亚洲国产成人va在线观看天堂 | 97国产视频 | 成人网站免费视频 | 超碰中文字幕在线 | 欧美成人无码呻吟猛交XX性 | 99热这 | 亚洲黄色毛片 | 97丨牛牛丨国产人妻 | 在线免费观看黄片爆插 | 国产麻豆精品 |