1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        保姆級NLP學(xué)習(xí)路線來啦!

        共 2409字,需瀏覽 5分鐘

         ·

        2020-12-30 23:24

        這個(gè)保姆級不是形容這份指南有多詳細(xì),而是形容這個(gè)指南會(huì)伴隨你們一起成長喲(其實(shí)就是太多了寫不完)。之后的更新都會(huì)定期發(fā)文并匯總在Github上,歡迎催更:

        https://github.com/leerumor/nlp_tutorial

        下面開始學(xué)!習(xí)?。ㄇ煤诎澹?/span>

        如何系統(tǒng)地學(xué)習(xí)

        機(jī)器學(xué)習(xí)是一門既重理論又重實(shí)踐的學(xué)科,想一口吃下這個(gè)老虎是不可能的,因此學(xué)習(xí)應(yīng)該是個(gè)循環(huán)且逐漸細(xì)化的過程。

        首先要有個(gè)全局印象,知道m(xù)inimum的情況下要學(xué)哪些知識(shí)點(diǎn):

        之后就可以開始逐個(gè)擊破,但也不用死磕,控制好目標(biāo)難度,先用三個(gè)月時(shí)間進(jìn)行第一輪學(xué)習(xí):

        1. 讀懂機(jī)器學(xué)習(xí)、深度學(xué)習(xí)原理,不要求手推公式
        2. 了解經(jīng)典任務(wù)的baseline,動(dòng)手實(shí)踐,看懂代碼
        3. 深入一個(gè)應(yīng)用場景,嘗試自己修改模型,提升效果

        邁過了上面這道坎后,就可以重新回歸理論,提高對自己的要求,比如手推公式、盲寫模型、拿到比賽Top等。

        Step1: 基礎(chǔ)原理

        機(jī)器學(xué)習(xí)最初入門時(shí)對數(shù)學(xué)的要求不是很高,掌握基礎(chǔ)的線性代數(shù)、概率論就可以了,正常讀下來的理工科大學(xué)生以上應(yīng)該都沒問題,可以直接開始學(xué),碰到不清楚的概念再去復(fù)習(xí)。

        統(tǒng)計(jì)機(jī)器學(xué)習(xí)部分,建議初學(xué)者先看懂線性分類、SVM、樹模型和圖模型,這里推薦李航的「統(tǒng)計(jì)學(xué)習(xí)方法」,薄薄的摸起來沒有很大壓力,背著也方便,我那本已經(jīng)翻四五遍了。喜歡視頻課程的話可以看吳恩達(dá)的「CS229公開課」或者林田軒的「機(jī)器學(xué)習(xí)基石」。但不管哪個(gè)教程,都不必要求一口氣看完吃透,第一輪先重點(diǎn)看懂以下知識(shí)點(diǎn)就夠了:

        深度學(xué)習(xí)部分,推薦吳恩達(dá)的「深度學(xué)習(xí)」網(wǎng)課、李宏毅的「深度學(xué)習(xí)」網(wǎng)課或者邱錫鵬的「神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)」教材。先弄懂神經(jīng)網(wǎng)絡(luò)的反向傳播推導(dǎo),然后去了解詞向量和其他的編碼器的核心思想、前向反向過程:

        Step2: 經(jīng)典模型與技巧

        有了上述的基礎(chǔ)后,應(yīng)該就能看懂模型結(jié)構(gòu)和論文里的各種名詞公式了。接下來就是了解NLP各個(gè)經(jīng)典任務(wù)的baseline,并看懂源碼。對于TF和Pytorch的問題不用太糾結(jié),接口都差不多,找到什么就看什么,自己寫的話建議Pytorch。

        快速了解經(jīng)典任務(wù)脈絡(luò)可以看綜述,建議先了解一兩個(gè)該任務(wù)的經(jīng)典模型再去看,否則容易云里霧里:

        2020?A?Survey?on?Text?Classification:?From?Shallow?to?Deep?Learning
        2020?A?Survey?on?Recent?Advances?in?Sequence?Labeling?from?Deep?Learning?Models?
        2020?Evolution?of?Semantic?Similarity?-?A?Survey
        2017?Neural?text?generation:?A?practical?guide?
        2018?Neural?Text?Generation:?Past,?Present?and?Beyond
        2019?The?survey:?Text?generation?models?in?deep?learning
        2020?Efficient?Transformers:?A?Survey

        文本分類

        文本分類是NLP應(yīng)用最多且入門必備的任務(wù),TextCNN堪稱第一baseline,往后的發(fā)展就是加RNN、加Attention、用Transformer、用GNN了。第一輪不用看得太細(xì),每類編碼器都找個(gè)代碼看一下即可,順便也為其他任務(wù)打下基礎(chǔ)。

        但如果要做具體任務(wù)的話,建議倒序去看SOTA論文,了解各種技巧,同時(shí)善用知乎,可以查到不少提分方法。

        文本匹配

        文本匹配會(huì)稍微復(fù)雜些,它有雙塔和匹配兩種任務(wù)范式。雙塔模型可以先看SiamCNN,了解完結(jié)構(gòu)后,再深入優(yōu)化編碼器的各種方法;基于匹配的方式則在于句子表示間的交互,了解BERT那種TextA+TextB拼接的做法之后,可以再看看阿里的RE2這種輕量級模型的做法:

        序列標(biāo)注

        序列標(biāo)注主要是對Embedding、編碼器、結(jié)果推理三個(gè)模塊進(jìn)行優(yōu)化,可以先讀懂Bi-LSTM+CRF這種經(jīng)典方案的源碼,再去根據(jù)需要讀論文改進(jìn)。

        文本生成

        文本生成是最復(fù)雜的,具體的SOTA模型我還沒梳理完,可以先了解Seq2Seq的經(jīng)典實(shí)現(xiàn),比如基于LSTM的編碼解碼+Attention、純Transformer、GPT2以及T5,再根據(jù)興趣學(xué)習(xí)VAE、GAN、RL等。

        語言模型

        語言模型雖然很早就有了,但18年BERT崛起之后才越來越被重視,成為NLP不可或缺的一個(gè)任務(wù)。了解BERT肯定是必須的,有時(shí)間的話再多看看后續(xù)改進(jìn),很經(jīng)典的如XLNet、ALBERT、ELECTRA還是不容錯(cuò)過的。

        Step3: 實(shí)踐優(yōu)化

        上述任務(wù)都了解并且看了一些源碼后,就該真正去當(dāng)煉丹師了。千萬別滿足于跑通別人的github代碼,最好去參加一次Kaggle、天池、Biendata等平臺(tái)的比賽,享受優(yōu)化模型的摧殘。

        Kaggle的優(yōu)點(diǎn)是有各種kernel可以學(xué)習(xí),國內(nèi)比賽的優(yōu)點(diǎn)是中文數(shù)據(jù)方便看case。建議把兩者的優(yōu)點(diǎn)結(jié)合,比如參加一個(gè)國內(nèi)的文本匹配比賽,就去kaggle找相同任務(wù)的kernel看,學(xué)習(xí)別人的trick。同時(shí)多看些頂會(huì)論文并復(fù)現(xiàn),爭取做完一個(gè)任務(wù)后就把這個(gè)任務(wù)技巧摸清。

        總結(jié)

        其實(shí)自己剛開始學(xué)的時(shí)候只到了minimum的水平,在后續(xù)的實(shí)踐、面試中才逐漸把知識(shí)點(diǎn)補(bǔ)全,并歸到自己的體系里。剛?cè)腴T的同學(xué)們也不要?dú)怵H,先懵懵懂懂地看一看原理,哆哆嗦嗦地跑一跑代碼,時(shí)間會(huì)給你答案。懷疑自我的時(shí)候,就算算自己到底學(xué)了多久,沒到一萬小時(shí)之前都還來得及。

        “干貨學(xué)習(xí),點(diǎn)三連
        瀏覽 84
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評論
        圖片
        表情
        推薦
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            美女拍A片的www啪啪 | 美女搞j网站 | 2024黄色网址 | 91桃色污| 91成人 | 欧美 日韩777 | 久久久久久国产 | 天天综合色 | 国产日韩一区二区 | 国产亚洲精品一区二区 |