1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        GPT-4參數(shù)將達(dá)10兆!這個表格預(yù)測全新語言模型參數(shù)將是GPT-3的57倍

        共 2377字,需瀏覽 5分鐘

         ·

        2021-07-13 15:26



          新智元報(bào)道  

        來源:lifearchitect

        編輯:好困

        【新智元導(dǎo)讀】GPT-4將會有高達(dá)10兆個參數(shù)?近日,有網(wǎng)友在分析了GPT-3和其他語言模型之后大膽預(yù)測,GPT-4將會達(dá)到GPT-3的57倍!而「開源版本」則會達(dá)到和GPT-3同等的規(guī)模。


        對于機(jī)器學(xué)習(xí)來說,參數(shù)可以算得上算法的關(guān)鍵:它們是歷史的輸入數(shù)據(jù),經(jīng)過模型訓(xùn)練得來的結(jié)果,是模型的一部分。

        一般來說,在NLP領(lǐng)域,參數(shù)數(shù)量和復(fù)雜程度之間具有正相關(guān)性。OpenAI的GPT-3則是迄今為止最大的語言模型之一,有1750億個參數(shù)。


        那么,GPT-4會是什么樣子的?


        近日有網(wǎng)友就對GTP-4及其「開源版」GPT-NeoX進(jìn)行了大膽的預(yù)測。



        作者認(rèn)為,GPT-4的參數(shù)或許可以達(dá)到10T,是現(xiàn)在GPT-3模型的57倍還多,而GPT-NeoX的規(guī)模則可以和GPT-3持平。


        等下,如果是這樣,程序員們還能不能在GPT-NeoX上愉快地調(diào)參了?


        模型

        發(fā)布時間

        Tokens

        參數(shù)

        占1.75T的百分比

        訓(xùn)練文本

        GPT-2

        (OpenAI)

        Feb 2019

        10B

        1.5B

        0.09%

        40GB

        GPT-J

        (EleutherAI)

        Jun 2021

        400B

        6B

        0.34%

        800GB

        GPT-3

        (OpenAI)

        May 2020

        499B

        175B

        10.00%

        570GB

        PanGu (Chinese)

        Apr 2021

        40B

        200B

        11.43%

        1.1TB

        HyperCLOVA (Korean)

        May 2021

        560B

        204B

        11.66%

        1TB?

        Wudao 2.0 (Chinese)

        Jun 2021

        500B?

        1.75T

        100.00%

        2.4TB

        LaMDA

        (Google)

        Jun 2021

        1T?

        200B?

        11.43%

        1TB?

        GPT-4

        (OpenAI)

        TBA

        20T?

        10T?

        571.43%

        5TB?

        GPT-NeoX

        (EleutherAI)

        TBA

        500B?

        175B?

        10.00%

        825GB?


        數(shù)據(jù)集分析


        目前應(yīng)用最廣的GPT-3的訓(xùn)練語料庫來自于規(guī)模巨大的結(jié)構(gòu)文本。其中所有數(shù)據(jù)集都被索引,分類,過濾和加權(quán),而且還針對重復(fù)的部分也做了大量的刪減。


        專門為Openai開發(fā)并由Microsoft Azure托管的世界最強(qiáng)超算之一完成了對GPT-3的訓(xùn)練 。超算系統(tǒng)有超過285,000個CPU核心,超過10,000個 GPU,并且以400Gbps的速度運(yùn)行。



        GPT-3


        Wikipedia DataSet來自于Wikipedia的英文內(nèi)容。由于其質(zhì)量,寫作風(fēng)格和廣度,它是語言建模的高質(zhì)量文本的標(biāo)準(zhǔn)來源。


        WebText數(shù)據(jù)集(以及擴(kuò)展版本W(wǎng)ebText2)是來自從Reddit出站的大于4500萬個網(wǎng)頁的文本,其中相關(guān)的帖子會有兩個以上的支持率(upvotess)。


        由于具有大于4.3億的月活用戶,因此數(shù)據(jù)集中的內(nèi)容可以被認(rèn)為是最 「流行 」網(wǎng)站的觀點(diǎn)。


        Books1Books2是兩個基于互聯(lián)網(wǎng)的書籍?dāng)?shù)據(jù)集。類似的數(shù)據(jù)集包括:

        • BookCorpus,是由未發(fā)表的作者撰寫的免費(fèi)小說書籍的集合,包含了至少10,000本書。

        • Library Genesis (Libgen),一個非常大的科學(xué)論文、小說和非小說類書籍的集合。


        Common Crawl是一個包含了超過50億份網(wǎng)頁元數(shù)據(jù)和提取文本的開源存檔開放的數(shù)據(jù)平臺:
        • 八年來PB級的數(shù)據(jù)(數(shù)以千計(jì)的TB,數(shù)以百萬計(jì)的GB)。

        • 25B個網(wǎng)站。

        • 數(shù)以萬億計(jì)的鏈接。

        • 75%英語,3%中文,2.5%西班牙語,2.5%德語等。

        • 排名前10域名的內(nèi)容:Facebook、谷歌、Twitter、Youtube、Instagram、LinkedIn。



        GPT-3使用的數(shù)據(jù)集


        GPT-Neo和GPT-J


        今年3月,Eleuther AI在GitHub上推出了GPT-Neo開源項(xiàng)目,可以在Colab上進(jìn)行微調(diào)。

         

        雖然GPT-Neo與GPT-3比,參數(shù)量仍然很小(1.3B和2.7B),但開源又免費(fèi),仍然得到了「同性好友們」的認(rèn)可。

         

        今年6月Eleuther AI再次推出GPT-J-6B,它可以說是GPT-Neo的增強(qiáng)版本,顧名思義,模型的參數(shù)量增加到了6B。


        GPT-J的訓(xùn)練也是基于The Pile數(shù)據(jù)庫——一個825GB的多樣化開源語言建模數(shù)據(jù)集,由22個較小的、高質(zhì)量的數(shù)據(jù)集合組成。


        The Pile除了專業(yè)論壇和知識庫,如HackerNews、Github和Stack Exchange,論文預(yù)印本網(wǎng)站ArXiv以外,還包括如Youtube字幕,甚至安然郵件(Enron Emails)語料庫。


        GPT-Neo和GPT-J使用的數(shù)據(jù)集



        在zero-shot任務(wù)上,GPT-J性能和67億參數(shù)的GPT-3相當(dāng),也是目前公開可用的Transformer語言模型中,在各種下游zero-shot任務(wù)上表現(xiàn)最好的。


        這么看來,確實(shí)可以期待一下和GPT-3相同規(guī)模的GPT-NeoX的表現(xiàn)了。


        網(wǎng)友評論


        GPT-4怎么這么大?


        「GPT-3已經(jīng)接近理論上每個token最大效率了。如果OpenAI模型的工作方式是正確的,更大的模型只是對算力的浪費(fèi)?!?/span>



        有網(wǎng)友解答說:「規(guī)模確實(shí)可以帶來改善。因?yàn)楸举|(zhì)上是一種關(guān)系隱喻模型,『了解更多的關(guān)系 』意味著能夠?qū)Ω嗟氖虑榛?span style="font-size: 15px;letter-spacing: 1px;">以更細(xì)微的方式做出反應(yīng)。當(dāng)然,這也同時是一個營銷的方式。




        參考資料:

        https://lifearchitect.com.au/ai/models/#contents


        -往期精彩-




        瀏覽 54
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評論
        圖片
        表情
        推薦
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            china高潮china激情 | 黄片免费在线观看视频 | 五月激情网2021 | 免费在线一级黄色电影网站 | 99在线播放视频 | 国产午夜av | 快穿调教惩罚娇软总受羞辱h | 一区影院| 美女激情内射 | 婷婷五月天丁香综合 |