1. 國(guó)內(nèi)外30個(gè)熱門大模型架構(gòu)的信息匯總

        共 818字,需瀏覽 2分鐘

         ·

        2024-05-08 08:00

        LLM 架構(gòu)配置

        注意

        1.RoPE指的是RoPE家族的位置編碼,經(jīng)過了XPos,線性內(nèi)插,NTK-Aware Scaled RoPEdynamic NTK等若干次進(jìn)化,故上表中提及的RoPE并不一定是完全相同的位置編碼方法。

        2.模型類型中若含有MoE,表示該系列的模型中存在使用MoE架構(gòu)的模型,而并非是所有模型使用MoE架構(gòu)。

        3.所有的模型架構(gòu)配置信息來源于 Hugging FaceModel Scope 以及 GitHub 的具體實(shí)現(xiàn),具體鏈接已在表格中提供,20244月收集,若不符合相關(guān)論文中的描述,請(qǐng)讀者諒解。

        4.即使某些LLM使用了相同的配置信息,其內(nèi)部架構(gòu)也可能不同。

        統(tǒng)計(jì)圖表

        模型架構(gòu)

        注意力機(jī)制

        位置編碼

        激活函數(shù)

        歸一化

        ??帥哥美女們,請(qǐng)高抬貴手,你們的點(diǎn)贊、收藏和關(guān)注是我更新的最大動(dòng)力!??

        其他資源

        AGIDreamFactory 項(xiàng)目:https://github.com/mannaandpoem/AGIDreamFactory

        知識(shí)星球:https://articles.zsxq.com/id_0dwcztn0ceri.html

        參考

        1. Models - Hugging Face

        2. 模型庫(kù)首頁(yè) · 魔搭社區(qū) (modelscope.cn)

        3. huggingface/transformers: ?? Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX. (github.com)

        瀏覽 43
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
          
          

            1. 护士小雪的奶水 | 日屁视频| 一块操欧美 | 喘息呻吟军婚h | 国精产品久久久久久九九九九 |