1. LLM與多模態(tài)必讀論文100篇

        共 12238字,需瀏覽 25分鐘

         ·

        2023-08-27 17:15

        為了寫(xiě)本ChatGPT筆記,過(guò)去兩個(gè)月翻了大量中英文資料/paper(中間一度花了大量時(shí)間去深入RL),大部分時(shí)間讀的更多是中文資料。

        2月最后幾天讀的更多是英文paper,正是2月底這最后幾天對(duì)ChatGPT背后技術(shù)原理的研究才真正進(jìn)入狀態(tài)(后還組建了一個(gè)“ChatGPT之100篇論文閱讀組”,我和10來(lái)位博士、業(yè)界大佬從23年2.27日起讀完ChatGPT相關(guān)技術(shù)的100篇論文,如果你想加入100篇論文閱讀組,可以下方掃碼加入

        0c89fd9ecfa95aa2514610a269808679.webp

        ↓↓↓掃碼搶購(gòu)↓↓↓

        讀的論文越多,你會(huì)發(fā)現(xiàn)大 部分人對(duì)ChatGPT的技術(shù)解讀都是不夠準(zhǔn)確或全面的,畢竟很多人沒(méi)有那個(gè)工作需要或研究需要,去深入了解各種細(xì)節(jié)。

        因?yàn)榘肽陜?nèi)100篇這個(gè)任務(wù),讓自己有史以來(lái)一篇一篇一行一行讀100篇,之前看的比較散 不系統(tǒng) 摳的也不細(xì), 比如回顧“Attention is all you need”這篇后,對(duì)優(yōu)化博客內(nèi)的Transformer筆記便有了很多心得。 總之,讀的論文越多,博客內(nèi)相關(guān)筆記的質(zhì)量將飛速提升 自己的技術(shù)研究能力也能有巨大飛躍。 考慮 到為避免 上篇 文章篇 幅太長(zhǎng)而影響完讀率,故把這100篇(后增至150篇)論文的清單抽取出來(lái)獨(dú)立成 本文: 第一部分 OpenAI/Google的基礎(chǔ)語(yǔ)言大模型(11篇,總11篇)
        1. Improving Language Understanding by Generative Pre-Training

          GPT原始論文

        2. Language Models are Unsupervised Multitask Learners

          GPT2原始論文

        3. Language Models are Few-Shot Learners GPT3原始論文
        4. Training language models to follow instructions with human feedback InstructGPT原始論文
        5.  Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 19年10月,Google發(fā)布T5模型(transfer text to text transformer),雖也基于transformer,但區(qū)別于BERT的編碼器架構(gòu)與GPT的解碼器架構(gòu),T5是transformer的encoder-decoder架構(gòu),這是解讀之一 的 用的750G的訓(xùn)練數(shù)據(jù),其訓(xùn)練方法則為:BERT-style的MASK法/replace span(小段替換)/Drop法,以及類(lèi)似BERT對(duì)文本的15%做破壞、且replace span時(shí)對(duì)3的小段破壞
        6. LaMDA: Language Models for Dialog Applications 論文發(fā)布于22年1月,顯示LaMDA的參數(shù)高達(dá)137B,用的transformer decoder架構(gòu),這是簡(jiǎn)要解讀之一 21年5月,Google對(duì)外宣布內(nèi)部正在研發(fā)對(duì)話模型LaMDA,基于transformer decoder架構(gòu),在微調(diào)階段 使用58K的對(duì)話數(shù)據(jù),過(guò)程類(lèi)似真人的對(duì)話過(guò)程,給定一個(gè)Query,比如 How old is Rafael Nadal? ,如果人知道答案,那么直接回答35歲即可,如果不知道,則需要去 Research 一下,借助搜索引擎找到答案,然后再回答35歲
        7. 《Finetuned Language Models Are Zero-Shot Learners》 21年9月,Google提出FLAN大模型,其基于LaMDA-PT做Instruction Fine-Tuning FLAN is the instruction-tuned version of LaMDA-PT
        8. PaLM: Scaling Language Modeling with Pathways 22年3月,Google的Barham等人發(fā)布了Pathways系統(tǒng),用于更高效地訓(xùn)練大型模型 Pathways 的愿景 —— 一個(gè)很接近人腦的框架:一個(gè)模型,可以做多任務(wù),多模態(tài) 且在做任務(wù)時(shí),只是 sparsely activated,只使用一部分的參數(shù) 22年4月,Google發(fā)布PaLM模型,基于Transformer decoder架構(gòu),參數(shù)規(guī)模最大的版本達(dá)到驚人的5400億參數(shù)(8B 62B 540B),使用multi-query注意力、SwiGLU激活函數(shù)以及RoPE位置嵌入,這是翻譯之一 且在每個(gè)Transformer塊中使用 "平行 "表述(Wang & Komatsuzaki,2021) 是Google的Pathways架構(gòu)或OpenAI GPT2/3提出的小樣本學(xué)習(xí)的進(jìn)一步擴(kuò)展 PaLM首次展示了Pathways的大規(guī)模使用——能夠以高效的方式在數(shù)千或數(shù)萬(wàn)個(gè)加速器芯片上訓(xùn)練一個(gè)模型 具體來(lái)說(shuō),通過(guò)Pathways,PaLM 540B在兩個(gè)通過(guò)數(shù)據(jù)中心網(wǎng)絡(luò)連接的TPU v4 Pod上訓(xùn)練,使用模型和數(shù)據(jù)并行的組合,在每個(gè)Pod中使用3072個(gè)TPU v4芯片,連接到768臺(tái)主機(jī),能夠有效地將訓(xùn)練擴(kuò)展到6144個(gè)芯片,而不需要使用任何pipeline并行,其效率水平是以前這種規(guī)模的模型所不能達(dá)到的 以前的大多數(shù)大型語(yǔ)言模型   要么是在單個(gè)TPU系統(tǒng)上訓(xùn)練的(比如GLaM by Du等人2021年,LaMDA by Thopilan等人)   要么是使用由Huang等人在2019年提出的pipeline并行,從而在GPU集群(Megatron-Turing NLG 530B by Smith等人2022年),或多個(gè)TPU v3 pod(Gopher by Rae等人2021年)上擴(kuò)展,最大規(guī)模為4096個(gè)TPU v3芯片 另,在自然語(yǔ)言、代碼和數(shù)學(xué)推理等任務(wù)中表現(xiàn)的都很不錯(cuò) 此外,預(yù)訓(xùn)練數(shù)據(jù)集由一個(gè)7800億個(gè)token組成的語(yǔ)料庫(kù),該數(shù)據(jù)集是由過(guò)濾過(guò)的網(wǎng)頁(yè)(占比27%)、書(shū)籍(占比13%)、Wikipedia(占比4%)、新聞文章(占比1%)、Github源代碼(占比5%,包括Java、HTML、Javascript、Python、PHP、C#、XML、C++和C,總計(jì)196GB的源代碼),和社交媒體對(duì)話(占比50%)組成的,這個(gè)數(shù)據(jù)集是也用于訓(xùn)練LaMDA和GLaM
        9.  Constitutional AI: Harmlessness from AI Feedback OpenAI之前一副總裁離職搞了個(gè)ChatGPT的競(jìng)品,ChatGPT用人類(lèi)偏好訓(xùn)練RM再RL(即RLHF),Claude則基于AI偏好模型訓(xùn)練RM再RL(即RLAIF) 
        10. Improving alignment of dialogue agents via targeted human judgements DeepMind的Sparrow,這個(gè)工作發(fā)表時(shí)間稍晚于instructGPT,其大致的技術(shù)思路和框架與 instructGPT 的三階段基本類(lèi)似,但Sparrow 中把獎(jiǎng)勵(lì)模型分為兩個(gè)不同 RM 的思路
        11. GPT-4 Technical Report

        增加了多模態(tài)能力的GPT4的技術(shù)報(bào)告

        第二部分 LLM的關(guān)鍵技術(shù):ICL/CoT/RLHF/詞嵌入/位置編碼/加速/與KG結(jié)合等(38篇,總49篇)
        1. Attention Is All You Need
          Transformer原始論文  

        2. Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?

        3. Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers
          這篇文章則將ICL看作是一種隱式的Fine-tuning

        4. A Survey on In-context Learning

        5. Noisy Channel Language Model Prompting for Few-Shot Text Classification

        6. MetaICL: Learning to Learn In Context

        7. https://github.com/dqxiu/ICL_PaperList in-context learning
          研究梳理In-Context Learning到底有沒(méi)有Learning?

        8. Meta-learning via Language Model In-context Tuning

        9. Evaluating Large Language Models Trained on Code
          Codex原始論文

        10. Chain-of-Thought Prompting Elicits Reasoning in Large Language
          CoT原始論文,也從側(cè)面印證,instructGPT從22年1月份之前 就開(kāi)始迭代了

        11. Large Language Models are Zero-Shot Reasoners
          來(lái)自東京大學(xué)和谷歌的工作,關(guān)于預(yù)訓(xùn)練大型語(yǔ)言模型的推理能力的探究,“Let's think step by step”的梗即來(lái)源于此篇論文

        12. Emergent Abilities of Large Language Models
          Google 22年8月份發(fā)的,探討大語(yǔ)言模型的涌現(xiàn)能力

        13. Multimodal Chain-of-Thought Reasoning in Language Models
          23年2月,亞馬遜的研究者則在這篇論文里提出了基于多模態(tài)思維鏈技術(shù)改進(jìn)語(yǔ)言模型復(fù)雜推理能力的思想

        14. TRPO論文

        15. Proximal Policy Optimization Algorithms
          2017年,OpenAI發(fā)布的PPO原始論文

        16. RLHF原始論文

        17. Scaling Instruction-Finetuned Language Models
          微調(diào)PaLM-540B(2022年10月)
          從三個(gè)方面改變指令微調(diào),一是改變模型參數(shù),提升到了540B,二是增加到了1836個(gè)微調(diào)任務(wù),三是加上Chain of thought微調(diào)的數(shù)據(jù)

        18. The Flan Collection: Designing Data and Methods for Effective Instruction Tuning

        19. Fine-Tuning Language Models from Human Preferences

        20. LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
          LoRA論文

        21. Prefix-Tuning: Optimizing Continuous Prompts for Generation
          新增Prefix Tuning論文

        22. P-Tuning微調(diào)論文

        23. Distributed Representations of Sentences and Documents
          Mikolov首次提出 Word2vec

          Efficient estimation of word representations in vector space
          Mikolov專(zhuān)門(mén)講訓(xùn)練 Word2vec 中的兩個(gè)trick:hierarchical softmax 和 negative sampling

        24. word2vec Explained- Deriving Mikolov et al.’s Negative-Sampling
          Word-Embedding Method
          Yoav Goldberg關(guān)于word2vec的論文,對(duì) negative-sampling 的公式推導(dǎo)非常完備

          word2vec Parameter Learning Explained
          Xin Rong關(guān)于word2vec的論文,非常不錯(cuò)

        25. ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING
          旋轉(zhuǎn)位置嵌入(RoPE)論文

        26. Linearized Relative Positional Encoding
          統(tǒng)一了適用于linear transformer的相對(duì)位置編碼

        27. SEARCHING FOR ACTIVATION FUNCTIONS
          SwiGLU的原始論文

        28. 《The Natural Language Decathlon:Multitask Learning as Question Answering》
          GPT-1、GPT-2論文的引用文獻(xiàn),Salesforce發(fā)表的一篇文章,寫(xiě)出了多任務(wù)單模型的根本思想

        29. Large language models are zero-shot reasoners. arXiv preprint arXiv:2205.11916, 2022

        30. ZeRO: Memory Optimizations Toward Training Trillion Parameter Models
          ZeRO是微軟deepspeed的核心

        31. Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM
          Megatron-LM 論文原始論文

        32. Efficient sequence modeling綜述
          包含sparse transformer、linear transformer(cosformer,transnormer)RNN(RWKV、S4),Long Conv(TNN、H3)

        33. Vicuna tackle the memory pressure by utilizing gradient checkpointing and flash attention
          Training Deep Nets with Sublinear Memory Cost

        34. FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

        35. Unifying Large Language Models and Knowledge Graphs: A Roadmap
          LLM與知識(shí)圖譜的結(jié)合實(shí)戰(zhàn)

        36. Fast Transformer Decoding: One Write-Head is All You Need
          Muti Query Attention論文,MQA 是 19 年提出的一種新的 Attention 機(jī)制,其能夠在保證模型效果的同時(shí)加快 decoder 生成 token 的速度

        37. GQA: Training Generalized Multi-Query Transformer Models fromMulti-Head Checkpoints
          Grouped-Query Attention論文

        38. Flashattention: Fast and memory-efficient exact attention with io-awareness
          Flash Attention論文

        第三部分 Meta等公司發(fā)布的類(lèi)ChatGPT開(kāi)源模型和各種微調(diào)(7篇,總56篇)

        1. LLaMA: Open and Efficient Foundation Language Models
          2023年2月24日Meta發(fā)布了全新的65B參數(shù)大語(yǔ)言模型LLaMA,開(kāi)源,大部分任務(wù)的效果好于2020年的GPT-3

        2. SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions
          23年3月中旬,斯坦福發(fā)布Alpaca:只花100美元,人人都可微調(diào)Meta家70億參數(shù)的LLaMA大模型,而斯坦福團(tuán)隊(duì)微調(diào)LLaMA的方法,便是來(lái)自華盛頓大學(xué)Yizhong Wang等去年底提出的這個(gè)Self-Instruct

        3. Alpaca: A Strong Open-Source Instruction-Following Model

        4. Opt: Open pre-trained transformer language models. arXiv preprint arXiv:2205.01068, 2022

        5. BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

        6. GLM: General Language Model Pretraining with Autoregressive Blank Infilling
          2022年5月,正式提出了GLM框架

        7. GLM-130B: AN OPEN BILINGUAL PRE-TRAINED MODEL
          GLM-130B便是基于的GLM框架的大語(yǔ)言模型

        第四部分 具備多模態(tài)能力的大語(yǔ)言模型(11篇,總67篇)

        1. BEiT: BERT Pre-Training of Image Transformers

        2. BEiT-2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

        3. Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks
          2022年8月,微軟提出的多模態(tài)預(yù)訓(xùn)練模型BEiT-3

        4. Language Is Not All You Need: Aligning Perception with Language Models
          微軟23年3月1日發(fā)布的多模態(tài)大語(yǔ)言模型Kosmos-1的論文

        5. PaLM-E: An Embodied Multimodal Language Model(論文地址)
          Google于23年3月6日發(fā)布的關(guān)于多模態(tài)LLM:PaLM-E,可讓能聽(tīng)懂人類(lèi)指令且具備視覺(jué)能力的機(jī)器人干活

        6. Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
          微軟于23年3月8日推出visual ChatGPT

        7. MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models

        8. Flamingo: a visual language model for few-shot learning

        9. Tensor programs v: Tuning large neural networks via zero-shot hyperparameter transfer. arXiv preprint arXiv:2203.03466, 2022

        10. Language models are unsupervised multitask learners. 2019

        11. Improving language understanding by generative pre-training. 2018

         

        第五部分 AI繪畫(huà)與多模態(tài)能力背后的核心技術(shù)(21篇,總88篇)

        1. End-to-End Object Detection with Transformers
          DETR by 2020年5月

        2. AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
          發(fā)表于2020年10月的Vision Transformer原始論文,代表Transformer正式殺入CV界

        3. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
          發(fā)表于21年3月

        4. Swin Transformer V2: Scaling Up Capacity and Resolution

        5. Auto-Encoding Variational Bayes

        6. Denoising Diffusion Probabilistic Models
          2020年6月提出DDPM,即眾人口中常說(shuō)的diffusion model

        7. Diffusion Models Beat GANs on Image Synthesis
          使用classifier guidance的方法,引導(dǎo)模型進(jìn)行采樣和生成

        8. High-Resolution Image Synthesis with Latent Diffusion Models
          2022年8月發(fā)布的Stable Diffusion基于Latent Diffusion Models,專(zhuān)門(mén)用于文圖生成任務(wù)

        9. Aligning Text-to-Image Models using Human Feedback
          ChatGPT的主要成功要?dú)w結(jié)于采用RLHF來(lái)精調(diào)LLM,近日谷歌AI團(tuán)隊(duì)將類(lèi)似的思路用于文生圖大模型:基于人類(lèi)反饋(Human Feedback)來(lái)精調(diào)Stable Diffusion模型來(lái)提升生成效果

        10. CLIP: Connecting Text and Images - OpenAI
          這是針對(duì)CLIP論文的解讀之一  CLIP由OpenAI在2021年1月發(fā)布,超大規(guī)模模型預(yù)訓(xùn)練提取視覺(jué)特征,圖片和文本之間的對(duì)比學(xué)習(xí)

        11. Zero-Shot Text-to-Image Generation
          DALL·E原始論文

        12. Hierarchical Text-Conditional Image Generation with CLIP Latents
          DALL·E 2論文2022年4月發(fā)布(至于第一代發(fā)布于2021年初),通過(guò)CLIP + Diffusion models,達(dá)到文本生成圖像新高度

        13. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation by Junnan Li, Dongxu Li, Caiming Xiong, Steven Hoi.

        14. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models by Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi.  

        15. InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
          23年5月發(fā)布的InstructBLIP論文

        16. LAVIS: A Library for Language-Vision Intelligence
          Salesforce開(kāi)源一站式視覺(jué)語(yǔ)言學(xué)習(xí)框架LAVIS,這是其GitHub地址:https://github.com/salesforce/LAVIS

        17. MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models
          對(duì)各種多模態(tài)模型的評(píng)測(cè)

        18. Segment Anything
          23年4.6日,Meta發(fā)布史上首個(gè)圖像分割基礎(chǔ)模型SAM,將NLP領(lǐng)域的prompt范式引進(jìn)CV,讓模型可以通過(guò)prompt一鍵摳圖。網(wǎng)友直呼:CV不存在了!  

        19. A Comprehensive Survey on Segment Anything Model for Vision and Beyond
          對(duì)分割一切模型SAM的首篇全面綜述:28頁(yè)、200+篇參考文獻(xiàn)

        20. Fast Segment Anything
          中科院版的分割一切

        21. MobileSAM
          比SAM小60倍,比FastSAM快4倍,速度和效果雙贏

        第六部分 預(yù)訓(xùn)練模型的發(fā)展演變史(3篇,總91篇)

        1. A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT
          預(yù)訓(xùn)練基礎(chǔ)模型的演變史

        2. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

        3. Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing

         

        第七部分 垂域版類(lèi)ChatGPT(比如醫(yī)療GPT)和其它(10篇,總100篇)

        1. Large Language Models Encode Clinical Knowledge

        2. Towards Expert-Level Medical Question Answering with Large Language Models
          繼上篇論文提出medpalm之后,5月16日,Google Research和DeepMind發(fā)布了Med-PaLM 2,相比第一代最顯著的改進(jìn)是基座模型換成了Google的最新大模型PaLM2(據(jù)說(shuō)有著340b參數(shù),用于訓(xùn)練的token數(shù)達(dá)3.6萬(wàn)億)

          6f82df2d24e3b9cc7210823000bc4e02.webp


        3. ChatDoctor: A Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge
          醫(yī)療ChatDoctor論文

        4. BloombergGPT: A Large Language Model for Finance
          金融BloombergGPT論文

        5. Deep Residual Learning for Image Recognition
          ResNet論文,短短9頁(yè),Google學(xué)術(shù)被引現(xiàn)15萬(wàn)多

        6. WHAT LEARNING ALGORITHM IS IN-CONTEXT LEARNING? INVESTIGATIONS WITH LINEAR MODELS

        7. Transformer-XL: Attentive language models beyond a fixed-length context

        8. An empirical analysis of compute-optimal large language model training

        9. Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

        10. COLT5: Faster Long-Range Transformers with Conditional Computation

        ?

        新課開(kāi)班

        七月在線【LLM與多模態(tài)必讀論文100篇帶讀】,9月7日(周四)晚8點(diǎn)半開(kāi)班

        帶你 提升研究能力,突破職業(yè)瓶頸

        425488483b016e03ff29a99370d39c7d.webp

        e0566047bb79f382a39f60aee8c935a7.webp

        ↓↓↓掃碼搶購(gòu)↓↓↓

        點(diǎn)擊 閱讀原文 ”了解 課程詳情 ~

        d04287ece13db8865f34d1b9a59f8914.webp

        瀏覽 78
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
          
          

            1. 黑人把逼操出水的视频了 | 婷婷六月色aV | 成人网站在线观看一区高清无码 | 日韩黄色视频网站 | 成人毛片大全精品一区黑料 |