污污污污污www在线观看优势,色情视频播放,xnxx国产精品,在线a视频,免费欧美黄色电影,特特级毛片,国产麻豆电影,中国无码视频

為了寫(xiě)本ChatGPT筆記，過(guò)去兩個(gè)月翻了大量中英文資料/paper(中間一度花了大量時(shí)間去深入RL)，大部分時(shí)間讀的更多是中文資料。

2月最后幾天讀的更多是英文paper，正是2月底這最后幾天對(duì)ChatGPT背后技術(shù)原理的研究才真正進(jìn)入狀態(tài)(后還組建了一個(gè)“ChatGPT之100篇論文閱讀組”，我和10來(lái)位博士、業(yè)界大佬從23年2.27日起讀完ChatGPT相關(guān)技術(shù)的100篇論文，如果你想加入100篇論文閱讀組，可以下方掃碼加入

↓↓↓掃碼搶購(gòu)↓↓↓

讀的論文越多，你會(huì)發(fā)現(xiàn)大部分人對(duì)ChatGPT的技術(shù)解讀都是不夠準(zhǔn)確或全面的，畢竟很多人沒(méi)有那個(gè)工作需要或研究需要，去深入了解各種細(xì)節(jié)。

因?yàn)榘肽陜?nèi)100篇這個(gè)任務(wù)，讓自己有史以來(lái)一篇一篇一行一行讀100篇，之前看的比較散不系統(tǒng) 摳的也不細(xì)，比如回顧“Attention is all you need”這篇后，對(duì)優(yōu)化博客內(nèi)的Transformer筆記便有了很多心得。總之，讀的論文越多，博客內(nèi)相關(guān)筆記的質(zhì)量將飛速提升自己的技術(shù)研究能力也能有巨大飛躍。考慮到為避免上篇文章篇幅太長(zhǎng)而影響完讀率，故把這100篇(后增至150篇)論文的清單抽取出來(lái)獨(dú)立成本文： 第一部分 OpenAI/Google的基礎(chǔ)語(yǔ)言大模型(11篇，總11篇)

Improving Language Understanding by Generative Pre-Training

GPT原始論文
Language Models are Unsupervised Multitask Learners

GPT2原始論文
Language Models are Few-Shot Learners GPT3原始論文
Training language models to follow instructions with human feedback InstructGPT原始論文
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 19年10月，Google發(fā)布T5模型(transfer text to text transformer)，雖也基于transformer，但區(qū)別于BERT的編碼器架構(gòu)與GPT的解碼器架構(gòu)，T5是transformer的encoder-decoder架構(gòu)，這是解讀之一的用的750G的訓(xùn)練數(shù)據(jù)，其訓(xùn)練方法則為：BERT-style的MASK法/replace span(小段替換)/Drop法，以及類(lèi)似BERT對(duì)文本的15%做破壞、且replace span時(shí)對(duì)3的小段破壞
LaMDA: Language Models for Dialog Applications 論文發(fā)布于22年1月，顯示LaMDA的參數(shù)高達(dá)137B，用的transformer decoder架構(gòu)，這是簡(jiǎn)要解讀之一 21年5月，Google對(duì)外宣布內(nèi)部正在研發(fā)對(duì)話模型LaMDA，基于transformer decoder架構(gòu)，在微調(diào)階段使用58K的對(duì)話數(shù)據(jù)，過(guò)程類(lèi)似真人的對(duì)話過(guò)程，給定一個(gè)Query，比如 How old is Rafael Nadal? ，如果人知道答案，那么直接回答35歲即可，如果不知道，則需要去 Research 一下，借助搜索引擎找到答案，然后再回答35歲
《Finetuned Language Models Are Zero-Shot Learners》 21年9月，Google提出FLAN大模型，其基于LaMDA-PT做Instruction Fine-Tuning FLAN is the instruction-tuned version of LaMDA-PT
PaLM: Scaling Language Modeling with Pathways 22年3月，Google的Barham等人發(fā)布了Pathways系統(tǒng)，用于更高效地訓(xùn)練大型模型 Pathways 的愿景 —— 一個(gè)很接近人腦的框架：一個(gè)模型，可以做多任務(wù)，多模態(tài) 且在做任務(wù)時(shí)，只是 sparsely activated，只使用一部分的參數(shù) 22年4月，Google發(fā)布PaLM模型，基于Transformer decoder架構(gòu)，參數(shù)規(guī)模最大的版本達(dá)到驚人的5400億參數(shù)(8B 62B 540B)，使用multi-query注意力、SwiGLU激活函數(shù)以及RoPE位置嵌入，這是翻譯之一且在每個(gè)Transformer塊中使用 "平行 "表述(Wang & Komatsuzaki,2021) 是Google的Pathways架構(gòu)或OpenAI GPT2/3提出的小樣本學(xué)習(xí)的進(jìn)一步擴(kuò)展 PaLM首次展示了Pathways的大規(guī)模使用——能夠以高效的方式在數(shù)千或數(shù)萬(wàn)個(gè)加速器芯片上訓(xùn)練一個(gè)模型具體來(lái)說(shuō)，通過(guò)Pathways，PaLM 540B在兩個(gè)通過(guò)數(shù)據(jù)中心網(wǎng)絡(luò)連接的TPU v4 Pod上訓(xùn)練，使用模型和數(shù)據(jù)并行的組合，在每個(gè)Pod中使用3072個(gè)TPU v4芯片，連接到768臺(tái)主機(jī)，能夠有效地將訓(xùn)練擴(kuò)展到6144個(gè)芯片，而不需要使用任何pipeline并行，其效率水平是以前這種規(guī)模的模型所不能達(dá)到的以前的大多數(shù)大型語(yǔ)言模型要么是在單個(gè)TPU系統(tǒng)上訓(xùn)練的(比如GLaM by Du等人2021年，LaMDA by Thopilan等人) 要么是使用由Huang等人在2019年提出的pipeline并行，從而在GPU集群(Megatron-Turing NLG 530B by Smith等人2022年)，或多個(gè)TPU v3 pod(Gopher by Rae等人2021年)上擴(kuò)展，最大規(guī)模為4096個(gè)TPU v3芯片另，在自然語(yǔ)言、代碼和數(shù)學(xué)推理等任務(wù)中表現(xiàn)的都很不錯(cuò) 此外，預(yù)訓(xùn)練數(shù)據(jù)集由一個(gè)7800億個(gè)token組成的語(yǔ)料庫(kù)，該數(shù)據(jù)集是由過(guò)濾過(guò)的網(wǎng)頁(yè)(占比27%)、書(shū)籍(占比13%)、Wikipedia(占比4%)、新聞文章(占比1%)、Github源代碼(占比5%，包括Java、HTML、Javascript、Python、PHP、C#、XML、C++和C，總計(jì)196GB的源代碼)，和社交媒體對(duì)話(占比50%)組成的，這個(gè)數(shù)據(jù)集是也用于訓(xùn)練LaMDA和GLaM
Constitutional AI: Harmlessness from AI Feedback OpenAI之前一副總裁離職搞了個(gè)ChatGPT的競(jìng)品，ChatGPT用人類(lèi)偏好訓(xùn)練RM再RL(即RLHF)，Claude則基于AI偏好模型訓(xùn)練RM再RL(即RLAIF)
Improving alignment of dialogue agents via targeted human judgements DeepMind的Sparrow，這個(gè)工作發(fā)表時(shí)間稍晚于instructGPT，其大致的技術(shù)思路和框架與 instructGPT 的三階段基本類(lèi)似，但Sparrow 中把獎(jiǎng)勵(lì)模型分為兩個(gè)不同 RM 的思路
GPT-4 Technical Report

增加了多模態(tài)能力的GPT4的技術(shù)報(bào)告

第二部分 LLM的關(guān)鍵技術(shù)：ICL/CoT/RLHF/詞嵌入/位置編碼/加速/與KG結(jié)合等(38篇，總49篇)

Attention Is All You Need
Transformer原始論文
Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?
Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers
這篇文章則將ICL看作是一種隱式的Fine-tuning
A Survey on In-context Learning
Noisy Channel Language Model Prompting for Few-Shot Text Classification
MetaICL: Learning to Learn In Context
https://github.com/dqxiu/ICL_PaperList in-context learning
研究梳理In-Context Learning到底有沒(méi)有Learning？
Meta-learning via Language Model In-context Tuning
Evaluating Large Language Models Trained on Code
Codex原始論文
Chain-of-Thought Prompting Elicits Reasoning in Large Language
CoT原始論文，也從側(cè)面印證，instructGPT從22年1月份之前就開(kāi)始迭代了
Large Language Models are Zero-Shot Reasoners
來(lái)自東京大學(xué)和谷歌的工作，關(guān)于預(yù)訓(xùn)練大型語(yǔ)言模型的推理能力的探究，“Let's think step by step”的梗即來(lái)源于此篇論文
Emergent Abilities of Large Language Models
Google 22年8月份發(fā)的，探討大語(yǔ)言模型的涌現(xiàn)能力
Multimodal Chain-of-Thought Reasoning in Language Models
23年2月，亞馬遜的研究者則在這篇論文里提出了基于多模態(tài)思維鏈技術(shù)改進(jìn)語(yǔ)言模型復(fù)雜推理能力的思想
TRPO論文
Proximal Policy Optimization Algorithms
2017年，OpenAI發(fā)布的PPO原始論文
RLHF原始論文
Scaling Instruction-Finetuned Language Models
微調(diào)PaLM-540B(2022年10月)
從三個(gè)方面改變指令微調(diào)，一是改變模型參數(shù)，提升到了540B，二是增加到了1836個(gè)微調(diào)任務(wù)，三是加上Chain of thought微調(diào)的數(shù)據(jù)
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
Fine-Tuning Language Models from Human Preferences
LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
LoRA論文
Prefix-Tuning: Optimizing Continuous Prompts for Generation
新增Prefix Tuning論文
P-Tuning微調(diào)論文
Distributed Representations of Sentences and Documents
Mikolov首次提出 Word2vec

Efficient estimation of word representations in vector space
Mikolov專(zhuān)門(mén)講訓(xùn)練 Word2vec 中的兩個(gè)trick：hierarchical softmax 和 negative sampling
word2vec Explained- Deriving Mikolov et al.’s Negative-Sampling
Word-Embedding Method
Yoav Goldberg關(guān)于word2vec的論文，對(duì) negative-sampling 的公式推導(dǎo)非常完備

word2vec Parameter Learning Explained
Xin Rong關(guān)于word2vec的論文，非常不錯(cuò)
ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING
旋轉(zhuǎn)位置嵌入(RoPE)論文
Linearized Relative Positional Encoding
統(tǒng)一了適用于linear transformer的相對(duì)位置編碼
SEARCHING FOR ACTIVATION FUNCTIONS
SwiGLU的原始論文
《The Natural Language Decathlon:Multitask Learning as Question Answering》
GPT-1、GPT-2論文的引用文獻(xiàn)，Salesforce發(fā)表的一篇文章，寫(xiě)出了多任務(wù)單模型的根本思想
Large language models are zero-shot reasoners. arXiv preprint arXiv:2205.11916, 2022
ZeRO: Memory Optimizations Toward Training Trillion Parameter Models
ZeRO是微軟deepspeed的核心
Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM
Megatron-LM 論文原始論文
Efficient sequence modeling綜述
包含sparse transformer、linear transformer(cosformer，transnormer）RNN(RWKV、S4)，Long Conv(TNN、H3）
Vicuna tackle the memory pressure by utilizing gradient checkpointing and flash attention
Training Deep Nets with Sublinear Memory Cost
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
Unifying Large Language Models and Knowledge Graphs: A Roadmap
LLM與知識(shí)圖譜的結(jié)合實(shí)戰(zhàn)
Fast Transformer Decoding: One Write-Head is All You Need
Muti Query Attention論文，MQA 是 19 年提出的一種新的 Attention 機(jī)制，其能夠在保證模型效果的同時(shí)加快 decoder 生成 token 的速度
GQA: Training Generalized Multi-Query Transformer Models fromMulti-Head Checkpoints
Grouped-Query Attention論文
Flashattention: Fast and memory-efficient exact attention with io-awareness
Flash Attention論文

第三部分 Meta等公司發(fā)布的類(lèi)ChatGPT開(kāi)源模型和各種微調(diào)(7篇，總56篇)

LLaMA: Open and Efficient Foundation Language Models
2023年2月24日Meta發(fā)布了全新的65B參數(shù)大語(yǔ)言模型LLaMA，開(kāi)源，大部分任務(wù)的效果好于2020年的GPT-3
SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions
23年3月中旬，斯坦福發(fā)布Alpaca：只花100美元，人人都可微調(diào)Meta家70億參數(shù)的LLaMA大模型，而斯坦福團(tuán)隊(duì)微調(diào)LLaMA的方法，便是來(lái)自華盛頓大學(xué)Yizhong Wang等去年底提出的這個(gè)Self-Instruct
Alpaca: A Strong Open-Source Instruction-Following Model
Opt: Open pre-trained transformer language models. arXiv preprint arXiv:2205.01068, 2022
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
GLM: General Language Model Pretraining with Autoregressive Blank Infilling
2022年5月，正式提出了GLM框架
GLM-130B: AN OPEN BILINGUAL PRE-TRAINED MODEL
GLM-130B便是基于的GLM框架的大語(yǔ)言模型

第四部分具備多模態(tài)能力的大語(yǔ)言模型(11篇，總67篇)

BEiT: BERT Pre-Training of Image Transformers
BEiT-2: Masked Image Modeling with Vector-Quantized Visual Tokenizers
Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks
2022年8月，微軟提出的多模態(tài)預(yù)訓(xùn)練模型BEiT-3
Language Is Not All You Need: Aligning Perception with Language Models
微軟23年3月1日發(fā)布的多模態(tài)大語(yǔ)言模型Kosmos-1的論文
PaLM-E: An Embodied Multimodal Language Model(論文地址)
Google于23年3月6日發(fā)布的關(guān)于多模態(tài)LLM：PaLM-E，可讓能聽(tīng)懂人類(lèi)指令且具備視覺(jué)能力的機(jī)器人干活
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
微軟于23年3月8日推出visual ChatGPT
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models
Flamingo: a visual language model for few-shot learning
Tensor programs v: Tuning large neural networks via zero-shot hyperparameter transfer. arXiv preprint arXiv:2203.03466, 2022
Language models are unsupervised multitask learners. 2019
Improving language understanding by generative pre-training. 2018

第五部分 AI繪畫(huà)與多模態(tài)能力背后的核心技術(shù)(21篇，總88篇)

End-to-End Object Detection with Transformers
DETR by 2020年5月
AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
發(fā)表于2020年10月的Vision Transformer原始論文，代表Transformer正式殺入CV界
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
發(fā)表于21年3月
Swin Transformer V2: Scaling Up Capacity and Resolution
Auto-Encoding Variational Bayes
Denoising Diffusion Probabilistic Models
2020年6月提出DDPM，即眾人口中常說(shuō)的diffusion model
Diffusion Models Beat GANs on Image Synthesis
使用classifier guidance的方法，引導(dǎo)模型進(jìn)行采樣和生成
High-Resolution Image Synthesis with Latent Diffusion Models
2022年8月發(fā)布的Stable Diffusion基于Latent Diffusion Models，專(zhuān)門(mén)用于文圖生成任務(wù)
Aligning Text-to-Image Models using Human Feedback
ChatGPT的主要成功要?dú)w結(jié)于采用RLHF來(lái)精調(diào)LLM，近日谷歌AI團(tuán)隊(duì)將類(lèi)似的思路用于文生圖大模型：基于人類(lèi)反饋（Human Feedback）來(lái)精調(diào)Stable Diffusion模型來(lái)提升生成效果
CLIP: Connecting Text and Images - OpenAI
這是針對(duì)CLIP論文的解讀之一 CLIP由OpenAI在2021年1月發(fā)布，超大規(guī)模模型預(yù)訓(xùn)練提取視覺(jué)特征，圖片和文本之間的對(duì)比學(xué)習(xí)
Zero-Shot Text-to-Image Generation
DALL·E原始論文
Hierarchical Text-Conditional Image Generation with CLIP Latents
DALL·E 2論文2022年4月發(fā)布(至于第一代發(fā)布于2021年初)，通過(guò)CLIP + Diffusion models，達(dá)到文本生成圖像新高度
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation by Junnan Li, Dongxu Li, Caiming Xiong, Steven Hoi.
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models by Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi.
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
23年5月發(fā)布的InstructBLIP論文
LAVIS: A Library for Language-Vision Intelligence
Salesforce開(kāi)源一站式視覺(jué)語(yǔ)言學(xué)習(xí)框架LAVIS，這是其GitHub地址：https://github.com/salesforce/LAVIS
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models
對(duì)各種多模態(tài)模型的評(píng)測(cè)
Segment Anything
23年4.6日，Meta發(fā)布史上首個(gè)圖像分割基礎(chǔ)模型SAM，將NLP領(lǐng)域的prompt范式引進(jìn)CV，讓模型可以通過(guò)prompt一鍵摳圖。網(wǎng)友直呼：CV不存在了!
A Comprehensive Survey on Segment Anything Model for Vision and Beyond
對(duì)分割一切模型SAM的首篇全面綜述：28頁(yè)、200+篇參考文獻(xiàn)
Fast Segment Anything
中科院版的分割一切
MobileSAM
比SAM小60倍，比FastSAM快4倍，速度和效果雙贏

第六部分預(yù)訓(xùn)練模型的發(fā)展演變史(3篇，總91篇)

A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT
預(yù)訓(xùn)練基礎(chǔ)模型的演變史
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing

第七部分垂域版類(lèi)ChatGPT(比如醫(yī)療GPT)和其它(10篇，總100篇)

Large Language Models Encode Clinical Knowledge
Towards Expert-Level Medical Question Answering with Large Language Models
繼上篇論文提出medpalm之后，5月16日，Google Research和DeepMind發(fā)布了Med-PaLM 2，相比第一代最顯著的改進(jìn)是基座模型換成了Google的最新大模型PaLM2(據(jù)說(shuō)有著340b參數(shù)，用于訓(xùn)練的token數(shù)達(dá)3.6萬(wàn)億)
ChatDoctor: A Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge
醫(yī)療ChatDoctor論文
BloombergGPT: A Large Language Model for Finance
金融BloombergGPT論文
Deep Residual Learning for Image Recognition
ResNet論文，短短9頁(yè)，Google學(xué)術(shù)被引現(xiàn)15萬(wàn)多
WHAT LEARNING ALGORITHM IS IN-CONTEXT LEARNING? INVESTIGATIONS WITH LINEAR MODELS
Transformer-XL: Attentive language models beyond a fixed-length context
An empirical analysis of compute-optimal large language model training
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond
COLT5: Faster Long-Range Transformers with Conditional Computation

新課開(kāi)班

七月在線【LLM與多模態(tài)必讀論文100篇帶讀】，9月7日（周四）晚8點(diǎn)半開(kāi)班

帶你 提升研究能力，突破職業(yè)瓶頸

↓↓↓掃碼搶購(gòu)↓↓↓

點(diǎn)擊“ 閱讀原文 ”了解 課程詳情 ~

LLM與多模態(tài)必讀論文100篇

第五部分 AI繪畫(huà)與多模態(tài)能力背后的核心技術(shù)(21篇，總88篇)

第七部分 垂域版類(lèi)ChatGPT(比如醫(yī)療GPT)和其它(10篇，總100篇)

第五部分 AI繪畫(huà)與多模態(tài)能力背后的核心技術(shù)(21篇，總88篇)

第七部分垂域版類(lèi)ChatGPT(比如醫(yī)療GPT)和其它(10篇，總100篇)