萬字長文總結大模型微調(diào)技能圖譜
共 8935字,需瀏覽 18分鐘
·
2024-05-08 10:00
詳細大綱
介紹課程目標、安排和預期成果
明確對學員的要求和期望
概述課程中將探討的項目和技術
討論大模型技術的行業(yè)現(xiàn)狀
推薦關注的工具和開源項目
大模型的定義和重要性
大模型發(fā)展歷程和關鍵里程碑
預訓練與微調(diào)的基本概念
大模型預訓練、數(shù)據(jù)處理、微調(diào)、對齊
大模型訓練的基礎設施和資源需求
面臨的挑戰(zhàn)和未來發(fā)展方向
Transformer模型的基本架構
Self-Attention機制的原理和計算過程
Multi-Head Attention的設計和作用
注意力權重的計算和可視化
Self-Attention在模型中的作用和優(yōu)勢
Positional Encoding的概念和實現(xiàn)方法
Rotary Positional Embedding
BPE tokenizer,SentencePiece Encoding
Transformer中的Feed-Forward Networks
Layer Normalization的原理和重要性
Transformer模型中的殘差連接
編碼器和解碼器的結構差異
Transformer的訓練策略和優(yōu)化方法
參數(shù)初始化和學習率調(diào)度
Transformer模型的正則化技術
Attention機制的變種和改進
Greedy Decoding, Beam-search
Top-K Sampling, Top-p Sampling
Transformer源碼解讀
全量微調(diào)與高效微調(diào)的區(qū)別
Transformer模型微調(diào)的常見策略
選擇合適的微調(diào)任務和數(shù)據(jù)集
微調(diào)中的挑戰(zhàn)和最佳實踐
評估微調(diào)效果的標準和工具
PEFT的安裝
PEFT的使用說明,核心模塊講解
指令數(shù)據(jù)準備和預處理的技巧
實施微調(diào)的詳細步驟
微調(diào)項目的性能評估和分析
GPT系列模型的發(fā)展歷程
GP1到GPT4,GPT3模型剖析
GPT代碼解讀
InstructGPT模型剖析
Zero-shot Prompting
Few-shot Prompting
GPT模型的局限性和挑戰(zhàn)
LLaMA模型的特點和技術創(chuàng)新
LLaMA模型的原理剖析
LLaMA源碼解讀
LLaMA與其他大模型的對比
LLaMA模型的訓練和微調(diào)策略
面對LLaMA模型的未來發(fā)展方向
ChatGLM的架構和設計理念
ChatGLM模型解讀
ChatGLM1到ChatGLM3的技術迭代
ChatGLM模型的優(yōu)勢和應用領域
ChatGLM模型微調(diào)和部署的實踐指南
ChatGLM模型的評估和性能優(yōu)化
Baichuan模型的概述和核心技術
Baichuan原理剖析和源碼解讀
Baichuan模型與其他模型的比較
Baichuan模型在特定任務上的應用
微調(diào)Baichuan模型的策略和技巧
Baichuan模型的局限
指令微調(diào)的定義與應用背景
指令微調(diào)與傳統(tǒng)微調(diào)的對比
指令微調(diào)在大模型中的重要性
指令微調(diào)流程概覽
指令微調(diào)的挑戰(zhàn)與策略
矩陣和向量的基本概念
矩陣運算與性質(zhì)
特征值和特征向量
矩陣分解(SVD)技術簡介
矩陣在LoRA算法中的應用
LoRA算法的原理與動機
Lora中的Low-rank假設
LoRA的關鍵技術組件
LoRA算法的實現(xiàn)步驟
LoRA算法的優(yōu)化與調(diào)試
LoRA算法源碼解讀
指令數(shù)據(jù)的重要性與來源
自動化和手動搜集指令數(shù)據(jù)的方法
指令數(shù)據(jù)的預處理和標準化
生成高質(zhì)量指令數(shù)據(jù)的技巧
指令數(shù)據(jù)集的維護與更新
指令數(shù)據(jù)的人工質(zhì)量評估與自動質(zhì)量評估
Alpaca微調(diào)項目的設計與目標
準備Alpaca微調(diào)所需的指令數(shù)據(jù)
實施Alpaca微調(diào)的詳細步驟
評估Alpaca微調(diào)效果的方法
分析與解決Alpaca微調(diào)中遇到的問題
解讀Alpaca項目源碼
AdaLoRA與LoRa的比較
動態(tài)改變矩陣權重的意義
SVD與AdaLoRA
訓練AdaLoRA
AdaLoRA源碼解讀
AdaLoRA案例講解
Vicuna微調(diào)項目的背景與應用場景
ShareGPT數(shù)據(jù)收集
Vicuna微調(diào)的實施流程和技術細節(jié)
Vicuna微調(diào)效果的評估與分析
基于Vicuna微調(diào)項目的經(jīng)驗總結與展望
第三階段:大模型指令微調(diào)之- Quantization
Quantization在深度學習中的作用與原理
常見的Quantization技術及其分類
模型Quantization對性能和精度的影響
Quantization的實踐步驟和工具
模型Quantization的挑戰(zhàn)與解決策略
QLoRA算法的定義和背景
QLoRA與LoRA的關鍵區(qū)別和改進
QLoRA算法的詳細實現(xiàn)過程
4bit NormalFloat, double quantization
QLoRA算法的優(yōu)化和調(diào)試技巧
QLoRA源碼解讀
技術方案的設計
收集和預處理指令數(shù)據(jù)
基于PEFT進行QLora大模型微調(diào)
評估QLoRA微調(diào)之后的效果
分析QLoRA微調(diào)過程中遇到的問題及其解決方案
模型壓縮的必要性和技術背景
常見的模型壓縮方法概述
模型壓縮與Quantization的關系
實施模型壓縮的步驟和注意事項
模型壓縮技術的最新研究進展
模型蒸餾的基本概念和工作原理
模型蒸餾在模型優(yōu)化中的應用
不同蒸餾技術的比較和選擇
實施模型蒸餾的具體方法
模型蒸餾技術面臨的挑戰(zhàn)及其解決策略
ZeroQuant算法的基本原理和應用背景
ZeroQuant在模型Quantization中的創(chuàng)新點
實現(xiàn)ZeroQuant的關鍵步驟和技術要求
ZeroQuant源碼解讀
ZeroQuant技術的局限性和未來方向
SmoothQuant算法的設計理念和核心技術
SmoothQuant與傳統(tǒng)Quantization方法的區(qū)別
實施SmoothQuant算法的具體流程
SmoothQuant源碼解讀
SmoothQuant面臨的技術挑戰(zhàn)和改進路徑
RLHF的起源和背景
RLHF在人工智能中的作用和重要性
強化學習與人類反饋:結合的優(yōu)勢
RLHF的主要應用領域和案例研究
從InstructGPT到GPT4
人類反饋在強化學習中的角色
不同形式的人類反饋:標注、偏好、指導
從人類反饋中學習:方法和策略
人類反饋數(shù)據(jù)的收集和處理
人類反饋強化學習的挑戰(zhàn)和解決方案
PPO的起源和動機
PPO與其他策略梯度方法的對比
算法核心概念和原理
PPO的優(yōu)勢和局限性
PPO的應用領域和案例
強化學習基本概念介紹
數(shù)據(jù)在強化學習中的作用和重要性
狀態(tài)、動作和獎勵的數(shù)據(jù)結構
數(shù)據(jù)收集、處理和利用的方法
使用模擬環(huán)境進行數(shù)據(jù)生成和測試
策略梯度方法簡介
優(yōu)勢函數(shù)和回報
基線的概念和作用
累積回報與折扣回報
探索與利用的權衡
目標函數(shù)和KL散度
裁剪目標函數(shù)的原理
多次迭代優(yōu)化策略
廣義優(yōu)勢估計(GAE)
重要性采樣和策略更新
構建神經(jīng)網(wǎng)絡模型
實現(xiàn)PPO的優(yōu)化循環(huán)
自適應學習率調(diào)整
調(diào)試和性能分析技巧
評估對齊之后的大模型
PPO變體和改進策略
處理高維輸入和模型泛化
多智能體環(huán)境中的PPO應用
強化學習中的遷移學習和多任務學習
強化學習中的安全性和可解釋性
項目需求分析和技術方案設計
環(huán)境設置和任務定義
對齊數(shù)據(jù)的收集和預處理
實現(xiàn)PPO訓練流程
結果分析和性能優(yōu)化
DPO(Direct Preference Optimization)介紹
與PPO算法對比
DPO的應用場景和重要性
基本原理和工作機制
DPO算法的優(yōu)勢和挑戰(zhàn)
偏好與排序問題在AI中的角色
數(shù)據(jù)表示:成對比較和偏好矩陣
偏好學習的挑戰(zhàn)
排序和偏好預測的評估指標
經(jīng)典偏好學習算法概覽
偏好建模的數(shù)學框架
直接與間接偏好優(yōu)化的對比
DPO中的關鍵算法組件
成對比較數(shù)據(jù)的處理方法
DPO的損失函數(shù)和優(yōu)化策略
數(shù)據(jù)整理與預處理
構建偏好學習模型的步驟
使用Python實現(xiàn)基礎DPO模型
在benchmark上測試DPO性能
DPO的優(yōu)勢和缺點
推薦系統(tǒng)中的偏好學習
設計DPO驅(qū)動的推薦算法
處理實時用戶反饋
實施DPO進行推薦模型微調(diào)
評估推薦系統(tǒng)的性能
多任務學習與DPO的結合
DPO在非監(jiān)督學習中的應用
深度學習方法與DPO
交互式偏好學習
DPO技術的變種
Prefix Tuning的基本原理
實現(xiàn)Prefix Tuning的關鍵步驟
Prefix Tuning源碼解讀
Prefix Tuning與其他微調(diào)方法的比較
在NLP任務中應用Prefix Tuning的案例
Prefix Tuning的局限性和挑戰(zhàn)
Adaptor Tuning的基本原理
如何在大模型中插入Adaptor層
Adaptor Tuning的優(yōu)點和應用場景
Adaptor Tuning源碼解讀
實際案例:Adaptor Tuning在分類任務中的應用
Adaptor Tuning的效率和擴展性問題
Flash Attention的設計思想和算法原理
優(yōu)化Transformer模型中的注意力機制
Flash Attention在提升處理速度和效率上的作用
應用Flash Attention改進大模型的案例分析
Flash Attention的實現(xiàn)挑戰(zhàn)和解決方案
介紹Flash Attention 2與前版本的區(qū)別
深入探討Flash Attention 2的技術改進點
Flash Attention 2在復雜任務處理中的應用示例
評估Flash Attention 2的性能和適用范圍
Flash Attention 2的實現(xiàn)細節(jié)和調(diào)優(yōu)建議
KTO算法背景和理論基礎
Kahneman-Tversky優(yōu)化在微調(diào)中的應用
實施KTO的關鍵技術步驟
KTO在提高決策質(zhì)量中的角色
KTO應用案例和性能分析
結合QLoRA和Flash Attention的微調(diào)策略
任務選取和數(shù)據(jù)準備
微調(diào)流程詳解:從預處理到模型評估
分析微調(diào)后模型的性能改進
面臨的挑戰(zhàn)及解決方案分享
增量學習(Continual learning)的重要性
與傳統(tǒng)從零訓練的對比
增量學習的應用場景
任務選取和數(shù)據(jù)準備
微調(diào)流程詳解:從預處理到模型評估
什么是災難性遺忘
解決災難性遺忘的思路
正則化、動態(tài)網(wǎng)絡架構、元學習
通用數(shù)據(jù)與垂直數(shù)據(jù)的混合訓練
數(shù)據(jù)中的信息分析
調(diào)整學習率
增量學習在大規(guī)模數(shù)據(jù)集上的應用
多模態(tài)與跨領域增量學習
自適應學習和在線學習技術
強化學習與增量學習的結合
未來增量學習的發(fā)展方向
|
|
|
|
|
|
|
|
|
|
|
|
課程PPT舉例
課程主講
-
清華大學計算機科學與人工智能研究部博士后 -
長期在大廠從事對話系統(tǒng),預訓練語言模型的研發(fā)和商業(yè)化 -
主要從事自然語言處理,對話領域的先行研究與商業(yè)化 -
先后在AAAI,NeurIPS,ACM,EMNLP等國際頂會及期刊發(fā)表高水平論文十余篇
-
多家上市公司技術戰(zhàn)略顧問 -
曾任金融科技獨角獸公司首席科學家 -
曾任量化投資初創(chuàng)公司首席科學家 -
曾任美國亞馬遜推薦系統(tǒng)工程師 -
深耕人工智能領域十余年,授課培養(yǎng)AI學員數(shù)萬人
報名咨詢
掃描二維碼,添加顧問老師咨詢~
