1. 萬字長文總結大模型微調(diào)技能圖譜

        共 8935字,需瀏覽 18分鐘

         ·

        2024-05-08 10:00

        隨著大模型的飛速發(fā)展,在短短一年間就有了大幅度的技術迭代更新,從LoRA、QLoRA、AdaLoRa、ZeroQuant、Flash Attention、KTO、PPO、DPO、蒸餾技術到模型增量學習、數(shù)據(jù)處理、開源模型的理解等,幾乎每天都有新的發(fā)展。

        我們總結了算法工程師需要掌握的大模型微調(diào)技能,并制作了大模型微調(diào)技能圖譜,希望可以幫助大家將知識體系梳理清楚,為未來在大模型的工作與科研道路上節(jié)省時間,提高效率!

        作為算法工程師,面對如此龐大又在飛速迭代的大模型技術體系,您是否有感覺自己的學習步伐有點跟不上技術的發(fā)展?或者對這些新興技術的理解僅僅停留在應用層面上,實際上對背后的原理并沒有深入剖析過?如果您希望在大模型賽道上持續(xù)保持競爭壁壘,對技術本身的深入理解是很必要的選項。 

        鑒于這類痛點,并迎合技術的發(fā)展,貪心科技推出《大模型微調(diào)算法實戰(zhàn)營》,通過3個月的時間,全面掌握以上圖譜中列出的知識技術以及背后的精髓,幫大家大大節(jié)省學習成本。

        下面是7個階段學習安排,感興趣的朋友們歡迎掃碼咨詢。  

        掃描二維碼,添加顧問老師咨詢~



        詳細大綱


        第一階段:大模型基礎
        第一章:開營典禮
        • 介紹課程目標、安排和預期成果

        • 明確對學員的要求和期望

        • 概述課程中將探討的項目和技術

        • 討論大模型技術的行業(yè)現(xiàn)狀

        • 推薦關注的工具和開源項目

        第二章:大模型是怎么煉成的
        • 大模型的定義和重要性

        • 大模型發(fā)展歷程和關鍵里程碑

        • 預訓練與微調(diào)的基本概念

        • 大模型預訓練、數(shù)據(jù)處理、微調(diào)、對齊

        • 大模型訓練的基礎設施和資源需求

        • 面臨的挑戰(zhàn)和未來發(fā)展方向

        第三章:Transformer模型原理剖析(1)
        • Transformer模型的基本架構

        • Self-Attention機制的原理和計算過程

        • Multi-Head Attention的設計和作用

        • 注意力權重的計算和可視化

        • Self-Attention在模型中的作用和優(yōu)勢

        第四章:Transformer模型原理剖析(2)
        • Positional Encoding的概念和實現(xiàn)方法

        • Rotary Positional Embedding

        • BPE tokenizer,SentencePiece Encoding

        • Transformer中的Feed-Forward Networks

        • Layer Normalization的原理和重要性

        • Transformer模型中的殘差連接

        • 編碼器和解碼器的結構差異

        第五章:Transformer模型原理剖析(3)
        • Transformer的訓練策略和優(yōu)化方法

        • 參數(shù)初始化和學習率調(diào)度

        • Transformer模型的正則化技術

        • Attention機制的變種和改進

        • Greedy Decoding, Beam-search

        • Top-K Sampling, Top-p Sampling

        • Transformer源碼解讀

        第六章:Transformer模型全量微調(diào)和高效微調(diào)
        • 全量微調(diào)與高效微調(diào)的區(qū)別

        • Transformer模型微調(diào)的常見策略

        • 選擇合適的微調(diào)任務和數(shù)據(jù)集

        • 微調(diào)中的挑戰(zhàn)和最佳實踐

        • 評估微調(diào)效果的標準和工具

        第七章:【項目實戰(zhàn)1】大模型PEFT微調(diào)項目
        • PEFT的安裝

        • PEFT的使用說明,核心模塊講解

        • 指令數(shù)據(jù)準備和預處理的技巧

        • 實施微調(diào)的詳細步驟

        • 微調(diào)項目的性能評估和分析

        第八章:GPT模型家族剖析
        • GPT系列模型的發(fā)展歷程

        • GP1到GPT4,GPT3模型剖析

        • GPT代碼解讀

        • InstructGPT模型剖析

        • Zero-shot Prompting

        • Few-shot Prompting

        • GPT模型的局限性和挑戰(zhàn)

        第九章:LLaMA家族模型剖析
        • LLaMA模型的特點和技術創(chuàng)新

        • LLaMA模型的原理剖析

        • LLaMA源碼解讀

        • LLaMA與其他大模型的對比

        • LLaMA模型的訓練和微調(diào)策略

        • 面對LLaMA模型的未來發(fā)展方向

        第十章:ChatGLM家族模型剖析
        • ChatGLM的架構和設計理念

        • ChatGLM模型解讀

        • ChatGLM1到ChatGLM3的技術迭代

        • ChatGLM模型的優(yōu)勢和應用領域

        • ChatGLM模型微調(diào)和部署的實踐指南

        • ChatGLM模型的評估和性能優(yōu)化

        第十一章:Baichuan家族模型剖析
        • Baichuan模型的概述和核心技術

        • Baichuan原理剖析和源碼解讀

        • Baichuan模型與其他模型的比較

        • Baichuan模型在特定任務上的應用

        • 微調(diào)Baichuan模型的策略和技巧

        • Baichuan模型的局限


        第二階段:大模型指令微調(diào)之- LoRA
        第十二章:指令微調(diào)基礎
        • 指令微調(diào)的定義與應用背景

        • 指令微調(diào)與傳統(tǒng)微調(diào)的對比

        • 指令微調(diào)在大模型中的重要性

        • 指令微調(diào)流程概覽

        • 指令微調(diào)的挑戰(zhàn)與策略

        第十三章:必要矩陣知識
        • 矩陣和向量的基本概念

        • 矩陣運算與性質(zhì)

        • 特征值和特征向量

        • 矩陣分解(SVD)技術簡介

        • 矩陣在LoRA算法中的應用

        第十四章:LoRA算法剖析
        • LoRA算法的原理與動機

        • Lora中的Low-rank假設

        • LoRA的關鍵技術組件

        • LoRA算法的實現(xiàn)步驟

        • LoRA算法的優(yōu)化與調(diào)試

        • LoRA算法源碼解讀

        第十五章:指令數(shù)據(jù)搜集和生成
        • 指令數(shù)據(jù)的重要性與來源

        • 自動化和手動搜集指令數(shù)據(jù)的方法

        • 指令數(shù)據(jù)的預處理和標準化

        • 生成高質(zhì)量指令數(shù)據(jù)的技巧

        • 指令數(shù)據(jù)集的維護與更新

        • 指令數(shù)據(jù)的人工質(zhì)量評估與自動質(zhì)量評估

        第十六章:【項目實戰(zhàn)2】Alpaca微調(diào)大模型
        • Alpaca微調(diào)項目的設計與目標

        • 準備Alpaca微調(diào)所需的指令數(shù)據(jù)

        • 實施Alpaca微調(diào)的詳細步驟

        • 評估Alpaca微調(diào)效果的方法

        • 分析與解決Alpaca微調(diào)中遇到的問題

        • 解讀Alpaca項目源碼

        第十七章:AdaLoRA算法剖析
        • AdaLoRA與LoRa的比較

        • 動態(tài)改變矩陣權重的意義

        • SVD與AdaLoRA

        • 訓練AdaLoRA

        • AdaLoRA源碼解讀

        • AdaLoRA案例講解

        第十八章:【項目實戰(zhàn)3】Vicuna微調(diào)大模型
        • Vicuna微調(diào)項目的背景與應用場景

        • ShareGPT數(shù)據(jù)收集

        • Vicuna微調(diào)的實施流程和技術細節(jié)

        • Vicuna微調(diào)效果的評估與分析

        • 基于Vicuna微調(diào)項目的經(jīng)驗總結與展望


        第三階段:大模型指令微調(diào)之- Quantization

        第十九章:模型Quantization基礎
        • Quantization在深度學習中的作用與原理

        • 常見的Quantization技術及其分類

        • 模型Quantization對性能和精度的影響

        • Quantization的實踐步驟和工具

        • 模型Quantization的挑戰(zhàn)與解決策略

        第二十章:QLoRA算法剖析
        • QLoRA算法的定義和背景

        • QLoRA與LoRA的關鍵區(qū)別和改進

        • QLoRA算法的詳細實現(xiàn)過程

        • 4bit NormalFloat, double quantization

        • QLoRA算法的優(yōu)化和調(diào)試技巧

        • QLoRA源碼解讀

        第二十一章:【項目實戰(zhàn)4】QLoRA微調(diào)LLaMA大模型
        • 技術方案的設計

        • 收集和預處理指令數(shù)據(jù)

        • 基于PEFT進行QLora大模型微調(diào)

        • 評估QLoRA微調(diào)之后的效果

        • 分析QLoRA微調(diào)過程中遇到的問題及其解決方案

        第二十二章:模型Compression技術
        • 模型壓縮的必要性和技術背景

        • 常見的模型壓縮方法概述

        • 模型壓縮與Quantization的關系

        • 實施模型壓縮的步驟和注意事項

        • 模型壓縮技術的最新研究進展

        第二十三章:模型蒸餾技術探索
        • 模型蒸餾的基本概念和工作原理

        • 模型蒸餾在模型優(yōu)化中的應用

        • 不同蒸餾技術的比較和選擇

        • 實施模型蒸餾的具體方法

        • 模型蒸餾技術面臨的挑戰(zhàn)及其解決策略

        第二十四章:ZeroQuant算法剖析
        • ZeroQuant算法的基本原理和應用背景

        • ZeroQuant在模型Quantization中的創(chuàng)新點

        • 實現(xiàn)ZeroQuant的關鍵步驟和技術要求

        • ZeroQuant源碼解讀

        • ZeroQuant技術的局限性和未來方向

        第二十五章:SmoothQuant算法剖析
        • SmoothQuant算法的設計理念和核心技術

        • SmoothQuant與傳統(tǒng)Quantization方法的區(qū)別

        • 實施SmoothQuant算法的具體流程

        • SmoothQuant源碼解讀

        • SmoothQuant面臨的技術挑戰(zhàn)和改進路徑


        第四階段:大模型對齊之-RLHF
        第二十六章:RLHF算法概述
        • RLHF的起源和背景

        • RLHF在人工智能中的作用和重要性

        • 強化學習與人類反饋:結合的優(yōu)勢

        • RLHF的主要應用領域和案例研究

        • 從InstructGPT到GPT4

        第二十七章:人類反饋的集成
        • 人類反饋在強化學習中的角色

        • 不同形式的人類反饋:標注、偏好、指導

        • 從人類反饋中學習:方法和策略

        • 人類反饋數(shù)據(jù)的收集和處理

        • 人類反饋強化學習的挑戰(zhàn)和解決方案

        第二十八章:PPO算法概述
        • PPO的起源和動機

        • PPO與其他策略梯度方法的對比

        • 算法核心概念和原理

        • PPO的優(yōu)勢和局限性

        • PPO的應用領域和案例

        第二十九章:強化學習和數(shù)據(jù)基礎
        • 強化學習基本概念介紹

        • 數(shù)據(jù)在強化學習中的作用和重要性

        • 狀態(tài)、動作和獎勵的數(shù)據(jù)結構

        • 數(shù)據(jù)收集、處理和利用的方法

        • 使用模擬環(huán)境進行數(shù)據(jù)生成和測試

        第三十章:策略優(yōu)化基礎
        • 策略梯度方法簡介

        • 優(yōu)勢函數(shù)和回報

        • 基線的概念和作用

        • 累積回報與折扣回報

        • 探索與利用的權衡

        第三十一章:PPO核心技術細節(jié)
        • 目標函數(shù)和KL散度

        • 裁剪目標函數(shù)的原理

        • 多次迭代優(yōu)化策略

        • 廣義優(yōu)勢估計(GAE)

        • 重要性采樣和策略更新

        第三十二章:基于開源大模型從零實現(xiàn)PPO算法
        • 構建神經(jīng)網(wǎng)絡模型

        • 實現(xiàn)PPO的優(yōu)化循環(huán)

        • 自適應學習率調(diào)整

        • 調(diào)試和性能分析技巧

        • 評估對齊之后的大模型

        第三十三章:高級PPO技術和強化學習進階
        • PPO變體和改進策略

        • 處理高維輸入和模型泛化

        • 多智能體環(huán)境中的PPO應用

        • 強化學習中的遷移學習和多任務學習

        • 強化學習中的安全性和可解釋性

        第三十四章:【項目實戰(zhàn)5】RLHF醫(yī)療大模型微調(diào)
        • 項目需求分析和技術方案設計

        • 環(huán)境設置和任務定義

        • 對齊數(shù)據(jù)的收集和預處理

        • 實現(xiàn)PPO訓練流程

        • 結果分析和性能優(yōu)化


        第五階段:大模型對齊之-DPO
        第三十五章:DPO算法概述
        • DPO(Direct Preference Optimization)介紹

        • 與PPO算法對比

        • DPO的應用場景和重要性

        • 基本原理和工作機制

        • DPO算法的優(yōu)勢和挑戰(zhàn)

        第三十六章:排序和偏好的基礎
        • 偏好與排序問題在AI中的角色

        • 數(shù)據(jù)表示:成對比較和偏好矩陣

        • 偏好學習的挑戰(zhàn)

        • 排序和偏好預測的評估指標

        • 經(jīng)典偏好學習算法概覽

        第三十七章:DPO核心技術細節(jié)
        • 偏好建模的數(shù)學框架

        • 直接與間接偏好優(yōu)化的對比

        • DPO中的關鍵算法組件

        • 成對比較數(shù)據(jù)的處理方法

        • DPO的損失函數(shù)和優(yōu)化策略

        第三十八章:DPO算法的從零實現(xiàn)
        • 數(shù)據(jù)整理與預處理

        • 構建偏好學習模型的步驟

        • 使用Python實現(xiàn)基礎DPO模型

        • 在benchmark上測試DPO性能

        • DPO的優(yōu)勢和缺點

        第三十九章:【項目實戰(zhàn)6】DPO在推薦系統(tǒng)中的應用
        • 推薦系統(tǒng)中的偏好學習

        • 設計DPO驅(qū)動的推薦算法

        • 處理實時用戶反饋

        • 實施DPO進行推薦模型微調(diào)

        • 評估推薦系統(tǒng)的性能

        第四十章:高級DPO技術
        • 多任務學習與DPO的結合

        • DPO在非監(jiān)督學習中的應用

        • 深度學習方法與DPO

        • 交互式偏好學習

        • DPO技術的變種


        第六階段:大模型其他微調(diào)技術
        第四十一章:Prefix Tuning算法剖析
        • Prefix Tuning的基本原理

        • 實現(xiàn)Prefix Tuning的關鍵步驟

        • Prefix Tuning源碼解讀

        • Prefix Tuning與其他微調(diào)方法的比較

        • 在NLP任務中應用Prefix Tuning的案例

        • Prefix Tuning的局限性和挑戰(zhàn)

        第四十二章:Adaptor Tuning算法剖析
        • Adaptor Tuning的基本原理

        • 如何在大模型中插入Adaptor層

        • Adaptor Tuning的優(yōu)點和應用場景

        • Adaptor Tuning源碼解讀

        • 實際案例:Adaptor Tuning在分類任務中的應用

        • Adaptor Tuning的效率和擴展性問題

        第四十三章:Flash Attention算法剖析
        • Flash Attention的設計思想和算法原理

        • 優(yōu)化Transformer模型中的注意力機制

        • Flash Attention在提升處理速度和效率上的作用

        • 應用Flash Attention改進大模型的案例分析

        • Flash Attention的實現(xiàn)挑戰(zhàn)和解決方案

        第四十四章:Flash Attention 2算法剖析
        • 介紹Flash Attention 2與前版本的區(qū)別

        • 深入探討Flash Attention 2的技術改進點

        • Flash Attention 2在復雜任務處理中的應用示例

        • 評估Flash Attention 2的性能和適用范圍

        • Flash Attention 2的實現(xiàn)細節(jié)和調(diào)優(yōu)建議

        第四十五章:Kahneman-Tversky Optimization (KTO) 算法剖析
        • KTO算法背景和理論基礎

        • Kahneman-Tversky優(yōu)化在微調(diào)中的應用

        • 實施KTO的關鍵技術步驟

        • KTO在提高決策質(zhì)量中的角色

        • KTO應用案例和性能分析

        第四十六章:【項目實戰(zhàn)7】QLoRA+Flash Attention微調(diào)大模型
        • 結合QLoRA和Flash Attention的微調(diào)策略

        • 任務選取和數(shù)據(jù)準備

        • 微調(diào)流程詳解:從預處理到模型評估

        • 分析微調(diào)后模型的性能改進

        • 面臨的挑戰(zhàn)及解決方案分享


        第七階段:大模型增量學習
        第四十七章:大模型增量學習概述
        • 增量學習(Continual learning)的重要性

        • 與傳統(tǒng)從零訓練的對比

        • 增量學習的應用場景

        • 任務選取和數(shù)據(jù)準備

        • 微調(diào)流程詳解:從預處理到模型評估

        第四十八章:增量學習與災難性遺忘
        • 什么是災難性遺忘

        • 解決災難性遺忘的思路

        • 正則化、動態(tài)網(wǎng)絡架構、元學習

        • 通用數(shù)據(jù)與垂直數(shù)據(jù)的混合訓練

        • 數(shù)據(jù)中的信息分析

        • 調(diào)整學習率

        第四十九章:增量學習中的高級主題
        • 增量學習在大規(guī)模數(shù)據(jù)集上的應用

        • 多模態(tài)與跨領域增量學習

        • 自適應學習和在線學習技術

        • 強化學習與增量學習的結合

        • 未來增量學習的發(fā)展方向


        類別
        說明
        程形式
        線上直播+課程學習群答疑
        課程安排
        13次直播授課,每周1次,每次3-3.5小時
        課程服務
        25人以內(nèi)學習群,助教答疑,保證遇到的問題被快速解決
        專屬咨詢顧問與班主任老師全程伴學
        全程直播講解與演示+可反復觀看課程視頻

        課程PPT舉例


        項目實戰(zhàn)舉例

        課程學習群答疑舉例



        課程主講



        張老師
        人工智能、大模型領域?qū)<?/span>

        • 清華大學計算機科學與人工智能研究部博士后
        • 長期在大廠從事對話系統(tǒng),預訓練語言模型的研發(fā)和商業(yè)化
        • 主要從事自然語言處理,對話領域的先行研究與商業(yè)化
        • 先后在AAAI,NeurIPS,ACM,EMNLP等國際頂會及期刊發(fā)表高水平論文十余篇

        李文哲
        貪心科技創(chuàng)始人兼CEO
        人工智能、大模型領域?qū)<?/span>

        • 多家上市公司技術戰(zhàn)略顧問
        • 曾任金融科技獨角獸公司首席科學家
        • 曾任量化投資初創(chuàng)公司首席科學家
        • 曾任美國亞馬遜推薦系統(tǒng)工程師
        • 深耕人工智能領域十余年,授課培養(yǎng)AI學員數(shù)萬人


        報名咨詢


        掃描二維碼,添加顧問老師咨詢~

        瀏覽 101
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
          
          

            1. 无码毛片一区二区三区人口 | 婷婷亚洲综合 | 色婷婷AV一区二区牛牛影视 | 丝袜足交一区 | 极品AV |