mPLUG-Owl多模態(tài)大語言模型
阿里達摩院提出的多模態(tài)GPT的模型:mPLUG-Owl,基于 mPLUG 模塊化的多模態(tài)大語言模型。它不僅能理解推理文本的內(nèi)容,還可以理解視覺信息,并且具備優(yōu)秀的跨模態(tài)對齊能力。
示例
亮點特色
- 一種面向多模態(tài)語言模型的模塊化的訓(xùn)練范式。
- 能學(xué)習與語言空間相適應(yīng)的視覺知識,并支持在多模態(tài)場景下進行多輪對話。
- 涌現(xiàn)多圖關(guān)系理解,場景文本理解和基于視覺的文檔理解等能力。
- 提出了針對視覺相關(guān)指令的測評集OwlEval,用以評估多模態(tài)語言模型的對帶有視覺信息上下文的理解能力。
- 我們在模塊化上的一些探索:
- 即將發(fā)布
- 在HuggingFace Hub上發(fā)布。
- 多語言支持(中文、日文等)。
- 在多圖片/視頻數(shù)據(jù)上訓(xùn)練的模型
- Huggingface 在線 Demo (done)
- 指令微調(diào)代碼(done)
- 視覺相關(guān)指令的測評集OwlEval(done)
預(yù)訓(xùn)練參數(shù)
| Model | Phase | Download link |
|---|---|---|
| mPLUG-Owl 7B | Pre-training | 下載鏈接 |
| mPLUG-Owl 7B | Instruction tuning | 下載鏈接 |
| Tokenizer model | N/A | 下載鏈接 |
評論
圖片
表情
