mPLUG-Owl多模態(tài)大語言模型

聯(lián)合創(chuàng)作 · 2023-09-26 06:53

阿里達摩院提出的多模態(tài)GPT的模型：mPLUG-Owl，基于 mPLUG 模塊化的多模態(tài)大語言模型。它不僅能理解推理文本的內(nèi)容，還可以理解視覺信息，并且具備優(yōu)秀的跨模態(tài)對齊能力。

論文：https://arxiv.org/abs/2304.14178
DEMO：https://huggingface.co/spaces/MAGAer13/mPLUG-Owl

示例

亮點特色

一種面向多模態(tài)語言模型的模塊化的訓(xùn)練范式。
能學(xué)習與語言空間相適應(yīng)的視覺知識，并支持在多模態(tài)場景下進行多輪對話。
涌現(xiàn)多圖關(guān)系理解，場景文本理解和基于視覺的文檔理解等能力。
提出了針對視覺相關(guān)指令的測評集OwlEval，用以評估多模態(tài)語言模型的對帶有視覺信息上下文的理解能力。
我們在模塊化上的一些探索:
- E2E-VLP, mPLUG 和 mPLUG-2, 分別被ACL 2021, EMNLP 2022 and ICML 2023接收。
- mPLUG 首次在VQA上超越人類。
即將發(fā)布
- 在HuggingFace Hub上發(fā)布。
- 多語言支持（中文、日文等）。
- 在多圖片/視頻數(shù)據(jù)上訓(xùn)練的模型
- Huggingface 在線 Demo （done）
- 指令微調(diào)代碼（done）
- 視覺相關(guān)指令的測評集OwlEval（done）

預(yù)訓(xùn)練參數(shù)

Model	Phase	Download link
mPLUG-Owl 7B	Pre-training	下載鏈接
mPLUG-Owl 7B	Instruction tuning	下載鏈接
Tokenizer model	N/A	下載鏈接

瀏覽 32

點贊

收藏

分享

舉報

評論

圖片

表情

mPLUG-Owl多模態(tài)大語言模型

阿里達摩院提出的多模態(tài)GPT的模型：mPLUG-Owl，基于?mPLUG?模塊化的多模態(tài)大語言模型。它不僅能理解推理文本的內(nèi)容，還可以理解視覺信息，并且具備優(yōu)秀的跨模態(tài)對齊能力。論文：https://

悟道雙語多模態(tài)大語言模型

“悟道”是雙語多模態(tài)預(yù)訓(xùn)練模型，規(guī)模達到 1.75 萬億參數(shù)。項目現(xiàn)有 7 個開源模型成果，模型參數(shù)

悟道雙語多模態(tài)大語言模型

“悟道”是雙語多模態(tài)預(yù)訓(xùn)練模型，規(guī)模達到1.75萬億參數(shù)。項目現(xiàn)有7個開源模型成果，模型參數(shù)文件需到悟道平臺進行下載申請。圖文類CogViewCogView參數(shù)量為40億，模型可實現(xiàn)文本生成圖像，經(jīng)過

多模態(tài)視覺語言模型 Mini-Gemini

大家好，又見面了，我是 GitHub 精選君！背景介紹隨著大數(shù)據(jù)和人工智能技術(shù)的快速發(fā)展，多模態(tài)視覺語言模型（Multi-modality Vision Language Models）已成為近年來研究的熱點。這類模型通過融合圖像和文本信息，能夠更好地理解和生成復(fù)雜的視覺語言內(nèi)容，廣泛應(yīng)用于圖像標注

VisualGLM-6B多模態(tài)對話語言模型

VisualGLM-6B多模態(tài)對話語言模型

VisualGLM-6B多模態(tài)對話語言模型

VisualGLM-6B是一個開源的，支持圖像、中文和英文的多模態(tài)對話語言模型，語言模型基于ChatGLM-6B，具有62億參數(shù)；圖像部分通過訓(xùn)練BLIP2-Qformer構(gòu)建起視覺模型與語言模型的橋

VLE視覺-語言多模態(tài)預(yù)訓(xùn)練模型

VLE?(Vision-Language?Encoder) 是一種基于預(yù)訓(xùn)練文本和圖像編碼器的圖像-

VLE視覺-語言多模態(tài)預(yù)訓(xùn)練模型

VLE?(Vision-Language?Encoder)是一種基于預(yù)訓(xùn)練文本和圖像編碼器的圖像-文本多模態(tài)理解模型，可應(yīng)用于如視覺問答、圖像-文本檢索等多模態(tài)判別任務(wù)。特別地，在對語言理解和推理能力

Macaw-LLM多模態(tài)語言建模

Macaw-LLM：具有圖像、視頻、音頻和文本集成的多模態(tài)語言建模Macaw-LLM 是一項探索性的

Macaw-LLM多模態(tài)語言建模

Macaw-LLM：具有圖像、視頻、音頻和文本集成的多模態(tài)語言建模Macaw-LLM是一項探索性的嘗試，它通過無縫結(jié)合圖像、視頻、音頻和文本數(shù)據(jù)開創(chuàng)了多模式語言建模，建立在CLIP、Whisper和L

點贊

收藏

分享

舉報

中文在线亚洲 | 国产视频999 | 国产精品成人片一区在线观看 | 操逼捰大鸡八视频 | 安徽操逼片 |