聊聊大火的多模態(tài)!
多模態(tài)機器學習,英文全稱 MultiModal Machine Learning (MMML),旨在通過機器學習的方法實現(xiàn)處理和理解多源模態(tài)信息的能力。
每一種信息的來源或者形式,都可以稱為一種模態(tài)。例如,人有觸覺,聽覺,視覺,嗅覺;信息有語音、視頻、文字等媒介;多種多樣的傳感器,如雷達、紅外、加速度計等。以上的每一種都可以稱為一種模態(tài)。
模態(tài)也可以有非常廣泛的定義,比如我們可以把兩種不同的語言當做是兩種模態(tài),甚至在兩種不同情況下采集到的數(shù)據(jù)集,亦可認為是兩種模態(tài)。
當下,多模態(tài)技術有著相當廣泛的應用場景,如淘寶搜圖、AI字幕、AI虛擬數(shù)字人、仿人交互、智能助手、商品推薦和信息流廣告、視頻幀人臉幀的圖向量檢索、語音交互等等。
我們很榮幸邀請到了擁有多項專利和多年大廠算法工程師工作經(jīng)驗的Peng老師,利用2小時左右的時間,為大家系統(tǒng)地梳理多模態(tài)技術。
Day1直播
01 多模態(tài)的發(fā)展與未來
02 論文泛讀:CLIP— 多模態(tài)領域鴻蒙之鐘巨作
03 學習路徑推薦

Day2直播
論文精讀—CLIP:多模態(tài)領域鴻蒙之鐘巨作
01 Research background
02 Introduction
03 Model
04 實驗
05 結論

7月28日(周四)晚20:00-21:00
7月29日(周五)晚20:00-21:00
對多模態(tài)技術感興趣的同學,掃下方二維碼,預約直播。
掃碼支付0.1元即預約成功
直播當晚會有工作人員聯(lián)系你~

01 多模態(tài)理論基礎
學習多模態(tài)預訓練相關論文——CLIP、ALIGN、VILT
02 自監(jiān)督算法
學習一些多模態(tài)預訓練可能用到的自監(jiān)督方案——MAE、DINO、MOCO
03 多模態(tài)下游任務介紹
主要了解VQA任務和nlvr任務
04 多模態(tài)應用
Image Captioning案例、阿里電商跨模態(tài)檢索案例。了解任務介紹、baseline搭建、模型優(yōu)化、結果展示。
05 多模態(tài)項目
AI智能文案、基于多模態(tài)預訓練模型的手機相冊管理與檢索、AI唇語識別、基于深度多模態(tài)目標檢測和語義分割的自動駕駛
對多模態(tài)技術感興趣的同學,掃下方二維碼,預約直播。
掃碼支付0.1元即預約成功
直播當晚會有工作人員聯(lián)系你~

