大模型時代目標檢測任務會走向何方?
點擊下方卡片,關注“新機器視覺”公眾號
重磅干貨,第一時間送達

導讀
細數從常見的目標檢測到現在 MLLM 盛行的時代,和 Object Detection 的任務以及近期涌現的新任務。
你或許很好奇,現在目標檢測都在干啥?在大模型時代有啥花樣可以做的?作為研究者還有啥可以挖的嗎?作為從業(yè)者有沒有好的東西可以借鑒?
如果你有這些疑問,那么這篇文章很適合你。
其實這篇文章是想說明下從我們常見的目標檢測到現在 MLLM 盛行的時代,和 Object Detection 任務有哪些?目前又涌現了哪些新的任務?是否有很大的實際價值?希望能夠打開下大家思路?。?!
1 Object Detection
經典目標檢測大家應該非常熟悉了,一般指的就是閉集固定類別的檢測。
2 Open Set/Open World/OOD
這個任務是指在實際應用上可以檢測任何前景物體,但是有些不需要預測類別,只要檢測出框就行。在很多場合也有應用場景,有點像類無關的增量訓練。
unknown 就是模型預測的不知道類別的檢測結果。
3 Open Vocabulary
也是開放集任務,相比于 open set,需要知道不在訓練集類別中的新預測物體類別。這類模型通常都需要接入文本作為一個模態(tài)輸入,因為開放詞匯目標檢測的定義就是給定任意詞匯都可以檢測出來。
訓練時候通常是要確保訓練集和測試集的類別不能重復,否則就是信息泄露了,但是訓練和測試集圖片是否重復其實也沒有強制限制。
可以看出 OVD 任務更加貼合實際應用,文本的描述不會有很大限制,同一個物體你可以采用多種詞匯描述都可以檢測出來。OVD 任務是一個比較實用的,但是目前還沒有出現開源的超級強的 OVD 算法(這個超強是指的對比 SAM 來說,極強的 open 檢測能力)
4 Phrase Grounding
這個任務也叫做 phrase localization。給定名詞短語,輸出對應的單個或多個物體檢測框。如果是輸入一句話,那么就是定位這句話中包括的所有名詞短語。在 GLIP 得到了深入的研究。
從上圖可以看出,Phrase Grounding 任務是包括了 OVD 任務的。常見的評估數據集是 Flickr30k Entities
5 Referring Expression Comprehension
簡稱 REC,有時候也稱為 visual grounding。給定圖片和一句話,輸出對應的物體坐標,通常就是單個檢測框。
常用的是 RefCOCO/RefCOCO+/RefCOCOg 三個數據集。是相對比較簡單的數據集。這個任務側重理解。
6 Description Object Detection
描述性目標檢測也可以稱為廣義 Referring Expression Comprehension。為何叫做廣義,這就要說道目前常用的
Referring Expression Comprehension 存在的問題了:
-
REC 數據集通常都是指代一個物體,不太符合實際 -
REC 數據集沒有負樣本,也就是每句話一定對應了圖片中的物體,這樣訓練的模型會存在很大的幻覺 -
REC 數據集通常都是正向描述,例如上圖的一條在圖片左邊的狗,但是沒有反向描述,例如一條沒有被繩子牽引著在外面的狗
基于此,Described Object Detection 論文提出了這個新的數據集,命名為 DOD。類似還有 gRefCOCO
其實還有一個更細致的任務叫做 :Open-Vocabulary Visual Grounding 和 Open-Vocabulary Phrase Grounding,來自論文 OV-VG
可以看出這個任務重點是想特意區(qū)分類別泄露問題,但是由于大數據集訓練時代,這個情況是無法避免的。
7 Caption with Grounding
這個任務的含義是:給定圖片,要求模型輸出圖片描述,同時對于其中的短語都要給出對應的 bbox
有點像 Phrase Grounding 的反向過程。這個任務可以方便將輸出的名稱和 bbox 聯系起來,方便后續(xù)任務的進行。
8 Reasoning Intention-Oriented Object Detection
意圖導向的目標檢測,和之前的 DetGPT 提出的推理式檢測,我感覺非常類似。
DetGPT 中的推理式檢測含義是:給定文本描述,模型要能夠進行推理,得到用戶真實意圖。
例如 我想喝冷飲,LLM 會自動進行推理解析輸出 冰箱 這個單詞,從而可以通過 Grounding 目標檢測算法把冰箱檢測出來。模型具備推理功能。
而 RIO 我覺得也是一樣,來自論文 RIO: A Benchmark for Reasoning Intention-Oriented Objects in Open Environments,想做的事情也是一樣
9 基于區(qū)域輸入的理解和 Grounding
這個是一個非常寬泛的任務,表示不僅可以輸入圖文模態(tài),還可以輸入其他任意你能想到的模態(tài),然后進行理解或者定位相關任務。
最經典的任務是 Referring expression generation:給定圖片和單個區(qū)域,對該區(qū)域進行描述。常用的評估數據集是 RefCOCOg
現在也有很多新的做法,典型的如 Shikra 里面提到的 Referential dialogue,包括 REC,REG,PointQA,Image Caption 以及 VQA 5 個任務
Apple 也提出了新的可交互的設計
其實文本、bbox 和圖片配合,還可以實現很多任務,但是由于都是比較特殊或者不是很主流,這里就沒有寫了。
10 結尾
可能還漏掉了一些,歡迎大家留言評論。后續(xù)可以講講這些任務應該如何解決?每個任務到底是咋評測的,通常的做法是咋樣的。
現在都是大數據訓練時代,評測雖然非常有用,但是很難避免數據泄露問題,如果作者不開源,你根本無法知道到底是模型性能還是數據泄露,這個一個值得思考的問題...,而這個問題也很難解,因為作者不開源,你也沒有精力去做復現...
由于我們也沒有做過工業(yè),不知道大家認為哪個任務才是大家真正需要的?或者說這些任務還不夠還可以擴展以滿足實際需求,歡迎留言和交流?。?!
聲明:部分內容來源于網絡,僅供讀者學習、交流之目的。文章版權歸原作者所有。如有不妥,請聯系刪除。
