arxiv論文整理20230812-0818(目標檢測方向)
MS3D++: Ensemble of Experts for Multi-Source Unsupervised Domain Adaption in 3D Object Detection
摘要: 在陌生領(lǐng)域部署3D探測器被證明會導致檢測率的急劇下降,最高可達到70-90%,這是由于來自訓練數(shù)據(jù)集的激光雷達、地理區(qū)域或天氣條件的變化所致。這種領(lǐng)域差距會導致密集觀測對象的漏檢、對齊不準確的置信度評分以及增加高置信度的誤報,使檢測器變得極不可靠。為了解決這個問題,我們引入了MS3D ++,這是一個用于3D目標檢測的自我訓練框架,用于多源無監(jiān)督領(lǐng)域適應(yīng)。 MS3D ++通過生成高質(zhì)量的偽標簽提供了一個簡單的域適應(yīng)方法,使得無論激光雷達的密度如何,都可以適應(yīng)各種類型的激光雷達。我們的方法有效地融合了來自不同來源域的一組多幀預(yù)訓練檢測器的預(yù)測結(jié)果,以改善領(lǐng)域泛化能力。我們隨后在時間上對預(yù)測結(jié)果進行了細化,以確??蚨ㄎ缓蛯ο蠓诸惖臅r間一致性。此外,我們還對不同3D檢測器組件在跨領(lǐng)域環(huán)境中的性能和特點進行了深入研究,為改進跨領(lǐng)域檢測器整合提供了有價值的見解。在Waymo、nuScenes和Lyft上的實驗證明,使用MS3D++偽標簽訓練的檢測器在兩種激光雷達的鳥瞰圖(BEV)評估中實現(xiàn)了與使用人工標注標簽相當?shù)淖钚滦阅?,無論激光雷達的密度是低還是高。
點評: 通過多源無監(jiān)督領(lǐng)域適應(yīng)、專家集成算法和自學習流程,使得MS3D++能夠在3D物體檢測中取得更好的性能和魯棒性。代碼已開源: https://github.com/darrenjkt/MS3D。
Cyclic-Bootstrap Labeling for Weakly Supervised Object Detection
摘要: 在弱監(jiān)督目標檢測領(lǐng)域,最近的進展以多實例檢測網(wǎng)絡(luò)(MIDN)和序數(shù)在線優(yōu)化的組合為特點。然而,由于只有圖像級別的注釋,MIDN在生成偽標簽時不可避免地會對一些意外的區(qū)域建議分配高分。這些不準確的高分區(qū)域建議會誤導后續(xù)優(yōu)化模塊的訓練,從而影響檢測性能。在本研究中,我們探討了如何改善MIDN中偽標注的質(zhì)量。具體來說,我們設(shè)計了循環(huán)引導標注(CBL)這一弱監(jiān)督目標檢測流程,通過從可靠的教師網(wǎng)絡(luò)中獲得等級信息來優(yōu)化MIDN。具體而言,我們通過引入加權(quán)指數(shù)移動平均策略來獲得這個教師網(wǎng)絡(luò),以利用各種優(yōu)化模塊。我們還提出了一種新穎的類別特定的等級蒸餾算法,利用加權(quán)集成教師網(wǎng)絡(luò)的輸出來對MIDN進行等級蒸餾。結(jié)果,MIDN被引導為對其鄰近的準確建議分配更高的分數(shù),從而使后續(xù)的偽標注受益。在普遍的PASCAL VOC 2007&2012和COCO數(shù)據(jù)集上進行了大量實驗證明了我們CBL框架的優(yōu)越性能。代碼可在 GitHub - Yinyf0804/WSOD-CBL 上獲得。
點評: 提出了一種新的循環(huán)引導標注方法,用于弱監(jiān)督目標檢測。代碼已開源。
ICAFusion: Iterative Cross-Attention Guided Feature Fusion for Multispectral Object Detection
摘要: 多光譜圖像的有效特征融合在多光譜目標檢測中起著至關(guān)重要的作用。先前的研究已經(jīng)證明了使用卷積神經(jīng)網(wǎng)絡(luò)進行特征融合的有效性,但由于局部范圍特征交互中固有的不足導致對圖像錯位非常敏感,從而使性能下降。為了解決這個問題,提出了一種新穎的雙交叉注意力變換器特征融合框架,用于同時模擬全局特征交互和捕捉跨通道的互補信息。該框架通過查詢引導的交叉注意力機制增強了目標特征的可辨識性,從而提高了性能。然而,為了增強特征,堆疊多個變換器塊會產(chǎn)生大量的參數(shù)和高空間復雜性。為了解決這個問題,受到人類復習知識的過程的啟示,提出了一種迭代交互機制,用于在塊級多模式變換器之間共享參數(shù),從而降低模型復雜性和計算成本。所提出的方法是通用的,能夠有效地集成到不同的檢測框架中,并與不同的主干網(wǎng)絡(luò)配合使用。在KAIST、FLIR和VEDAI數(shù)據(jù)集上的實驗結(jié)果表明,所提出的方法實現(xiàn)了優(yōu)越的性能和更快的推理速度,適用于各種實際場景。代碼將在https://github.com/chanchanchan97/ICAFusion 上提供。
點評: 利用了雙重交叉注意力變換框架,通過建模全局特征交互和同時捕捉不同模態(tài)之間的補充信息來增強物體特征的可區(qū)分性。代碼將開源。
Identity-Consistent Aggregation for Video Object Detection(ICCV2023)
摘要: 在視頻目標檢測(VID)中,常見的做法是利用視頻中豐富的時空上下文來增強每個幀中的目標表示?,F(xiàn)有的方法將不同目標的時空上下文一視同仁,忽視了它們的不同身份。直觀地說,聚合不同幀中同一目標的局部視圖可能有助于更好地理解目標。因此,在本文中,我們的目標是使模型能夠?qū)W⒂诿總€對象的身份一致的時空上下文,以獲得更全面的目標表示,并處理快速的目標外觀變化,如遮擋、動態(tài)模糊等。然而,要在現(xiàn)有的VID模型上實現(xiàn)這個目標面臨著低效率問題,因為它們存在冗余的區(qū)域建議和非并行的逐幀預(yù)測方式。為了解決這個問題,我們提出了ClipVID,一種具備特定的身份一致聚合(ICA)層的VID模型,專門用于挖掘細粒度和身份一致的時空上下文。它通過集合預(yù)測策略有效地減少了冗余,使得ICA層非常高效,并進一步允許我們設(shè)計一種架構(gòu),可以對整個視頻剪輯進行并行的剪輯級預(yù)測。廣泛的實驗結(jié)果證明了我們方法的優(yōu)越性:在ImageNet VID數(shù)據(jù)集上表現(xiàn)出最先進的性能(84.7%的mAP),同時運行速度比之前的最優(yōu)方法快7倍(39.3幀/秒)。
點評: 通過引入身份一致聚合機制和關(guān)聯(lián)的時間一致性,并結(jié)合點云的信息,實現(xiàn)了更準確、魯棒的視頻目標檢測。
GPA-3D: Geometry-aware Prototype Alignment for Unsupervised Domain Adaptive 3D Object Detection from Point Clouds(ICCV 2023)
摘要: 近年來,基于LiDAR的三維檢測取得了巨大的進展。然而,當在未知環(huán)境中部署時,三維檢測器的性能受到嚴重的域間差異問題的限制?,F(xiàn)有的域自適應(yīng)三維檢測方法沒有充分考慮特征空間中的分布差異問題,從而阻礙了檢測器在不同領(lǐng)域間的泛化能力。在這項工作中,我們提出了一種新穎的無監(jiān)督域自適應(yīng)三維檢測框架,稱為幾何感知原型對齊(GPA-3D),它明確利用點云對象的內(nèi)在幾何關(guān)系來減少特征差異,從而促進跨域轉(zhuǎn)移。具體而言,GPA-3D為具有不同幾何結(jié)構(gòu)的點云對象分配一系列量身定制且可學習的原型。每個原型都對應(yīng)于源域和目標域上導出的鳥瞰圖特征,并將它們進行對齊,從而減少分布差異并實現(xiàn)更好的自適應(yīng)。在包括Waymo、nuScenes和KITTI在內(nèi)的各種基準測試中,我們的GPA-3D在不同的自適應(yīng)場景中表現(xiàn)出優(yōu)越性能,超過了現(xiàn)有最先進方法。MindSpore版本的代碼將公開在https://github.com/Liz66666/GPA3D。
點評: 引入了隨機物體尺寸變化策略,以降低源域數(shù)據(jù)的負偏差,并用源域數(shù)據(jù)預(yù)訓練3D目標檢測器。代碼將開源。
ps:承接程序代寫, 小程序編寫 程序應(yīng)用 深度學習 卷積神經(jīng)網(wǎng)絡(luò) pytorch paddlepaddle 數(shù)據(jù)結(jié)構(gòu) 機器學習 目標檢測 圖像處理
有需要的兄弟們可以在我公眾號留言。
ppt(有備注,可直接講)可以在知識星球獲取:
我正在「目標檢測er的小圈子」和朋友們討論有趣的話題,你?起來吧?
https://t.zsxq.com/0cM8tmd4l
