arxiv論文整理20240127-0202(目標(biāo)檢測(cè)方向)
You Only Look Bottom-Up for Monocular 3D Object Detection(Robotics and Automation Letters (RA-L))
摘要: 單目式三維物目標(biāo)檢測(cè)是自動(dòng)駕駛中的一個(gè)重要任務(wù)。與此同時(shí),由于丟失了深度信息,從純圖像中準(zhǔn)確地進(jìn)行三維目標(biāo)檢測(cè)是非常具有挑戰(zhàn)性的。大多數(shù)現(xiàn)有的基于圖像的方法根據(jù)圖像平面上物體的二維大小推斷其在三維空間中的位置,這通常忽略了圖像固有的位置線(xiàn)索,導(dǎo)致性能不盡人意。受到人類(lèi)可以利用自下而上的位置線(xiàn)索從單個(gè)圖像中定位物體的啟發(fā),本文中我們從圖像特征列探索位置建模,并提出了一種名為You Only Look Bottum-Up(YOLOBU)的新方法。具體來(lái)說(shuō),我們的YOLOBU利用基于列的交叉注意力來(lái)確定一個(gè)像素在多大程度上對(duì)其上方的像素做出貢獻(xiàn)。接下來(lái),我們引入了基于行的累積反向求和(RRCS),以建立像素在自下而上方向上的連接。我們的YOLOBU通過(guò)自下而上的方式充分探索了單目式三維檢測(cè)中的位置線(xiàn)索。對(duì)KITTI數(shù)據(jù)集的大量實(shí)驗(yàn)證明了我們方法的有效性和優(yōu)越性。
點(diǎn)評(píng): 首次提出了一種自底向上的單目相機(jī)三維目標(biāo)檢測(cè)方法。
LiDAR-PTQ: Post-Training Quantization for Point Cloud 3D Object Detection(ICLR 2024)
摘要: 由于計(jì)算能力和內(nèi)存受到嚴(yán)重限制,在自動(dòng)駕駛車(chē)輛和機(jī)器人上配備邊緣設(shè)備部署基于3D激光雷達(dá)的檢測(cè)器面臨著重大挑戰(zhàn)。作為一種方便且簡(jiǎn)單的模型壓縮方法,后訓(xùn)練量化(PTQ)已被廣泛應(yīng)用于2D視覺(jué)任務(wù)。然而,將其直接應(yīng)用于3D激光雷達(dá)任務(wù)必然導(dǎo)致性能下降。為了解決這一問(wèn)題,我們提出了一種名為L(zhǎng)iDAR-PTQ的有效PTQ方法,專(zhuān)門(mén)為3D激光雷達(dá)檢測(cè)(基于SPConv和不基于SPConv)而設(shè)計(jì)。我們的LiDAR-PTQ具有三個(gè)主要組件,分別是(1)基于稀疏性的校準(zhǔn)方法,用于確定量化參數(shù)的初始化,(2)任務(wù)引導(dǎo)的全局正向損失(TGPL),以減少量化前后最終預(yù)測(cè)之間的差異,(3)自適應(yīng)的四舍五入操作,以最小化逐層重構(gòu)誤差。大量實(shí)驗(yàn)證明,我們的LiDAR-PTQ在應(yīng)用于CenterPoint(基于柱和基于體素)時(shí)可以實(shí)現(xiàn)最先進(jìn)的量化性能。據(jù)我們所知,首次在激光雷達(dá)3D檢測(cè)任務(wù)中,PTQ INT8模型的準(zhǔn)確性幾乎與FP32模型相當(dāng),同時(shí)還享受到3倍的推理加速。此外,我們的LiDAR-PTQ在成本上也非常劃算,比量化感知訓(xùn)練方法快30倍。代碼將在https://github.com/StiphyJay/LiDAR-PTQ上發(fā)布。
點(diǎn)評(píng): 在資源受限的邊緣設(shè)備上,能夠有效地解決傳統(tǒng)方法在處理復(fù)雜場(chǎng)景和小型目標(biāo)時(shí)的困難。代碼已開(kāi)源。
MixSup: Mixed-grained Supervision for Label-efficient LiDAR-based 3D Object Detection(ICLR 2024)
摘要: 目前,基于LiDAR的三維目標(biāo)檢測(cè)在標(biāo)簽效率方面主要以弱/半監(jiān)督方法為主導(dǎo)。我們提出了一種更為實(shí)用的范例MixSup,同時(shí)利用大量廉價(jià)的粗標(biāo)簽和有限數(shù)量的準(zhǔn)確標(biāo)簽進(jìn)行混合粒度監(jiān)督。我們首先觀察到點(diǎn)云通常是無(wú)紋理的,這使得學(xué)習(xí)語(yǔ)義變得困難。然而,點(diǎn)云在幾何上是豐富多樣的,并且與傳感器距離的尺度無(wú)關(guān),這使得學(xué)習(xí)物體的幾何形狀和姿勢(shì)相對(duì)容易。因此,MixSup利用大量粗粒度聚類(lèi)級(jí)標(biāo)簽來(lái)學(xué)習(xí)語(yǔ)義,利用少量昂貴的框級(jí)標(biāo)簽來(lái)學(xué)習(xí)準(zhǔn)確的姿勢(shì)和形狀。我們重新設(shè)計(jì)了主流檢測(cè)器中的標(biāo)簽分配方式,使它們能夠無(wú)縫集成到MixSup中,實(shí)現(xiàn)了實(shí)用性和通用性。我們?cè)趎uScenes、Waymo Open Dataset和KITTI上使用各種檢測(cè)器驗(yàn)證了其有效性。MixSup在使用廉價(jià)的聚類(lèi)注釋和僅有10%的框注釋時(shí),實(shí)現(xiàn)了高達(dá)97.31%的全監(jiān)督性能。此外,我們基于“Segment Anything Model”提出了PointSAM用于自動(dòng)粗標(biāo)注,進(jìn)一步減輕了注釋的負(fù)擔(dān)。代碼可在 GitHub - BraveGroup/PointSAM-for-MixSup: Codes for ICLR 2024: "MixSup: Mixed-grained Supervision for Label-efficient LiDAR-based 3D Object Detection" 上找到。
點(diǎn)評(píng): 提出了一種實(shí)用且通用的范式,利用混合粒度的監(jiān)督方式,實(shí)現(xiàn)了標(biāo)簽效率的LiDAR基3D目標(biāo)檢測(cè)。代碼已開(kāi)源。
YOLO-World: Real-Time Open-Vocabulary Object Detection
摘要: YOLO系列檢測(cè)器已經(jīng)被證實(shí)是高效且實(shí)用的工具。然而,它們對(duì)預(yù)定義和經(jīng)過(guò)訓(xùn)練的物體類(lèi)別的依賴(lài)限制了它們?cè)陂_(kāi)放場(chǎng)景中的適用性。為了解決這一限制,我們引入了YOLO-World,這是一種創(chuàng)新的方法,通過(guò)視覺(jué)-語(yǔ)言建模和在大規(guī)模數(shù)據(jù)集上的預(yù)訓(xùn)練來(lái)增強(qiáng)YOLO的開(kāi)放詞匯檢測(cè)能力。具體來(lái)說(shuō),我們提出了一種新的可重新參數(shù)化的視覺(jué)-語(yǔ)言路徑聚合網(wǎng)絡(luò)(RepVL-PAN),以及區(qū)域-文本對(duì)比損失,以促進(jìn)視覺(jué)和語(yǔ)言信息之間的交互。我們的方法在零樣本條件下以高效率檢測(cè)各種物體。在具有挑戰(zhàn)性的LVIS數(shù)據(jù)集上,YOLO-World在V100上以52.0 FPS的速度實(shí)現(xiàn)了35.4的AP,在準(zhǔn)確性和速度方面勝過(guò)許多最先進(jìn)的方法。此外,經(jīng)過(guò)微調(diào)的YOLO-World在多個(gè)后續(xù)任務(wù)上表現(xiàn)出了顯著的性能,包括目標(biāo)檢測(cè)和開(kāi)放詞匯實(shí)例分割。
點(diǎn)評(píng): 結(jié)合了實(shí)時(shí)目標(biāo)檢測(cè)與開(kāi)放詞匯能力,通過(guò)視覺(jué)-語(yǔ)言模型和創(chuàng)新的RepVL-PAN架構(gòu),實(shí)現(xiàn)了對(duì)未知和罕見(jiàn)物體類(lèi)別的高效、準(zhǔn)確檢測(cè)。代碼已開(kāi)源: https://github.com/AILab-CVC/YOLO-World。
ps:承接程序代寫(xiě), 小程序編寫(xiě) 程序應(yīng)用 深度學(xué)習(xí) 卷積神經(jīng)網(wǎng)絡(luò) pytorch paddlepaddle 數(shù)據(jù)結(jié)構(gòu) 機(jī)器學(xué)習(xí) 目標(biāo)檢測(cè) 圖像處理
有需要的兄弟們可以在我公眾號(hào)留言。
論文解讀的ppt可以在知識(shí)星球獲?。?/p>
我正在「目標(biāo)檢測(cè)er的小圈子」和朋友們討論有趣的話(huà)題,你?起來(lái)吧?
https://t.zsxq.com/0cM8tmd4l
