論文 EdgeNAT: Transformer for Efficient Edge Detection 介紹了一種名為EdgeNAT的基于Transformer的邊緣檢測方法。
1. 背景與動(dòng)機(jī)
邊緣檢測是許多計(jì)算機(jī)視覺任務(wù)的基礎(chǔ),旨在從輸入圖像中精確提取物體邊界和視覺顯著的邊緣。然而,由于圖像中存在遠(yuǎn)距離物體、復(fù)雜背景中的模糊邊界以及物體內(nèi)部的顏色變化等挑戰(zhàn),邊緣檢測任務(wù)變得十分困難。傳統(tǒng)的邊緣檢測方法主要依賴于顏色和紋理等局部信息,而基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的深度學(xué)習(xí)方法雖然可以擴(kuò)展感受野以捕捉全局特征,但容易丟失細(xì)節(jié)信息。
近年來,Transformer在視覺任務(wù)中展示出了強(qiáng)大的特征提取能力,特別是具有層次結(jié)構(gòu)的Dilated Neighborhood Attention Transformer (DiNAT)在有效捕捉全局和局部特征方面表現(xiàn)出色。然而,Transformer在邊緣檢測中的應(yīng)用尚未得到充分開發(fā)。為了解決這一問題,論文提出了一種基于DiNAT的單階段邊緣檢測模型——EdgeNAT,以期在精確提取物體邊界和重要邊緣的同時(shí),提升檢測效率。
2. EdgeNAT的模型設(shè)計(jì)
2.1 編碼器:DiNAT
EdgeNAT的編碼器采用了Dilated Neighborhood Attention Transformer (DiNAT),該模型能夠同時(shí)保留局部信息的翻譯等變性,并通過擴(kuò)展感受野來捕捉長距離的特征依賴。DiNAT的結(jié)構(gòu)通過在每個(gè)層次之間使用3x3卷積進(jìn)行下采樣,逐層減小空間分辨率,同時(shí)增加通道數(shù)。這種設(shè)計(jì)使得DiNAT在保持局部性和擴(kuò)展感受野方面表現(xiàn)優(yōu)異,從而適用于邊緣檢測任務(wù)。
2.2 解碼器:SCAF-MLA
為了充分利用Transformer編碼器生成的豐富特征,論文提出了一種新的解碼器結(jié)構(gòu)——空間和通道注意力融合多級(jí)聚合(SCAF-MLA)。這個(gè)解碼器的核心組件是SCAF模塊,它結(jié)合了空間注意力模塊(SAM)和通道注意力模塊(CAM),以同時(shí)計(jì)算特征圖的空間和通道權(quán)重。這種設(shè)計(jì)能夠在保持當(dāng)前層次特征的獨(dú)特性的同時(shí),捕捉更高級(jí)別的特征,有助于在更高層次提取全局語義信息,同時(shí)在低層次保留細(xì)致的局部信息。
此外,解碼器還通過一種稱為預(yù)融合的技術(shù)來進(jìn)一步提高性能,即在融合操作之前,將每一層的特征通道減少到與編碼器第一層相同的數(shù)量,而不是直接減少到1。這種方法能夠更好地集成不同層次的特征,提高邊緣檢測的精度。
3. 實(shí)驗(yàn)與結(jié)果
3.1 數(shù)據(jù)集與訓(xùn)練
論文在兩個(gè)主流數(shù)據(jù)集上對(duì)EdgeNAT進(jìn)行了評(píng)估:BSDS500和NYUDv2。BSDS500包含500張RGB圖像,通過數(shù)據(jù)增強(qiáng)擴(kuò)展到28,800張圖像,模型在PASCAL VOC Context數(shù)據(jù)集上預(yù)訓(xùn)練后,使用BSDS500數(shù)據(jù)集進(jìn)行微調(diào)并評(píng)估。NYUDv2數(shù)據(jù)集包含1449對(duì)RGB和深度圖像,模型在經(jīng)過擴(kuò)展的訓(xùn)練和驗(yàn)證集上訓(xùn)練,并在測試集上進(jìn)行評(píng)估。
對(duì)BSDS500測試集中三個(gè)具有挑戰(zhàn)性的樣本進(jìn)行了定性比較。有趣的是,在第三個(gè)示例中,盡管帽子的邊緣即使對(duì)于人眼也難以分辨,但我們的L模型仍然能夠完整地檢測出右側(cè)帽子的邊緣。這個(gè)前所未有的現(xiàn)象表明,我們的模型在全局語義理解方面優(yōu)于之前的工作。
BSDS500測試集上的結(jié)果。最佳的兩個(gè)結(jié)果分別用紅色和藍(lán)色標(biāo)出,其他表格中也是如此。?表示使用額外的PASCAL VOC數(shù)據(jù)進(jìn)行訓(xùn)練,?表示多尺度測試。
3.2 消融實(shí)驗(yàn)
消融實(shí)驗(yàn)驗(yàn)證了不同設(shè)計(jì)對(duì)模型性能的影響。結(jié)果表明,預(yù)融合比最終融合對(duì)性能提升更大,而底部路徑(Bottom-up Path)對(duì)DiNAT編碼器的邊緣檢測效果反而有負(fù)面影響。此外,實(shí)驗(yàn)還驗(yàn)證了SCAF模塊的有效性,相比于PPM模塊,SCAF模塊能夠在不增加計(jì)算復(fù)雜度的情況下顯著提升邊緣檢測的性能。
3.3 模型可擴(kuò)展性
為了適應(yīng)不同的應(yīng)用場景,論文設(shè)計(jì)了五個(gè)不同參數(shù)規(guī)模的EdgeNAT模型(L、S0、S1、S2、S3),其中L模型擁有最多的參數(shù)。實(shí)驗(yàn)結(jié)果表明,隨著模型規(guī)模的減小,邊緣檢測的性能略有下降,但推理速度顯著提升,特別是S0模型,由于其第三層只有6層,處理速度遠(yuǎn)高于其他模型。
3.4 與現(xiàn)有方法的比較
在BSDS500數(shù)據(jù)集上,EdgeNAT-L模型在單尺度輸入情況下取得了84.3%的ODS,超過了所有現(xiàn)有的邊緣檢測方法。在多尺度輸入情況下,EdgeNAT-L模型的ODS達(dá)到了86.0%,進(jìn)一步證明了其在準(zhǔn)確性和效率方面的優(yōu)越性。相比于傳統(tǒng)的Canny和gPb-UCM方法,EdgeNAT在精度和召回率上均有顯著提高。同時(shí),EdgeNAT的推理速度在RTX 4090 GPU上達(dá)到20.87 FPS,遠(yuǎn)高于EDTER的2.2 FPS,展示了Transformer在邊緣檢測任務(wù)中的巨大潛力。
在NYUDv2數(shù)據(jù)集上,EdgeNAT-L模型在RGB、HHA和RGB-HHA三種輸入類型下的ODS分別為78.9%、72.6%和79.4%,同樣超過了現(xiàn)有的最佳方法,展示了模型的廣泛適用性。
4. 結(jié)論
論文總結(jié)了EdgeNAT的主要貢獻(xiàn):通過引入DiNAT作為編碼器,不僅提升了邊緣檢測的精度,還顯著提高了計(jì)算效率;提出了SCAF模塊,用于生成更豐富、更準(zhǔn)確的特征表示;設(shè)計(jì)了適應(yīng)不同應(yīng)用場景的五個(gè)模型版本,并在BSDS500和NYUDv2數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),證明了EdgeNAT在效率和準(zhǔn)確性方面的優(yōu)勢。
相關(guān)信息
代碼:https://github.com/jhjie/edgenat
論文:https://arxiv.org/abs/2408.10527v1