欧美性色黄大片试看亚洲欧美33,乱中年女人伦av一区,欧美国产日韩精品

論文 EdgeNAT: Transformer for Efficient Edge Detection 介紹了一種名為EdgeNAT的基于Transformer的邊緣檢測方法。

1. 背景與動(dòng)機(jī)

邊緣檢測是許多計(jì)算機(jī)視覺任務(wù)的基礎(chǔ)，旨在從輸入圖像中精確提取物體邊界和視覺顯著的邊緣。然而，由于圖像中存在遠(yuǎn)距離物體、復(fù)雜背景中的模糊邊界以及物體內(nèi)部的顏色變化等挑戰(zhàn)，邊緣檢測任務(wù)變得十分困難。傳統(tǒng)的邊緣檢測方法主要依賴于顏色和紋理等局部信息，而基于卷積神經(jīng)網(wǎng)絡(luò)（CNN）的深度學(xué)習(xí)方法雖然可以擴(kuò)展感受野以捕捉全局特征，但容易丟失細(xì)節(jié)信息。

近年來，Transformer在視覺任務(wù)中展示出了強(qiáng)大的特征提取能力，特別是具有層次結(jié)構(gòu)的Dilated Neighborhood Attention Transformer (DiNAT)在有效捕捉全局和局部特征方面表現(xiàn)出色。然而，Transformer在邊緣檢測中的應(yīng)用尚未得到充分開發(fā)。為了解決這一問題，論文提出了一種基于DiNAT的單階段邊緣檢測模型——EdgeNAT，以期在精確提取物體邊界和重要邊緣的同時(shí)，提升檢測效率。

2. EdgeNAT的模型設(shè)計(jì)

2.1 編碼器：DiNAT

EdgeNAT的編碼器采用了Dilated Neighborhood Attention Transformer (DiNAT)，該模型能夠同時(shí)保留局部信息的翻譯等變性，并通過擴(kuò)展感受野來捕捉長距離的特征依賴。DiNAT的結(jié)構(gòu)通過在每個(gè)層次之間使用3x3卷積進(jìn)行下采樣，逐層減小空間分辨率，同時(shí)增加通道數(shù)。這種設(shè)計(jì)使得DiNAT在保持局部性和擴(kuò)展感受野方面表現(xiàn)優(yōu)異，從而適用于邊緣檢測任務(wù)。

2.2 解碼器：SCAF-MLA

為了充分利用Transformer編碼器生成的豐富特征，論文提出了一種新的解碼器結(jié)構(gòu)——空間和通道注意力融合多級(jí)聚合（SCAF-MLA）。這個(gè)解碼器的核心組件是SCAF模塊，它結(jié)合了空間注意力模塊（SAM）和通道注意力模塊（CAM），以同時(shí)計(jì)算特征圖的空間和通道權(quán)重。這種設(shè)計(jì)能夠在保持當(dāng)前層次特征的獨(dú)特性的同時(shí)，捕捉更高級(jí)別的特征，有助于在更高層次提取全局語義信息，同時(shí)在低層次保留細(xì)致的局部信息。

此外，解碼器還通過一種稱為預(yù)融合的技術(shù)來進(jìn)一步提高性能，即在融合操作之前，將每一層的特征通道減少到與編碼器第一層相同的數(shù)量，而不是直接減少到1。這種方法能夠更好地集成不同層次的特征，提高邊緣檢測的精度。

3. 實(shí)驗(yàn)與結(jié)果

3.1 數(shù)據(jù)集與訓(xùn)練

論文在兩個(gè)主流數(shù)據(jù)集上對(duì)EdgeNAT進(jìn)行了評(píng)估：BSDS500和NYUDv2。BSDS500包含500張RGB圖像，通過數(shù)據(jù)增強(qiáng)擴(kuò)展到28,800張圖像，模型在PASCAL VOC Context數(shù)據(jù)集上預(yù)訓(xùn)練后，使用BSDS500數(shù)據(jù)集進(jìn)行微調(diào)并評(píng)估。NYUDv2數(shù)據(jù)集包含1449對(duì)RGB和深度圖像，模型在經(jīng)過擴(kuò)展的訓(xùn)練和驗(yàn)證集上訓(xùn)練，并在測試集上進(jìn)行評(píng)估。

對(duì)BSDS500測試集中三個(gè)具有挑戰(zhàn)性的樣本進(jìn)行了定性比較。有趣的是，在第三個(gè)示例中，盡管帽子的邊緣即使對(duì)于人眼也難以分辨，但我們的L模型仍然能夠完整地檢測出右側(cè)帽子的邊緣。這個(gè)前所未有的現(xiàn)象表明，我們的模型在全局語義理解方面優(yōu)于之前的工作。

BSDS500測試集上的結(jié)果。最佳的兩個(gè)結(jié)果分別用紅色和藍(lán)色標(biāo)出，其他表格中也是如此。?表示使用額外的PASCAL VOC數(shù)據(jù)進(jìn)行訓(xùn)練，?表示多尺度測試。

3.2 消融實(shí)驗(yàn)

消融實(shí)驗(yàn)驗(yàn)證了不同設(shè)計(jì)對(duì)模型性能的影響。結(jié)果表明，預(yù)融合比最終融合對(duì)性能提升更大，而底部路徑（Bottom-up Path）對(duì)DiNAT編碼器的邊緣檢測效果反而有負(fù)面影響。此外，實(shí)驗(yàn)還驗(yàn)證了SCAF模塊的有效性，相比于PPM模塊，SCAF模塊能夠在不增加計(jì)算復(fù)雜度的情況下顯著提升邊緣檢測的性能。

3.3 模型可擴(kuò)展性

為了適應(yīng)不同的應(yīng)用場景，論文設(shè)計(jì)了五個(gè)不同參數(shù)規(guī)模的EdgeNAT模型（L、S0、S1、S2、S3），其中L模型擁有最多的參數(shù)。實(shí)驗(yàn)結(jié)果表明，隨著模型規(guī)模的減小，邊緣檢測的性能略有下降，但推理速度顯著提升，特別是S0模型，由于其第三層只有6層，處理速度遠(yuǎn)高于其他模型。

3.4 與現(xiàn)有方法的比較

在BSDS500數(shù)據(jù)集上，EdgeNAT-L模型在單尺度輸入情況下取得了84.3%的ODS，超過了所有現(xiàn)有的邊緣檢測方法。在多尺度輸入情況下，EdgeNAT-L模型的ODS達(dá)到了86.0%，進(jìn)一步證明了其在準(zhǔn)確性和效率方面的優(yōu)越性。相比于傳統(tǒng)的Canny和gPb-UCM方法，EdgeNAT在精度和召回率上均有顯著提高。同時(shí)，EdgeNAT的推理速度在RTX 4090 GPU上達(dá)到20.87 FPS，遠(yuǎn)高于EDTER的2.2 FPS，展示了Transformer在邊緣檢測任務(wù)中的巨大潛力。

在NYUDv2數(shù)據(jù)集上，EdgeNAT-L模型在RGB、HHA和RGB-HHA三種輸入類型下的ODS分別為78.9%、72.6%和79.4%，同樣超過了現(xiàn)有的最佳方法，展示了模型的廣泛適用性。

4. 結(jié)論

論文總結(jié)了EdgeNAT的主要貢獻(xiàn)：通過引入DiNAT作為編碼器，不僅提升了邊緣檢測的精度，還顯著提高了計(jì)算效率；提出了SCAF模塊，用于生成更豐富、更準(zhǔn)確的特征表示；設(shè)計(jì)了適應(yīng)不同應(yīng)用場景的五個(gè)模型版本，并在BSDS500和NYUDv2數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn)，證明了EdgeNAT在效率和準(zhǔn)確性方面的優(yōu)勢。

相關(guān)信息

代碼：https://github.com/jhjie/edgenat

論文：https://arxiv.org/abs/2408.10527v1

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
MKL17Z256VMP4	1	Freescale Semiconductor	Kinetis L 32-bit MCU, ARM Cortex-M0+ core, 256KB Flash, 48MHz, MAPBGA 64	ECAD模型下載ECAD模型	$5.01	查看
MK22FX512VMC12	1	NXP Semiconductors	RISC MICROCONTROLLER		$9.31	查看
ATXMEGA256A3U-MHR	1	Microchip Technology Inc	IC MCU 8BIT 256KB FLASH 64QFN		$13.36	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

MKL17Z256VMP4

Freescale Semiconductor

Kinetis L 32-bit MCU, ARM Cortex-M0+ core, 256KB Flash, 48MHz, MAPBGA 64