加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 主要貢獻
    • 模型結(jié)構(gòu)
    • 實驗
    • 實驗結(jié)果
    • 結(jié)論
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

VCP-CLIP:一種用于零樣本異常分割的視覺上下文提示模型

07/31 08:32
5233
閱讀需 9 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

論文 VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation 提出了一種基于視覺上下文提示(VCP)的CLIP模型(VCP-CLIP),用于解決零樣本異常分割(ZSAS)問題。

現(xiàn)有基于CLIP的方法與VCP-CLIP的對比。VCP-CLIP引入了Pre-VCP模塊和Post-VCP模塊,相較于現(xiàn)有基于CLIP的方法提供了顯著的增強。(a) 現(xiàn)有基于CLIP的方法。(b) VCP-CLIP。

不同文本提示方法的比較。(a) 任務(wù)設(shè)置。(b) 手動定義的文本提示。(c) 設(shè)計的統(tǒng)一文本提示。(d) 設(shè)計的預(yù)視覺上下文提示。

主要貢獻

提出VCP-CLIP模型:該模型通過視覺上下文提示來激活CLIP的異常語義感知能力,能夠在有限的已知產(chǎn)品集上訓(xùn)練后,定位任何未知產(chǎn)品中的異常,即使產(chǎn)品類別未知。與現(xiàn)有的文本提示方法相比,VCP-CLIP利用視覺上下文提示來充分激活CLIP的異常語義感知能力。

引入視覺上下文信息:首次揭示了視覺上下文為ZSAS任務(wù)中的文本提示提供了額外信息。具體來說,設(shè)計了Pre-VCP和Post-VCP模塊,分別利用全局和細粒度的圖像特征來優(yōu)化文本空間。

實驗驗證:在十個真實工業(yè)異常分割數(shù)據(jù)集上進行了廣泛的實驗,展示了VCP-CLIP在ZSAS任務(wù)中的最先進性能。

VCP-CLIP的框架。我們的方法通過使用Pre-VCP模塊和Post-VCP模塊,將更豐富的視覺知識融入文本空間,并實現(xiàn)文本特征和視覺特征之間的跨模態(tài)交互。

模型結(jié)構(gòu)

Pre-VCP模塊:通過引入全局圖像特征來優(yōu)化文本空間,使用深度文本提示(DTP)技術(shù)來細化文本空間,從而減少提示設(shè)計的成本。與基線模型相比,Pre-VCP模塊使得從統(tǒng)一提示過渡到圖像特定提示,顯著降低了提示設(shè)計的成本。

Post-VCP模塊:基于細粒度的視覺特征調(diào)整輸出文本嵌入,增強不同模態(tài)特征的相互理解,進一步提升模型對新產(chǎn)品的泛化能力。Post-VCP模塊通過調(diào)整輸出文本嵌入來增強CLIP準確分割異常區(qū)域的能力。

實驗

實驗設(shè)置

數(shù)據(jù)集和評估指標:使用了包括MVTec-AD、VisA、BSD、GC、KSDD2、MSD、Road、RSDD、BTech、DAGM在內(nèi)的十個工業(yè)異常分割數(shù)據(jù)集。由于VisA中的產(chǎn)品與其他數(shù)據(jù)集不重疊,使用VisA作為訓(xùn)練數(shù)據(jù)集來評估其他數(shù)據(jù)集的性能。對于VisA本身,在MVTec-AD上訓(xùn)練后進行評估。評估指標包括像素級AUROC(接收者操作特征曲線下面積)、PRO(每區(qū)域重疊)和AP(平均精度)。

實現(xiàn)細節(jié):默認采用OpenAI預(yù)訓(xùn)練的CLIP模型(ViT-L-14-336),圖像分辨率調(diào)整為518×518,使用Adam優(yōu)化器,初始學(xué)習(xí)率為4e-5,訓(xùn)練10個epoch,批量大小為32。圖像編碼器包含24個transformer層,從第6、12、18和24層提取圖像特征??蓪W(xué)習(xí)類別向量的長度r和每個文本編碼器層中可學(xué)習(xí)文本嵌入的長度n分別設(shè)置為2和1。Post-VCP模塊中的注意力頭數(shù)M設(shè)置為8。不同異常圖的融合權(quán)重α默認設(shè)置為0.75。

實驗結(jié)果

與現(xiàn)有方法的對比:VCP-CLIP在所有評估指標上均優(yōu)于其他方法,特別是在AP指標上表現(xiàn)突出。與訓(xùn)練自由的方法(如WinCLIP、AnVoL、SAA/SAA+)和需要訓(xùn)練的方法(如APRIL-GAN、CLIP-AD、AnomalyCLIP、AnomalyGPT)相比,VCP-CLIP展示了更好的性能。

與現(xiàn)有最先進方法的比較。(a, b, c) 分別表示像素級AUROC(%)、PRO(%)和AP(%)。用 ? 標記的方法是無需訓(xùn)練的,而其他方法則需要訓(xùn)練。

定性分割結(jié)果。前五列使用的是來自MVTec-AD數(shù)據(jù)集的圖像,最后五列使用的是來自VisA數(shù)據(jù)集的圖像。

消融實驗

去除Pre-VCP和Post-VCP的影響:去除Post-VCP對性能的影響更大,說明Post-VCP在細粒度視覺特征的文本嵌入調(diào)整中起到了關(guān)鍵作用。

不同圖像編碼器層的特征影響:中間層(第12和18層)的圖像特征對最終分割結(jié)果貢獻更大,低層(第6層)特征過于低級,高層(第24層)特征過于抽象。綜合考慮,采用第6、12、18和24層的特征。

文本提示設(shè)計的影響:不同狀態(tài)詞(如“perfect/flawed”)對性能影響不大,驗證了模型對狀態(tài)詞的魯棒性。默認使用的模板(“a photo of a [state] [z(x, v)]”)整體表現(xiàn)優(yōu)于另一種模板(“this is a [state] photo of [z(x, v)]”)。

不同預(yù)訓(xùn)練模型和分辨率的影響:適度增加輸入圖像分辨率有助于更精確的分割,但偏離原始預(yù)訓(xùn)練分辨率(3362到7982)會導(dǎo)致模型性能下降。ViT-L-14-336在所有預(yù)訓(xùn)練模型中表現(xiàn)最佳,因此選擇其作為默認骨干網(wǎng)絡(luò)。

結(jié)論

VCP-CLIP通過將豐富的視覺知識引入文本空間,并實現(xiàn)文本和視覺特征的跨模態(tài)交互,能夠在沒有任何先驗知識的情況下直接對新產(chǎn)品進行異常分割。實驗結(jié)果表明,VCP-CLIP在ZSAS任務(wù)中表現(xiàn)出色。

限制

過度檢測:對于一些小的異常區(qū)域,可能會導(dǎo)致過度檢測,分割結(jié)果通常比真實值稍大。這可能是由于預(yù)訓(xùn)練骨干網(wǎng)絡(luò)(ViT-L-14-336)使用的小輸入分辨率(3362)和大補丁大?。?42)所致。

特定異常區(qū)域定位不準確:對于必須依賴正常圖像進行識別的異常區(qū)域,定位不準確。這是因為在ZSAS任務(wù)設(shè)置中,VCP-CLIP直接對新產(chǎn)品進行異常分割,而不引入任何正常圖像的先驗信息。未來計劃探索利用少樣本技術(shù)來解決這一問題,利用VCP-CLIP的基礎(chǔ)工作。

相關(guān)信息

代碼:https://github.com/xiaozhen228/vcp-clip

論文:https://arxiv.org/abs/2407.12276v1

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
ATXMEGA32E5-M4U 1 Microchip Technology Inc IC MCU 8BIT 32KB FLASH 32UQFN

ECAD模型

下載ECAD模型
$2.73 查看
MCF5282CVM66J 1 Freescale Semiconductor IC,MICROCONTROLLER,32-BIT,COLDFIRE CPU,CMOS,BGA,256PIN,PLASTIC
暫無數(shù)據(jù) 查看
PIC32MX795F512L-80I/PF 1 Microchip Technology Inc 32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 14 X 14 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100

ECAD模型

下載ECAD模型
$10.4 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜