Rete neurale profonda end-to-end per il rilevamento di oggetti salienti in ambienti complessi

Yu Wang; Zhiteng Wang

doi:10.3791/65554

Method Article

Rete neurale profonda end-to-end per il rilevamento di oggetti salienti in ambienti complessi

DOI:

10.3791/65554

⸱

December 15th, 2023

Yu Wang¹ , Zhiteng Wang²

¹Zhengzhou University of Economics and Business, ²The 713 Research Institute of CSSC

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Il presente protocollo descrive un nuovo algoritmo end-to-end di rilevamento di oggetti salienti. Sfrutta le reti neurali profonde per migliorare la precisione del rilevamento di oggetti salienti all'interno di contesti ambientali intricati.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Il rilevamento di oggetti salienti è emerso come una fiorente area di interesse nell'ambito della visione artificiale. Tuttavia, gli algoritmi prevalenti mostrano una precisione ridotta quando hanno il compito di rilevare oggetti salienti all'interno di ambienti intricati e sfaccettati. Alla luce di questa pressante preoccupazione, questo articolo presenta una rete neurale profonda end-to-end che mira a rilevare oggetti salienti all'interno di ambienti complessi. Lo studio introduce una rete neurale profonda end-to-end che mira a rilevare oggetti salienti all'interno di ambienti complessi. Comprendendo due componenti interconnesse, vale a dire una rete convoluzionale completa multiscala a livello di pixel e una rete di codificatori-decodificatori profondi, la rete proposta integra la semantica contestuale per produrre contrasto visivo attraverso mappe di caratteristiche multiscala, impiegando al contempo caratteristiche di immagini profonde e poco profonde per migliorare l'accuratezza dell'identificazione dei confini degli oggetti. L'integrazione di un modello di campo casuale condizionale (CRF) completamente connesso migliora ulteriormente la coerenza spaziale e la delineazione dei contorni delle mappe salienti. L'algoritmo proposto è ampiamente valutato rispetto a 10 algoritmi contemporanei sui database SOD e ECSSD. I risultati della valutazione dimostrano che l'algoritmo proposto supera altri approcci in termini di precisione e accuratezza, stabilendo così la sua efficacia nel rilevamento di oggetti salienti all'interno di ambienti complessi.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Il rilevamento di oggetti salienti imita l'attenzione visiva umana, identificando rapidamente le regioni chiave dell'immagine e sopprimendo le informazioni di sfondo. Questa tecnica è ampiamente impiegata come strumento di pre-elaborazione in attività come il ritaglio delle immagini¹, la segmentazione semantica² e l'editing delle immagini³. Semplifica attività come la sostituzione dello sfondo e l'estrazione del primo piano, migliorando l'efficienza e la precisione dell'editing. Inoltre, aiuta nella segmentazione semantica migliorando la localizzazione del target. Il potenziale del rilevamento di ....

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. Impostazione e procedura sperimentale

Caricare il modello VGG16 pre-addestrato.
NOTA: Il primo passaggio consiste nel caricare il modello VGG16 pre-addestrato dalla libreria Keras⁶.
1. Per caricare un modello VGG16 pre-addestrato in Python utilizzando le librerie di deep learning più diffuse come PyTorch (vedi Tabella dei materiali), segui questi passaggi generali:
  1. Importa torcia. Importate torchvision.models come modelli.
  2. Caricare il modello VGG16 pre-addestrato. vgg16_model = models.vgg16(pretrained=True).
  3. Assicurarsi che il ....

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Questo studio introduce una rete neurale profonda end-to-end che comprende due reti complementari: una rete multiscala a livello di pixel completamente convoluzionale e una rete di codificatori-decodificatori profondi. La prima rete integra la semantica contestuale per derivare i contrasti visivi dalle mappe delle caratteristiche multiscala, affrontando la sfida dei campi recettivi fissi nelle reti neurali profonde su diversi livelli. La seconda rete utilizza le caratteristiche delle immagini profonde e poco profonde per.......

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

L'articolo introduce una rete neurale profonda end-to-end specificamente progettata per il rilevamento di oggetti salienti in ambienti complessi. La rete è composta da due componenti interconnessi: una rete multiscala completamente convoluzionale (DCL) a livello di pixel e una rete di codifica-decodificatore profondo (DEDN). Questi componenti lavorano in sinergia, incorporando la semantica contestuale per generare contrasti visivi all'interno di mappe di caratteristiche multiscala. Inoltre, sfruttano le caratteristiche d.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Gli autori non hanno nulla da rivelare.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Questo lavoro è supportato dall'istituzione del programma di finanziamento del progetto di finanziamento del progetto di ricerca scientifica chiave degli istituti di istruzione superiore provinciali dell'Henan del 2024 (numero di progetto: 24A520053). Questo studio è supportato anche dalla costruzione di corsi dimostrativi caratteristici per la creazione e l'integrazione specializzata nella provincia di Henan.

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
Matlab	MathWorks		L'interfaccia di programmazione di MATLAB fornisce strumenti di sviluppo per migliorare la qualità del codice, la manutenibilità e massimizzare le prestazioni. Fornisce strumenti per la creazione di applicazioni utilizzando interfacce grafiche personalizzate. Fornisce strumenti per combinare algoritmi basati su MATLAB con applicazioni e linguaggi esterni
Processore	Intel	Intel(R) Core (TM) i5-1135G7 @ 2.40GHz	64-bit Win11 di 11a
Pycharm	JetBrains	PyCharm 3.0	PyCharm è un Python IDE (Integrated Development Environment) un elenco di moduli python: richiestimatplotlib skimage torch os time pydensecrf opencv glob PIL torchvision numpy tkinter
PyTorch	Facebook	PyTorch 1.4	PyTorch è una libreria di apprendimento automatico Python open source , basata su Torch , utilizzata per l'elaborazione del linguaggio naturale e altre applicazioni. PyTorch può essere visto sia come l'aggiunta di supporto GPU numpy , ma può anche essere visto come una potente rete neurale profonda con derivati automatici .

generazione

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Wang, W. G., Shen, J. B., Ling, H. B. A deep network solution for attention and aesthetics aware photo cropping. IEEE Transactions on Pattern Analysis and Machine Intelligence. 41 (7), 1531-1544 (2018).
Wang, W. G., Sun, G. L., Gool, L. V. Looking beyond single images for weakly supervised semantic segmentation learning.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Rete neurale profonda end-to-end per il rilevamento di oggetti salienti in ambienti complessi

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles