End-to-End-Deep Neural Network zur Erkennung von markanten Objekten in komplexen Umgebungen

Yu Wang; Zhiteng Wang

doi:10.3791/65554

Method Article

End-to-End-Deep Neural Network zur Erkennung von markanten Objekten in komplexen Umgebungen

DOI:

10.3791/65554

⸱

December 15th, 2023

Yu Wang¹ , Zhiteng Wang²

¹Zhengzhou University of Economics and Business, ²The 713 Research Institute of CSSC

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Das vorliegende Protokoll beschreibt einen neuartigen End-to-End-Algorithmus zur Erkennung von auffälligen Objekten. Es nutzt tiefe neuronale Netze, um die Präzision der Erkennung von auffälligen Objekten in komplizierten Umgebungskontexten zu verbessern.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Erkennung hervorstechender Objekte hat sich zu einem aufstrebenden Interessengebiet im Bereich der Computer Vision entwickelt. Die vorherrschenden Algorithmen weisen jedoch eine verminderte Präzision auf, wenn sie mit der Erkennung hervorstechender Objekte in komplizierten und facettenreichen Umgebungen beauftragt sind. Angesichts dieses dringenden Anliegens stellt dieser Artikel ein tiefes neuronales End-to-End-Netzwerk vor, das darauf abzielt, hervorstechende Objekte in komplexen Umgebungen zu erkennen. Die Studie stellt ein tiefes neuronales End-to-End-Netzwerk vor, das darauf abzielt, hervorstechende Objekte in komplexen Umgebungen zu erkennen. Das vorgeschlagene Netzwerk besteht aus zwei miteinander verbundenen Komponenten, nämlich einem Pixel-Level-Multiscale-Full-Convolutional-Network und einem tiefen Encoder-Decoder-Netzwerk, und integriert kontextuelle Semantik, um visuellen Kontrast über Multiskalen-Feature-Maps hinweg zu erzeugen, während tiefe und flache Bildmerkmale verwendet werden, um die Genauigkeit der Objektgrenzenidentifikation zu verbessern. Die Integration eines vollständig verbundenen CRF-Modells (Conditional Random Field) verbessert die räumliche Kohärenz und Konturabgrenzung von Salient Maps weiter. Der vorgeschlagene Algorithmus wird ausführlich anhand von 10 zeitgenössischen Algorithmen in den SOD- und ECSSD-Datenbanken evaluiert. Die Evaluierungsergebnisse zeigen, dass der vorgeschlagene Algorithmus andere Ansätze in Bezug auf Präzision und Genauigkeit übertrifft und damit seine Wirksamkeit bei der Erkennung hervorstechender Objekte in komplexen Umgebungen belegt.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Erkennung von auffälligen Objekten ahmt die menschliche visuelle Aufmerksamkeit nach und identifiziert schnell wichtige Bildbereiche, während Hintergrundinformationen unterdrückt werden. Diese Technik wird häufig als Vorverarbeitungswerkzeug bei Aufgaben wie dem Zuschneiden von Bildern¹, der semantischen Segmentierung² und der Bildbearbeitung³ eingesetzt. Es rationalisiert Aufgaben wie das Ersetzen des Hintergrunds und die Extraktion des Vordergrunds und verbessert die Bearbeitungseffizienz und -präzision. Darüber hinaus hilft es bei der semantischen Segmentierung, indem es die Ziellokalisieru....

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. Versuchsaufbau und Ablauf

Laden Sie das vortrainierte VGG16-Modell.
HINWEIS: Der erste Schritt besteht darin, das vortrainierte VGG16-Modell aus der Keras-Bibliothek⁶ zu laden.
1. Um ein vortrainiertes VGG16-Modell in Python mit gängigen Deep-Learning-Bibliotheken wie PyTorch (siehe Materialtabelle) zu laden, führen Sie die folgenden allgemeinen Schritte aus:
  1. Brenner importieren. Importieren Sie torchvision.models als Modelle.
  2. Laden Sie das vortrainierte VGG16-Modell. vgg16_model = models.vgg16(pretrained=True).
  3. Stellen Sie sic....

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Diese Studie stellt ein tiefes neuronales End-to-End-Netzwerk vor, das zwei komplementäre Netzwerke umfasst: ein Pixel-Level-Multiskalen-Faltungsnetzwerk und ein tiefes Encoder-Decoder-Netzwerk. Das erste Netzwerk integriert kontextuelle Semantik, um visuelle Kontraste aus Multiskalen-Merkmalskarten abzuleiten und die Herausforderung fester rezeptiver Felder in tiefen neuronalen Netzen über verschiedene Schichten hinweg anzugehen. Das zweite Netzwerk verwendet sowohl tiefe als auch flache Bildmerkmale, um das Problem uns.......

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Der Artikel stellt ein tiefes neuronales End-to-End-Netz vor, das speziell für die Erkennung von markanten Objekten in komplexen Umgebungen entwickelt wurde. Das Netzwerk besteht aus zwei miteinander verbundenen Komponenten: einem Pixel-Level-Multiscale-Fully-Convolutional-Network (DCL) und einem tiefen Encoder-Decoder-Netzwerk (DEDN). Diese Komponenten arbeiten synergetisch zusammen und integrieren kontextuelle Semantik, um visuelle Kontraste in Multiskalen-Feature-Maps zu erzeugen. Darüber hinaus nutzen sie sowohl tief.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Die Autoren haben nichts offenzulegen.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Diese Arbeit wird unterstützt durch die Einrichtung des Förderprogramms für wichtige wissenschaftliche Forschungsprojekte der Provinz Henan 2024 (Projektnummer: 24A520053). Diese Studie wird auch durch den Bau eines spezialisierten Erstellungs- und Integrationsmerkmals-Demonstrationskurses in der Provinz Henan unterstützt.

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
Matlab	MathWorks	von Matlab R2016a	bietet Entwicklungswerkzeuge zur Verbesserung der Codequalität, der Wartbarkeit und der Maximierung der Leistung. Sie bietet Werkzeuge zum Erstellen von Anwendungen mit benutzerdefinierten grafischen Oberflächen. Sie bietet Werkzeuge zum Kombinieren von MATLAB-basierten Algorithmen mit externen Anwendungen und Sprachen
Prozessor	Intel	Intel(R) Core (TM) i5-1135G7 der 11. Generation @ 2,40 GHz	64-Bit-Win11-Prozessor
Pycharm	JetBrains	PyCharm 3.0	PyCharm ist eine Python IDE (Integrated Development Environment) eine Liste der erforderlichen python: Modulematplotlib skimage torch os time pydensecrf opencv glob PIL torchvision numpy tkinter
PyTorch	Facebook	PyTorch 1.4	PyTorch ist eine Open-Source-Python-Bibliothek für maschinelles Lernen, die auf Torch basiert und für die Verarbeitung natürlicher Sprache und andere Anwendungen verwendet wird. PyTorch kann sowohl als Ergänzung der GPU-Unterstützung numpy angesehen werden, als auch als leistungsstarkes tiefes neuronales Netzwerk mit automatischen Ableitungen .

Die Programmierschnittstelle

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Wang, W. G., Shen, J. B., Ling, H. B. A deep network solution for attention and aesthetics aware photo cropping. IEEE Transactions on Pattern Analysis and Machine Intelligence. 41 (7), 1531-1544 (2018).
Wang, W. G., Sun, G. L., Gool, L. V. Looking beyond single images for weakly supervised semantic segmentation learning.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

End-to-End-Deep Neural Network zur Erkennung von markanten Objekten in komplexen Umgebungen

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles