Glossar
Deep Learning
Deep Learning ist eine Methode des maschinellen Lernens, bei der ein Algorithmus mithilfe von künstlichen neuronalen Netzen lernt, Zusammenhänge in besonders großen Datenmengen zu erkennen bzw. abzubilden. Deep Learning wird vor allem in der Informationsverarbeitung verwendet, zum Beispiel um Bilder zu erkennen oder Texte zu verstehen.
Künstliches Neuronales Netzwerk (KNN)
Ein künstliches neuronales Netzwerk ist ein Software- und/oder Hardwaresystem, das am Muster von Neuronen und ihrer Funktionsweise im menschlichen Gehirn angelehnt ist. Es wird im maschinellen Lernen verwendet und besteht aus drei Schichten: der Eingabeschicht, verborgenen Schicht und der Ausgabeschicht. Ziel des Netzwerks ist das Erlernen anhand von gefütterten Daten, um anschließend Vorhersagen ableiten zu können.
Deep Neural Network (DNN)
DNN (dt.: tiefes neuronales Netzwerk) bezeichnet eine leistungsstarke Technik des maschinellen Lernens. Das Netzwerk ist in der Lage dazu, komplexe Muster in großen Datensätzen zu erkennen und anhand dieser Muster Vorhersagen und Klassifikationen zu treffen. DNNs werden häufig in der Bilderkennung, Spracherkennung und beim Verarbeiten natürlicher Sprache (Natural Language Processing) verwendet. Sie können sich außerdem kontinuierlich an neue Datenumgebungen anpassen und automatisch lernen, ohne dass eine manuelle Anpassung erfolgen muss. Ein DNN besteht in der Regel aus einer Eingabeschicht, einer Ausgabeschicht sowie mindestens einer Zwischenschicht. Jede Schicht führt Sortierungen und Kategorisierungen aus.
Convolutional Neural Network (CNN)
CNNs (im deutschen: faltungsneurale Netzwerke) agieren wie Neuronen im menschlichen Frontallappen, die visuelle Reize verarbeiten. Im Gegensatz zu traditionellen neuronalen Netzen sind konvolutionäre neuronale Netze effizienter und einfacher für die natürliche Bild- und Sprachverarbeitung zu trainieren. Sie enthalten eine Eingabeschicht, eine Ausgabeschicht und auch eine verborgene Schicht mit mehreren Pooling-Schichten, Faltungsschichten, Normalisierungsschichten und vollständig verbundenen Schichten.
Modelle zur Bildklassifizierung
Visual Geometry Group (VGG)
VGG ist ein neuronales Netz und wird häufig zur Bilderkennung verwendet. Das Netzwerk besteht aus Pooling-Schichten und mehreren hintereinander geschalteten Schichten, wobei jede Schicht aus einer Reihe von Filtern besteht, die Muster in Bildern erkennen können. VGG ist bekannt für seine hohe Genauigkeit bei der Klassifizierung von Bildern in verschiedene Kategorien.
Residual Network (ResNet)
ResNet ist ein neuronales Netzwerk, welches für die Bildverarbeitung verwendet wird. Es kann als großes, tiefes neuronales Netzwerk trainiert werden und dabei hohe Fehlerraten vermeiden. Das Netzwerk besteht aus mehreren sogenannten Residual Blocks, die durch eine Skip Connection verbunden sind. Mit Hilfe der Skip Connection kann das Netzwerk eine oder mehrere seiner Schichten überspringen, falls diese das Ergebnis nicht verbessern.
Dense Convolutional Network (DenseNet)
DenseNet ist eine Deep-Learning-Architektur, die zur Bilderkennung genutzt wird. Durch eine breitgefächerte Vernetzung von Netzwerkschichten kann DenseNet im Gegensatz zu anderen neuronalen Netzen mit weniger Daten trainiert werden und trotzdem gute Leistungen bei der Bilderkennung erzielen. Dies ermöglicht eine effiziente und genaue Nutzung von verfügbaren Daten.
Visualisierungsmethoden der Bilderkennung
Grad-CAM, Grad-CAM++
Grad-CAM und Grad-CAM++ (CAM = Class Activation Mapping) sind Visualisierungstechniken, die in der Bildverarbeitung und beim maschinellen Lernen verwendet werden, um aufzuzeigen, wie ein künstliches neuronales Netzwerk seine Klassifizierungsentscheidungen trifft. Mit Hilfe einer Heatmap werden bestimmte Regionen in einem Bild hervorgehoben, die zur Klassenfindung beitragen. Das hilft uns zu verstehen, welche Merkmale das Modell berücksichtigt, um seine Entscheidungen zu treffen.
Layer-wise Relevance Propagation (LRP)
LRP ist eine Methode, die uns hilft, Entscheidungen von neuronalen Netzwerken besser zu verstehen und zu interpretieren. Dabei wird die Relevanz jedes Eingabe-Merkmals im Deep-Learning-Modell bewertet und in den Ausgabeschichten rückwärts verfolgt. So wird berechnet, wie wichtig jede Eingabe für die endgültige Entscheidung ist. Mit dieser Technik kann beispielsweise nachvollzogen werden, welche Merkmale eines Eingabebildes das Netzwerk berücksichtigt hat und wie es zu seiner Entscheidung gekommen ist.