Wie funktioniert Reinforcement Learning?
Beim Reinforcement Learning werden diverse Methoden verwendet, bei denen der Software-Agent selbständig eine Strategie erlernt. Ziel des Lernvorgangs ist es, die Zahl der Belohnungen in der Simulationsumgebung zu maximieren. Während dem Training führt der Agent in jedem Zeitschritt Aktionen innerhalb der Umgebung aus und erhält jeweils ein Feedback. Im Voraus wird ihm nicht gezeigt, welche Aktion die beste ist, er enthält nur in bestimmten Situationen eine Belohnung. Der Agent lernt während dem Training auf diese Weise die Folgen von Aktionen auf Situationen in der Simulationsumgebung einzuschätzen. Damit lässt sich eine langfristige Strategie abbilden.
Um ein Reinforcement-Learning-System entsprechend trainieren zu können, wird eine Methode namens Q-Learning angewandt. Dieser stammt von der Q-Funktion, die den erhofften Nutzen einer Aktion im Status berechnen soll. Ziel des bestärkenden Lernens ist es dann, eine möglichst optimale Policy zu erstellen. Unter dem Begriff „Policy“ versteht man das erlernte Verhalten des Software-Agenten, das ihm zeigt, welche Aktion in einer variierenden Verhaltensvariante aus der Lernumgebung erfolgen soll.
Welche Anwendungsfelder gibt es?
Die mit Reinforcement Learning trainierten neuronale Netze, können komplexe Verhaltensweisen verschlüsseln. Dies ermöglicht eine alternative Herangehensweise, die mit herkömmlichen Methoden nur schwer oder gar nicht zu bewältigen sind. Beispielsweise kann beim autonomen Fahren das neuronale Netz den Fahrer ersetzen und mithilfe mehrerer Sensoren, wie Kamerabilder und LiDAR-Messungen, entscheiden, wie das Lenkrad einzuschlagen ist.
Typische Anwendungsfelder sind Problemstellungen mit folgenden Eigenschaften:
• Die Aufgabe ist simulierbar
• Es sollen eigene Strategien für die Lösungsfindung entwickelt werden
• Klassische Engineering-Verfahren sind nicht zielführend
• Komplexe Lösungsschritte sollen gefunden und optimiert werden.
Praktische Anwendungsfelder:
• Autonomes Fahren
• Ampelsteuerung zur Minimierung von Stausituationen
• Intelligente Stromnetze
• Fabrikautomatisierung
• Steuerung von Robotern
• Optimierung von Supply-Chain oder der Lagerhaltung
• Dynamische Gestaltung von Preisen zur Gewinnmaximierung
• Erlernen eines Computerspieles oder Konsolenspieles
• Etc.
Welchen Vorteil bietet Reinforcement Learning?
Das bestärkende Lernen bietet im Vergleich zu den anderen maschinellen Lernmethoden einige Vorteile. Sie ist in der Lage, ohne menschliches Vorwissen und Ausgangsdaten, Lösungen für komplexe Probleme zu finden. Es ähnelt dem natürlichen Lernprozess und kann Lösungen generieren, zu denen der Mensch nicht in der Lage ist. Das bestärkende Lernen ist im Prinzip für beliebige und intellektuelle Aufgaben einsetzbar.