Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND DEVICE FOR CONTROLLING A TECHNICAL APPARATUS
Document Type and Number:
WIPO Patent Application WO/2020/207789
Kind Code:
A1
Abstract:
A computer-implemented method and a device (100) for controlling a technical apparatus (102), the technical apparatus (102) being a robot, an at least partially autonomous vehicle, a house control system, a domestic appliance, a DIY appliance, in particular an electric tool, a production machine, a personal assistance appliance, a monitoring system or an access control system, the device (100) comprising: - an input (104) for input data (106) from at least one sensor (108); - an output (110) for controlling the technical apparatus (102) by means of a control signal (112); and - a computing apparatus (114), which is designed to control the technical apparatus (102) in accordance with the input data (106). In accordance with input data (106), a state of at least one part of the technical apparatus (102) or of an environment of the technical apparatus (102) is determined. In accordance with the state and with a strategy for the technical apparatus (102), at least one action is determined. The technical apparatus (102) is controlled so as to perform the at least one action. The strategy, in particular represented by an artificial neural network, is learned by means of a reinforcement learning algorithm in interaction with the technical apparatus (102) or with an environment of the technical apparatus (102) in accordance with at least one feedback signal. The at least one feedback signal is determined in accordance with a target specification. At least one starting state and/or at least one target state for an interaction episode is determined proportionally to a value of a continuous function. The value is determined by application of the continuous function to a performance measure previously determined for the strategy, by application of the continuous function to a derivative of a performance measure previously determined for the strategy, by application of the continuous function to a change, in particular a change over time, of a performance measure previously determined for the strategy, by application of the continuous function to the strategy or by a combination of said applications.

Inventors:
SCHMITT FELIX (DE)
WOEHLKE JAN GUENTER (DE)
Application Number:
PCT/EP2020/058206
Publication Date:
October 15, 2020
Filing Date:
March 24, 2020
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BOSCH GMBH ROBERT (DE)
International Classes:
G05B13/02
Domestic Patent References:
WO2018053187A12018-03-22
Other References:
CARLOS FLORENSA ET AL: "Reverse Curriculum Generation for Reinforcement Learning", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 17 July 2017 (2017-07-17), XP081326902
CARLOS FLORENSA ET AL: "Automatic Goal Generation for Reinforcement Learning Agents", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 18 May 2017 (2017-05-18), XP081409284
FLORENSA ET AL., REVERSE CURRICULUM GENERATION FOR REINFORCEMENT LEARNING, Retrieved from the Internet
HELD ET AL., AUTOMATIC GOAL GENERATION FOR REINFORCEMENT LEARNING AGENTS, Retrieved from the Internet
Download PDF:
Claims:
Ansprüche

1. Computerimplementiertes Verfahren zum Ansteuern einer technischen

Einrichtung (102), wobei die technischen Einrichtung (102) ein Roboter, ein zumindest teilweise autonomes Fahrzeug, eine Haussteuerung, ein

Haushaltsgerät, ein Heimwerkgerät insbesondere ein Elektrowerkzeug, eine Fertigungsmaschine, ein persönliches Assistenzgerät, ein

Überwachungssystem oder ein Zutrittskontrollsystem ist, wobei abhängig von Eingangsdaten ein Zustand wenigstens eines Teils der technischen Einrichtung (102) oder einer Umgebung der technischen Einrichtung (102) bestimmt wird, wobei wenigstens eine Aktion abhängig vom Zustand und von einer Strategie für die technische Einrichtung (102) bestimmt wird und wobei die technische Einrichtung (102) dazu angesteuert wird, die wenigstens eine Aktion auszuführen, dadurch gekennzeichnet, dass die Strategie, insbesondere repräsentiert durch ein künstliches neuronales Netz, mit einem Reinforcement Learning Algorithmus in Interaktion mit der technischen Einrichtung (102) oder der Umgebung der technischen

Einrichtung (102) abhängig von wenigstens einem Feedback-Signal erlernt wird, wobei das wenigstens eine Feedback-Signal abhängig von einer Zielvorgabe bestimmt wird, wobei wenigstens ein Startzustand und/oder wenigstens ein Zielzustand für eine Interaktionsepisode proportional zu einem Wert einer stetigen Funktion bestimmt wird, wobei der Wert durch Anwendung der stetigen Funktion auf ein zuvor für die Strategie bestimmtes Performancemaß, durch Anwendung der stetigen Funktion auf eine

Ableitung eines zuvor für die Strategie bestimmten Performancemaßes, durch Anwendung der stetigen Funktion auf eine insbesondere zeitliche Änderung eines zuvor für die Strategie bestimmten Performancemaßes, durch Anwendung der stetigen Funktion auf die Strategie oder durch eine Kombination dieser Anwendungen bestimmt wird.

2. Computerimplementiertes Verfahren nach Anspruch 1 , dadurch

gekennzeichnet, dass das Performancemaß geschätzt wird.

3. Computerimplementiertes Verfahren nach Anspruch 2, dadurch

gekennzeichnet, dass das geschätzte Performancemaß durch eine zustandsabhängige Zielerreichungswahrscheinlichkeit definiert ist, die für mögliche Zustände oder eine Untermenge von möglichen Zuständen bestimmt wird, wobei mit der Strategie ausgehend vom Startzustand wenigstens eine Aktion und wenigstens ein, aus einer Ausführung der wenigstens einen Aktion durch die technische Einrichtung zu erwartender oder resultierender Zustand bestimmt wird, wobei die

Zielerreichungswahrscheinlichkeit abhängig von der Zielvorgabe, beispielsweise einem Zielzustand, und abhängig vom wenigstens einen zu erwartenden oder resultierenden Zustand bestimmt wird.

4. Computerimplementiertes Verfahren nach Anspruch 2 oder 3, dadurch

gekennzeichnet, dass das geschätzte Performancemaß durch eine

Wertefunktion oder Vorteilsfunktion definiert ist, die abhängig von

wenigstens einem Zustand ( s ) und/oder wenigstens einer Aktion ( a ) und/oder vom Startzustand (s0) und/oder vom Zielzustand ( g ) bestimmt wird.

5. Computerimplementiertes Verfahren nach einem der Ansprüche 2 bis 4, dadurch gekennzeichnet, dass das geschätzte Performancemaß durch ein parametrisches Modell definiert ist, wobei das Modell abhängig von wenigstens einem Zustand und/oder wenigstens einer Aktion und/oder vom Startzustand und/oder vom Zielzustand gelernt wird.

6. Computerimplementiertes Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass die Strategie durch Interaktion mit der technischen Einrichtung (102) und/oder der Umgebung trainiert wird, wobei wenigstens ein Startzustand abhängig von einer Startzustandsverteilung bestimmt wird und/oder wobei wenigstens ein Zielzustand abhängig von einer Zielzustandsverteilung bestimmt wird.

7. Computerimplementiertes Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass abhängig von der stetigen Funktion eine Zustandsverteilung definiert wird, wobei die Zustandsverteilung entweder für einen vorgegebenen Zielzustand eine Wahrscheinlichkeitsverteilung über Startzustände definiert, oder für einen vorgegebenen Startzustand eine Wahrscheinlichkeitsverteilung über Zielzustände definiert.

8. Computerimplementiertes Verfahren nach Anspruch 7, dadurch

gekennzeichnet, dass für einen vorgegebenen Zielzustand ein Zustand als der Startzustand einer Episode oder für einen vorgegebenen Startzustand ein Zustand als der Zielzustand einer Episode bestimmt wird, wobei der Zustand insbesondere im Falle eines diskreten, endlichen Zustandsraumes abhängig von der Zustandsverteilung, durch ein Samplingverfahren, bestimmt wird, wobei insbesondere für einen kontinuierlichen oder unendlichen Zustandsraumeine endliche Menge möglicher Zustände, insbesondere mittels einer groben Gitter-Approximation des

Zustandsraumes, bestimmt wird.

9. Computerimplementiertes Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass die Eingangsdaten durch Daten von einem Sensor, insbesondere einem Video-, Radar-, LiDAR-, Ultraschall-,

Bewegungs-, Temperatur- oder Vibrationssensor definiert sind.

10. Computerprogramm, dadurch gekennzeichnet, dass das

Computerprogramm Instruktionen umfasst, bei deren Ausführung durch einen Computer das Verfahren nach einem der Ansprüche 1 bis 9 abläuft.

11. Computerprogrammprodukt, dadurch gekennzeichnet, dass das

Computerprogrammprodukt einen computerlesbaren Speicher umfasst, auf dem das Computerprogramm nach Anspruch 10 gespeichert ist.

12. Vorrichtung (100) zum Ansteuern einer technischen Einrichtung (102), wobei die technischen Einrichtung (102) ein Roboter, ein zumindest teilweise autonomes Fahrzeug, eine Haussteuerung, ein Haushaltsgerät, ein

Heimwerkgerät insbesondere ein Elektrowerkzeug, eine

Fertigungsmaschine, ein persönliches Assistenzgerät, ein

Überwachungssystem oder ein Zutrittskontrollsystem ist, dadurch

gekennzeichnet, dass die Vorrichtung (100) einen Eingang (104) für

Eingangsdaten (106) von wenigstens einem Sensor (108), insbesondere einem Video-, Radar-, LiDAR-, Ultraschall-, Bewegungs-, Temperatur- oder Vibrationssensor, einen Ausgang (110) zum Ansteuern der technischen Einrichtung (102) mittels eines Ansteuersignals (112) und eine

Recheneinrichtung (114) umfasst, die ausgebildet ist, die technische Einrichtung (102) abhängig von den Eingangsdaten (106) gemäß einem Verfahren nach einem der Ansprüche 1 bis 9 anzusteuern.

Description:
Beschreibung

Titel

Verfahren und Vorrichtung zum Ansteuern einer technischen Einrichtung

Stand der Technik

Monte Carlo Tree Search und Reinforcement Learning sind Ansätze, mit denen Strategien zum Ansteuern technischer Einrichtungen auffindbar oder erlernbar sind. Einmal aufgefundene oder erlernte Strategien sind dann zur Ansteuerung technischer Einrichtungen ersetzbar.

Wünschenswert ist es, das Auffinden oder Erlernen einer Strategie zu beschleunigen oder erst zu ermöglichen.

Offenbarung der Erfindung

Dies wird durch das computerimplementierte Verfahren und die Vorrichtung nach den unabhängigen Ansprüchen erreicht.

Das computerimplementierte Verfahren zum Ansteuern einer technischen Einrichtung sieht vor, dass die technischen Einrichtung ein Roboter, ein zumindest teilweise autonomes Fahrzeug, eine Haussteuerung, ein

Haushaltsgerät, ein Heimwerkgerät insbesondere ein Elektrowerkzeug, eine Fertigungsmaschine, ein persönliches Assistenzgerät, ein Überwachungssystem oder ein Zutrittskontrollsystem ist, wobei abhängig von Eingangsdaten ein Zustand wenigstens eines Teils der technischen Einrichtung oder einer

Umgebung der technischen Einrichtung bestimmt wird, wobei wenigstens eine Aktion abhängig vom Zustand und von einer Strategie für die technische

Einrichtung bestimmt wird und wobei die technische Einrichtung dazu angesteuert wird, die wenigstens eine Aktion auszuführen, wobei die Strategie, insbesondere repräsentiert durch ein künstliches neuronales Netz, mit einem Reinforcement Learning Algorithmus in Interaktion mit der technischen

Einrichtung oder der Umgebung der technischen Einrichtung abhängig von wenigstens einem Feedback-Signal erlernt wird, wobei das wenigstens eine Feedback-Signal abhängig von einer Zielvorgabe bestimmt wird, wobei wenigstens ein Startzustand und/oder wenigstens ein Zielzustand für eine Interaktionsepisode proportional zu einem Wert einer stetigen Funktion bestimmt wird, wobei der Wert durch Anwendung der stetigen Funktion auf ein zuvor für die Strategie bestimmtes Performancemaß, durch Anwendung der stetigen Funktion auf eine Ableitung eines für die Strategie bestimmten

Performancemaßes, durch Anwendung der stetigen Funktion auf eine

insbesondere zeitliche Änderung eines für die Strategie bestimmten

Performancemaßes, durch Anwendung der stetigen Funktion auf die Strategie oder durch eine Kombination dieser Anwendungen bestimmt wird. Die

Zielvorgabe umfasst beispielweise das Erreichen eines Zielzustands g. Ein beliebiger Reinforcement Learning Trainingsalgorithmus trainiert in Interaktion mit einer Umgebung über mehrere Iterationen hinweg eine Strategie p (a|s) oderp (a|s, g). Die Interaktion mit der Umgebung findet in Interaktionsepisoden, d.h. Episoden oder Rollouts, statt, die in einem Startzustand s 0 beginnen und durch Erreichen einer Zielvorgabe oder eines maximalen Zeithorizontes T enden. Die Zielvorgabe beinhaltet im Falle von zielbasiertem Reinforcement Learning das Erreichen von Zielzuständen g, kann allgemeiner aber zusätzlich oder stattdessen Vorgaben bezüglich einer erhaltenen Belohnung r machen. Im Folgenden wird zwischen einer eigentlichen Zielvorgabe einer Problemstellung und einer temporären Zielvorgabe einer Episode unterschieden. Die eigentliche Zielvorgabe der Problemstellung ist z. B. von jedem möglichen Startzustand ein Ziel zu erreichen oder von einem Startzustand alle möglichen Ziele zu erreichen. Die temporäre Zielvorgabe einer Episode ist z. B. bei zielbasiertem

Reinforcement Learning das Erreichen eines bestimmten Ziels vom Startzustand der Episode aus.

Während eines Trainings können die Start- und Zielzustände der Episoden prinzipiell, wenn die technische Einrichtung und die Umgebung das zulassen, frei gewählt werden, unabhängig von der Zielvorgabe der eigentlichen

Problemstellung. Ist ein Zielzustand g oder sind mehrere Zielzustände fest vorgegeben, so werden Startzustände s 0 für die Episoden benötigt. Sind dagegen Startzustände s 0 fest vorgegeben so werden im Falle von zielbasiertem Reinforcement Learning Zielzustände g benötigt. Es kann prinzipiell auch beides gewählt werden.

Die Wahl von Start- / Zielzuständen während des Trainings beeinflusst das Trainingsverhalten der Strategie p im Hinblick auf das Erreichen der eigentlichen Zielvorgabe der Problemstellung. Insbesondere in Szenarien in denen die Umgebung nur spärlich Belohnungen r, das bedeutet selten r ungleich 0, gewährt, ist das Training sehr schwierig bis unmöglich und eine geschickte Wahl von Start- / Zielzuständen während des Trainings kann den Trainingsfortschritt bezüglich der eigentlichen Zielvorgabe der Problemstellung immens verbessern oder gar erst ermöglichen.

In dem Verfahren wird über den Verlauf des Trainings ein Curriculum von Start- / Zielzuständen generiert. Dies bedeutet, dass Start- / Zielzustände für die Episoden entsprechend einer Wahrscheinlichkeitsverteilung, einer Meta- Strategie bzw. p g , gewählt werden, die über den Trainingsverlauf hinweg, von Zeit zu Zeit, neu berechnet wird. Dies geschieht, indem eine stetige Funktion G auf ein geschätztes, zustandsabhängiges Performancemaß angewandt

wird. Dieses zustandsabhängige Performancemaß wird auf Grundlage von

aus der Interaktion der Strategie p mit der Umgebung gesammelten Daten, d.h. Zuständen s, Aktionen a, Belohnungen r und / oder zusätzlich gesammelten Daten geschätzt. Das Performancemaß stellt beispielsweiße eine

Zielerreichungswahrscheinlichkeit dar, mit der das Erreichen der Zielvorgabe für jeden Zustand als möglichen Start- bzw. Zielzustand abgeschätzt wird.

Start- / Zielzustände werden beispielsweise entsprechend einer

Wahrscheinlichkeitsverteilung gewählt. Beispielsweise ist es bekannt,

Startzustände entsprechend einer uniformen Verteilung über alle möglichen Zustände zu wählen. Durch Verwendung einer Wahrscheinlichkeitsverteilung, die durch Anwendung einer stetigen Funktion auf das Performancemaß , auf eine

Ableitung des Performancemaßes, auf eine insbesondere zeitliche Änderung des Performancemaßes, auf die Strategie p oder eine Kombination dieser

Anwendungen bestimmt wird, verbessert sich der Trainingsfortschritt signifikant. Die durch diese Anwendung generierte Wahrscheinlichkeitsverteilung stellt eine Meta-Strategie zur Auswahl von Start- / Zielzuständen dar. Bestimmte explizite Ausgestaltungen der Meta-Strategie zeigen empirisch einen verbesserten Trainingsfortschritt im Vergleich zu einem herkömmlichen

Reinforcement Learning Algorithmus mit oder ohne Curriculum von Start- / Zielzuständen. Im Gegensatz zu bestehenden Curriculums Ansätzen müssen weniger oder keine Hyperparameter, d.h. Einstellgrößen für die Bestimmung des Curriculums, bestimmt werden. Darüber hinaus sind die Meta-Strategien auf viele verschiedenen Umgebungen erfolgreich anwendbar, da beispielsweise keine Annahmen über die Umgebungsdynamik getroffen werden müssen oder der Zielzustand g im Falle eines fest vorgegebenen Zielzustandes nicht von vornherein bekannt sein muss. Zudem werden im Gegensatz zu herkömmlichen demonstrationsbasierten Algorithmen keine Demonstrationen einer

Referenzstrategie benötigt.

Die Startzustände und/oder Zielzustände werden entsprechend einer

Zustandsverteilung bestimmt. Diese können gesampelt werden, d.h. sie sind mittels der abhängig von der stetigen Funktion G bestimmten Metastrategie bzw. p 9 auffindbar. Bei vorgegebenem Zielzustand g werden Startzustände s 0 gesampelt. Bei vorgegebenem Startzustand s 0 werden Zielzustände g gesampelt. Es können auch beide Zustände gesampelt werden. Für

Startzustände s 0 wird ein Performancemaß verwendet. Für

Zielzustände g wird ein Performancemaß verwendet. Zusätzlich oder

alternativ wird eine Ableitung des jeweiligen Performancemaßes, zum Beispiel der Gradient , oder die insbesondere zeitliche

Änderung des jeweiligen Performancemaßes , oder die Strategie p (a|s) bzw. p (a|s, g), verwendet. In einer Iteration i des Trainings der Strategie definiert die Metastrategie entweder die Startzustände s 0 oder die Zielzustände g der Interaktionsepisoden mit der Umgebung oder beides. Die Metastrategie für die Wahl von Startzuständen s 0 ist durch das

Performancemaß , eine Ableitung des Performancemaßes, zum Beispiel den Gradienten , die insbesondere zeitliche Änderung des

Performancemaßes und/oder die Strategie p (a|s) definiert. Die

Metastrategie p 9 für die Wahl von Zielzuständen g ist durch das

Performancemaß , eine Ableitung des Performancemaßes, zum Beispiel den Gradienten , die insbesondere zeitliche Änderung des Performancemaßes und/oder die Strategie p (a|s, g) definiert.

Diese Vorgehensweise ist sehr allgemein anwendbar und kann je nach Auswahl des Performancemaßes, der darauf potentiell angewendeten mathematischen Operationen, d.h. Ableitung oder insbesondere zeitliche Änderung, und der stetigen Funktion G zur Bestimmung der Zustandsverteilung viele verschiedene konkrete Ausprägungen annehmen. Es müssen weniger bzw. keine

Hyperparameter festgelegt werden, die über Erfolg oder Misserfolg des

Vorgehens entscheiden können. Es werden keine Demonstrationen für die Erfassung einer Referenzstrategie benötigt. Sinnvolle Startzustände, die den Trainingsprozess beschleunigen, bzw. in schwierigen Umgebungen überhaupt erst ermöglichen, sind unter anderem, beispielweise bei der Auswahl von Startzuständen proportional zu einer stetigen Funktion G angewendet auf die Ableitung oder den Gradienten des Performancemaßes bezüglich des Zustands genau an einer Grenze auswählbar, an der Zustände mit hoher

Zielerreichungswahrscheinlichkeit oder Performance neben solchen mit niedriger liegen. Die Ableitung oder der Gradient liefert hierbei Information über die Änderung des Performancemaßes. Eine lokale Verbesserung der Strategie ist ausreichend, um die Zielerreichungswahrscheinlichkeit oder Performance der Zustände mit vormals niedriger Zielerreichungswahrscheinlichkeit oder

Performance zu erhöhen. Im Gegensatz zu einer ungerichteten Ausbreitung der Startzustände werden Startzustände gerichtet entsprechend einem Kriterium angewendet auf ein Performancemaß priorisierbar. Dasselbe gilt für eine Ausbreitung der Zielzustände, wenn diese gewählt werden.

Vorzugsweise ist vorgesehen, dass das Performancemaß geschätzt wird. Das geschätzte Performancemaß stellt eine gute Näherung für das Performancemaß dar. Das geschätzte Performancemaß

stellt eine gute Näherung für das Performancemaß dar.

Vorzugsweise ist vorgesehen, dass das geschätzte Performancemaß durch eine zustandsabhängige Zielerreichungswahrscheinlichkeit definiert ist, die für mögliche Zustände oder eine Untermenge von möglichen Zuständen bestimmt wird, wobei mit der Strategie ausgehend vom Startzustand wenigstens eine Aktion und wenigstens ein, aus einer Ausführung der wenigstens einen Aktion durch die technische Einrichtung zu erwartender oder resultierender Zustand bestimmt wird, wobei die Zielerreichungswahrscheinlichkeit abhängig von der Zielvorgabe, beispielsweise einem Zielzustand, und abhängig vom wenigstens einen zu erwartenden oder resultierenden Zustand bestimmt wird. Die Zielerreichungswahrscheinlichkeit wird beispielsweise für alle Zustände des Zustandsraumes oder eine Untermenge dieser Zustände bestimmt, indem ausgehend von den gewählten Zuständen als Startzuständen beziehungsweise mit Zielvorgabe der gewählten Zustände als Zielzustände jeweils ein oder mehrere Episoden der Interkation mit der Umgebung, d.h. Rollouts, mit der Strategie durchgeführt werden, wobei mit der Strategie in jeder Episode ausgehend vom Startzustand wenigstens eine Aktion und wenigstens ein, aus einer Ausführung der wenigstens einen Aktion durch die technische Einrichtung zu erwartender oder resultierender Zustand bestimmt wird, wobei die

Zielerreichungswahrscheinlichkeit abhängig von der Zielvorgabe und abhängig vom wenigstens einen zu erwartenden oder resultierenden Zustand bestimmt wird. Die Zielerreichungswahrscheinlichkeit gibt beispielsweise an, mit welcher Wahrscheinlichkeit ein Zielzustand g vom Startzustand s 0 innerhalb einer gewissen Anzahl Interaktionsschritte erreicht wird. Die Rollouts sind etwas Teil des Reinforcement Learning Trainings oder werden zusätzlich durchgeführt.

Vorzugsweise ist vorgesehen, dass das geschätzte Performancemaß durch eine Wertefunktion oder eine Vorteilsfunktion definiert ist, die abhängig von wenigstens einem Zustand und/oder wenigstens einer Aktion und/oder vom Startzustand und/oder vom Zielzustand bestimmt wird. Die Wertefunktion ist beispielsweise die value function V(s), Q(s, a), V{s, g), Q(s, a, g ) oder eine daraus resultierende advantage function A(s, a) = Q(s, a ) - V(s) oder A(s, a, g) = Q(s, a, g) - V(s, g) die von manchen Reinforcement Learning Algorithmen ohnehin bestimmt wird. Eine value function oder advantage function kann auch separat zum eigentlichen Reinforcement Learning Algorithmus z.B. mittels überwachten Lernens aus den aus dem Reinforcement Learning Training in der Interaktion mit der Umgebung beobachteten oder ausgeführten Zuständen, Belohnungen, Aktionen und/oder Zielzuständen gelernt werden.

Vorzugsweise ist vorgesehen, dass das geschätzte Performancemaß durch ein parametrisches Modell definiert ist, wobei das Modell abhängig von wenigstens einem Zustand und/oder wenigstens einer Aktion und/oder vom Startzustand und/oder vom Zielzustand gelernt wird. Das Modell kann vom Reinforcement Learning Algorithmus selbst oder separat zum eigentlichen Reinforcement Learning Algorithmus z.B. mittels überwachten Lernens aus den aus dem Reinforcement Learning Training in der Interaktion mit der Umgebung beobachteten oder ausgeführten Zuständen, Belohnungen, Aktionen und/oder Zielzuständen gelernt werden.

Vorzugsweise ist vorgesehen, dass die Strategie durch Interaktion mit der technischen Einrichtung und/oder der Umgebung trainiert wird, wobei wenigstens ein Startzustand abhängig von einer Startzustandsverteilung bestimmt wird und/oder wobei wenigstens ein Zielzustand abhängig von einer

Zielzustandsverteilung bestimmt wird. Dies ermöglicht ein besonders effektives Erlernen der Strategie.

Vorzugsweise ist vorgesehen, dass abhängig von der stetigen Funktion eine Zustandsverteilung definiert wird, wobei die Zustandsverteilung entweder für einen vorgegebenen Zielzustand eine Wahrscheinlichkeitsverteilung über Startzustände definiert, oder für einen vorgegebenen Startzustand eine

Wahrscheinlichkeitsverteilung über Zielzustände definiert. Die Zustandsverteilung stellt eine Metastrategie dar. Wie bereits in den vorangegangenen Abschnitten erläutert, wird dadurch das Lernverhalten der Strategie mittels Reinforcement Learning, im Falle von spärlichem Feedback der Umgebung, verbessert oder erst ermöglicht. Daraus resultiert eine bessere Strategie, die bessere

Handlungsentscheidungen trifft, und diese als Ausgangsgröße ausgibt.

Vorzugsweise ist vorgesehen, dass für einen vorgegebenen Zielzustand ein Zustand als der Startzustand einer Interaktionsepisode oder für einen

vorgegebenen Startzustand ein Zustand als der Zielzustand einer

Interaktionsepisode bestimmt wird, wobei der Zustand insbesondere im Falle eines diskreten, endlichen Zustandsraumes abhängig von der Zustandsverteilung durch ein Samplingverfahren bestimmt wird, wobei insbesondere für einen kontinuierlichen oder unendlichen Zustandsraum eine endliche Menge möglicher Zustände, insbesondere mittels einer groben Gitter-Approximation des

Zustandsraumes, bestimmt wird. Beispielsweise wird die Zustandsverteilung mittels eines Standardsamplingverfahrens gesampelt. Die Start- und/oder Zielzustände werden dementsprechend beispielweise entsprechend der

Zustandsverteilung mittels direkten Sampling, Rejection Sampling oder Markov Chain Monte Carlo Sampling gesampelt. Es kann das Training eines Generators vorgesehen sein, der Start- und/oder Zielzustände entsprechend der

Zustandsverteilung generiert. In einem kontinuierlichen Zustandsraum oder in einem diskreten Zustandsraum mit unendlich vielen Zuständen wird zuvor beispielsweise eine endliche Menge an Zuständen gesampelt. Dazu kann eine grobe Gitterapproximation des Zustandsraumes verwendet werden.

Vorzugsweise ist vorgesehen, dass die Eingangsdaten durch Daten von einem Sensor, insbesondere einem Video-, Radar-, LiDAR-, Ultraschall-, Bewegungs-, Temperatur- oder Vibrationssensor definiert sind. Insbesondere bei diesen Sensoren ist das Verfahren besonders effizient anwendbar.

Die Vorrichtung zum Ansteuern der technischen Einrichtung umfasst einen Eingang für Eingangsdaten von wenigstens einem Sensor, einen Ausgang zum Ansteuern der technischen Einrichtung und eine Recheneinrichtung, die ausgebildet ist, die technische Einrichtung abhängig von den Eingangsdaten gemäß diesem Verfahren anzusteuern.

Weitere vorteilhafte Ausführungsformen ergeben sich aus der folgenden

Beschreibung und der Zeichnung. In der Zeichnung zeigt

Fig. 1 eine schematische Darstellung von Teilen einer Vorrichtung zum

Ansteuern einer technischen Einrichtung,

Fig. 2 ein erstes Ablaufdiagramm für Teile eines ersten Verfahrens zum

Ansteuern der technischen Einrichtung,

Fig. 3 ein zweites Ablaufdiagramm für Teile eines zweiten Verfahrens zum Ansteuern der technischen Einrichtung,

Fig. 4 ein drittes Ablaufdiagramm für Teile des ersten Verfahrens zum

Ansteuern der technischen Einrichtung,

Fig. 5 ein viertes Ablaufdiagramm für Teile des zweiten Verfahrens zum

Ansteuern der technischen Einrichtung.

In Figur 1 ist eine Vorrichtung 100 zum Ansteuern einer technischen Einrichtung 102 dargestellt.

Die technische Einrichtung 102 kann ein Roboter, ein zumindest teilweise autonomes Fahrzeug, eine Haussteuerung, ein Haushaltsgerät, ein

Heimwerkgerät insbesondere ein Elektrowerkzeug, eine Fertigungsmaschine, ein persönliches Assistenzgerät, ein Überwachungssystem oder ein

Zutrittskontrollsystem sein.

Die Vorrichtung 100 umfasst einen Eingang 104 für Eingangsdaten 106 von einem Sensor 108 und einen Ausgang 110 zum Ansteuern der technischen Einrichtung 102 mit wenigstens einem Ansteuersignal 112 und eine

Recheneinrichtung 114. Eine Datenverbindung 116, beispielsweise ein

Datenbus, verbindet die Recheneinrichtung 114 mit dem Eingang 104 und dem Ausgang 110. Der Sensor 108 erfasst beispielsweise Information 118 über einen Zustand der technischen Einrichtung 102 oder der Umgebung der technischen Einrichtung 102.

Die Eingangsdaten 106 sind im Beispiel durch Daten vom Sensor 108 definiert. Der Sensor 108 ist beispielsweise ein Video-, Radar-, LiDAR-, Ultraschall-, Bewegungs-, Temperatur-, oder Vibrationssensor. Die Eingangsdaten 106 sind beispielsweise Rohdaten vom Sensor 108 oder bereits aufbereitete Daten. Es können mehrere insbesondere verschiedene Sensoren vorgesehen sein, die unterschiedliche Eingangsdaten 106 bereitstellen.

Die Recheneinrichtung 114 ist ausgebildet, abhängig von den Eingangsdaten 106 einen Zustand s der technischen Einrichtung 102 zu bestimmen. Der Ausgang 110 ist im Beispiel zum Ansteuern der technischen Einrichtung 102 abhängig von einer Aktion a ausgebildet, die von der Recheneinrichtung 114 abhängig von einer Strategie p bestimmt wird.

Die Vorrichtung 100 ist ausgebildet, die technische Einrichtung 102 abhängig von den Eingangsdaten 106 gemäß einem im Folgenden beschriebenen Verfahren abhängig von der Strategie p anzusteuern.

Im zumindest teilweise autonomen oder automatisierten Fahren umfasst die technische Einrichtung ein Fahrzeug. Eingangsgrößen definieren beispielsweise einen Zustand s des Fahrzeugs. Die Eingangsgrößen sind beispielweise ggf. vorverarbeitete Positionen anderer Verkehrsteilnehmer, Fahrbahnmarkierungen, Verkehrsschilder und/oder anderen Sensordaten, beispielweise Bilder, Videos, Radardaten, LiDAR-Daten, Ultraschalldaten. Die Eingangsgrößen sind beispielsweise von Sensoren des Fahrzeugs oder von anderen Fahrzeugen oder einer Infrastruktur erhaltene Daten. Eine Aktion a definiert beispielsweise Ausgangsgrößen zur Ansteuerung eines Fahrzeugs. Die Ausgangsgrößen betreffen beispielweise Handlungsentscheidungen, beispielsweise Spurwechsel, Geschwindigkeit des Fahrzeugs erhöhen oder erniedrigen. Die Strategie p definiert in diesem Beispiel die Aktion a, die in einem Zustand s auszuführen ist.

Die Strategie p kann beispielsweise als eine vorgegebene Menge Regeln implementiert sein oder unter Verwendung von Monte Carlo Tree Search laufend dynamisch neu generiert werden. Monte Carlo Tree Search ist ein heuristischer Suchalgorithmus, der für manche Entscheidungsprozesse das Auffinden einer Strategie p ermöglicht. Da ein fixes Set an Regeln nicht gut generalisiert und Monte Carlo Tree Search sehr kostspielig bezüglich der benötigten

Rechnerkapazitäten ist, ist der Einsatz von Reinforcement Learning zum Lernen der Strategie p aus Interaktion mit einer Umgebung eine Alternative.

Reinforcement Learning trainiert eine Strategie p(a|s), die beispielsweise durch ein neuronales Netzwerk dargestellt wird, und Zustände s als Eingangsgröße auf Aktionen a als Ausgangsgröße abbildet. Während des Trainings interagiert die Strategie p(a|s) mit einer Umgebung und erhält eine Belohnung r. Die

Umgebung kann die technische Einrichtung ganz oder teilweise umfassen. Die Umgebung kann die Umgebung der technischen Einrichtung ganz oder teilweise umfassen. Die Umgebung kann auch eine Simulationsumgebung umfassen, die die technische Einrichtung und/oder die Umgebung der technischen Einrichtung ganz oder teilweise simuliert.

Auf Grundlage dieser Belohnung r wird die Strategie p(a|s) angepasst. Die Strategie p(a|s) wird beispielsweise vor Beginn des Trainings zufällig initialisiert. Das Training ist episodisch. Eine Episode, d.h. ein Rollout, definiert die

Interaktion der Strategie p(a|s) mit der Umgebung oder der

Simulationsumgebung über einen maximalen Zeithorizont T. Ausgehend von einem Startzustand s 0 steuert die Strategie mit Aktionen a wiederholt die technische Einrichtung an, wodurch sich neue Zustände ergeben. Die Episode endet, wenn eine Zielvorgabe, beispielweise einen Zielzustand g umfassend, oder der Zeithorizont T erreicht ist. Während der Episode werden die folgenden Schritte ausgeführt: Bestimmen der Aktion a mit der Strategie p(a|s) im Zustand s; Ausführen der Aktion a im Zustand s; Bestimmen eines daraus resultierenden neuen Zustands s'; Wiederholen der Schritte wobei der neue Zustand s' als Zustand s verwendet wird. Eine Episode wird beispielsweise in diskreten

Interaktionsschritten ausgeführt. Die Episoden enden beispielsweise, wenn die Anzahl der Interaktionsschritte ein Limit entsprechend dem Zeithorizont T erreicht oder wenn die Zielvorgabe, zum Beispiel ein Zielzustand g, erreicht wurde. Die Interaktionsschritte können Zeitschritte darstellen. In diesem Fall enden die Episoden beispielsweise, wenn ein Zeitlimit oder die Zielvorgabe zum Beispiel ein Zielzustand g, erreicht ist.

Für eine derartige Episode muss der Startzustand s 0 bestimmt werden. Dieser kann aus einem Zustandsraum S, beispielsweise einer Menge von möglichen Zuständen der technischen Einrichtung und/oder ihrer Umgebung oder

Simulationsumgebung, ausgewählt werden.

Die Startzustände s 0 für die verschiedenen Episoden können aus dem

Zustandsraum S festgelegt oder uniform gesampelt, d.h. uniform zufällig ausgewählt werden.

Diese Formen der Auswahl der Startzustände s 0 können ein Erlernen der Strategie p(a|s) insbesondere in Szenarien in denen es sehr wenige

Belohnungen r von der Umgebung gibt, verlangsamen oder in hinreichend schwierigen Umgebungen komplett unterbinden. Das liegt daran, dass die Strategie p(a|s) vor Beginn des Trainings zufällig initialisiert wird.

Die Belohnung r wird im zumindest teilweise autonomen oder automatisierten Fahren potentiell nur sehr spärlich gewährt. Eine positive Belohnung r wird beispielsweise als Feedback für das Erreichen einer Zielposition, z.B. einer Autobahnausfahrt, bestimmt. Eine negative Belohnung r wird beispielsweise als Feedback für das Verursachen einer Kollision oder das Verlassen einer

Fahrbahn bestimmt. Wird zum Beispiel die Belohnung r im zumindest teilweise autonomen oder automatisierten Fahren ausschließlich für eine Zielerreichung, d.h. das Erreichen eines gewünschten Zielzustands g, bestimmt, und liegen die fixen Startzustände s 0 sehr weit vom Zielzustand g entfernt oder ist der

Zustandsraum S bei uniformem Sampling von Startzuständen s 0 sehr groß oder erschweren Hindernisse in der Umgebung zusätzlich das vorankommen, führt das dazu, dass nur sehr selten oder im schlimmsten Fall keine Belohnungen r von der Umgebung erhalten wird, da der Zielzustand g selten bis zum Erreichen der maximalen Anzahl Interaktionsschritte überhaupt erreicht wird, oder erst nach vielen Interaktionsschritten erreicht wird. Dies behindert den Trainingsfortschritt beim Erlernen der Strategie p(a|s) oder macht das Erlernen unmöglich.

Insbesondere im zumindest teilweise autonomen oder automatisierten Fahren ist es sehr schwierig die Belohnung r so zu designen, dass gewünschtes

Fahrverhalten gefördert wird ohne unerwünschte Nebeneffekte zu verursachen.

Als Lösungsmöglichkeit für eine bestimmte Problemstellung kann in diesem Fall ein Curriculum von Startzuständen s 0 generiert werden, das Startzustände s 0 so wählt, dass oft genug Belohnungen r von der Umgebung erhalten werden, um den Trainingsfortschritt zu gewährleisten wobei die Strategie p(a|s) so definiert ist, dass der Zielzustand g irgendwann aus allen von der Problemstellung vorgesehenen Startzuständen s 0 erreicht werden kann. Die Strategie p(a|s) ist beispielsweise so definiert, dass jeder beliebige Zustand im Zustandsraum S erreichbar ist.

Äquivalent dazu ist das Problem einer Zielzustandsauswahl bei vorgegebenem Startzustand s 0 . Ein Zielzustand g der sehr weit vom Startzustand s 0 eines Rollouts entfernt ist, führt ebenfalls dazu, dass es nur wenige Belohnungen r von der Umgebung gibt und dadurch der Lernprozess gehemmt oder unmöglich wird.

Als Lösungsmöglichkeit für eine bestimmte Problemstellung kann in diesem Fall ein Curriculum von Zielzuständen g generiert werden, das Zielzustände g bei vorgegebenem Startzustand s 0 so wählt, dass oft genug Belohnungen r von der Umgebung erhalten werden, um den Trainingsfortschritt zu gewährleisten wobei die Strategie p(a|s) so definiert ist, dass sie irgendwann alle von der

Problemstellung vorgesehenen Zielzustände g erreichen kann. Die Strategie p(a|s) ist beispielsweise so definiert, dass beispielsweise jeder beliebige

Zustand im Zustandsraum S erreichbar ist.

Eine derartige Vorgehensweise für ein Curriculum für Startzustände ist beispielsweise offenbart in Florensa et al. , Reverse Curriculum Generation for Reinforcement Learning: https : / /arxiv. org/pdf/1707.05300. pdf. Eine derartige Vorgehensweise für ein Curriculum für Zielzustände ist

beispielsweise offenbart in Held et al. , Automatic Goal Generation for

Reinforcement Learning Agents:

https : //arxiv. org/pdf/1705.06366. pdf.

Für kontinuierliche und diskrete Zustandsräume S kann auf Grundlage der Strategie p (a|s) der Trainingsiteration i eine stochastische Metastrategie zur Auswahl von Startzuständen s 0 für die Episoden einer oder mehrerer nachfolgender Trainingsiterationen des Algorithmus zum Reinforcement Learning definiert werden.

Die stochastische Metastrategie ist in diesem Beispiel abhängig von einem Performancemaß , von einer Ableitung des Performancemaßes, zum

Beispiel dem Gradienten , von einer Änderung des Performancemaßes sowie der eigentlichen Strategie p (a|s) definiert. Die Änderung ist im

Beispiel eine zeitliche Änderung.

Wird in einer Iteration i das Performancemaß , eine Ableitung des

Performancemaßes, zum Beispiel der Gradient , die Änderung des Performancemaßes und/oder die Strategie p (a|s) vorgegeben, definiert

die Metastrategie eine Wahrscheinlichkeitsverteilung über Startzustände s 0 . Startzustände s 0 sind damit abhängig von der Metastrategie auswählbar.

Für kontinuierliche und diskrete Zustandsräume S kann auf Grundlage der Strategie p (a|s, g) der Trainingsiteration i eine stochastische Metastrategie

zur Auswahl von Zielzuständen g für

die Episoden einer oder mehrerer nachfolgender Trainingsiterationen des Algorithmus zum Reinforcement Learning definiert werden.

Die stochastische Metastrategie ist in diesem Beispiel abhängig von einem Performancemaß , von einer Ableitung des Performancemaßes, zum Beispiel dem Gradienten , von einer Änderung des Performancemaßes sowie von der eigentlichen Strategie p (a|s, g) definiert. Die Änderung ist

im Beispiel eine zeitliche Änderung. Wird in einer Iteration i das Performancemaß ,

eine Ableitung des

Performancemaßes, zum Beispiel der Gradient , die Änderung des Performancemaßes und/oder die Strategie p (a|s, g) vorgegeben,

definiert die Metastrategie eine Wahrscheinlichkeitsverteilung über

Zielzustände g. Zielzustände g sind damit abhängig von der Metastrategie

auswählbar.

Es kann vorgesehen sein, entweder den Startzustand s 0 oder den Zielzustand g oder beide auszuwählen. Im Folgenden wird zwischen zwei Verfahren, einem für die Auswahl des Startzustands s 0 und einem für die Auswahl des Zielzustands g unterschieden. Diese können unabhängig voneinander oder gemeinsam ausgeführt werden, um entweder nur einen der Zustände oder beide Zustände gemeinsam auszuwählen.

Für die Bestimmung von Startzuständen s 0 wird die Metastrategie

so gewählt, dass Zustände s aus dem Zustandsraum S oder einer Untermenge dieser Zustände proportional zum Wert einer stetigen Funktion G als Startzustand s 0 bestimmt werden. Die Funktion G wird auf das Performancemaß ,

eine Ableitung, zum Beispiel den

Gradienten , auf die Änderung , die Strategie p (a|s) oder auf

eine beliebige Kombination daraus angewendet, um die Startzustände s 0 ein oder mehrerer Episoden der Interaktion mit der Umgebung zu bestimmen. Dazu wird beispielsweise

bestimmt.

Startzustände s 0 für diskrete, endliche Zustandsräume werden beispielsweise abhängig vom Performancemaß proportional zum Wert der stetigen Funktion

G gesampelt mit

Im Folgenden sind im Zähler beispielhafte stetige Funktion G angegeben, die diese Beziehung insbesondere abhängig von einem der Normalisierung dienenden Nenner erfüllen. Beispielsweise wird gesampelt mit:

wobei S N(s) die Menge aller Nachbarzustände von s darstellt, d.h. alle Zustände S N , die von s durch eine beliebige Aktion a in einem Zeitschritt erreichbar sind.

Startzustände s 0 können proportional zum Wert der stetigen Funktion G angewendet auf den Gradienten gesampelt werden mit

Im Folgenden sind im Zähler beispielhafte stetige Funktion G angegeben, die diese Beziehung insbesondere abhängig von einem der Normalisierung dienenden Nenner erfüllen. Beispielsweise wird gesampelt mit:

oder

Startzustände s 0 können proportional zum Wert der stetigen Funktion G angewendet auf die Änderung gesampelt werden mit

Im Folgenden sind im Zähler beispielhafte stetige Funktion G angegeben, die diese Beziehung insbesondere abhängig von einem der Normalisierung dienenden Nenner erfüllen. Beispielsweise wird gesampelt mit:

wobei beispielsweise mit

.

Startzustände s 0 können proportional zum Wert der stetigen Funktion G angewendet auf das Performancemaß und die Strategie gesampelt

mit

Im Folgenden sind im Zähler beispielhafte stetige Funktion G angegeben, die diese Beziehung insbesondere abhängig von einem der Normalisierung dienenden Nenner erfüllen. Beispielsweise wird gesampelt mit: wobei in diesem Fall die value function mit

s = s 0 oder die advantage function mit s = s 0 ist und die

Standardabweichung bezüglich der Aktionen a ist, welche entweder aus dem Aktionsraum A oder entsprechend der Strategie p (a|s) gewählt werden,

wobei in diesem Fall die advantage function

ist,

oder wobei in diesem Fall die advantage function

ist.

Für die Bestimmung eines Zielzustands g wird die Metastrategie

so gewählt, dass Zustände s aus dem

Zustandsraum S oder einer Untermenge dieser Zustände proportional zum Wert einer stetigen Funktion G als Zielzustand g bestimmt werden. Die Funktion G wird auf das Performancemaß , auf eine Ableitung, zum Beispiel den

Gradienten , auf die Änderung , die Strategie p (a|s, g) oder auf

eine beliebige Kombination daraus angewendet, um die Zielzustände g ein oder mehrerer Episoden der Interaktion mit der Umgebung zu bestimmen . Dazu wird beispielsweise

bestimmt. Zielzustände g für diskrete, endliche Zustandsräume werden beispielsweise abhängig vom Performancemaß ] p . proportional zum Wert der stetigen Funktion

G gesampelt mit

Im Folgenden sind im Zähler beispielhafte stetige Funktion G angegeben, die diese Beziehung insbesondere abhängig von einem der Normalisierung dienenden Nenner erfüllen. Beispielsweise wird gesampelt mit:

oder

wobei die Menge aller Nachbarzustände von s darstellt, d.h. alle Zustände S N , die von s durch eine beliebige Aktion a in einem Zeitschritt erreichbar sind.

Zielzustände g können proportional zum Wert der stetigen Funktion G angewendet auf den Gradienten gesampelt werden mit

Im Folgenden sind im Zähler beispielhafte stetige Funktion G angegeben, die diese Beziehung insbesondere abhängig von einem der Normalisierung dienenden Nenner erfüllen. Beispielsweise wird gesampelt mit:

Zielzustände g können proportional zum Wert der stetigen Funktion G angewendet auf die Änderung gesampelt werden mit

Im Folgenden sind im Zähler beispielhafte stetige Funktion G angegeben, die diese Beziehung insbesondere abhängig von einem der Normalisierung dienenden Nenner erfüllen. Beispielsweise wird gesampelt mit:

wobei beispielsweise mit k Î

.

Zielzustände g können proportional zum Wert der stetigen Funktion G angewendet auf das Performancemaß ] p. und die Strategie ni(a\s, g) gesampelt mit

Im Folgenden sind im Zähler beispielhafte stetige Funktion G angegeben, die diese Beziehung insbesondere abhängig von einem der Normalisierung dienenden Nenner erfüllen. Beispielsweise wird gesampelt mit: wobei in diesem Fall die value function (mit

s = s 0 dem fix gegebenen Startzustand) oder die advantage function

(mit s = s 0 dem fix gegebenen Startzustand) ist und die

Standardabweichung bezüglich der Aktionen a ist, welche entweder aus dem Aktionsraum A oder entsprechend der Strategie p (a|s, g) (mit s = s 0 dem fix gegebenen Startzustand) gewählt werden,

wobei J in diesem Fall die advantage

function (mit s = s 0 dem fix gegebenen Startzustand) ist,

oder wobei in diesem Fall die advantage

function (mit s = s 0 dem fix gegebenen Startzustand) ist.

Die hier explizit für den Fall diskreter, endlicher Zustandsräume S aufgeführten Kriterien lassen sich durch Modifikation auch auf kontinuierliche Zustandsräume anwenden. Die Schätzung des Performancemaßes geschieht äquivalent. Die Ableitungen können insbesondere im Falle eines parametrischen Modells für das Performancemaß ebenfalls berechnet werden. Für das Sampling der Startzustände oder Zielzustände aus einem kontinuierlichen Zustandsraum oder einem diskreten Zustandsraum mit einer unendlichen Anzahl Zustände erfolgt beispielsweise eine Gitterapproximation des Zustandsraumes oder es wird eine Anzahl von Zuständen vorgesampelt, um eine endliche Anzahl an Zuständen zu bestimmen.

Die von der Ableitung abhängige Bestimmung, d.h. das damit beschriebene Gradienten basierte Kriterium, sowie die Kriterien die eine Anwendung der stetigen Funktion auf Performancemaß sowie Strategie anwenden sind besonders vorteilhaft hinsichtlich des Trainingsfortschrittes und damit der Performance.

Figur 2 stellt ein erstes Ablaufdiagramm für Teile eines ersten Verfahrens zum Ansteuern der technischen Einrichtung 102 dar. In Figur 2 wird das Erlernen der Strategie p(a|s) für einen vorgegebenen Zielzustand g schematisch dargestellt. Genauer stellt Figur 2 dar, wie eine Startzustandsauswahl mit der Metastrategie , die Strategie p (a|s) und die

Umgebung mit der Dynamik und der Belohnungsfunktion r(s, a)

miteinander interagieren. Die Interaktion zwischen diesen ist nicht an die im Folgenden beschriebene Reihenfolge gebunden. In einer Implementierung laufen Daten sammeln durch Interaktion von Strategie und Umgebung, Aktualisierung der Strategie und Aktualisierung der Metastrategie beispielsweise als drei unterschiedliche Prozesse auf unterschiedlichen Zeitskalen nebeneinander ab welche von Zeit zu Zeit Informationen miteinander austauschen.

In einem Schritt 200 werden eine Strategie p (a|s) und/oder Trajektorien t =

{(s, a, s', r)} der Episoden einer oder mehrerer vorangegangener

Trainingsiterationen der Strategie an einen Startzustandsauswahlalgorithmus übergeben, der Startzustände s 0 für die Episoden einer oder mehrerer nachfolgender Trainingsiterationen bestimmt.

Es kann vorgesehen sein, dass eine Wertefunktion beispielsweise die Funktion V(s) oder Q(s, a ) oder eine Vorteilsfunktion, d.h. beispielsweise die advantage function A(s, a) = Q(s, a ) - V(s) zusätzlich übergeben wird. In einem Schritt 202 werden ein oder mehrere Startzustände s 0 bestimmt. Die Metastrategie erzeugt Startzustände s 0 auf Grundlage des Performancemaßes , eventuell bestimmten

Ableitungen oder insbesondere zeitlichen Änderungen dessen und/oder der Strategie p (a|s). Dies erfolgt einzeln vor jeder Episode oder für mehrere Episoden, z.B. für so viele Episoden, wie für eine Aktualisierung der

momentanen Strategie p (a|s) benötigt werden, oder für die Episoden mehrerer Strategie-Aktualisierungen der Strategie p(a|s).

In einem Schritt 204 werden die Startzustände s 0 vom

Startzustandsauswahlalgorithmus an den Algorithmus zum Reinforcement Learning übergeben.

Der Algorithmus zum Reinforcement Learning sammelt in episodischer

Interaktion mit der Umgebung Daten und aktualisiert auf Grundlage der zumindest eines Teils der Daten von Zeit zu Zeit die Strategie.

Zum Sammeln der Daten werden wiederholt Episoden der Interaktion von Strategie und Umgebung, Rollouts, durchgeführt. Dazu werden in einer Episode oder einem Rollout die Schritte 206 bis 212, iterativ ausgeführt, beispielsweise bis eine maximale Anzahl von Interaktionsschritten erreicht ist, oder die

Zielvorgabe, beispielsweise der Zielzustand g, erreicht ist. Eine neue Episode startet in einem Startzustand s = s 0 . Eine gerade aktuelle Strategie p (a|s) wählt in Schritt 206 eine Aktion a aus, die in Schritt 208 in der Umgebung ausgeführt wird, woraufhin in Schritt 210 entsprechend der Dynamik p(s' \s, a) ein neuer Zustand s' und entsprechend r(s, a) eine Belohnung r (kann 0 sein) bestimmt werden, welche in Schritt 212 dem Reinforcement Learning Algorithmus übergeben werden. Die Belohnung ist beispielweise 1 , wenn s = g und sonst 0. Eine Episode endet zum Beispiel mit der Zielerreichung s = g oder nach einer maximalen Anzahl Iterationsschritte T. Danach beginnt eine neue Episode mit einem neuen Startzustand s 0 . Tupel (s, a, s' , r), die während einer Episode generiert werden, ergeben eine T rajektorie t = {(s, a, s' , r)}.

Von Zeit zu Zeit wird die Strategie p (a|s) in Schritt 206 auf Grundlage von gesammelten Daten t = {(s, a, s', r)} aktualisiert. Es ergibt sich die aktualisierte Strategie p i+1 (a\s) welche in nachfolgenden Episoden die Aktionen a auf Grundlage des Zustands s auswählt.

Figur 3 stellt ein zweites Ablaufdiagramm für Teile eines zweiten Verfahrens zum Ansteuern der technischen Einrichtung 102 dar. In Figur 3 wird das Erlernen der Strategie p(a\s, g ) für einen vorgegebenen Startzustand s 0 schematisch dargestellt. Genauer stellt Figur 3 dar, wie eine Zielzustandsauswahl mit der Metastrategie , die Strategie p (a|s, g)

und die Umgebung mit der Dynamik p(s’\s, a) und der Belohnungsfunktion r(s, a) miteinander interagieren. Die Interaktion zwischen diesen ist nicht an die im Folgenden beschriebene Reihenfolge gebunden. In einer Implementierung laufen Daten sammeln durch Interaktion von Strategie und Umgebung, Aktualisierung der Strategie und Aktualisierung der Metastrategie beispielsweise als drei unterschiedliche Prozesse auf unterschiedlichen Zeitskalen nebeneinander ab welche von Zeit zu Zeit Informationen miteinander austauschen.

In einem Schritt 300 werden eine Strategie ^(a\s, g) und/oder Trajektorien t = {(s, a, s' , r, g)} der Episoden einer oder mehrerer vorangegangener

Trainingsiterationen der Strategie an einen Zielzustandsauswahlalgorithmus übergeben, der Zielzustände g für die Episoden einer oder mehrerer

nachfolgender Trainingsiterationen bestimmt.

Es kann vorgesehen sein, dass eine Wertefunktion beispielsweise die Funktion V(s, g) oder Q(s, a, g) oder eine Vorteilsfunktion, d.h. beispielsweise die advantage function A(s, a, g) = Q(s, a, g) - V(s, g) zusätzlich übergeben wird.

In einem Schritt 302 werden ein oder mehrere Zielzustände g bestimmt. Die Metastrategie ) erzeugt Zielzustände g auf Grundlage des Performancemaßes , eventuell bestimmten

Ableitungen oder insbesondere zeitlichen Änderungen dessen und/oder der Strategie p (a|s, g). Dies erfolgt einzeln vor jeder Episode oder für mehrere Episoden, z.B. für so viele Episoden, wie für eine Aktualisierung der

momentanen Strategie p (a|s, g) benötigt werden, oder für die Episoden mehrerer Strategie-Aktualisierungen der Strategie p (a|s, g). In einem Schritt 304 werden die Zielzustände g vom

Zielzustandsauswahlalgorithmus an den Algorithmus zum Reinforcement Learning übergeben.

Der Algorithmus zum Reinforcement Learning sammelt in episodischer

Interaktion mit der Umgebung Daten und aktualisiert auf Grundlage der zumindest eines Teils der Daten von Zeit zu Zeit die Strategie.

Zum Sammeln der Daten werden wiederholt Episoden der Interaktion von Strategie und Umgebung, Rollouts, durchgeführt. Dazu werden in einer Episode/ einem Rollout die Schritte 306 bis 312, iterativ ausgeführt, beispielsweise bis eine maximale Anzahl von Interaktionsschritten erreicht ist, oder die Zielvorgabe, beispielsweise der für diese Episode ausgewählte Zielzustand g, erreicht ist.

Eine neue Episode startet in einem vorgegebenen Startzustand s = s 0 . Eine gerade aktuelle Strategie p (a|s, g) wählt in Schritt 306 eine Aktion a aus, die in Schritt 308 in der Umgebung ausgeführt wird, woraufhin in Schritt 310 entsprechend der Dynamik p(s' \s, a) ein neuer Zustand s' und entsprechend r(s, a) eine Belohnung r (kann 0 sein) bestimmt werden, welche in Schritt 312 dem Reinforcement Learning Algorithmus übergeben werden. Die Belohnung ist beispielweise 1 , wenn s = g und sonst 0. Eine Episode endet zum Beispiel mit der Zielerreichung s = g oder nach einer maximalen Anzahl Iterationsschritte T. Danach beginnt eine neue Episode mit einem neuen Zielzustand g. Tupel (s, a, s' , r, g), die während einer Episode generiert werden, ergeben eine

T rajektorie t = {(s, a, s' , r, g)}.

Von Zeit zu Zeit wird die Strategie p (a|s, g) in Schritt 306 auf Grundlage von gesammelten Daten t = {{s, a, s' , r, g)} aktualisiert. Es ergibt sich die aktualisierte Strategie p i+ 1 (a\s, g) welche in nachfolgenden Episoden die Aktionen a auf Grundlage des Zustands s und des gerade für die Episode aktuellen Ziels g auswählt.

Figur 4 stellt ein drittes Ablaufdiagramm für Teile des ersten Verfahrens zum Ansteuern der technischen Einrichtung 102 dar. In Figur 4 zeigt einen Zyklus der Startzustandsauswahl. Mehrere Startzustände können für die Episoden einer oder mehrerer Iterationen der Strategie p (a|s) bestimmt werden. In einem Schritt 402 wird das Performancemaß bestimmt. Im Beispiel wird das Performancemaß dadurch bestimmt, dass es geschätzt wird: .

Dies kann beispielsweise geschehen, indem:

- mit der aktuellen Strategie p (a|s) über mehrere Episoden Interaktionen mit der Umgebung durchgeführt werden und daraus für jeden Zustand die

Zielerreichungswahrscheinlichkeit berechnet wird,

- die Zielerreichungswahrscheinlichkeit für jeden Zustand aus den Rolloutdaten t vorangegangener T rainingsepisoden berechnet wird,

- die Wertefunktion V(s), die Wertefunktion Q(s, a ) oder die advantage function A(s, a ) verwendet wird, falls diese verfügbar ist, und/oder

- ein insbesondere para metrisch es Modell oder ein Ensemble parametrischer Modelle mitgelernt wird.

In einem optionalen Schritt 404 wird der Gradient, eine Ableitung oder die zeitliche Änderung des Performancemaßes oder des geschätzten

Performancemaßes berechnet.

In einem Schritt 406 wird die Startzustandsverteilung bestimmt. Dazu werden im Beispiel Werte der stetigen Funktion G bestimmt, indem die Funktion G auf das das Performancemaß auf eine Ableitung oder den Gradienten des Performancemaßes , die zeitliche Änderung des

Performancemaßes und/oder die Strategie p (a|s) angewendet

wird.

Ein Zustand s wird proportional zum zugehörigen Wert der stetigen Funktion G als Startzustand s 0 bestimmt. Die abhängig von der stetigen Funktion G definierte Metastrategie stellt eine Wahrscheinlichkeitsverteilung über die

Startzustände s 0 für einen vorgegebenen Zielzustand g dar, d.h. mit welcher Wahrscheinlichkeit ein Zustand s als Startzustand s 0 gewählt wird.

In einem kontinuierlichen Zustandsraum oder in einem diskreten Zustandsraum mit unendlich vielen Zuständen wird die Wahrscheinlichkeitsverteilung eventuell nur für eine endliche Menge zuvor bestimmter Zustände bestimmt. Dazu kann eine grobe Gitterapproximation des Zustandsraumes verwendet werden.

Im Beispiel werden Startzustände s 0 unter Verwendung der abhängig von der stetigen Funktion G definierten Wahrscheinlichkeitsverteilung mit einer der folgenden Möglichkeiten bestimmt:

- Startzustände s 0 werden insbesondere im Falle diskreter, endlicher

Zustandsräume S gemäß der Wahrscheinlichkeitsverteilung über die

Startzustände s 0 bestimmt, d.h. direkt gesampelt,

- Startzustände s 0 werden mittels Rejection Sampling der

Wahrscheinlichkeitsverteilung bestimmt,

- Startzustände s 0 werden mittels eines Markov Chain Monte Carlo Samplings der Wahrscheinlichkeitsverteilung bestimmt,

- Startzustände s 0 werden von einem Generator bestimmt, der trainiert ist, Startzustände gemäß der Startzustandsverteilung zu generieren.

In einem Aspekt ist es möglich, zusätzlich oder anstelle dieser Startzustände mit einer zusätzlichen Heuristik zusätzliche Startzustände in der Nähe dieser Startzustände zu bestimmen. Die Heuristik kann beispielsweise zufällige Aktionen oder Brownian Motion umfassen. Durch diesen Aspekt wird die Performance oder Robustheit erhöht.

In einem Schritt 408 wird die Strategie p(a|s) mit einem Reinforcement Learning Algorithmus für eine oder mehrere Trainingsiterationen in Interaktion mit der Umgebung trainiert. Im Beispiel wird die Strategie p(a|s) durch eine Interaktion mit der technischen Einrichtung 102 und/oder deren Umgebung in einer Vielzahl Trainingsiterationen trainiert.

In einem Aspekt werden die Startzustände s 0 für die Episoden oder Rollouts der Strategie p(a|s) in der Umgebung zum Training der Strategie p(a|s) abhängig von der Startzustandsverteilung für diese Trainingsiteration bestimmt.

Die Startzustände s 0 für unterschiedliche Iterationen werden entsprechend der für die jeweilige Iteration oder Iterationen in Schritt 406 bestimmten

Startzustandsverteilung bestimmt.

Interaktion mit der technischen Einrichtung 102 bedeutet in diesem Beispiel eine Ansteuerung der technischen Einrichtung 102 mit einer Aktion a.

Nach Schritt 408 wird der Schritt 402 ausgeführt.

Die Schritte 402 bis 408 werden im Beispiel wiederholt bis die Strategie p(a|s) ein Gütemaß erreicht, oder bis eine maximale Anzahl Iterationen erfolgt ist.

In einem Aspekt wird die technische Einrichtung 102 anschließend weiter mit der in der letzten Iteration bestimmten Strategie p(a|s) angesteuert.

Figur 5 stellt ein viertes Ablaufdiagramm für Teile des zweiten Verfahrens zum Ansteuern der technischen Einrichtung 102 dar. In Figur 5 zeigt einen Zyklus der Zielzustandsauswahl. Mehrere Zielzustände können für die Episoden einer oder mehrerer Iterationen der Strategie p (a|s, g) bestimmt werden.

In einem Schritt 502 wird das Performancemaß bestimmt. Im Beispiel wird das Performancemaß geschätzt: .

Dies kann beispielsweise geschehen, indem:

- mit der aktuellen Strategie p (a|s, g) über mehrere Episoden Interaktionen mit der Umgebung durchgeführt werden und daraus für jeden Zustand die

Zielerreichungswahrscheinlichkeit berechnet wird, - die Zielerreichungswahrscheinlichkeit für jeden Zustand aus den Rolloutdaten t vorangegangener T rainingsepisoden berechnet wird,

- die Wertefunktion V(s, g), die Wertefunktion Q(s, a, g ) oder die advantage function A(s, a, g) des Algorithmus zum Reinforcement Learning verwendet wird, falls diese verfügbar ist, und/oder

- ein insbesondere parametrisches Modell oder ein Ensemble parametrischer Modelle mitgelernt wird.

In einem optionalen Schritt 504 wird der Gradient, eine Ableitung oder die zeitliche Änderung des Performancemaßes oder des geschätzten

Performancemaßes berechnet.

In einem Schritt 506 wird die Zielzustandsverteilung bestimmt. Dazu werden im Beispiel Werte der stetigen Funktion G bestimmt, indem die Funktion G auf das das Performancemaß , auf eine Ableitung oder den Gradienten des

Performancemaßes , die zeitliche Änderung des Performancemaßes

,

oder die Strategie p (a|s, g) angewendet wird.

Ein Zustand s wird proportional zum zugehörigen Wert der stetigen Funktion G als Zielzustand g bestimmt. Die abhängig von der stetigen Funktion G definierte Metastrategie p 9 stellt eine Wahrscheinlichkeitsverteilung über die Zielzustände g für einen vorgegebenen Startzustand s 0 dar, d.h. mit welcher

Wahrscheinlichkeit ein Zustand s als Zielzustand g gewählt wird.

In einem kontinuierlichen Zustandsraum oder in einem diskreten Zustandsraum mit unendlich vielen Zuständen wird die Wahrscheinlichkeitsverteilung eventuell nur für eine endliche Menge zuvor bestimmter Zustände bestimmt. Dazu kann eine grobe Gitterapproximation des Zustandsraumes verwendet werden. Im Beispiel werden Zielzustände g unter Verwendung der abhängig von der stetigen Funktion G definierten Wahrscheinlichkeitsverteilung mit einer der folgenden Möglichkeiten bestimmt:

- Zielzustände g werden insbesondere für einen diskreten, endlichen

Zustandsraum S gemäß der Wahrscheinlichkeitsverteilung über die Zielzustände g bestimmt, d.h. direkt gesampelt,

- Zielzustände g werden mittels Rejection Sampling der

Wahrscheinlichkeitsverteilung bestimmt,

- Zielzustände g werden mittels eines Markov Chain Monte Carlo Samplings der Wahrscheinlichkeitsverteilung bestimmt,

- Zielzustände g werden von einem Generator bestimmt, der trainiert ist, Zielzustände gemäß der Zielzustandsverteilung zu generieren.

In einem Aspekt ist es möglich, zusätzlich oder anstelle dieser Zielzustände mit einer zusätzlichen Heuristik zusätzliche Zielzustände in der Nähe dieser

Zielzustände zu bestimmen. Die Heuristik kann beispielsweise zufällige Aktionen oder Brownian Motion umfassen. Durch diesen Aspekt wird die Performance oder Robustheit erhöht.

In einem Schritt 508 wird die Strategie p (a|s, g) mit einem Reinforcement Learning Algorithmus für eine oder mehrere Trainingsiterationen in Interaktionen mit der Umgebung trainiert.

Im Beispiel wird die Strategie p (a|s, g) durch eine Interaktion mit der

technischen Einrichtung 102 und/oder deren Umgebung in einer Vielzahl Trainingsiterationen trainiert.

In einem Aspekt werden die Zielzustände g für die Episoden oder Rollouts der Strategie p (a|s, g) in der Umgebung zum Training der Strategie p (a|s, g) abhängig von der Zielzustandsverteilung für diese Trainingsiterationen bestimmt. Die Zielzustände g für unterschiedliche Iterationen werden entsprechend der für die jeweilige Iteration oder Iterationen in Schritt 506 bestimmten

Zielzustandsverteilung bestimmt.

Interaktion mit der technischen Einrichtung 102 bedeutet in diesem Beispiel eine Ansteuerung der technischen Einrichtung 102 mit einer Aktion a.

Die Schritte 502 bis 508 werden im Beispiel wiederholt bis die Strategie p (a|s, g) ein Gütemaß erreicht, oder bis eine maximale Anzahl Iterationen erfolgt ist.

In einem Aspekt wird die technische Einrichtung 102 anschließend weiter mit der in der letzten Iteration bestimmten Strategie p (a|s, g) angesteuert.

In einem Aspekt erhält der Start- und/oder der Zielzustandsauswahlalgorithmus vom Reinforcement Learning Algorithmus die aktuelle Strategie, während der Interaktionsepisoden vorangegangener Trainingsiterationen gesammelte Daten und / oder eine Werte- oder Vorteilsfunktion. Auf Grundlage dieser Komponenten schätzt der Start- und/oder der Zielzustandsauswahlalgorithmus zunächst das Performancemaß. Gegebenenfalls wird die Ableitung oder insbesondere die zeitliche Änderung dieses Performancemaßes bestimmt. Daraufhin wird auf Grundlage des geschätzten Performancemaßes die Start- und/oder

Zielzustandsverteilung, die Metastrategie, durch Anwendung der stetigen Funktion bestimmt. Gegebenenfalls wird auch die Ableitung, oder insbesondere die zeitliche Änderung des Performancemaßes und/oder die Strategie verwendet. Schließlich stellt der Start- und/oder der

Zielzustandsauswahlalgorithmus dem Reinforcement Learning Algorithmus die bestimmte Start- und/oder die bestimmte Zielzustandsverteilung, die

Metastrategie, für ein oder mehrere Trainingsiterationen zur Verfügung. Der Reinforcement Learning Algorithmus trainiert dann die Strategie für die entsprechende Anzahl an Trainingsiterationen, wobei die Start- und/oder Zielzustände der ein oder mehreren Interaktionsepisoden innerhalb der

Trainingsiterationen entsprechend der Metastrategie des Start- und/oder Zielzustandsauswahlalgorithmus bestimmt werden. Danach beginnt der Ablauf von vorne, bis die Strategie ein Gütekriterium erreicht oder eine Maximalzahl Trainingsiterationen durchgeführt wurde. Die beschriebenen Strategien sind beispielsweise als künstliche neuronale Netze implementiert, deren Parameter in Iterationen aktualisiert werden. Die beschriebenen Metastrategien sind Wahrscheinlichkeitsverteilungen, die aus Daten berechnet werden. In einem Aspekt greifen diese Metastrategien auf neuronale Netze zu, deren Parameter in Iterationen aktualisiert werden.