Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND DEVICE FOR OPERATING AN ACTUATOR REGULATION SYSTEM, COMPUTER PROGRAM, AND MACHINE-READABLE STORAGE MEDIUM
Document Type and Number:
WIPO Patent Application WO/2019/076512
Kind Code:
A1
Abstract:
The invention relates to a method for operating an actuator regulation system (45) which is designed to regulate a regulation variable (x) of an actuator (20) to a pre-definable nominal variable (x), the actuator regulation system (45) being designed to generate a correcting variable according to a variable (θ) characterising a regulation strategy (π), and to control the actuator (20) according to said correcting variable (u), the variable (θ) characterising the regulation strategy (π) being determined according to a value function (V*).

Inventors:
BISCHOFF BASTIAN (DE)
VINOGRADSKA JULIA (DE)
PETERS JAN (DE)
Application Number:
PCT/EP2018/071753
Publication Date:
April 25, 2019
Filing Date:
August 10, 2018
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BOSCH GMBH ROBERT (DE)
UNIV DARMSTADT TECH (DE)
International Classes:
G05B13/02; G05B13/04
Domestic Patent References:
WO2016198588A12016-12-15
Foreign References:
EP2112569A22009-10-28
US6208981B12001-03-27
DE102017211209A2017-06-30
Attorney, Agent or Firm:
BANSE & STEGLICH PATENTANWÄLTE PARTMBB (DE)
Download PDF:
Claims:
Ansprüche

1 . Verfahren zum Betreiben eines Aktorregelungssystems (45), welches zum Regeln einer Regelungsgröße (x) eines Aktors (20) auf eine vorgebbare Sollgröße (x) eingerichtet ist, wobei das Aktorregelungssystem (45) eingerichtet ist, abhängig von einer eine Regelungsstrategie (π) charakterisierenden Größe (Θ), eine Stellgröße (u) zu generieren und abhängig von dieser Stellgröße (u) den Aktor (20) anzusteuern,

wobei die die Regelungsstrategie (π) charakterisierende Größe (Θ) abhängig von einer Wert -Funktion (Englisch: value function) (V*) ermittelt wird.

2. Verfahren nach Anspruch 1 , wobei die Wert-Funktion (V*) iterativ ermittelt wird, indem die Wert-Funktion (V*) mittels einer Bellmann-Gleichung durch sukzessive Iterationen einer iterierten Wert-Funktion schrittweise angenähert wird,

wobei mittels der Bellmann-Gleichung aus einer iterierten Wert-Funktion einer vorhergehenden Iteration eine iterierte Wert-Funktion einer

nachfolgenden Iteration ermittelt wird,

wobei zur Lösung der Bellmann-Gleichung an Stelle der iterierten Wert- Funktion der vorhergehenden Iteration nur ihre Projektion auf einen von

einem Satz (B) von Basisfunktionen aufgespannten Funktionenraum

verwendet wird.

3. Verfahren nach Anspruch 2, wobei auch an Stelle der iterierten Wert- Funktion der nachfolgenden Iteration nur ihre Projektion auf einen von

einem zweiten Satz (B) von Basisfunktionen aufgespannten Funktio

nenraum ermittelt wird.

4. Verfahren nach Anspruch 2 oder 3, wobei als Basisfunktionen Gauß-

Funktionen verwendet werden.

5. Verfahren nach einem der Ansprüche 2 bis 4, wobei ein Wert eines Integrals der Bellmann-Gleichung mittels numerischer Quadratur ermittelt wird. 6. Verfahren nach einem der Ansprüche 2 bis 5, wobei ein nachfolgender Satz (B) von Basisfunktionen iterativ ermittelt wird, indem dem Satz (B) mindestens eine weitere Basisfunktion abhängig davon hinzugefügt

wird, wie groß ein maximales Residuum zwischen der iterierten Wert-

Funktion (V*) und ihrer Projektion auf den von diesem Satz (B) aufgespannten Funktionsraum ist. 7. Verfahren nach Anspruch 6, wobei die mindestens eine weitere Basisfunktion abhängig von einer Maximalstelle (x*) der Regelungsgröße (x) ge

wählt wird, bei dem das Residuum (Rk'1 ) maximal wird.

8. Verfahren nach Anspruch 7, wobei die mindestens eine weitere Basisfunktion an Maximalstelle (x„) ihren Maximalwert annimmt.

9. Verfahren nach Anspruch 7 oder 8, wobei die mindestens eine weitere Basisfunktion abhängig von einer eine Krümmung des Residuums

an der Maximalstelle (x*) charakterisierenden Größe, insbesondere einer Hesse-Matrix des Residuum an der Maximalstelle gewählt

wird.

10. Verfahren nach Anspruch 9, wobei die mindestens eine weitere Basisfunktion derart gewählt wird, dass an der Maximalstelle ihre Hesse-

Matrix gleich der Hesse-Matrix des Residuum ist.

1 1. Verfahren nach einem der Ansprüche 2 bis 10, wobei eine bedingte Wahrscheinlichkeit (p) von der die Bellmann-Gleichung abhängig ist, mittels eines Modells des Aktors (20) ermittelt wird.

12. Verfahren nach Anspruch 1 1 , wobei das Modell ein Gaußprozess (g) ist.

13. Verfahren nach Anspruch 1 1 oder 12, wobei nach erfolgter Ermittlung der die Regelungsstrategie (π) charakterisierenden Größe (Θ) das Modell (g) abhän- gig von der Stellgröße (u), die bei einer Regelung des Aktors (20) mit dem Aktorregelungssystem (45) unter Berücksichtigung der Regelungsstrategie (π) dem Aktor (20) zugeführt wird, und der dann resultierenden Regelungsgröße (x) angepasst wird, wobei nach erfolgter Anpassung des Modells (g) die die Regelungsstrategie (π) charakterisierenden Größe (Θ) erneut mit dem Verfahren nach Anspruch 1 1 oder 12 ermittelt wird, wobei dann die bedingte Wahrscheinlichkeit (p) mittels des nun angepassten Modells (g) ermittelt wird.

14. Verfahren nach einem der Ansprüche 1 bis 13, wobei abhängig von der die Regelungsstrategie (π) charakterisierende Größe (Θ) die Stellgröße (u) generiert wird und abhängig von dieser Stellgröße (u) der Aktor (20) angesteuert wird.

15. Computerprogramm, das eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 14 auszuführen.

16. Maschinenlesbares Speichermedium (42), auf dem das Computerprogramm nach Anspruch 15 gespeichert ist.

17. Lernsystem (40) zum automatischen Einstellen einer eine Regelungsstrategie (π) eines Aktorregelungssystems (45) charakterisierenden Größe (Θ), welches zum Regeln einer Regelungsgröße (x) eines Aktors (20) auf eine vorgebbare Sollgröße (xd) eingerichtet ist, wobei das Lernsystem (40) eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 13 auszuführen.

18. Aktorregelungssystem (45), welches zum Ansteuern eines Aktors (20) mit dem Verfahren nach Anspruch 14 eingerichtet ist.

Description:
Verfahren und Vorrichtung zum Betreiben eines Aktorregelungssystems, Computerprogramm und maschinenlesbares Speichermedium

Die Erfindung betrifft ein Verfahren zum Betreiben eines Aktorregelungssystems, ein Lernsystem, das Aktorregelungssystem, ein Computerprogramm zum Aus- führen des Verfahrens und ein maschinenlesbares Speichermedium auf dem das

Computerprogramm gespeichert ist.

Stand der Technik Aus der nicht vorveröffentlichten DE 10 2017 21 1 209 ist ein Verfahren zum Verfahren zum automatischen Einstellen mindestens eines Parameters eines Aktorregelungssystems bekannt, welches zum Regeln einer Regelungsgröße eines Aktors auf eine vorgebbare Sollgröße eingerichtet ist, wobei das Aktorregelungssystem eingerichtet ist, abhängig von dem mindestens einen Parameter, der Sollgröße und der Regelungsgröße eine Stellgröße zu generieren und abhängig von dieser Stellgröße den Aktor anzusteuern,

wobei ein neuer Wert des mindestens einen Parameters abhängig von einer Langzeit-Kostenfunktion gewählt wird, wobei diese Langzeit-Kostenfunktion abhängig von einer prädizierten zeitlichen Evolution einer Wahrscheinlichkeitsver- teilung der Regelungsgröße des Aktors ermittelt wird und der Parameter dann auf diesen neuen Wert gesetzt wird.

Vorteil der Erfindung

Das Verfahren mit den Merkmalen des unabhängigen Anspruchs 1 hat demgegenüber insbesondere den Vorteil, dass eine optimale Regelung eines Aktorregelungssystems gewährleistet werden kann. Vorteilhafte Weiterbildungen sind Gegenstand der abhängigen Ansprüche. Offenbarung der Erfindung

In einem ersten Aspekt betrifft die Erfindung ein Verfahren zum Betreiben eines Aktorregelungssystems, welches zum Regeln einer Regelungsgröße eines Aktors auf eine vorgebbare Sollgröße eingerichtet ist, wobei das Aktorregelungssystem eingerichtet ist, abhängig von einer eine Regelungsstrategiecharakterisie- renden Größe, insbesondere auch abhängig von der Sollgröße und/oder der Regelungsgröße, eine Stellgröße zu generieren und abhängig von dieser Stellgröße den Aktor anzusteuern,

wobei die die Regelungsstrategie charakterisierende Größe abhängig von einer Wert -Funktion (Englisch: value function) ermittelt wird.

Durch das Ermitteln der Wert -Funktion ist es möglich, eine optimale Regelung des Aktorregelungssystems zu gewährleisten, sogar in Fällen in denen die Zu- standsgrößen und/oder die Aktionen nicht auf diskrete Werte beschränkt sind, sondern kontinuierliche Werte annehmen können.

Die Regelungsstrategie kann insbesondere so ermittelt werden, dass zu jeder Regelungsgröße diejenige Aktion, aus der die Stellgröße abgeleitet wird, ermittelt wird, die die Wert -Funktion maximiert.

In einer Weiterbildung ist vorgesehen, dass die Wert -Funktion iterativ ermittelt wird, indem die Wert -Funktion mittels der Bellmann-Gleichung durch sukzessive Iterationen einer iterierten Wert -Funktion schrittweise angenähert wird, wobei mittels der Bellmann-Gleichung aus einer iterierten Wert -Funktion einer vorhergehenden Iteration eine iterierte Wert -Funktion einer nachfolgenden Iteration ermittelt wird,

wobei zur Lösung der Bellmann-Gleichung an Stelle der iterierten Wert-Funktion der vorhergehenden Iteration nur ihre Projektion auf einen von einem Satz von Basisfunktionen aufgespannten linearen Funktionenraum verwendet wird.

Hierdurch lässt sich insbesondere sicherstellen, dass die iterativ ermittelte Wert- Funktion eine vorgebbare Belohnung (Englisch: reward) insbesondere auf lange Sicht und unter Berücksichtigung der Systemdynamik maximiert. Durch die Ver- wendung der Projektionen ist es möglich, die Bellmann-Gleichung, die wegen einer in ihr enthaltenen Maximalwertbildung nur punktweise analytisch lösbar ist, besonders einfach näherungsweise zu lösen.

Besonders vorteilhaft ist es, wenn auch an Stelle der iterierten Wert-Funktion der nachfolgenden Iteration nur ihre Projektion auf einen von einem zweiten Satz von Basisfunktionen aufgespannten Funktionenraum ermittelt wird.

Somit ist es möglich, diese Projektion zu ermitteln, ohne die iterierte Wert- Funktion der nachfolgenden Iteration selber vollständig berechnen zu müssen.

Besonders einfach analytisch lösbare Integrale der Bellmann-Gleichung ergeben sich dann, wenn als Basisfunktionen Gauß-Funktionen verwendet werden. Damit wird das Verfahren numerisch besonders effizient.

Wegen der Maximalwertbildung der Bellmann-Gleichung lässt sie sich im Allgemeinen nur an einzelnen Punkten auswerten. Eine vollständige Lösung ist dennoch möglich, wenn das Integral in der Bellmann-Gleichung mittels numerischer Quadratur berechnet wird. Daher ist die Verwendung numerischer Quadratur numerisch besonders effizient.

In einem weiteren Aspekt der Erfindung ist vorgesehen, wenn ein nachfolgender Satz von Basisfunktionen iterativ ermittelt wird, indem dem Satz abhängig davon mindestens eine weitere Basisfunktion hinzugefügt wird, wie groß ein maximales Residuum zwischen der iterierten Wert-Funktion und ihrer Projektion auf den von diesem Satz aufgespannten Funktionsraum ist.

Durch dieses iterative Vorgehen lässt sich besonders effizient ein numerischer Fehler des Verfahrens auf einen vorgebbaren Maximalwert begrenzen und somit das Aktorregelungssystem besonders zuverlässig betreiben.

In einer Weiterbildung kann vorgesehen sein, dass die mindestens eine weitere Basisfunktion abhängig von einer Maximalstelle der Regelungsgröße gewählt wird, bei dem das Residuum maximal wird. Hiermit wird das Verfahren besonders effizient, da ein numerischer Fehler, der sich durch die Projektion auf den von dem Satz von Basisfunktionen aufgespannten Funktionenraum besonders schnell reduzieren lässt. Die Effizienz ist besonders hoch, wenn hierbei die mindestens eine weitere Basisfunktion an Maximalstelle ihren Maximalwert annimmt.

Alternativ oder zusätzlich erhöht es die Effizienz des Verfahrens weiter, wenn die mindestens eine weitere Basisfunktion abhängig von einer eine Krümmung des Residuums an der Maximalstelle charakterisierenden Größe, insbesondere der

Hesse-Matrix des Residuums an der Maximalstelle, gewählt wird.

Besonders einfach ist es insbesondere im Fall mehrdimensionaler Regelungsgrößen, wenn die mindestens eine weitere Basisfunktion derart gewählt wird, dass an der Maximalstelle ihre Hesse-Matrix gleich der Hesse-Matrix des Residuums ist.

In einem weiteren Aspekt der Erfindung kann vorgesehen sein, dass eine bedingte Wahrscheinlichkeit von der die Bellmann-Gleichung abhängig ist, mittels eines Modells des Aktors ermittelt wird. Auch hiermit wird das Verfahren besonders effizient, da ein wirkliches Verhalten des Aktors nicht erneut ermittelt werden muss.

Hierbei ist es besonders vorteilhaft, wenn das Modell ein Gaußprozess ist. Dies ist insbesondere dann besonders vorteilhaft, wenn die Basisfunktionen durch Gauß-Funktionen gegeben sind, da sich die auftretenden Integrale dann als Integrale über Produkte von Gauß-Funktionen analytisch lösen lassen, was eine besonders effiziente Implementierung ermöglicht.

Um ein besonders gutes Regelverhalten des Aktorregelungssystems zu erhalten, kann gemäß eines weiteren Aspekts der Erfindung vorgesehen sein, dass das

Anlernen des Aktorregelungssystems und das Anlernen des Modells in einem episodenhaften Vorgehen ermittelt wird, dass also nach erfolgter Ermittlung der die Regelungsstrategie charakterisierenden Größe das Modell abhängig von der Stellgröße, die bei einer Regelung des Aktors mit dem Aktorregelungssystem un- ter Berücksichtigung der Regelungsstrategie dem Aktor zugeführt wird, und der dann resultierenden Regelungsgröße angepasst wird, wobei nach erfolgter Anpassung des Modells die die Regelungsstrategie charakterisierende Größe erneut mit dem oben beschriebenen Verfahren ermittelt wird, wobei dann die bedingte Wahrscheinlichkeit mittels des nun angepassten Modells ermittelt wird.

In einem weiteren Aspekt betrifft die Erfindung ein Lernsystem zum automatischen Einstellen einer eine Regelungsstrategie eines Aktorregelungssystems charakterisierenden Größe, welches zum Regeln einer Regelungsgröße eines Aktors auf eine vorgebbare Sollgröße eingerichtet ist, wobei das Lernsystem eingerichtet ist, eines der vorgenannten Verfahren auszuführen.

In einem weiteren Aspekt betrifft die Erfindung ein Verfahren, bei dem die Regelungsstrategie charakterisierende Größe nach einem der vorgenannten Verfahren ermittelt wird und dann abhängig von der die Regelungsstrategie charakterisierenden Größe die Stellgröße generiert wird und abhängig von dieser Stellgröße der Aktor angesteuert wird.

In einem weiteren Aspekt betrifft die Erfindung ein Aktorregelungssystem, welches zum Ansteuern eines Aktors mit diesem Verfahren eingerichtet ist.

In einem noch weiteren Aspekt betrifft die Erfindung ein Computerprogramm, das eingerichtet ist, eines der vorgenannten Verfahren auszuführen. D.h. das Computerprogramm umfasst Anweisungen, die, wenn sie auf einem Computer ausgeführt werden, diesen Computer veranlassen, das Verfahren auszuführen.

Ferner betrifft die Erfindung ein maschinenlesbares Speichermedium, auf dem dieses Computerprogramm gespeichert ist.

Nachfolgend werden Ausführungsformen der Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen näher erläutert. In den Zeichnungen zeigen:

Figur 1 schematisch eine Interaktion zwischen Lernsystem und Aktor; Figur 2 schematisch eine Interaktion zwischen Aktorregelungssystem und Aktor;

Figur 3 in einem Flussdiagramm eine Ausführungsform des Verfahrens zum

Trainieren des Aktorregelungssystems;

Figur 4 in einem Flussdiagramm eine Ausführungsform eines Verfahrens zum Ermitteln von iterierten Wert-Funktionen;

Figur 5 in einem Flussdiagramm eine Ausführungsform eines Verfahrens zum Ermitteln eines Satzes von Basisfunktionen;

Figur 6 in Flussdiagrammen Ausführungsformen von Verfahren zum Ermitteln der Stellgröße.

Beschreibung der Ausführungsbeispiele

Figur 1 zeigt den Aktor 10 in seiner Umgebung 20 in Interaktion mit dem Lernsystem 40. Aktor 10 und Umgebung 20 werden gemeinschaftlich nachfolgend auch als Aktorsystem bezeichnet. Ein Zustand des Aktorsystems wird mit einem Sensor 30 erfasst, der auch durch eine Mehrzahl von Sensoren gegeben sein kann. Ein Ausgangssignal S des Sensors 30 wird an das Lernsystem 40 übermittelt. Das Lernsystem 40 ermittelt hieraus ein Ansteuersignal A, welches der Aktor 10 empfängt.

Bei dem Aktor 10 kann es sich beispielsweise um einen (teil-)autonomen Roboter, beispielsweise ein (teil-)autonomes Kraftfahrzeug einen (teil-) autonomen Rasenmäher handeln. Es kann sich auch um eine Aktuierung eines Stellglieds eines Kraftfahrzeugs handeln, beispielsweise um eine Drosselklappe oder um einen Bypass-Steller für eine Leerlaufregelung. Es kann sich auch um eine Heizungsanlage oder einen Teil der Heizungsanlage handeln, wie etwa einen Ventilsteller. Bei dem Aktor 10 kann es sich insbesondere auch um größere Systeme handeln, wie beispielsweise einen Verbrennungsmotor oder einen (ggf. hybridisierten) Antriebsstrang eines Kraftfahrzeugs oder auch um ein Bremssystem. Bei dem Sensor 30 kann es sich beispielsweise um einen oder mehrere Videosensoren und/oder einen oder mehrere Radarsensoren und/oder einen oder mehrere Ultraschallsensoren und/oder einen oder mehrere Positionssensoren (beispielsweise GPS) handeln. Auch andere Sensoren sind denkbar, beispielsweise ein Temperatursensor.

In einem anderen Ausführungsbeispiel kann es sich bei dem Aktor 10 um einen Fertigungsroboter handeln, und bei dem Sensor 30 dann beispielsweise um ei- nen optischen Sensor handeln, der Eigenschaften von Fertigungserzeugnissen des Fertigungsroboters erfasst.

Das Lernsystem 40 empfängt das Ausgangssignal S des Sensors 30 in einer optionalen Empfangseinheit 50, die das Ausgangssignal S in eine Regelungsgröße x umwandelt (alternativ kann auch unmittelbar das Ausgangssignal S als Regelungsgröße x übernommen werden). Die Regelungsgröße x kann beispielsweise ein Ausschnitt oder eine Weiterverarbeitung des Ausgangssignals S sein. Die Regelungsgröße x wird einem Regler 60 zugeführt. In dem Regler kann entweder eine Regelungsstrategie π implementiert sein, oder eine Wert-Funktion V * .

In einem Parameterspeicher 70 sind Parameter Θ hinterlegt, die dem Regler 60 zugeführt werden. Die Parameter Θ parametrieren die Regelungsstrategie π bzw. die Wert-Funktion V * . Bei den Parametern Θ kann es sich um eine Einzahl oder Mehrzahl von Parametern handeln.

Ein Block 90 führt dem Regler 60 die vorgebbare Sollgröße xd zu. Es kann vorgesehen sein, dass der Block 90 die vorgebbare Sollgröße xd generiert, beispielsweise abhängig von einem Sensorsignal, dass dem Block 90 vorgegeben wird. Es ist auch möglich, dass Block 90 die Sollgröße xd aus einem dedizierten Speicherbereich ausliest, in dem sie abgelegt ist.

Abhängig von der Regelungsstrategie π bzw. der Wert -Funktion V * , von der Sollgröße xd und der Regelungsgröße x generiert der Regler 60 eine Stellgröße u. Diese kann beispielsweise abhängig von einer Differenz x-xd zwischen Rege- lungsgröße x und Sollgröße xd ermittelt werden. Der Regler 60 übermittelt die Stellgröße u an eine Ausgabeeinheit 80, die hieraus das Ansteuersignal A ermittelt. Beispielsweise ist es möglich, dass die Ausgabeeinheit zunächst überprüft, ob die Stellgröße u in einem vorgebbaren Wertebe- reich liegt. Ist dies der Fall, wird abhängig von der Stellgröße u das Ansteuersignal A ermittelt, beispielsweise, indem abhängig von der Stellgröße u ein zugeordnetes Ansteuersignal A aus einem Kennfeld ausgelesen wird. Dies ist der Normalfall. Wird hingegen ermittelt, dass die Stellgröße u nicht in dem vorgebbaren Wertebereich liegt, so kann vorgesehen sein, dass das Ansteuersignal A derart ausgebildet ist, dass es bewirkt, den Aktor A in einen abgesicherten Modus zu überführen.

Empfangseinheit 50 übermittelt die Regelungsgröße x an einen Block 100. Ebenso übermittelt Regler 60 die korrespondierende Stellgröße u an den Block 100. Block 100 speichert die Zeitreihen der an einer Folge von Zeitpunkten empfangenen Regelungsgröße x und der jeweils korrespondierenden Stellgröße u. Block 100 kann dann abhängig von diesen Zeitreihen Modellparameter Λ, σ η , σ f des Modells g anpassen. Die Modellparameter Λ, σ η , σ f werden einem Block 1 10 zugeführt, der sie beispielsweise an einer dedizierten Speicherstelle speichert. Dies wird weiter unten in Figur 4, Schritt 1010 näher beschrieben.

Das Lernsystem 40 umfasst in einer Ausführungsform einen Computer 41 mit einem maschinenlesbaren Speichermedium 42, auf dem ein Computerprogramm gespeichert ist, dass, wenn es vom Computer 41 ausgeführt wird, diesen veranlasst, die beschriebenen Funktionalitäten des Lernsystems 40 auszuführen. Der Computer 41 umfasst im Ausführungsbeispiel eine GPU 43.

Das Modell g kann zum Ermitteln der Wert -Funktion V * verwendet werden. Dies wird im Folgenden ausgeführt.

Figur 2 illustriert das Zusammenspiel des Aktorregelungssystems 45 mit dem Aktor 10. Der Aufbau des Aktorregelungssystems 45 und seine Interaktion mit Aktor 10 und Sensor 30 gleicht in weiten Teilen dem Aufbau des Lernsystems 40, weshalb hier nur die Unterschiede beschrieben werden. Im Gegensatz zum Lernsystem 40 weist das Aktorregelungssystem 45 keinen Block 100 und auch keinen Block 1 10 auf. Die Ubermittelung von Größen an den Block 100 entfällt daher. Im Parameterspeicher 70 des Aktorregelungssystems 45 sind Parameter Θ hinterlegt, die mit dem erfindungsgemäßen Verfahren, beispielsweise wie in Figur 4 illustriert, ermittelt wurden.

Figur 3 illustriert eine Ausführungsform des erfindungsgemäßen Verfahrens. Zunächst (1000) wird ein initialer Wert x 0 der Regelungsgröße x aus einer vorgebbaren initialen Wahrscheinlichkeitsverteilung p(x 0 ) ausgewählt. Ein Episodenindex e wird auf den Wert e=1 initialisiert, eine diesem Episodenindex e zugeordnete Wert -Funktion V e wird auf den Wert V e = 0 initialisiert.

Außerdem werden zufällig Stellgrößen u 0 , u 1 , u T-1 bis zu einem vorgebbaren Zeithorizont T zufällig ausgewählt mit denen wie in Figur 1 beschrieben der Aktor 10 angesteuert wird. Der Aktor 10 interagiert über die Umwelt 20 mit dem Sensor 30, dessen Sensorsignal S als Regelungsgröße Xi , x T-1 , x T mittelbar oder unmittelbar vom Regler 60 empfangen wird.

Diese werden zu einem Datensatz D = {(x 0 , 0 , x 1 ), ... , (x τ-1 , u T- 1 , x T } zusam- mengefasst.

Block 100 und aggregiert (1030) die Zeitreihen von Stellgröße u und Regelungsgröße x die gemeinsam jeweils ein Paar z aus Regelungsgröße x und Stellgröße u ergeben,

D ist hierbei die Dimensionalität der Regelungsgröße x und F die Dimensionalität der Stellgröße u, d.h.

Abhängig von dieser Zustandstrajektorie wird dann ein Gauß-Prozess g derart angepasst, dass zwischen aufeinander folgenden Zeitpunkten t, t+1 gilt

Hierbei ist Eine Kovarianzfunktion k des Gauß-Prozesses g ist beispielsweise gegeben durch

Parameter ist hierbei eine Signalvarianz, ist eine Samm

lung quadrierter Längenskalen für jede der D+F Eingangsdimensionen. Eine Kovarianzmatrix K ist definiert durch

Der Gauß-Prozess g ist dann charakterisiert durch zwei Funktionen: Durch einen Mittelwert μ und eine Varianz Var, die gegeben sind durch

y ist hierbei in üblicher Weise gegeben durch y l = f(z l ) + e l , mit weißem Rauschen ε i .

Die Parameter Λ, σ η , σ^ werden dann an die Paare (ζ',ν') in bekannter Weise an- gepasst, indem eine logarithmierte marginal likelihood -Funktion maximiert wird.

Anschließend (1020) werden dem Episodenindex e zugeordnete iterierte Wert- Funktione ermittelt, wobei die letzte dieser iterierten Wert- Funktionen eine konvergierte dem Episodenindex e zugeordnete iterierte Wert- Funktion ist. Eine Ausführungsform des Verfahrens zur Ermittlung der dem

Episodenindex e zugeordnete iterierte Wert-Funktionen ist in Figur 5

illustriert.

Dann (1030) wird überprüft, ob die konvergierte dem Episodenindex e zugeord- nete iterierte Wert-Funktion Ϋ * konvergiert ist, beispielsweise, indem geprüft wird, ob die konvergierten dem aktuellen Episodenindex e und die dem vorherigen Episodenindex e-1 zugeordneten iterierten Wert-Funktionen sich

um weniger als einen ersten vorgebbaren Grenzwert Δ 1 unterscheiden, also

Ist dies der Fall, folgt Schritt 1080.

Ist die Konvergenz hingegen noch nicht erreicht (1040) wird eine dem Episodenindex e zugeordnete optimale Regelungsstrategie definiert durch

Anschließend (1050) wird erneut der initiale Wert x 0 der Regelungsgröße x aus der initialen Wahrscheinlichkeitsverteilung p(x 0 ) ausgewählt.

Mittels der in Formel (6) definierten optimalen Regelungsstrategie wird nun (1060) iterativ eine Folge von Regelungsgrößen ermittelt, mit

denen der Aktor 10 angesteuert wird. Aus den dann empfangenen Ausgangssignalen S des Sensors 30 werden dann jeweils sich dann ergebende Zu- standsgrößen ermittelt.

Nun (1070) wird der Episodenindex e um eins inkrementiert, und es wird zurückverzweigt zu Schritt 1030.

Wurde in Schritt 1030 entschieden, dass die Iteration über Episoden zu einer Konvergenz der dem Episodenindex e zugeordneten iterierte Wert-Funktionen geführt hat, wird die Wert-Funktion V* gleich der der dem Episodenindex e zugeordneten iterierte Wert-Funktionen V e * gesetzt. Damit endet dieser Aspekt des Verfahrens.

Figur 4 illustriert eine Ausführungsform des Verfahrens zum Ermitteln der dem Episodenindex e zugeordneten iterierten Wert-Funktionen Aus

Gründen der Übersichtlichkeit wird der Episodenindex e im Folgenden weggelassen. Der Superskript-lndex wird im Folgenden mit dem Buchstaben t bezeichnet. Das Verfahren berechnet stets eine nachfolgende iterierte Wert-Funktion

stets auf Basis der vorhergehenden Wert-Funktion . Diese vorhergehende iterierte Wert-Funktion Ϋ* ist als Linearkombination mit Basisfunk- tionen und Koeffizienten qeqeben. Diese Koeffizienten fa ).

werden auch kurz in einem Koeffzientenvektor zusammengefasst. Das Verfahren startet (1500) mit dem Index t = 0.

Zunächst wird ein Satz B von Basisfunktionen ermittelt (1510). Die

se können entweder fest vorgegeben sein, oder sie können mit dem in Figur 6 illustrierten Algorithmus ermittelt werden.

Dann (1520) werden Skalarprodukte ermit

telt.

Anschließend (1530) werden mittels numerischer Quadratur Stützstellen

und zugehörige Stützgewichte definiert.

Mit Hilfe dieser Stützstellen und Stützgewichte werden dann

(1540) für alle Indizes i = 1 - N t+1 Koeffizienten eines Vektors ermittelt

zu

Ein Koeffizientenvektor wird nun (1 550) ermitelt zu wobei eine Massematrix M qeqeben ist durch

Der Operator A ist definiert als

Hierbei ist 0<γ < 1 ein vorgebbarer Gewichtungsfaktor, z.B: γ = 0,85. r ist eine Belohnungsfunktion (Englisch: reward function), die einem Wert der Regelungs- große x einen Belohnungswert zuordnet. Vorteilhafterweise ist Belohnungsfunktion r so gewählt, dass sie umso größere Werte annimmt, je kleiner eine Abweichung der Regelungsgröße x von der Sollgröße xd ist. Die bedingte Wahrscheinlichkeit p(x' Ix, u) der Regelungsgröße x' gegeben die vorherige Regelungsgröße x und die Stellgröße u kann in Formel (8) mittels des Gaußprozesses g ermittelt werden.

Es sei angemerkt, dass der max-Operator in Formel (8) einer analytischen Lösung nicht zugänglich ist. Allerdings kann für gegebene Regelungsgröße x die Maximierung jeweils durch ein Gradientenaufstiegsverfahren erfolgen.

Mit diesen Definitionen ist sichergestellt, dass die so definierte nachfolgende ite- rierte Wert-Funktion einer Projektion einer tatsächlichen

iterierten Wert-Funktion V t+1 auf den von den Basisfunktionen B aufgespannten Raum entspricht, wobei die tatsächlichen iterierten Wert-Funktionen die Bellmann-Gleichung erfüllen.

Der Vektor b t+1 erfüllt also näherungsweise die Gleichung 2 ,

wobei erkannt wurde, dass diese Gleichung, die exakt nur in Ausnahmefällen lösbar ist, gelöst werden kann, wenn sowohl die tatsächliche Wert-Funktion V t+1 durch ihre Projektion auf den von den Basisfunktionen B aufgespannten Raum ersetzt wird, also durch die iterierte Wert-Funktion und die enstehende Integralgleichung mit numerischer Quadratur approximiert gelöst wird.

Nun (1560) wird überprüft, ob ein Abbruchkriterium erfüllt ist. Das Abbruchkriterium kann beispielsweise erfüllt sein, wenn die iterierte Wert-Funktion konvergiert ist, beispielsweise, dann, wenn eine Differenz zur vorherigen iterierten Wert-Funktion V* kleiner wird als ein zweiter Grenzwert Δ 2 , also

Δ 2 . Das Abbruchkriterium kann auch als erfüllt gelten, wenn der Index t den vorgebbaren Zeithorizont T erreicht hat.

Ist das Abbruchkriterium nicht erfüllt, wird der Index t um eins erhöht (1570). Ist das Abbruchkriterium hingegen erfüllt, wird die Wert-Funktion V * gleich der iterierten Wert-Funktion der letzten Iteration gesetzt.

Damit endet dieser Teil des Verfahrens.

Figur 5 illustriert eine Ausführungsform des Verfahrens zum Ermitteln des Satzes B von Basisfunktionen für die tatsächliche iterierte Wert-Funktion V* der Bellmann-Gleichung. Hierzu wird zunächst (1600) der Satz B von Basisfunktionen als leere Menge initialisiert, ein Index I wird auf den Wert l=0 initialisiert. Eine auf den von dem Satz B von Basisfunktionen projizierte iterierte Wert-Funktion

wird ebenfalls auf den Wert 0 initialisiert.

Dann (1610) wird eine Residuum als Abweichung zwi

schen der iterierten Wert-Funktion V* und der entsprechend projizierten iterierten Wert-Funktion definiert.

Dann (1620) wird eine Maximalstelle des Residuums ermit

telt, z.B. mit einem Gradientenaufstiegsverfahren und es wird eine Hesse-Matrix des Residuums an der Maximalstelle x * ermittelt.

Nun (1630) wird eine dem Satz B von Basisfunktionen neu hinzuzufügende Basisfunktion ermittelt. Die neu hinzuzufügende Basisfunktion wird bevor

zugt als eine Gaußfunktion mit Mittelwert s * und einer Kovarianzmatrix Σ * gewählt. Die Kovarianzmatrix Σ * wird dabei so berechnet, dass sie die Gleichung

erfüllt.

Dann (1640) wird diese hinzuzufügende Basisfunktion dem Satz B von Ba

sisfunktionen hinzugefügt.

Nun (1650) wird die projizierte iterierte Wert -Funktion durch Projektion der

iterierten Wert -Funktion auf den von dem nun erweiterten Satz B von Basis

funktionen aufgespannten Funktionenraum ermittelt. Anschließend (1660) wird überprüft, ob die Ermittlung der projizierten iterierten

Wert-Funktion hinreichend konvergiert ist, beispielsweise, indem überprüft wird, ob eine zugehörige Norm (z.B. eine -Norm) der Abweichung einen dritten vorgebbaren Grenzwert Δ 3 unterschreitet, also

Ist dies nicht der Fall, wird der Index I um eins inkrementiert, und das Verfahren verzweigt zurück zu Schritt 1610.

Andernfalls wird der ermittelte Satz als gesuchter Satz von Basis

funktionen zurückgegeben, und dieser Teil des Verfahrens endet.

Figur 6 illustriert Ausführungsformen des Verfahrens zum Ermitteln der Stellgröße u. Figur 7a illustriert eine Ausführungsform für den Fall, dass die im Parameterspeicher 70 hinterlegten Parameter Θ die Regelungsstrategie π parametrieren. Hierzu wird zunächst (1700) eine Menge von Teststellen x t definiert, beispielsweise als ein Sobol-Plan (Englisch:„Sobol design plan").

Dann (1710) werden zu den Teststellen x t zugeordnete optimale Stellgrößen u i mittels der Formel (1 1 ) z.B. mit einem Gradientenaufstiegsverfahren ermittelt und eine Trainingsmenge aus Paaren der Teststellen x i mit den jeweils zugeord¬

neten optimalen Stellgrößen u i erstellt.

Mit dieser Trainingsmenge M wird dann (1720) ein datenbasiertes Modell angelernt, beispielweise ein Gaußprozess g θ , sodass das datenbasierte Modell effizient zu einer Regelungsgröße x eine zugeordnete optimale Stellgröße u ermittelt. Die den Gaußprozess g θ charakterisierenden Parameter Θ werden im Parameterspeicher 70 hinterlegt.

Die Schritte (1700) bis (1720) laufen vorzugsweise im Lernsystem 40 ab. Während des Betriebs des Aktorregelungssystems 45 ermittelt (1730) dieses dann mittels des Gaußprozess g θ zu einer gegebenen Regelungsgröße x die zugehörige Stellgröße u.

Damit endet dieses Verfahren.

Figur 7b illustriert eine Ausführungsform für den Fall, dass die im Parameterspeicher 70 hinterlegten Parameter Θ die Wert -Funktion V * parametrieren. Hierzu wird in Schritt (1800) zu einer gegebenen Regelungsgröße x analog zu Schritt (1710) mit einem Gradientenaufstiegsverfahren die zugehörige durch Gleichung

definierte Stellgröße u ermittelt.

Damit endet dieses Verfahren.