Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND DEVICE FOR DETERMINING A CONTROL STRATEGY FOR A TECHNICAL SYSTEM
Document Type and Number:
WIPO Patent Application WO/2020/245218
Kind Code:
A1
Abstract:
The invention relates to a computer-implemented method for creating a control process for a technical system (2) by means of a Bayesian optimization method, wherein the control process is created and can be implemented on the basis of model parameters (Θ) of a control model, and wherein the following steps are carried out in order to optimize the control process: - providing a quality function (J(Θ)) which corresponds to a trainable regression function and evaluates a quality of a control process of the technical system (2) on the basis of model parameters (Θ); - performing a Bayesian optimization method on the basis of the quality function (J(Θ)) in order to iteratively determine an optimized model parameter set with model parameters (Θ), wherein, while the the Bayesian optimization method is performed, a model parameter domain (Θi) which indicates the permissible value ranges for the model parameters is expanded, in particular by an expansion amount (ΔΘi), with respect to those dimensions for which the model parameter (Θ) determined in the current iteration lies at a range limit.

Inventors:
FROEHLICH LUKAS (DE)
KLENSKE EDGAR (DE)
Application Number:
PCT/EP2020/065378
Publication Date:
December 10, 2020
Filing Date:
June 03, 2020
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BOSCH GMBH ROBERT (DE)
International Classes:
G05B13/04; G05B13/02
Other References:
MICHAEL VOLPP ET AL: "Meta-Learning Acquisition Functions for Bayesian Optimization", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 4 April 2019 (2019-04-04), XP081165074
MATTHIAS NEUMANN-BROSIG ET AL: "Data-efficient Auto-tuning with Bayesian Optimization: An Industrial Control Study", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 15 December 2018 (2018-12-15), XP080993488, DOI: 10.1109/TCST.2018.2886159
ERIC BROCHU ET AL: "A Tutorial on Bayesian Optimization of Expensive Cost Functions, with Application to Active User Modeling and Hierarchical Reinforcement Learning", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 12 December 2010 (2010-12-12), XP080467931
BOBAK SHAHRIARI ET AL: "Unbounded Bayesian Optimization via Regularization", 14 August 2015 (2015-08-14), XP055724938, Retrieved from the Internet [retrieved on 20200826]
NGUYEN VU ET AL: "Bayesian Optimization in Weakly Specified Search Space", 2017 IEEE INTERNATIONAL CONFERENCE ON DATA MINING (ICDM), IEEE, 18 November 2017 (2017-11-18), pages 347 - 356, XP033279215, DOI: 10.1109/ICDM.2017.44
Download PDF:
Claims:
Ansprüche

1. Computerimplementiertes Verfahren zum Erstellen einer Regelung für ein tech nisches System (2) mithilfe eines Bayes’schen Optimierungsverfahrens, wobei die Regelung basierend auf Modellparametern (Q) eines Regelungsmodells er stellt und ausführbar ist, wobei zur Optimierung der Regelung folgende Schritte ausgeführt werden:

Bereitstellen einer Qualitätsfunktion (/(0)), die einer trainierbaren Regressi onsfunktion entspricht und die eine Qualität einer Regelung des technischen Systems (2) basierend auf Modellparametern (Q) bewertet;

Durchführen eines Bayes’schen Optimierungsverfahrens basierend auf der Qualitätsfunktion (/(0)), um iterativ einen optimierten Modellparametersatz mit Modellparametern (Q) zu ermitteln;

wobei während des Durchführens des Bayes’schen Optimierungsverfahrens eine Modellparameterdomäne (0j ), die die zulässigen Wertebereiche für die Modellparameter angibt, bezüglich derjenigen Dimensionen, für die der in der aktuellen Iteration ermittelte Modellparameter (Q) an einer Bereichsgrenze liegt, insbesondere um ein Erweiterungsmaß (A0j ), erweitert wird.

2. Verfahren nach Anspruch 1 , wobei das Erweiterungsmaß (A0j ) bezüglich der betreffenden Dimensionen abhängig von einem Gradienten eines Gauß-Pro- zess-Posterior-Mittelwerts der Qualitätsfunktion (/(0)) an dem Punkt der laufen den Schätzung des Optimums V0^GP(0*) angegeben wird, wobei das Erweite rungsmaß einen umso höheren relativen oder absoluten Wert annimmt, je größer der Gradient ist.

3. Verfahren nach Anspruch 1 oder 2, wobei das Erweiterungsmaß (A0j ) bezüglich der betreffenden Dimensionen abhängig von einer Längenskala des jeweiligen Modellparameter (Q) bezogen auf die Qualitätsfunktion (/(0)) angegeben wird, wobei das Erweiterungsmaß (A0j ) einen umso höheren relativen oder absoluten Wert annimmt, je größer die Längenskala ist.

4. Verfahren nach einem der Ansprüche 1 bis 3, wobei das Erweiterungsmaß (A0j ) bezüglich der betreffenden Dimensionen abhängig von einer Ausdehnung des jeweiligen Wertebereichs des betreffenden Modellparameters (Q) ist, wobei ins besondere das Erweiterungsmaß (A0j ) einen umso höheren relativen oder ab soluten Wert annimmt, je größer der betreffende Wertebereich ist.

5. Verfahren nach einem der Ansprüche 1 bis 4, wobei die Modellparameter (Q) Elementen einer Regelungsmatrix einer linearen Zustandsregelung entsprechen oder durch diese bestimmt sind.

6. Verfahren nach Anspruch 5, wobei die Wertebereiche für die Modellparameter (Q) abhängig von dem Mittelwert der jeweiligen Verteilung, einem Skalierungs faktor und einer Standardabweichung angegeben werden.

7. Verfahren zum adaptiven Regeln eines technischen Systems (2), wobei Modell parameter (Q) des Regelungsmodells während des Regeln des technischen Sys tems (2) basierend auf dem Verfahren nach einem der Ansprüche 1 bis 6 konti nuierlich oder zu regelmäßigen oder vorbestimmten Zeitpunkten angepasst wer den.

8. Vorrichtung zum Erstellen einer Regelung für ein technisches System (2) mithilfe eines Bayes’schen Optimierungsverfahrens, wobei die Regelung basierend auf Modellparametern (Q) eines Regelungsmodells erstellt und ausführbar ist, wobei die Vorrichtung ausgebildet ist, zur Optimierung der Regelung folgende Schritte auszuführen:

Bereitstellen einer Qualitätsfunktion (/(0)), die einer trainierbaren Regressi onsfunktion entspricht und die eine Qualität einer Regelung des technischen Systems (2) basierend auf Modellparametern (Q) bewertet;

Durchführen eines Bayes’schen Optimierungsverfahrens basierend auf der Qualitätsfunktion (/(0)), um iterativ einen optimierten Modellparametersatz mit Modellparametern (Q) zu ermitteln;

wobei während des Durchführens des Bayes’schen Optimierungsverfahrens eine Modellparameterdomäne (0j ), die die zulässigen Wertebereiche für die Modellparameter angibt, bezüglich derjenigen Dimensionen, für die der in der aktuellen Iteration ermittelte Modellparameter (Q) an einer Bereichsgrenze liegt, insbesondere um ein Erweiterungsmaß (A0j ), erweitert wird.

9. Regelungssystem (1) mit einem technischen System (2) und einer Regelungs einheit (3) zum Regeln des technischen Systems (2), wobei in der Regelungs einheit (3) ein Regelungsmodell zum Bereitstellen eines Eingangsgrößenvektors abhängig von Zustandsgrößen des technischen Systems (2) implementiert ist, wobei ein Modellerstellungsblock (4) vorgesehen ist, um Modellparameter für das Regelungsmodell auf Grundlage eines in einem Optimierungsblock (5) ausge führten Bayes'schen Optimierungsverfahrens zu ermitteln, wobei das Bayes'schen Optimierungsverfahren basierend auf einer vorgegebenen Quali tätsfunktion, die in einem Qualitätsfunktionsblock (6) bestimmt bzw. vorgegeben wird, durchgeführt wird, wobei während des Durchführens des Bayes’schen Op timierungsverfahrens eine Modellparameterdomäne (0j ), die die zulässigen Wertebereiche für die Modellparameter angibt, bezüglich denjenigen Dimensio nen, für die der in der aktuellen Iteration ermittelte Modellparameter (Q) an einer Bereichsgrenze liegt, insbesondere um ein Erweiterungsmaß (A0j ), erweitert wird.

10. Computerprogramm mit Programmcodemitteln, das dazu eingerichtet ist, ein Verfahren nach einem der Ansprüche 1 bis 7 auszuführen, wenn das Computer programm auf einer Recheneinheit ausgeführt wird.

11. Maschinenlesbares Speichermedium mit einem darauf gespeicherten Computer programm nach Anspruch 10.

Description:
Beschreibung

Titel

Verfahren und Vorrichtung zum Ermitteln einer Regelungsstrategie für ein techni sches System

Technisches Gebiet

Die vorliegende Erfindung betrifft Verfahren zum Auffinden einer geeigneten Re gelungsstrategie für ein technisches System, insbesondere unter Nutzung eines Bayes'schen Optimierungsverfahrens. Insbesondere betrifft die vorliegende Erfin dung ein computerimplementiertes Verfahren zur effizienteren Optimierung von Modellparametern eines Regelungsmodells zur Implementierung einer Rege lungsstrategie für ein technisches System.

Technischer Hintergrund

Beim sogenannten Reinforcement Learning interagiert ein Regelungssystem wie derholt mit der Umgebung und lernt aus dem Systemverhalten selbsttätig eine Handlungsstrategie. Der Lernvorgang erfolgt durch Minimierung eines durch eine Kostenfunktion bzw. Qualitätsfunktion angegebenen Kostenwerts, der eine Leis tungsfähigkeit des Regelungssystems bewertet.

Insbesondere modellfreie Reinforcement Learning-Verfahren sind vorteilhaft, da keine Kenntnis über die Umgebung und das Zusammenwirken der Umgebung mit dem System erforderlich sind, jedoch ist die Interaktionszeit des Systems mit der Umgebung während des Lernprozesses sehr hoch. Dagegen wird bei herkömmli chen modellbasierten Verfahren initial eine Modellstruktur vorgegeben, die das Verhalten des Regelungssystems in der Umgebung grundsätzlich beschreibt. Dadurch können die Auswirkungen der Interaktion des Regelungssystems mit der Umgebung abgebildet werden. Die Anpassung der Modellstruktur durch eine Pa rameteranpassung ist einfach und effizient durchführbar. Jedoch hat das her kömmliche Verfahren Nachteile, da die gewählte Modellstruktur ungeeignet sein kann und dadurch die Parameteranpassung durch die Optimierung des Rege lungsmodells nicht zu einem optimalen Ergebnis führt.

Die Erstellung und Optimierung eines Regelungsmodells in Verbindung mit Rein forcement Learning kann in Kombination mit einer Bayes'schen Optimierung durchgeführt werden, wobei die Kostenfunktion als Gaußprozessmodell modelliert wird. Dies ermöglicht die Erstellung eines effizienten Black-Box-Optimierers für Regelungsmodelle, die ansonsten aufwendig zu erstellen/parametrisieren wären. Jedoch ist aufgrund der hohen Anzahl von Modellparametern von derartigen Re gelungsmodellen die Optimierung sehr aufwendig, so dass eine große Anzahl von Vermessungsvorgängen notwendig sind und durch die hohe Menge an Messdaten lange Trainingszeiten die Regel sind.

Offenbarung der Erfindung

Erfindungsgemäß sind ein Verfahren zum Erstellen einer Regelung für ein techni sches System gemäß Anspruch 1 sowie die Vorrichtung und ein System gemäß den nebengeordneten Ansprüchen vorgesehen.

Weitere Ausgestaltungen sind in den abhängigen Ansprüchen angegeben.

Gemäß einem ersten Aspekt ist ein Verfahren zum Erstellen einer Regelung für ein technisches System mithilfe eines Bayes’schen Optimierungsverfahrens vor gesehen, wobei die Regelung basierend auf Modellparametern erstellt und aus führbar ist, wobei zur Optimierung der Regelung folgende Schritte ausgeführt wer den:

Bereitstellen einer Qualitätsfunktion, deren Form einer trainierbaren Regressi onsfunktion entspricht und die eine Qualität einer Regelung des technischen Systems basierend auf Modellparametern bewertet;

Durchführen eines Bayes’schen Optimierungsverfahrens basierend auf der Qualitätsfunktion, um iterativ einen Modellparametersatz mit Modellparame tern zu optimieren; wobei während des Durchführens des Bayes’schen Optimierungsverfahrens eine Modellparameterdomäne, die die zulässigen Wertebereiche für die Modellparame ter angibt, bezüglich derjenigen Dimensionen, für die jeweils der in der aktuellen Iteration ermittelte Modellparameter an einer Bereichsgrenze liegt, erweitert wird.

Zur Modellierung der Regelung eines Regelungssystems wird ein Regelungsmo dell erstellt. Das Regelungsmodell definiert eine Regelungsstrategie und stellt eine funktionale Beziehung dar, mit der eine Stellgröße basierend auf einer oder meh rerer Eingangsgrößen der Regelung berechnet werden. Mindestens eine der Ein gangsgrößen entspricht dabei einer Zustandsgröße des zu regelnden technischen Systems.

Die Form des Regelungsmodells kann in vielfältiger Weise vorgegeben werden. So kann das Regelungsmodell eine Formelbeziehung beinhalten oder darauf ba sieren, die auf physikalischen Gesetzmäßigkeiten basiert, wie z.B. Bewegungs gleichungen, Schwingungsgleichungen, Dämpfungsverhalten usw.. Auch kann das Regelungsmodell auf einer frei gewählten oder in sonstigerWeise bestimmten Formelbeziehung beruhen. Häufig muss die Formelbeziehung ein nichtlineares Verhalten des technischen Systems berücksichtigen.

Bayes'sche Optimierungsverfahren für die Ermittlung eines Regelungsmodells wenden verschiedene Regelungsstrategien iterativ mit einem technischen System an und optimieren die Regelung auf effiziente Weise. Dabei kann die Qualitäts funktion mithilfe einer trainierbaren Regressionsfunktion, insbesondere mithilfe ei ner Gauß-Prozess-Regression modelliert werden, um die Leistungsfähigkeit des Systemmodells als Funktion der Modellparameter des Regelungsmodells zu mo dellieren, wobei die Gauß-Prozess-Regression basierend auf rauschbehafteten (da gemessenen) Zustandsgrößen erstellt wird.

Grundsätzlich betrifft das Problem, eine Regelungsstrategie aufzufinden, die einen Systemzustand auf einen Eingangsgrößenvektor abbildet. Dazu wird ein von den Modellparametern der Regelungsstrategie abhängiges Verhalten der Regelung des technischen Systems über einen vorbestimmten Zeithorizont basierend auf den Zustandsgrößenvektoren (aus mehreren Zustandsgrößen) und Eingangsgrö ßenvektoren (aus mehreren Eingangsgrößen) ausgewertet, um eine Güte des Ver haltens des technischen Systems zu bestimmen. Die Güte des Verhaltens des technischen Systems kann durch eine Bewertung bezüglich eines gewünschten Verhaltens bestimmt werden. Beispielsweise können Kriterien wie Schwingungs neigung, Einschwingdauer, Störempfindlichkeit, Robustheit und/oder dergleichen bewertet werden. Das Verhalten der Regelung des technischen Systems wird auch als unbekannte Funktion bezeichnet. Die Qualitätsfunktion (Kostenfunktion) ent spricht einem mathematischen Modell, das die Güte des Verhaltens der Regelung des technischen Systems abhängig von den Modellparametern der zugrundelie genden Regelungsstrategie bewertet.

Im Allgemeinen wird die Bayes’sche Optimierung angewendet, wenn eine unbe kannte Funktion f, eine sogenannte„Black-Box“-Funktion, die einem Verhalten des technischen Systems entspricht, minimiert werden soll. Diese unbekannte Funk tion f kann lediglich für einen Wert x ausgewertet bzw. vermessen und (möglicher weise durch Rauschen behaftet) beobachtet werden. Der beobachtete Wert y ergibt sich als y = f(x) + e, wobei e den Rauschanteil bezeichnet. Zudem wird an genommen, dass jede Auswertung / jedes Vermessen der unbekannten Funktion f teuer ist, d.h. Kosten verursacht, in dem Sinne, dass die Auswertung der unbe kannten Funktion einen hohen Aufwand verursacht/, wie es z.B. bei einer Ausfüh rung eines Experiments auf einem Prüfstand der Fall ist. Aufgrund der teuren Aus wertung der unbekannten Funktion, ist es erstrebenswert, dass während der Opti mierung lediglich wenige Auswertungen vorgenommen werden müssen.

Unter gewissen Vorannahmen, wie z.B. der Stetigkeit des Systemverhaltens bzw. der unbekannten Funktion, kann die unbekannte Funktion mit einer Gauß-Pro- zess-Regression durch die Qualitätsfunktion approximiert werden. Dazu kann nach einer Auswertung der unbekannten Funktion an mehreren Auswertungs punkten (xi, x n ) und Beobachtung der entsprechenden Funktionswerte (yi, ... y n ) mithilfe des Gauß-Prozesses die Qualitätsfunktion trainiert werden. Eine Eigen schaft des Gauß-Prozesses ist, dass in Bereichen um die Auswertungspunkte die Modellvorhersage sehr gut ist und die unbekannte Funktion, d.h. das Systemver halten, gut approximiert wird. Dies spiegelt sich in einer geringen Unsicherheit der Qualitätsfunktion wieder. Fernab von Auswertungspunkten werden die Modellvor hersagen der Qualitätsfunktion über die unbekannte Funktion schlecht und die Un sicherheit nimmt mit zunehmenden Abstand zu den Auswertungspunkten zu. Eine mögliche Strategie, um die Modellparameter der Regelungsstrategie und da mit das Systemverhalten zu optimieren, ist, die unbekannte Funktion an vielen ver schiedenen Stellen (z.B. auf einem regelmäßigen Gitter) auszuwerten und den niedrigsten beobachteten Funktionswert als das Ergebnis der Optimierung anzu nehmen. Dieses Vorgehen ist ineffizient und es sind viele Auswertungen mit ent sprechend hohem Aufwand notwendig, das Optimum aufzufinden.

Anstelle dieses Ansatzes wird die Qualitätsfunktion verwendet, um neue Auswer tungspunkte auszuwählen. Dazu wird ein neuer Auswertungspunkt für das Aus werten/Vermessen des Systemverhaltens so ausgewählt, dass dadurch zum einen die Aussagekraft der Qualitätsfunktion verbessert wird, so dass die Unsicherheit des geschätzten Erwartungswert der Qualitätsfunktion reduziert wird. Dazu wer den in der Regel die Auswertungspunkte in Bereichen gewählt, in denen die unbe kannte Funktion noch nicht ausgewertet wurde bzw. das technische System noch nicht vermessen wurde (Exploration). Zum anderen wird ein neuer Auswertungs punkt für das Auswerten der unbekannten Funktion bzw. zum Vermessen des technischen Systems so ausgewählt, dass das Ziel, ein Optimum zu finden, schnellstmöglich bzw. mit einer geringen Zahl von Vermessungen an den Auswer tungspunkten erreicht wird. Dafür werden basierend auf dem Gauß-Prozess Aus wertungspunkte zur Auswahl bevorzugt, die niedrige Funktionswerte versprechen (Exploitation). Diese zwei gegensätzlichen Kriterien werden dadurch abgewägt, dass der Auswertungspunkt mithilfe einer vorgegebenen Aquisitionsfunktion aus gewählt wird.

Die Aquisitionsfunktion nutzt Parameter der Qualitätsfunktion, die durch ein Gauß- Prozess-Modell beschrieben wird, wie z.B. den Erwartungswert m (x) und die die sem Erwartungswert zugeordnete Standardabweichung s (x). Ein Beispiel ist die sogenannte Lower-Confidence-Bound (LCB) Aquisitionsfunktion, die wie folgt be schrieben wird: LCB(x) = m (x) - ko (x). Der Faktor k wird in der Praxis oft kon stant z.B. auf einen bestimmten Wert festgelegt, wie z.B. k = 2. Dieses neue Krite rium kann effizient mit gängigen gradienten-basierten Methoden minimiert werden und das Minimum von LCB(x) bildet dann den neuen Auswertungspunkt für die unbekannte Funktion f bzw. das Vermessen des technischen Systems. Hierbei ist zu beachten, dass für die Optimierung der Qualitätsfunktion eine Modelparameter- domäne definiert werden muss, die Wertebereiche für die jeweiligen Modellpara meter angeben, innerhalb denen nach dem nächsten Auswertungspunkt gesucht wird. Diese Modelparameterdomäne wird typischerweise aufgrund von Erfah- rungs- und/oder Expertenwissen gewählt.

Nach der Auswertung des Verhaltens des technischen Systems (z.B. durch Ver messen an dem Auswertungspunkt) wird die trainierbare Regressionsfunktion mit den neuen Daten aktualisiert bzw. neu trainiert und ein nächster Auswertungs punkt wird nach dem oben beschrieben Verfahren ausgewählt. Typischerweise wird dieses Verfahren solange wiederholt, bis ein Abbruchkriterium erfüllt ist, also z.B. die Zeitdauer, die für die Optimierung der unbekannten Funktion f (d.h. des Verhaltens des technischen Systems) aufgewendet werden soll.

Nachdem das Optimierungsverfahren abgeschlossen ist, wird der Funktionswert x als Ort des Minimums der Qualitätsfunktion empfohlen, d.h. den Wert, der den Erwartungswert des Gauß-Prozesses minimiert.

Das LCB-Kriterium ist nicht die einzige Akquisition-Funktion, die in der Literatur vorgeschlagen wurden. Andere Kriterien sind z.B. Expected Improvement (El), Up per Confidence Bound (UCB), Probability of Improvement (PI) oder sogenannte Entropy Search Methoden, die auf informations-theoretischen Überlegungen ba sieren.

Gemäß dem obigen Verfahren wird das Bayes'sche Optimierungsverfahren dazu verwendet, die Modellparameter der Regelungsstrategie durch eine Minimierung der zunächst unbekannten Qualitätsfunktion aufzufinden. Ziel ist es, das Rege lungsmodell so zu erstellen, dass das Verhalten des technischen Systems mög lichst genau den gewünschten Spezifikationen entspricht. Die Qualitätsfunktion kann ggfs entsprechend der Leistungsfähigkeit des Regelungssystems abhängig von den jeweiligen Modellparametern stets aktualisiert werden. Für die Aktualisie rung der Qualitätsfunktion ist eine Bewertung der jeweiligen Modellparameter er forderlich, was ein Betreiben des Regelungssystems mit den jeweiligen Modellpa rametern in der realen Umgebung notwendig macht. Während des Betriebs des Regelungssystems wird ein Qualitätsmaß, das die Güte des Verhaltens des so geregelten technischen Systems wiederspiegelt, erfasst, und den aktuellen Mo dellparametern zugeordnet. Durch die Notwendigkeit, dass Regelungssystem für den Vermessungsvorgang real zu betreiben, wird die Verbesserung der Bewer tung der Kosten durch die kontinuierlich zu aktualisierende Qualitätsfunktion sehr aufwendig. Daher ist es wünschenswert, die Anzahl der Vermessungsvorgänge am realen technischen System möglichst zu minimieren.

Jeweils nach einem oder mehreren Vermessungsvorgängen kann die Qualitäts funktion mit den zuletzt vermessenen Modellparametern und die resultierenden Qualitätsmaße aktualisiert und ein neuer Satz von Testmodellparameter ausge wählt werden, indem eine vorgegebene Aquisitionsfunktion, die den Verlauf oder Parameter der Qualitätsfunktion bewertet, minimiert oder maximiert wird. Die Aqui sitionsfunktion ist so vorgegeben, dass sie einen Kompromiss zwischen Explora tion und Exploitation gewährleistet. Exploration bedeutet im Kontext des erfin dungsgemäßen Verfahren, dass Bereiche des möglichen Modellparameterraums für die Auswahl eines neuen Testmodellparameters bevorzugt werden, in denen noch nicht durch einen vorangehenden Vermessungsvorgang ein Qualitätsmaß ermittelt bzw. das System verhalten bewertet worden sind. Exploitation im Kontext des erfindungsgemäßen Verfahren bedeutet, dass ein Test-Modellparameter für die nächste Bewertung durch einen Vermessungsvorgang ausgewählt wird, der als ein Satz optimaler Modellparameter eingeschätzt wird.

Es wird im Folgenden beispielhaft angenommen, dass die Regelungsstrategie ei ner Linearzustandsregelungsstrategie von p q (c) = -K(ß)x entspricht, wobei K eine die Regelung charakterisierende Regelungsmatrix ist. Lineare Regelungs strategien haben den Vorteil, dass sie eine geringe Dimensionalität im Vergleich zu anderen Regelungsmodellen aufweisen. Weiterhin ermöglicht die lineare Re gelungsstrategie, dass diese in einfacher Weise in Reglern umgesetzt werden kann und so die Effizienz der Bayes'schen Optimierung erhöht wird.

Die Regelungsstrategie-Optimierung wird durchgeführt, indem die Elemente der Regelungsmatrix angepasst werden. Die Elemente der Regelungsmatrix können direkt als Modellparameter angenommen werden oder als von Modellparametern abhängig angenommen werden.

Während des Ablaufs der Bayes'schen Optimierung liegt ein Schätzwert des Opti mums der Modellparameterwerte vor, d. h. der Modellparameterwerte, an denen sich das Minimum der trainierten Qualitätsfunktion befindet. Die Modellparameter werte werden innerhalb von durch eine aktuell vorgegebene Modellparameterdo mäne bestimmten Wertebereichen bestimmt. Wenn sich aus der Bayes'schen Op timierung ergibt, dass der Ort des geschätzten Optimums der Qualitätsfunktion zu einem oder mehreren Modellparametern führt, die an einer Bereichsgrenze der entsprechenden Wertebereiche liegt, ist es wahrscheinlich, dass„bessere“ Modell parameter außerhalb der entsprechenden Wertebereiche liegen, d.h. das Opti mum des Systemverhaltens durch Werte der betreffenden Modellparameter er reicht wird, die außerhalb der entsprechenden Wertebereiche liegen. Daher wird vorgeschlagen, den Wertebereich desjenigen Modellparameters, dessen Wert an der Grenze der Modellparameterdomäne liegt, um das Erweiterungsmaß zu erwei tern. Diese dynamische Anpassung der Modellparameterdomäne erfolgt mit jeder Rekursion des Optimierungsverfahrens und kann auf verschiedene Weise ausge führt werden.

Die Anpassung der Wertebereiche für Modellparameter ermöglicht es, ausgehend von einem begrenzten Wertebereich diesen während der Optimierung dynamisch nur für diejenigen Dimensionen des Modellparametervektors anzupassen, bei de nen die Optimierung einen Grenzbereich der Modellparameterdomäne trifft. Dadurch kann die Optimierung insgesamt effizienter vorgenommen werden, so dass die Konvergenz erheblich verbessert wird. Weiterhin können potenzielle Mo dellfehler besser ausgeglichen werden, so dass das optimierte Systemmodell leis tungsfähiger wird. Durch die Verbesserung der Effizienz ist es möglich, die Bayes'sche Optimierung zu hochdimensionalen Regelungsstrategien zu skalieren.

Weiterhin kann das Erweiterungsmaß bezüglich der betreffenden Dimensionen abhängig von einem Gradienten eines Gauß-Prozess-Posterior-Mittelwerts der Gaußprozess-Kostenfunktion für die jeweils aktuellen Modellparameter angege ben wird, wobei das Erweiterungsmaß einen umso höheren relativen oder absolu ten Wert annimmt, je größer der Gradient ist.

Alternativ oder zusätzlich kann das Erweiterungsmaß bezüglich der betreffenden Dimensionen abhängig von einer Längenskala des jeweiligen Modellparameter bezogen auf die Gaußprozess-Kostenfunktion angegeben werden, wobei das Er weiterungsmaß einen umso höheren relativen oder absoluten Wert annimmt, je größer die Längenskala ist. Alternativ oder zusätzlich kann das Erweiterungsmaß bezüglich der betreffenden Dimensionen abhängig von einer Ausdehnung des jeweiligen Wertebereichs des betreffenden Modellparameters angegeben werden, wobei insbesondere das Er weiterungsmaß einen umso höheren relativen oder absoluten Wert annimmt, je größer der betreffende Wertebereich ist.

Gemäß einer Ausführungsform können die Modellparameter Elementen einer Re gelungsmatrix einer linearen Zustandsregelung entsprechen oder diese bestim men.

Insbesondere können die Wertebereiche für die Modellparameter abhängig von dem Mittelwert der jeweiligen Verteilung, einem Skalierungsfaktor und einer Stan dardabweichung angegeben werden.

Weiterhin kann ein Verfahren zum adaptiven Regeln eines technischen Systems vorgesehen sein, wobei Modellparameter der Regelung während des Regeln des technischen Systems basierend auf einem der obigen Verfahren angepasst wer den.

Gemäß einem weiteren Aspekt ist eine Vorrichtung zum Erstellen einer Regelung für ein technisches System mithilfe eines Bayes’schen Optimierungsverfahrens vorgesehen, wobei die Regelung basierend auf Modellparametern eines Rege lungsmodells erstellt und ausführbar ist, wobei die Vorrichtung ausgebildet ist zur Optimierung der Regelung folgende Schritte auszuführen:

Bereitstellen einer Qualitätsfunktion, die einer trainierbaren Regressionsfunk tion entspricht und die eine Qualität einer Regelung des technischen Systems basierend auf Modellparametern bewertet;

Durchführen eines Bayes’schen Optimierungsverfahrens basierend auf der Qualitätsfunktion, um iterativ einen optimierten Modellparametersatz mit Mo dellparametern zu ermitteln;

wobei während des Durchführens des Bayes’schen Optimierungsverfahrens eine Modellparameterdomäne, die die zulässigen Wertebereiche für die Mo dellparameter angibt, bezüglich derjenigen Dimensionen, für die der in der ak tuellen Iteration ermittelte Modellparameter an einer Bereichsgrenze liegt, ins besondere um ein Erweiterungsmaß, erweitert wird. Gemäß einem weiteren Aspekt ist ein Regelungssystem mit einem technischen System und einer Regelungseinheit zum Regeln des technischen Systems vorge sehen, wobei in der Regelungseinheit ein Regelungsmodell zum Bereitstellen ei nes Eingangsgrößenvektors abhängig von Zustandsgrößen des technischen Sys tems implementiert ist, wobei ein Modellerstellungsblock vorgesehen ist, um Mo dellparameter für das Regelungsmodell auf Grundlage eines in einem Optimie rungsblock ausgeführten Bayes'schen Optimierungsverfahrens zu ermitteln, wobei das Bayes'schen Optimierungsverfahren basierend auf einer vorgegebenen Qua litätsfunktion, die in einem Qualitätsfunktionsblock bestimmt bzw. vorgegeben wird, durchgeführt wird, wobei während des Durchführens des Bayes’schen Opti mierungsverfahrens eine Modellparameterdomäne, die die zulässigen Werteberei che für die Modellparameter angibt, bezüglich denjenigen Dimensionen, für die der in der aktuellen Iteration ermittelte Modellparameter an einer Bereichsgrenze liegt, insbesondere um ein Erweiterungsmaß, erweitert wird.

Kurzbeschreibung der Zeichnungen

Ausführungsformen werden nachfolgend anhand der beigefügten Zeichnungen näher erläutert. Es zeigen:

Figur 1 eine schematische Darstellung eines Regelungssystems mit einer Regelungseinheit und einem zu regelndem technischen System;

Figur 2 ein Flussdiagramm zur Veranschaulichung des Verfahrens zum Durchführen einer Optimierung einer Regelungsstrategie mithilfe eines Bayes'schen Optimierungsverfahrens;

Figur 3 ein Diagramm mit einer schematischen Darstellung der Funk tionsweise der dynamischen Anpassung der Modellparame terdomäne. Beschreibung von Ausführungsformen

Figur 1 zeigt eine schematische Darstellung eines sich selbst anpassenden Rege lungssystems 1 , das zur Regelung eines technischen Systems 2 ausgebildet ist. Ein technisches System 2 kann beispielsweise ein Verbrennungsmotor eines Kraftfahrzeugs oder ein Teilsystem davon sein. Eine Regelungseinheit 3 regelt das technische System 2 mit einer Abfolge von Eingangsgrößen u als Stellgrößen an, die zu bestimmten Betriebspunkten (Systemzuständen) des technischen Systems 2 führen. Die Eingangsgrößen u umfassen in der Regel eine Anzahl von mehreren Eingangsgrößen, die in einem Eingangsgrößenvektor u e M d zusammengefasst sind. Zudem gilt für jede der Eingangsgrößen (Elemente des Eingangsgrößenvek tors u) ein zulässiger Wertebereich. Weiterhin resultiert die Ansteuerung des tech nischen Systems 2 in einer oder mehreren Zustandsgrößen, die an einem zu ver messenden Eingangsgrößenvektor u gemessen werden und die in Form eines Zu standsgrößenvektors x dargestellt sind.

Mithilfe eines oder mehrerer Sensoren 21 , die Teil des technischen Systems 2 sind, können Verläufe einer oder mehrerer Messgrößen Xi . . . XD erfasst werden, die jeweils entsprechende Zustandsgrößen Xi (t)... XD ( t ) , die jeweils die System zustände x des technischen Systems 2 angeben, repräsentieren. D entspricht da bei der Anzahl von Zustandsgrößen. Somit wird der Systemzustand des techni schen Systems 2 mithilfe des einen oder der mehreren Sensoren 21 erfasst und als Zustandsgrößen eines Zustandsgrößenvektors x an die Regelungseinheit 3 übermittelt.

Eingangsgrößen u entsprechen Stellgrößen der Regelungseinheit 3, die basierend auf den Zustandsgrößen x und der Regelungsstrategie p q ( ) ermittelt werden. Der Betrieb des technischen Systems 2 erfolgt abhängig von den Eingangsgrößen u(t) mithilfe eines oder mehrerer Aktoren 22 des technischen Systems 2. Beispiels weise so kann eine Bewegung eines Roboters oder Fahrzeugs gesteuert werden oder eine Steuerung einer Antriebseinheit oder eines Fahrerassistenzsystems ei nes Fahrzeugs erfolgen. Eine Eingangsgröße u kann beispielsweise einer elektri schen Spannung entsprechen, die an einen elektromechanischen Stellgeber als Aktor 22 angelegt wird. Der Aktor 22 wird entsprechend der einen oder der meh reren Eingangsgrößen u angesteuert und führt eine entsprechende Aktion aus. Der Aktor 22 kann hierbei eine (nicht notwendigerweise baulich integrierte) An steuerlogik umfassen, welches aus der Eingangsgrößen u eine Ansteuergröße er mittelt, mit der der betreffende Aktor 22 angesteuert wird.

In einem Ausführungsbeispiel wird die Regelungseinheit 3 zur Regelung eines Ver brennungsmotors als technisches System eingesetzt. Dazu können eine Drossel klappenstellung, eine Kraftstoffzufuhr, und/oder der gleichen als Eingangsgrößen dem Drosselklappensteller bzw. der Ansteuerung für Einspritzventile vorgeben werden und entsprechende Zustandsgrößen, wie beispielsweise eine Drehzahl, eine Last, eine Motortemperatur empfangen werden.

In einem Ausführungsbeispiel wird die Regelungseinheit 3 zur Regelung eines we nigstens teilautonomen Roboters, insbesondere eines wenigstens teilautonomen Kraftfahrzeugs, als technisches System 2 eingesetzt. Bei dem Sensor 21 kann es sich beispielsweise um einen oder mehrere vorzugsweise im Kraftfahrzeug ange ordnete Videosensoren und/oder einen oder mehrere Radarsensoren und/oder ei nen oder mehrere Ultraschallsensoren und/oder einen oder mehrere LiDAR-Sen- soren und/oder einen oder mehrere Positionssensoren (beispielsweise GPS) han deln. Alternativ oder zusätzlich kann der Sensor 21 auch ein Informationssystem umfassen, das eine Information über einen Zustand des technischen Systems (Kraftfahrzeug) ermittelt, wie beispielsweise ein Wetterinformationssystem, das ei nen aktuellen oder zukünftigen Zustand des Wetters in einer Umgebung des Kraft fahrzeugs ermittelt.

In einem weiteren Ausführungsbeispiel wird die Regelungseinheit 3zur Regelung einer Funktion in einem Kraftfahrzeug als technisches System eingesetzt. Dazu können eine Fahrpedalstellung, ein Lenkeingriff in Form eines Handgelenkmo ments oder einer Lenkstellung, Umgebungsinformationen, wie zum Beispiel Posi tion von Umgebungsobjekten, ein Bremseingriff und/oder dergleichen als Ein gangsgrößen vorgegeben werden und entsprechende Zustandsgrößen, die das Fahrverhalten des Kraftfahrzeugs angeben, wie beispielsweise Fahrzeugge schwindigkeit, Kurvenlage, Abstand zu Umgebungsobjekten und dergleichen emp fangen werden.

Die Regelungseinheit 3 kann mit den mehreren Messgrößen Xi . . . XD beispiels weise Zustände bzw. Zustandsverläufe des wenigstens teilautonomen Roboters detektieren, wie beispielsweise eine Motordrehzahl, eine Fahrzeuggeschwindig keit, einen Kraftstoffverbrauch, eine Motortemperatur, eine Längsgeschwindigkeit und/oder eine Quergeschwindigkeit, einen Lenkwinkel, eine Gierrate, und derglei chen. Bei dem vorzugsweise im Kraftfahrzeug angeordneten Aktor 32 kann es sich beispielsweise um eine Bremse, einen Antrieb oder eine Lenkung des Kraftfahr zeugs handeln.

Alternativ kann es sich bei dem wenigstens teilautonomen Roboter auch um einen anderen mobilen Roboter (nicht abgebildet) handeln, beispielsweise um einen sol chen, der sich durch Fliegen, Schwimmen, Tauchen oder Schreiten fortbewegt. Bei dem mobilen Roboter kann es sich beispielsweise auch um einen wenigstens teilautonomen Rasenmäher oder einen wenigstens teilautonomen Putzroboter handeln.

In noch weiteren Alternativen kann es sich bei dem wenigstens teilautonomen Ro boter auch um ein Haushaltsgerät (nicht abgebildet), insbesondere eine Wasch maschine, einen Herd, einen Backofen, eine Mikrowelle oder eine Spülmaschine handeln. Mit dem Sensor 21 , beispielsweise einem optischen Sensor, kann ein Zustand eines mit dem Haushaltsgerät behandelten Objekts erfasst werden, bei spielsweise im Falle der Waschmaschine ein Zustand von Wäsche, die in der Waschmaschine befindlich ist. Mit der Regelungseinheit 3 kann dann eine Art oder ein Zustand dieses Objekts ermittelt und durch die Messgrößen Xi . . . XD charakte risiert werden. Die Eingangsgrößen können dann derart ermittelt werden, dass das Haushaltsgerät abhängig von der ermittelten Art oder dem ermittelten Zustand des Objekts angesteuert wird. Beispielsweise kann im Falle der Waschmaschine diese abhängig davon angesteuert werden, aus welchem Material die darin befindliche Wäsche ist. Die Eingangsgrößen u(t) können dann abhängig davon gewählt wer den, welches Material der Wäsche ermittelt wurde.

In einer weiteren Ausführungsform kann die Regelungseinheit 3 zur Ansteuerung einer Fertigungsmaschine (technisches System 3) eines Fertigungssystems ver wendet werden, indem ein diese Fertigungsmaschine steuernder Aktor 22 durch Eingangsgrößen angesteuert wird. Bei der Fertigungsmaschine 11 kann es sich beispielsweise um eine Maschine zum Stanzen, Sägen, Bohren, Fräsen, Drehen und/oder Schneiden handeln. Bei dem Sensor 21 dann beispielsweise um einen optischen Sensor handeln, der z.B. Eigenschaften von Fertigungserzeugnissen erfasst. Es ist möglich, dass der die Fertigungsmaschine steuernde Aktor 22 abhängig von den ermittelten Eigen schaften des Fertigungserzeugnisses angesteuert wird, damit die Fertigungsma schine entsprechend einen nachfolgenden Bearbeitungsschritt dieses Fertigungs erzeugnisses ausführt. Es ist auch möglich, dass der Sensor 21 die Eigenschaften des von der Fertigungsmaschine bearbeiteten Fertigungserzeugnisses ermittelt, und abhängig davon eine Ansteuerung der Fertigungsmaschine für ein nachfol gendes Fertigungserzeugnis anpasst.

Die Regelung der Regelungseinheit 3 folgt einer Regelungsstrategie. Durch einen dynamischen Prozess soll die Regelungsstrategie angepasst werden, sodass das Systemverhalten bezüglich einer Qualitätsfunktion optimal wird. Dazu wird ein Op timierungsverfahren ausgeführt, dass Modellparameter des der Regelungsstrate gie zugrundeliegenden Regelungsmodell so optimiert, dass die Leistungsfähigkeit des geregelten technischen Systems 2 optimiert wird. Dazu wird ein Regelungs modell (Dynamikmodell) in einem Modellerstellungsblock 4 erstellt, das Grundlage für die Regelungsstrategie der Regelungseinheit 3 ist. Der Modellerstellungsblock 4 ermittelt die Modellparameter für das Regelungsmodell auf Grundlage eines in einem Optimierungsblock 5 ausgeführten Bayes'schen Optimierungsverfahrens. Dies erfolgt basierend auf einer vorgegebenen Qualitätsfunktion, die in einem Qua litätsfunktionsblock 6 bestimmt bzw. vorgegebene wird.

In weiteren bevorzugten Ausführungsformen sind die Regelungseinheit 3, der Mo dellerstellungsblock 4, der Optimierungsblock 5 und der Qualitätsfunktionsblock 6 in einer Recheneinheit implementiert. Die Recheneinheit umfasst das Steuergerät 2 eine Ein- oder Mehrzahl von Prozessoren und wenigstens ein maschinenlesba res Speichermedium, auf dem Anweisungen gespeichert sind, die dann, wenn sie auf den Prozessoren ausgeführt werden, die Recheneinheit veranlassen, das er findungsgemäße Verfahren auszuführen.

Das technische System 2 entspricht einem dynamischen System, das mithilfe ei ner Regelungseinheit 3 mit einer geeigneten Regelungsstrategie, die entspre chend mithilfe eines Bayes'schen Optimierungsverfahrens erstellt werden soll, in optimierter Weise geregelt wird. Das Bayes'sche Optimierungsverfahren wird ver- wendet, um das Regelungsmodell zu ermitteln, indem während des Optimierungs verfahrens verschiedene Test-Modellparametersätze iterativ zur Regelung des technischen Systems 2 angewendet und die Modellparameter basierend auf den resultierenden Zustandsgrößen angepasst werden. Dabei wird eine Qualitätsfunk tion mithilfe einer Gauß-Prozess-Regression bzw. mit einem sonstigen trainierba ren Regressionsverfahren modelliert, durch die die Leistungsfähigkeit der Rege lung des technischen Systems 2 als Funktion der Modellparameter definiert wird.

Die Leistungsfähigkeit der Regelung ergibt sich aus einem vorgegebenen Quali tätskriterium (Qualitätsmaß), das den resultierenden Zustandsgrößen (insbeson dere deren Verläufen) des technischen Systems 2 eine Güte der Regelung basie rend auf einem Vergleich mit einem gewünschten Verhalten des durch das auf den Modellparametern basierenden Regelungsmodell geregelten technischen Sys tems 2 zuweist. Die Zustandsgrößen sind toleranzbehaftet, so dass die Qualitäts funktion vorzugsweise durch eine Gauß-Prozess-Regression abgebildet wird.

Grundsätzlich betrifft das Problem, eine Regelungsstrategie aufzufinden, das ei nen Systemzustand x auf einen Eingangsgrößenvektor u = p q (c) mit p q ·. M n - M n “ abbildet, wobei Q e Q c M ne Modellparameter der Regelungsstrategie in der Modellparameterdomäne Q darstellen. Eine von den Modellparametern Q abhän gige Qualitätsfunktion J wird über einen vorbestimmten Zeithorizont t=0... T basie rend auf den Zustandsvektoren x und Eingangsgrößenvektoren u vorgegeben, wobei die Modellparameter Q durch das Optimierungsverfahren optimiert werden sollen:

wobei E einem Erwartungswert entspricht, c(x t , u t ) das Qualitätsmaß des durch den Zustandsvektor x t gegebenen Zustands bei anliegendem Eingangsgrößen vektor u t und /: M n x M n “ - M n das Zustandsübergangsmodell darstellen, das die Dynamiken des technischen Systems 2 beschreibt und das weiterhin durch die Rauschgröße n~N(0, S n ) beaufschlagt ist. Das Qualitätsmaß kann durch einen Vergleich des Systemverhaltens mit einem gewünschten Systemverhalten ermit telt werden, wobei das Qualitätskriterium eine Robustheit, eine Schwingungsnei gung, eine Einschwingzeit und eine Güte der Regelung angeben kann.

Das Bayes'sche Optimierungsverfahren dient dazu, die optimierten Modellpara meter Q* einer Regelungsstrategie durch eine Minimierung der Qualitätsfunktion (die z.B. die Kosten darstellt) aufzufinden. Alternativ können die optimierten Mo dellparameter Q* der Regelungsstrategie je nach Aussagegehalt der Qualitäts maße auch durch eine Maximierung der Qualitätsfunktion ermittelt werden. Ziel ist es, dass die Regelungsstrategie eine möglichst optimale Regelung des techni schen Systems 2 mit der Regelungseinheit 3 ermöglicht, wobei„optimal“ eine Mi nimierung/Maximierung (Optimierung) eines Qualitätsmaßes, das durch die Qua litätsfunktion abhängig von den Modellparametern bestimmt ist und eine vorgege bene Leistungsfähigkeit des Gesamtsystems aus Regelungseinheit 3 und techni sches System 2 angibt.

Die Qualitätsfunktion kann also ein Qualitätsmaß angeben, das die Abweichung des Verhaltens des realen technischen System 2 während des Zeitfensters t=0..T bezogen auf eine vorgegebene gewünschte Leistungsfähigkeit (ideales System verhalten) bewertet. Das Auswerten der Qualitätsfunktion erfordert also das Be treiben des technischen Systems 2 in der realen Umgebung in einem Vermes sungsvorgang. Durch die Notwendigkeit, das Regelungssystem, das das techni sche System 2 und die Regelungseinheit 3 umfasst, real zu betreiben, wird die Bewertung des Qualitätsmaßes des Verhaltens des technischen Systems 2 sehr aufwendig, so dass die Anzahl der Vermessungsvorgänge am realen technischen System 2 zur Bewertung einer bestimmten Regelungsstrategie möglichst minimiert werden sollte.

Es wird im Folgenden angenommen, dass die Regelungsstrategie einer Linearzu standsregelungsstrategie mit p q (c) = -K(ß)x entspricht, wobei K einer Rege lungsmatrix entspricht, deren Elemente den Modellparametern der Regelungsstra tegie entsprechen oder von solchen abhängen.

Lineare Regelungsstrategien haben den Vorteil, dass sie eine geringe Dimensio- nalität im Vergleich zu anderen Regelungsmodellen aufweisen. Weiterhin ermög- licht die lineare Regelungsstrategie, dass diese in einfacher Weise in Reglern um gesetzt werden kann und so die Effizienz der Bayes'schen Optimierung erhöht wird.

Während des Optimierungsprozesses kann es Vorkommen, dass der optimale Mo dellparametervektor nicht innerhalb der ausgewählten Modellparameterdomäne liegt. Daher kann die Modellparameterdomäne dynamisch während der Optimie rung angepasst werden.

Während des Ablaufs der Bayes'schen Optimierung liegt ein Schätzwert des Opti mums der Modellparameterwerte vor, d. h. das Minimum der angenäherten Quali tätsfunktion in der aktuellen Modellparameterdomäne. Wenn sich aus der Bayes'schen Optimierung ergibt, dass der Ort des geschätzten Optimums an einer Bereichsgrenze der Modellparameterdomäne liegt, ist es wahrscheinlich, dass bessere Modellparameter außerhalb der aktuellen Modellparameterdomäne lie gen. Daher wird vorgeschlagen, den Wertebereich desjenigen Modellparameters, dessen Wert an der Grenze der Modellparameterdomäne liegt, zu erweitern. Diese dynamische Anpassung der Modellparameterdomäne kann auf verschiedene Weise ausgeführt werden.

Die Anpassung der Wertebereiche für Modellparameter ermöglicht es, ausgehend von einem begrenzten Wertebereich diesen während der Optimierung dynamisch nur für diejenigen Dimensionen des Modellparametervektors anzupassen, bei de nen die Optimierung einen Grenzbereich der Modellparameterdomäne trifft. Dadurch kann die Optimierung insgesamt effizienter vorgenommen werden, so dass die Konvergenz erheblich verbessert wird. Weiterhin können potenzielle Mo dellfehler besser ausgeglichen werden, so dass das optimierte Systemmodell leis tungsfähiger wird. Durch die Verbesserung der Effizienz ist es möglich, die Bayes'sche Optimierung zu hochdimensionalen Regelungsstrategien zu skalieren.

Zur Veranschaulichung der Erstellung und Adaption einer Regelung eines techni schen Systems wird im Folgenden das Verfahren anhand eines Flussdiagramms der Figur 2 beschrieben. In Schritt S1 werden zunächst Daten für die Ermittlung der Qualitätsfunktion zur Bestimmung der Leistungsfähigkeit des Regelungssystems bezogen auf Modell parametersätze bereitgestellt.

D = {q ί ,·]{q ί )} mit i=1... n

Damit wird in Schritt S2 ein initiales Gaußprozessmodell als die Qualitätsfunktion trainiert, das die Testmodellparameter auf Qualitätsmaße abbildet. m(0 * ) = fc/T 1 / s 2 (0 * ) = fc(0 * , 0 * ) - kK 1 ^ wobei K der Kovarianzmatrix entspricht mit

Ki j = k(ei, e j ), k = [fc(0 ! , 0 * ) . fe(0 n , 0 * )] und J = [7(0 ! ) . ;(0 n )]

Dadurch liefert das Gaußprozessmodell sowohl den Erwartungswert, d.h. die Qua litätsmaße als auch die Unsicherheit dieses Erwartungswerts.

Es kann ebenfalls vorgesehen sein, zunächst eine initiale Modellparameterdo mäne zu bestimmen, bevor die ersten Experimente zur Ermittlung der Daten durchgeführt werden. Dadurch kann vermieden werden, dass die initialen Modell parameter nicht in der gewählten Modellparameterdomäne liegen und damit nutz los sind. Zudem besteht eine Schwierigkeit darin, die initialen Modellparameter auszuwählen, bevor die Modellparameterdomäne feststeht.

In Schritt S3 wird nun eine initiale Modellparameterdomäne ermittelt. Ziel ist es, einen geeigneten Suchbereich für die Modellparameter auszuwählen, so dass die Anzahl der Vermessungsvorgänge reduziert und das Optimierungsverfahren ins gesamt effizienter durchgeführt werden kann. Dies ist insbesondere bei hoher Di- mensionalität erforderlich. Häufig erfolgt das initiale Vorgeben der Modellparame terdomäne manuell basierend auf Expertenwissen. Auch eine automatische Be stimmung der Modellparameterdomäne ist denkbar.

In Schritt S4 wird der Optimierungsprozess gestartet. Es wird dazu ein neuer Satz von Testmodellparametern 0‘ ausgewählt, in dem eine vorgegebene Aquisitionsfunktion a(0; D n ) mit D n+1 maximiert bzw. minimiert wird. Die Aquisitionsfunktion a(0; D n ) ist so vorgegeben, dass sie eine Kombina tion aus Exploration und Exploitation nutzt, um einen neuen Testmodellparameter satz an einem Minimum oder Maximum (je nach gewählter Aquisitionsfunktion) der Aquisitionsfunktion zu ermitteln. Die Aquisitionsfunktion nutzt Parameter der als Gaußprozess-Modell erstellten Qualitätsfunktion wie z.B. den Gaußprozess-Er- wartungswert m (x) und die diesem Erwartungswert zugeordnete Gaußprozess- Standardabweichung s (x). Exploration bedeutet in dem Kontext des erfindungs gemäßen Verfahrens, dass Bereiche des möglichen Modellparameterraums für die Auswahl eines neuen Testmodellparameters bevorzugt werden, in denen durch vorangehende Vermessungsvorgänge das Verhalten des technischen Sys tems noch nicht bewertet worden sind. Exploitation in dem Kontext des erfindungs gemäßen Verfahrens bedeutet, dass ein Modellparametersatz für die nächste Be wertung des Verhaltens des technischen Systems durch einen Vermessungsvor gang ausgewählt wird, der als ein Satz optimaler Modellparameter eingeschätzt wird. q * = arg min 0 /(0); q' <— q *

Ein Beispiel für eine Aquisitionsfunktion ist die sogenannte Lower-Confidence- Bound (LCB) Aquisitionsfunktion, die wie folgt beschrieben wird: LCB(x) = m (x) - ko (x). Dieses neue Kriterium kann effizient mit gängigen gradienten basierten Methoden minimiert werden und das Minimum von LCB(x) bildet dann den neuen Auswertungspunkt für die unbekannte Funktion f bzw. das Vermessen des technischen Systems 2.

Das LCB-Kriterium ist nicht die einzige Akquisition-Funktion, die in der Literatur vorgeschlagen wurden. Andere Kriterien sind z.B. Expected Improvement (El), Up per Confidence Bound (UCB), Probability of Improvement (PI) oder sogenannte Entropy Search Methoden, die auf informations-theoretischen Überlegungen ba sieren.

In Schritt S5 wird ein Vermessungsvorgang ausgeführt und basierend auf dem Testmodellparametersatz eine Regelung des technischen Systems 2 durch die Regelungseinheit 3 während des Zeitfensters t=O... T bewertet, um entsprechend Testdaten in Form von Eingangsgrößen u und resultierende Zustandsgrößen x zu erfassen.

Basierend auf den Testdaten wird in Schritt S6 ein Qualitätsmaß ermittelt. Dies kann beispielsweise durch Vergleich des Systemverhaltens (Systemzustände) mit gewünschten Systemzuständen erreicht werden. Beispielsweise können die Re gelabweichungen der Regelung betragsmäßig integriert bzw. akkumuliert werden, um ein Qualitätsmaß zu erhalten, das die Robustheit der Regelung angibt.

In dem optionalen Schritt S7 werden die Daten zur Erstellung der Qualitätsfunktion um den Testmodellparametersatz 0‘ und das zugehörige Qualitätsmaß J(0') , d.h. die Güte der resultierenden Regelung, ergänzt und das Gaußprozessmodell, das die Qualitätsfunktion bildet, neu trainiert oder aktualisiert.

In Schritt S8 wird überprüft, ob einer der Modellparameter des Testmodellparame tersatzes auf einer Grenze der Modellparameterdomäne liegt. Ist dies der Fall (Al ternative: Ja), wird in Schritt S9 diejenige Grenze des Parameterwertebereichs, auf der einer der Modellparameter liegt, um ein Erweiterungsmaß erweitert. An dernfalls (Alternative: Nein) wird das Verfahren mit Schritt S10 fortgesetzt.

In Figur 3 ist schematisch für einen eindimensionalen Fall ein Diagramm für den Verlauf eines realen (K1) und modellierten (K2) Qualitätsmaßes abhängig von ei ner Dimension der Eingangsgrößen dargestellt. 0 j gibt den Wertebereich des betreffenden Modellparameters der Modellparameterdomäne des Optimierungs verfahrens an und der Punkt P1 den Modellparameterwert, der an einer Grenze der Modellparameterdomäne liegt. In diesem Fall wird die Modellparameterdo mäne um das Erweiterungsmaß A0 j erweitert, um den optimierten Modellpara meter P2, gekennzeichnet als Dreieck, durch nachfolgende Iterationen des Bayes'schen Optimierungsverfahrens zu erreichen.

Während des Ablaufs der Bayes'schen Optimierung liegt ein Schätzwert des Opti mums der Modellparameterwerte vor, d. h. das Minimum der angenäherten Quali tätsfunktion in der aktuellen Modellparameterdomäne 0 j . Wenn sich aus der Bayes'schen Optimierung ergibt, dass der Ort des geschätzten Optimums an einer Bereichsgrenze der Modellparameterdomäne liegt, ist es wahrscheinlich, dass bessere Modellparameter außerhalb der aktuellen Modellparameterdomäne lie gen. Daher wird vorgeschlagen, den Wertebereich desjenigen Modellparameters, dessen Wert an der Grenze der Modellparameterdomäne 0 j liegt, zu erweitern. Diese dynamische Anpassung der Modellparameterdomäne 0 j kann auf ver schiedene Weise ausgeführt werden.

Das Erweiterungsmaß A0 j kann abhängig von einem oder mehreren der folgen den Angaben angegeben sein:

dem Gradienten des Gauß-Prozess-Posterior-Mittelwerts an dem Punkt der laufenden Schätzung des Optimums n q. m aR (q * ). Der Gradient ist die Ableitung dieses Gauß-Prozess-Posterior-Mittelwerts nach dem betreffenden Modellpa rameter 0 j . Ist der Gradient an dem Grenzbereich hoch, ist der potenziell bes sere Wert des Modellparameters weiter von dem Grenzbereich entfernt, als wenn der Gradient klein ist. D.h. bei hohem Gradienten wird der Wertebereich des betreffenden Modellparameters um einen höheren Wert erweitert als bei einem kleinen Gradienten.

der Längenskala desjenigen Modellparameters, der auf einer Grenze des Mo delparameterdomäne liegt, bezogen auf den Gauß-Prozess, der die Qualitäts funktion annähert. Für große Längenskalen nimmt das Modell an, dass die Qualitätsfunktion sich nur langsam ändert und somit sollte das Maß zur Erwei terung des Wertebereichs des betreffenden Modellparameters entsprechend erhöht werden.

der Ausdehnung des Wertebereichs 0 j des betreffenden Modellparameters. Wenn der Wertebereich groß ist, ist das Maß der Erweiterung entsprechend hoch und umgekehrt.

Anschließend wird in Schritt S10 eine Abbruchbedingung überprüft also z.B. die Zeitdauer, die für die Optimierung der Qualitätsfunktion aufgewendet werden soll, oder die Anzahl der Iterationen oder ein geeignetes Konvergenzkriterium und bei Fortsetzung des Optimierungsverfahrens (Alternative: Nein) zu Schritt S4 zurück gesprungen. Andernfalls (Alternative: Ja) wird das Verfahren beendet.

Die Modellparameter der Regelungsstrategie können während des Regeln des technischen Systems 2 kontinuierlich oder zu regelmäßigen oder vorbestimmten Zeitpunkten angepasst werden, so dass sich im laufenden Betrieb die Regelung des technischen Systems 2 zusehends verbessert.

Die nachfolgende Tabelle veranschaulicht beispielhafte Einsatzbereiche des obi gen Verfahrens zum Bewerten einer Trajektorie: