Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR THE COMPUTERIZED CONTROL AND/OR REGULATION OF A TECHNICAL SYSTEM
Document Type and Number:
WIPO Patent Application WO/2014/154374
Kind Code:
A1
Abstract:
The invention concerns a method for the computerized control and/or regulation of a technical system (T). Within the context of the method according to the invention, there is implemented in a preset regulating process (CO1, CO2) an exploration rule (EP) by means of which new, as yet unknown, states (x) of the technical system (T) are started, a simulation model (SM) of the technical system (T) checking whether the actions (a2) of the exploration rule (EP) lead to sequential states (x') lying within predetermined thresholds. Only in that case is the corresponding action (a2) performed according to the exploration rule (EP) on the technical system. The method according to the invention enables new states to be explored within the framework of the operation of a technical system, it being ensured through checking of appropriate thresholds that the exploration is carried out imperceptibly and does not lead to incorrect operation of the technical system. The method according to the invention is suitable in particular for controlling or regulating gas turbines or wind turbines.

Inventors:
DÜLL SIEGMUND (DE)
UDLUFT STEFFEN (DE)
BRUMMEL HANS-GERD (DE)
SINGH JATINDER P (US)
STERZING VOLKMAR (DE)
Application Number:
PCT/EP2014/051186
Publication Date:
October 02, 2014
Filing Date:
January 22, 2014
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
SIEMENS AG (DE)
International Classes:
G05B13/02
Foreign References:
DE102010011221A12011-09-15
DE102007001024A12008-07-03
DE102007001025A12008-07-03
Other References:
MICHAEL KEARNS; SATINDER SINGH: "Near-optimal reinforcement learning in polynomial time", PROCEEDINGS OF THE 15TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING, 1998, pages 260 - 268
RONEN I. BRAFMAN; MOSHE TENNENHOLTZ: "R-max - a general polynomial time algorithm for near-optimal reinforcement learning", JOURNAL OF MACHINE LEARNING RESEARCH, vol. 3, 2003, pages 213 - 231, XP058112278, DOI: doi:10.1162/153244303765208377
ALEXANDER L. STREHL; MICHAEL L. LITTMAN: "An analysis of model-based interval estimation for markov decision processes", JOURNAL OF COMPUTER AND SYSTEM SCIENCES, vol. 74, no. 8, 2008, pages 1309 - 1331, XP025648416, DOI: doi:10.1016/j.jcss.2007.08.009
Download PDF:
Claims:
Patentansprüche

1. Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems (T) , wobei die Steuerung und/oder Regelung zu jeweiligen Zeitpunkten Aktionen (a) umfassend eine oder mehrere Aktionsvariablen am technischen System (T) in Abhängigkeit von einem oder mehreren Zuständen (x) des technischen Systems (T) umfassend jeweils eine oder mehrere Zustandsvariablen ausführt, wobei:

a) ein vorgegebenes Regelverfahren (COl, C02) zu jeweiligen Zeitpunkten in Abhängigkeit von zumindest dem Zustand (x) des technischen Systems (T) zum jeweiligen Zeitpunkt am technischen System (T) auszuführende erste Aktionen (al) bestimmt ;

b) zumindest eine Explorationsregel (EP) in Abhängigkeit von zumindest dem Zustand (x) des technischen Systems (T) zum jeweiligen Zeitpunkt eine oder mehrere zweite, am techni¬ schen System (T) auszuführende Aktionen (a2) bestimmt; c) basierend auf einem Simulationsmodell (SM) des techni- sehen Systems (T) für jede zweite Aktion (a2) eine Menge von daraus resultierenden Folgezuständen ( χ ' ) des technischen Systems (T) prädiziert wird;

d) für jede Menge von Folgezuständen ( χ ' ) überprüft wird, ob die jeweilige Menge von Folgezuständen ( χ ' ) ein vorgege- benes Schwellwertkriterium erfüllt, welches einzuhaltende

Schwellen für zumindest einen Teil der Zustandsvariablen der jeweiligen Menge von Folgezuständen ( χ ' ) festlegt; e) falls eine oder mehrere Mengen von Folgezuständen ( χ ' ) das Schwellwertkriterium erfüllen, dem vorgegebenen Re- gelverfahren (COl, C02) eine zweite Aktion (a2) zugeführt wird, für welche die prädizierte Menge von Folgezuständen ( χ ' ) das Schwellwertkriterium erfüllt, woraufhin das vorgegebene Regelverfahren (COl, C02) als Aktion die zuge¬ führte zweite Aktion (a2) anstatt der ersten Aktion (al) oder die in Schritt a) bestimmte erste Aktion (al) in

Kombination mit der zweiten Aktion (a2) am technischen System (T) ausführt.

2. Verfahren nach Anspruch 1, bei dem im Falle, dass keine der Mengen von Folgezuständen ( χ ' ) in Schritt e) das Schwell¬ wertkriterium erfüllt, das vorgegebene Regelverfahren (COl, C02) die in Schritt a) bestimmte erste Aktion (al) ausführt und/oder eine oder mehrere modifizierte zweite Aktionen (a2) bestimmt werden, für welche die Schritte c) bis e) durchge¬ führt werden, und/oder nochmals die Schritte b) bis e) durch¬ geführt werden.

3. Verfahren nach Anspruch 1 oder 2, bei dem die in Schritt b) bestimmten zweiten Aktionen (a2) jeweils eine Variation der in Schritt a) bestimmten ersten Aktion (al) darstellen und in Schritt e) am technischen System (T) als Aktion (a) die mittels der Variation der zugeführten zweiten Aktion (a2) variierte erste Aktion (al) ausgeführt wird.

4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Schwellwertkriterium für zumindest einen Teil der Zu- standsvariablen der Folgezustände ( χ ' ) jeweilige Werteberei¬ che angibt, innerhalb derer die Werte dieser Zustandsvariab- len liegen müssen.

5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die Wertebereiche von den Werten der Zustandsvariablen der

Folgezustände ( χ ' ) abhängen und insbesondere eine prozentuale Abweichung von diesen Werten definieren.

6. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die zumindest eine Explorationsregel (EP) eine oder mehrere der folgenden Regeln umfasst:

eine Regel, welche die zweite Aktion (a2) zufällig aus¬ wählt;

eine Regel, welche auf Expertenwissen basiert;

- eine ε-Greedy-Regel .

7. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Simulationsmodell (SM) mit einem maschinellen Lernverfahren gelernt ist und insbesondere auf einem gelernten neurona¬ len Netz, vorzugsweise einem rekurrenten neuronalen Netz, ba- siert.

8. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das vorgegebene Regelverfahren eines der folgenden Verfahren ist :

- ein tabellen-basiertes Regelverfahren (COl), in dem mit¬ tels einer Tabelle jeweilige Zustände (x) des techni¬ schen Systems (T) ersten Aktionen (al) zugeordnet sind; eine mit einem maschinellen Lernverfahren gelernte Aktionsauswahlregel (C02);

- eine Kombination aus einem tabellen-basierten Regelverfahren (COl) und einer mit einem maschinellen Lernverfahren gelernten Aktionsauswahlregel (C02), wobei die Aktionsauswahlregel vorzugsweise eine Variation einer mit dem tabellen-basierten Regelverfahren (COl) bestimm- ten Aktion (aO) angibt und die erste Aktion (al) vor¬ zugsweise die mittels der Variation variierte Aktion des tabellen-basierten Regelverfahrens (COl) ist.

9. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das technische System (T) eine Gasturbine und/oder Windturbi¬ ne ist.

10. Verfahren nach Anspruch 9, bei dem ein Zustand (x) der Gasturbine eine oder mehrere der folgenden Zustandsvariablen umfasst:

die Temperatur und/oder den Druck an einer oder mehreren Stellen an der Gasturbine, insbesondere die Umgebungstem¬ peratur und/oder den Umgebungsdruck und/oder die Kompressortemperatur und/oder den Kompressordruck und/oder die Temperatur in der Brennkammer und/oder den Druck in der

Brennkammer; die Luftfeuchtigkeit an einer oder mehreren Stellen an der Gasturbine;

Brennkammerbeschleunigungen in der Gasturbine;

die Schadstoffemission der Gasturbine, insbesondere die Stickoxid-Emission;

die durch die Gasturbine erzeugte Leistung.

11. Verfahren nach Anspruch 9 oder 10, bei dem die Aktionsvariable oder Aktionsvariablen der an der Gasturbine auszufüh- renden ersten und/oder zweiten Aktionen (a) eine Veränderung der Einstellung von einem oder mehreren Kraftstoff-Einspritzventilen und/oder eine Veränderung der Position von einer o- der mehreren Schaufeln und/oder eine Veränderung von einem oder mehreren Kühlluftströmen in der Gasturbine umfassen.

12. Verfahren nach Anspruch 10 oder 11, bei dem die Zustands- variable oder Zustandsvariablen in Schritt d) , für welche einzuhaltende Schwellen festgelegt sind, die Brennkammerbe¬ schleunigungen in der Gasturbine und/oder die Schadstoffemis- sion der Gasturbine umfassen.

13. Verfahren nach einem der Ansprüche 9 bis 12, bei dem ein Zustand (x) der Windturbine eine oder mehrere der folgenden Zustandsvariablen umfasst:

die Temperatur und/oder den Druck und/oder die Luftfeuchtigkeit an einer oder mehreren Stellen an der Windturbine, insbesondere die Umgebungstemperatur und/oder den Umgebungsdruck und/oder die Umgebungsluftfeuchtigkeit;

die Windstärke an der Windturbine;

die Amplitude der Turmschwingungen der Windturbine;

die mechanische Belastung der Rotorblätter der Windturbine ;

die durch die Windturbine erzeugte Leistung. 14. Verfahren nach einem der Ansprüche 9 bis 13, bei dem die Aktionsvariable oder Aktionsvariablen der an der Windturbine auszuführenden ersten und/oder zweiten Aktionen (a) eine Ver- änderung der Anstellwinkel der Rotorblätter des Rotors der Windturbine und/oder eine Veränderung der Ausrichtung des Rotors der Windturbine zum Wind umfassen. 15. Verfahren nach Anspruch 13 oder 14, bei dem die Zustands- variable oder Zustandsvariablen in Schritt d) , für welche einzuhaltende Schwellen festgelegt sind, die Amplitude der Turmschwingungen der Windturbine und/oder die mechanische Be¬ lastung der Rotorblätter der Windturbine umfassen.

16. Computerprogrammprodukt mit einem auf einem maschinenles¬ baren Träger gespeicherten Programm zur Durchführung eines Verfahrens nach einem der vorhergehenden Ansprüche, wenn das Programm auf einem Rechner abläuft.

Description:
Beschreibung

Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems

Die Erfindung betrifft ein Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems sowie ein entsprechendes Computerprogrammprodukt Zur Steuerung bzw. Regelung von technischen Systemen sind aus dem Stand der Technik verschiedene rechnergestützte Verfahren bekannt. Diese Verfahren geben für einen aktuellen Zustand des technischen Systems an, welche Aktion am technischen System auszuführen ist. Ein Zustand wird dabei durch eine Anzahl von Zustandsvariablen und eine Aktion durch eine Anzahl von Aktionsvariablen beschrieben. Neben einfachen tabellenbasierten Reglern, welche Zuständen des technischen Systems über eine Tabelle entsprechende Aktionen zuordnen, gibt es auch Regler, deren Aktionsauswahlregel mit einem maschinellen Lernverfahren gelernt wurde, z.B. basierend auf einem rekurrenten neuronalen Netz. Ein Anwendungsfall solcher Regler sind Gasturbinen, um Parameter der Turbine, wie Wirkungsgrad, Brennkammerdynamik, Schadstoffemissionen, zu optimieren. Ein weiterer Anwendungsfall dieser Regler ist die Steuerung einer Windturbine, wobei in diesem Fall z.B. der Verschleiß und der Wirkungsgrad optimiert werden.

Zur Realisierung von maschinell gelernten Aktionsauswahlre ¬ geln sind Trainingsdaten erforderlich, welche für eine Viel- zahl von Zuständen und in diesen Zuständen durchgeführten Aktionen entsprechende Folgezustände spezifizieren. Zur Gene ¬ rierung von neuen Trainingsdaten ist es erforderlich, dass das technische System in noch unbekannten Zuständen betrieben wird. Dabei ist jedoch sicherzustellen, dass diese neuen Zu- stände den Betrieb des technischen Systems nicht stören bzw. stark verschlechtern und insbesondere nicht zu Fehlfunktionen des technischen Systems führen. Aufgabe der Erfindung ist es deshalb, ein Verfahren zur Steuerung und/oder Regelung eines technischen Systems zu schaffen, mit dem neue Zustände des technischen Systems exploriert werden können, ohne dass der Betrieb des technischen Systems beeinträchtigt wird.

Diese Aufgabe wird durch die unabhängigen Patentansprüche ge ¬ löst. Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen definiert.

Das erfindungsgemäße Verfahren dient zur Steuerung und/oder Regelung eines technischen Systems, wobei die Steuerung bzw. Regelung zu jeweiligen Zeitpunkten Aktionen umfassend eine oder mehrere Aktionsvariablen am technischen System in Abhängigkeit von einem oder mehreren Zuständen des technischen Systems umfassend jeweils eine oder mehrere Zustandsvariablen ausführt . Im Rahmen des erfindungsgemäßen Verfahrens bestimmt in einem Schritt a) ein vorgegebenes Regelverfahren zu jeweiligen Zeitpunkten in Abhängigkeit von zumindest dem Zustand des technischen Systems zum jeweiligen Zeitpunkt (d.h. gegebenenfalls auch in Abhängigkeit von Zuständen zu früheren Zeit- punkten) am technischen System auszuführende erste Aktionen.

Gemäß einem Schritt b) bestimmt zumindest eine Explorations ¬ regel in Abhängigkeit von zumindest dem Zustand des techni ¬ schen Systems zum jeweiligen Zeitpunkt eine oder mehrere zweite, am technischen System auszuführende Aktionen. Bei mehreren Explorationsregeln ermittelt jede Explorationsregel separat eine zweite Aktion. Die Explorationsregeln können beliebig festgelegt sein, und weiter unten werden Beispiele solcher Regeln gegeben. Gemäß der Explorationsregel werden nach bestimmten Kriterien zweite Aktionen festgelegt, mit denen Zustände des technischen Systems angefahren werden. In einem Schritt c) wird basierend auf einem Simulationsmo ¬ dell des technischen Systems für jede zweite Aktion eine Men ¬ ge von daraus resultierenden Folgezuständen des technischen Systems prädiziert. Solche Simulationsmodelle sind an sich aus dem Stand der Technik bekannt. Der Begriff der Menge von Folgezuständen ist weit zu verstehen und kann gegebenenfalls auch nur einen Folgezustand zu dem Zeitpunkt umfassen, der direkt auf dem jeweiligen (aktuellen) Zeitpunkt folgt. Vorzugsweise umfasst die Menge von Folgezuständen jedoch mehrere zukünftige Folgezustände. Beispielsweise können die Folgezu ¬ stände für ein vorbestimmtes zukünftiges Zeitintervall mit dem Simulationsmodell prädiziert werden.

In einem Schritt d) wird für jede Menge der in Schritt c) prädizierten Folgezustände überprüft, ob die jeweilige Menge von Folgezuständen ein vorgegebenes Schwellwertkriterium erfüllt, welches einzuhaltende Schwellen für zumindest einen Teil der Zustandsvariablen der jeweiligen Menge von Folgezuständen festlegt.

Falls in einem Schritt e) eine oder mehrere Mengen von Folge ¬ zuständen das Schwellwertkriterium erfüllen, wird dem vorgegebenen Regelverfahren eine zweite Aktion zugeführt, für welche die prädizierte Menge von Folgezuständen das Schwellwert- kriterium erfüllt. Sofern es mehrere solcher zweiter Aktionen gibt, können wiederum entsprechende Kriterien festgelegt sein, mit denen spezifiziert wird, welche dieser zweiten Ak ¬ tionen dem Regelverfahren zugeführt werden. Steht die Exploration des Zustandsraums im Vordergrund, werden vorzugsweise solche zweiten Aktionen dem Regelverfahren zugeführt, deren Folgezustände in der Nähe der entsprechenden Schwellen liegen. Steht die Sicherheit des Betriebs des technischen Sys ¬ tems im Vordergrund, werden eher solche zweiten Aktionen dem Regelverfahren zugeführt, deren Folgezustände weit entfernt von den entsprechenden Schwellen des Schwellwertkriteriums sind. Schließlich führt das vorgegebene Regelverfahren als Aktion die zugeführte zweite Aktion anstatt der ersten Aktion oder die in Schritt a) bestimmte erste Aktion in Kombination mit der zweiten Aktion am technischen System aus.

Das erfindungsgemäße Verfahren ermöglicht die Implementierung einer Explorationsregel im geregelten bzw. gesteuerten Betrieb eines technischen Systems, wobei gleichzeitig durch Festlegung entsprechender Schwellwerte für Zustandsvariablen von über ein Simulationsmodell prädizierten Folgezuständen gewährleistet ist, dass der Betrieb des technischen Systems nicht negativ beeinflusst wird und somit neue Zustände un ¬ merklich im Rahmen des Betriebs des technischen Systems angefahren werden. Hierdurch werden neue Trainingsdaten basierend auf den neuen Zuständen mit den in diesen Zuständen ausgeführten Aktionen und den Folgezuständen generiert, welche zu einem späteren Zeitpunkt zum maschinellen Lernen von Simulationsverfahren bzw. Regelverfahren genutzt werden können. Im Betrieb des technischen System werden demzufolge die in

Schritt e) ausgeführten Aktionen in Kombination mit dem entsprechenden Zustand und dem sich real ergebenden Folgezustand gespeichert bzw. ausgegeben.

Je nach Ausgestaltung können im Falle, dass keine der Mengen von Folgezuständen in Schritt e) das Schwellwertkriterium erfüllen, bestimmte Maßnahmen eingeleitet werden. In einem Fall führt das vorgegebene Regelverfahren die in Schritt a) be ¬ stimmte erste Aktion aus. Ebenso können eine oder mehrere mo ¬ difizierte Aktionen bestimmt werden, für welche die oben be ¬ schriebenen Schritte c) bis e) durchgeführt werden. Das Kri ¬ terium, wie modifizierte zweite Aktionen bestimmt werden, kann beliebig festgelegt sein. Beispielsweise kann ein Pro ¬ zentsatz spezifiziert werden, mit dem eine ursprünglich in Schritt b) ermittelte zweite Aktion abgeändert wird. In einer weiteren Variante werden die Schritte b) bis e) des Verfah ¬ rens nochmals durchgeführt. Dies ist beispielsweise dann sinnvoll, wenn die Explorationsregel zufällig ist und für den gleichen Zustand nicht immer die gleiche zweite Aktion be- stimmt bzw. wenn bei der nochmaligen Ausführung der Schritte b) bis e) andere Explorationsregeln verwendet werden.

In einer besonders bevorzugten Ausführungsform stellen die in Schritt b) bestimmten zweiten Aktionen eine Variation der in Schritt a) bestimmten ersten Aktionen dar. Dabei wird in Schritt e) am technischen System als Aktion die mittels der Variation der zugeführten zweiten Aktion variierte erste Aktion ausgeführt. Die Exploration des Zustandsraums ist somit nach Art einer Offset-Regelung realisiert, welche entspre ¬ chende erste Aktionen gegebenenfalls verändert. Nichtsdesto ¬ trotz besteht auch die Möglichkeit, dass die zweite Aktion derart definiert ist, dass sie bei deren Verwendung die erste Aktion ersetzt.

In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens gibt das Schwellwertkriterium für zumindest einen Teil der Zustandsvariablen der Folgezustände jeweilige Werteberei ¬ che an, innerhalb derer die Werte dieser Zustandsvariablen liegen müssen. Die Wertebereiche können dabei absolut festge ¬ legt sein, jedoch gegebenenfalls auch von den Werten der Zustandsvariablen der Folgezustände abhängen und insbesondere eine prozentuelle Abweichung von diesen Werten definieren. Wie bereits oben erwähnt, kann die zumindest eine Explorati- onsregel je nach Ausgestaltung des Verfahrens unterschiedlich festgelegt sein. Insbesondere kann die zumindest eine Explo- rationsregel eine oder mehrere der folgenden Regeln umfassen: eine Regel, welche die zweite Aktion zufällig auswählt; - eine Regel, welche auf Expertenwissen basiert;

eine ε-Greedy-Regel .

Ebenso können die in den Druckschriften [1] bis [3] beschrie benen Explorationsregeln eingesetzt werden.

In einer weiteren Ausgestaltung des erfindungsgemäßen Verfah rens ist das Simulationsmodell mit einem maschinellen Lern- verfahren gelernt und basiert insbesondere auf einem gelern ¬ ten neuronalen Netz, vorzugsweise einem rekurrenten neuronalen Netz. Solche Simulationsmodelle sind hinlänglich aus dem Stand der Technik bekannt (siehe z.B. Druckschrift [4]).

Das vorgegebene Regelverfahren, welches im Rahmen der Erfindung verwendet wird, kann beliebig ausgestaltet sein. Insbe ¬ sondere werden hierbei an sich bekannte Regelverfahren verwendet. Vorzugsweise ist das vorgegebene Regelverfahren eines der folgenden Verfahren:

ein tabellen-basiertes Regelverfahren, in dem mittels einer Tabelle jeweilige Zustände des technischen Systems den ersten Aktionen zugeordnet sind;

eine mit einem maschinellen Lernverfahren gelernte Aktionsauswahlregel, z.B. basierend auf dem Verfahren der Druckschrift [4];

eine Kombination aus einem tabellen-basierten Regelverfahren und einer mit einem maschinellen Lernverfahren gelernten Aktionsauswahlregel, wobei die Aktionsauswahl ¬ regel vorzugsweise eine Variation einer mit dem tabel ¬ len-basierten Regelverfahren bestimmten Aktion angibt und die erste Aktion vorzugsweise die mittels der Varia ¬ tion variierte Aktion des tabellen-basierten Regelverfahrens ist.

Das erfindungsgemäße Verfahren eignet sich insbesondere zur Steuerung bzw. Regelung einer Gasturbine und/oder Windturbine. Vorzugsweise umfasst dabei ein Zustand der Gasturbine ei ¬ ne oder mehrere der folgenden Zustandsvariablen :

die Temperatur und/oder den Druck an einer oder mehreren Stellen an der Gasturbine, insbesondere die Umgebungs ¬ temperatur und/oder den Umgebungsdruck und/oder die Kompressortemperatur und/oder den Kompressordruck und/oder die Temperatur in der Brennkammer und/oder den Druck in der Brennkammer;

die Luftfeuchtigkeit an einer oder mehreren Stellen an der Gasturbine; Brennkammerbeschleunigungen in der Gasturbine;

die Schadstoffemission der Gasturbine, insbesondere die

Stickoxid-Emission;

die durch die Gasturbine erzeugte Leistung.

Im Falle einer Gasturbine umfassen die Aktionsvariable bzw. Aktionsvariablen der an der Gasturbine auszuführenden ersten und/oder zweiten Aktionen vorzugsweise eine Veränderung der Einstellung von einem oder mehreren Kraftstoff-Einspritzven- tilen und/oder eine Veränderung der Position von einer oder mehreren Schaufeln, insbesondere von Vorleitschaufein, und/oder eine Veränderung von einem oder mehreren Kühlluftströmen in Gasturbinen. Um einen ungestörten Betrieb einer Gasturbine im Rahmen der erfindungsgemäßen Exploration des Zustandsraums zu gewährleisten, sind die Zustandsvariable oder Zustandsvariablen in Schritt d) , für welche einzuhaltende Schwellen festgelegt sind, vorzugsweise die Brennkammerbeschleunigungen in der Gasturbine und/oder die Schadstoffemission der Gasturbine.

Im Falle eines technischen Systems in der Form einer Windturbine umfasst ein Zustand der Windturbine vorzugsweise eine oder mehrere der folgenden Zustandsvariablen:

- die Temperatur und/oder den Druck und/oder die Luftfeuchtigkeit an einer oder mehreren Stellen an der Windturbine, insbesondere die Umgebungstemperatur und/oder den Umgebungsdruck und/oder die Umgebungsluftfeuchtig ¬ keit;

- die Windstärke an der Windturbine;

die Amplitude der Turmschwingungen der Windturbine;

die mechanische Belastung der Rotorblätter der Windturbine ;

die durch die Windturbine erzeugte Leistung.

Im Falle einer Windturbine umfassen die Aktionsvariable oder Aktionsvariablen der an der Windturbine auszuführenden ersten und/oder zweiten Aktionen vorzugsweise eine Veränderung der Anstellwinkel der Rotorblätter des Rotors der Windturbine und/oder eine Veränderung der Ausrichtung des Rotors der Windturbine zum Wind.

Ein ungestörter Betrieb der Windturbine im Rahmen des erfindungsgemäßen Verfahrens wird insbesondere dann gewährleistet, wenn die Zustandsvariable oder Zustandsvariablen in Schritt d) , für welche einzuhaltende Schwellen festgelegt sind, die Amplitude der Turmschwingungen der Windturbine und/oder die mechanische Belastung der Rotorblätter der Windturbine umfas ¬ sen .

Neben dem oben beschriebenen Verfahren betrifft die Erfindung ferner ein Computerprogrammprodukt mit einem auf einem ma ¬ schinenlesbaren Träger gespeicherten Programm zur Durchführung des erfindungsgemäßen Verfahrens bzw. einer oder mehrerer bevorzugter Varianten des erfindungsgemäßen Verfahrens, wenn das Programm auf einem Rechner abläuft.

Ein Ausführungsbeispiel der Erfindung wird nachfolgend anhand der beigefügten Fig. 1 detailliert beschrieben. Diese Figur zeigt eine schematische Darstellung des Ablaufs einer Ausfüh ¬ rungsform des erfindungsgemäßen Verfahrens.

Die Erfindung wird gemäß Fig. 1 anhand der Steuerung eines technischen Systems T in der Form einer Gasturbine erläutert. Im linken Teil PI der Fig. 1 ist dabei eine Ausführungsform des erfindungsgemäßen Regelverfahrens wiedergegeben, welches online im Betrieb der Gasturbine durchgeführt wird. Demgegen ¬ über sind im rechten Teil P2 der Fig. 1 Verfahrensschritte wiedergegeben, mit denen Teile des Verfahrens im Abschnitt PI erzeugt werden. Die Verfahrensschritte im Abschnitt P2 werden dabei offline (d.h. nicht im Betrieb des technischen Systems) durchgeführt und stellen in diesem Sinne vorbereitende

Schritte zur Implementierung des erfindungsgemäßen Verfahrens auf einer Gasturbine dar. Das Steuerverfahren der Turbine im Abschnitt PI umfasst ein herkömmliches Regelverfahren basierend auf einem ersten Reg ¬ ler COl sowie einem zweiten Regler C02. Der erste Regler COl ist in an sich bekannter Weise als tabellen-basierter Regler realisiert und gibt für einen Zustand x der Gasturbine zum aktuellen Zeitpunkt eine an der Turbine auszuführende Aktion aO aus. Dabei sind in der Tabelle für entsprechende Zustände die hierfür auszuführenden Aktionen hinterlegt. Der zweite Regler C02 ist in der Form einer gelernten Aktionsauswahlregel realisiert. Die Zustände der Gasturbine umfassen dabei eine oder mehrere der oben beschriebenen Zustandsvariablen einer Gasturbine und die Aktionen betreffen die Veränderungen von einer oder mehreren Stellgrößen der Gasturbine. Diese Stellgrößen sind vorzugsweise die Veränderung der Einstellung von KraftstoffVerhältnissen über eine oder mehrere Kraftstoff-Einspritzventile sowie die Veränderung der Position von Schaufeln in der Gasturbine und insbesondere von Vorleit- schaufeln, wie ebenfalls im Vorangegangenen beschrieben wur- de.

Gemäß Fig. 1 ermittelt der Regler COl somit durch Zugriff auf eine Tabelle ausgehend von aktuellen Zustand x der Gasturbine eine Aktion aO . Der aktuelle Zustand x und die Aktion aO wer- den dem Regler C02 in der Form einer gelernten Aktionsauswahlregel zugeführt. Diese Regel umfasst ein Simulationsmo ¬ dell SM der Gasturbine, die das dynamische Verhalten der Tur ¬ bine modelliert. Dieses Simulationsmodell wechselwirkt mit einer Steuerregel CP, welche in Abhängigkeit von dem aktuel- len Zustand x der Gasturbine eine optimale erste Aktion al unter Berücksichtigung der Aktion aO ermittelt, wobei die Op- timalität einer Aktion basierend auf einer geeigneten Reward- Funktion festgelegt ist. Das Simulationsmodell SM wurde vorab über ein neuronales Netz NN gelernt, welches auf eine Daten- bank DB zugreift, in der Trainingsdaten in der Form von vormals vom technischen System eingenommenen Zuständen x, in diesen Zuständen ausgeführten Aktionen a und daraus resultie- renden Folgezuständen x' hinterlegt sind. Ebenso wurde die Steuerregel CP über einen Kontrollgenerator CG generiert, der auf die Trainingsdaten aus der Datenbank DB zugreift. Der Regler C02 gibt somit in Abhängigkeit von einer aktuellen Aktion x eine am technischen System durchzuführende Aktion al aus. Solche Arten von Reglern sind an sich aus dem Stand der Technik bekannt und werden deshalb nicht im Detail beschrie ¬ ben. Insbesondere kann der Regler C02 auf einem rekurrenten neuronalen Netz basieren, wie dies beispielsweise in der

Druckschrift [4] beschrieben ist. In der hier beschriebenen Ausführungsform des Reglers ist dieser als sog. Offset-Regler realisiert, der einen Offset bzw. eine Variation angibt, die zu der Aktion aO hinzuaddiert wird, wodurch die erste Aktion al erhalten wird. Herkömmlicherweise wird diese Aktion al dem Regler COl zugeführt, der diese Aktion dann als Aktion a am technischen System ausführt. Die von der Gasturbine eingenommenen Zustände x sowie die in diesen Zuständen ausgeführten Aktionen a mit daraus resultierenden Folgezuständen x' werden in der bereits oben erwähnten Datenbank DB hinterlegt, welche wiederum zum Lernen des neuronalen Netzes NN bzw. des Kontrollgenerators CG genutzt werden kann.

Im Rahmen des erfindungsgemäßen Verfahrens ist als weiteres Modul ein sog. Explorationsmodul EM vorgesehen, welches bei

Bedarf zugeschaltet werden kann und somit im Rahmen der Regelung der Gasturbine verwendet werden kann. Beim Zuschalten des Explorationsmoduls wird die erste Aktion al nicht mehr direkt dem Regler COl zugeführt, sondern sie wird dem Explo- rationsmodul EM und dort dem Aktionsauswahl-Modul AS überge ¬ ben. Ferner erhält das Explorationsmodul den aktuellen Zu ¬ stand x der Gasturbine. Das Explorationsmodul EM dient dazu, den Raum der Zustände der Gasturbine zu explorieren, d.h. nach Zuständen zu suchen, welche von der Gasturbine noch nicht eingenommen wurden. Da dieses Modul im laufenden Betrieb des technischen Systems eingesetzt wird, ist sicherzu ¬ stellen, dass die Exploration von neuen Zuständen unmerklich erfolgt. Das heißt, die neuen Zustände müssen derart gewählt sein, dass der Betrieb der Gasturbine nicht merklich ver ¬ schlechtert wird. Insbesondere sollten die Schadstoffemissio ¬ nen bzw. die Brennkammerbeschleunigungen und damit das Brenn- kammerbrummen nicht zu sehr ansteigen.

In dem Explorationsmodul EM ist eine Explorationsregel EP hinterlegt, die je nach Ausgestaltung unterschiedlich festgelegt sein kann. Die Explorationsregel gibt dabei basierend auf dem aktuellen Zustand x der Gasturbine eine zweite Aktion a2 an, bei der es sich wiederum um einen Offset bzw. eine Variation handelt, welche im Falle, dass die Explorationsregel zur Anwendung kommt, zu der ersten Aktion al hinzuaddiert wird. Die Explorationsregel kann je nach Anwendungsfall auf verschiedene Art und Weise realisiert sein. Insbesondere kann sie zufällig ausgehend vom aktuellen Zustand x eine zweite Aktion a2 bestimmen. Ebenso kann die Explorationsregel basie ¬ rend auf den Verfahren der Druckschriften [1] bis [3] festgelegt sein bzw. eine an sich bekannte ε-Greedy-Exploration sein. Ebenso kann die Explorationsregel gegebenenfalls durch Expertenwissen festgelegt sein.

Die mit der Explorationsregel ermittelte zweite Aktion a2 wird dem Aktions-Auswahl-Modul AS zugeführt, welches mit ei- nem Simulationsmodell SM der Gasturbine wechselwirkt. Dieses Simulationsmodell entspricht dem Simulationsmodell des Reg ¬ lers C02 und wurde über das Lernen des neuronalen Netzes NN bestimmt. In dem Aktions-Auswahl-Modul AS wird nunmehr mit ¬ tels des Simulationsmodells SM ermittelt, zu welchen Folgezu- ständen x' des technischen Systems die Anwendung der mit der Aktion a2 variierten Aktion al führt. Dabei werden die Folgezustände für ein vorbestimmtes zukünftiges Zeitintervall be ¬ trachtet .

In dem Aktions-Auswahl-Modul AS sind vorbestimmte Wertebere che für bestimmte Zustandsvariablen der Folgezustände der Gasturbine hinterlegt. Insbesondere ist dabei ein oberer Schwellwert für das Brennkammerbrummen bzw. die Stickoxid- Emissionen festgelegt. Wird dieser Schwellwert der Zustands- variablen durch zumindest einen der Folgezustände überschrit ¬ ten, ist die zweite Aktion a2 nicht zulässig. In diesem Fall wird durch das Aktions-Auswahl-Modul die ursprünglich ermit ¬ telte Aktion al an den Regler COl gegeben, der dann diese Aktion ausführt. Werden demgegenüber die entsprechenden

Schwellwerte der Zustandsvariablen der Folgezustände nicht überschritten, wird dem Regler COl neben der Aktion al die durch die Explorationsregel EP ermittelte zweite Aktion a2 zugeführt. Der Regler führt dann die Summe der beiden Aktio ¬ nen aus. Auf diese Weise wird sichergestellt, dass eine Ex ¬ ploration des Zustandsraums der Gasturbine hin zu neuen Zu ¬ ständen nur dann durchgeführt wird, wenn bestimmte Grenzwerte der Schadstoffemission und des Brennkammerbrummens nicht überschritten werden, so dass der Betrieb der Gasturbine nicht durch die Exploration beeinträchtigt wird. Die Explora ¬ tion erfolgt somit unmerklich und wird durch den Operator der Gasturbine nicht wahrgenommen.

In Abwandlungen des soeben beschriebenen Verfahrens können gegebenenfalls auch mehrere Explorationsregeln EP in dem Ex- plorationsmodul EM hinterlegt sein. Dabei werden mehrere zweite Aktionen a2 durch die Explorationsmodule bestimmt und anschließend alle zweiten Aktionen ermittelt, deren Folgezu ¬ stände innerhalb der entsprechenden Grenzwerte der Zustands ¬ variablen liegen. Aus diesen zweiten Aktionen wird dann eine Aktion gemäß einem vorbestimmten Kriterium ausgewählt. Dies kann beispielsweise die Aktion sein, welche zu Folgezuständen führt, deren Zustandsvariablen am weitesten von den Schwellwerten entfernt sind, wenn die Priorität auf einen sicheren Betrieb des technischen Systems gerichtet ist. Ist demgegen ¬ über die Priorität eine gute Exploration des Zustandsraums, kann auch diejenige zweite Aktion a2 verwendet werden, welche zu Folgezuständen führt, deren Zustandsvariablen am nächsten zu den entsprechenden Grenzwerten liegen. Das Explorationsmo- dul EM kann gegebenenfalls auch in einem Regelverfahren ein- gesetzt werden, welches nur den tabellen-basierten Regler COl verwendet. In diesem Fall entspricht die erste Aktion der Ak ¬ tion aO, die an das Explorationsmodul EM gegeben wird und dort analog wie im Vorangegangenen beschrieben verarbeitet wird .

Die im Vorangegangenen beschriebene Ausführungsform des erfindungsgemäßen Verfahrens weist eine Reihe von Vorteilen auf. Insbesondere wird im Rahmen eines geregelten Betriebs eines technischen Systems unmerklich auch eine Exploration des Zustandsraums des technischen Systems zu neuen Zuständen erreicht. Diese neuen Zustände samt der darin ausgeführten Aktionen und den Folgezuständen erweitern somit die Menge an Daten über das technische System, die als Trainingsdaten in entsprechenden Verfahren zum Lernen von Simulationsmodellen bzw. Aktionsauswahlregeln des technischen Systems genutzt werden können. Im Rahmen der Exploration wird dabei sichergestellt, dass diese nicht zu unerwünschten Betriebszuständen des technischen Systems führt, welche unter Umständen Warnungen oder Alarme auslösen. Vielmehr ist die Exploration durch die Festlegung entsprechender Schwellwerte derart ausgestal ¬ tet, dass sie unmerklich erfolgt und den Betrieb des techni ¬ schen Systems nicht negativ beeinflusst.

Literaturverzeichnis :

[1] Michael Kearns and Satinder Singh, "Near-optimal rein- forcement learning in polynomial time", in Proceedings of the 15th International Conference on Machine Learn ¬ ing, pp. 260--268, (1998) .

[2] Ronen I. Brafman and Moshe Tennenholtz, "R-max - a gen- eral polynomial time algorithm for near-optimal rein- forcement learning", Journal of Machine Learning Re ¬ search, 3, 213--231, (2003) .

[3] Alexander L. Strehl and Michael L. Littman, "An analysis of model-based interval estimation for markov decision processes.", Journal of Computer and System Sciences, 74 (8) , 1309— 1331, (2008) .

[4] DE 10 2007 001 025 AI