Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR THE COMPUTERIZED CONTROL AND/OR REGULATION OF A TECHNICAL SYSTEM
Document Type and Number:
WIPO Patent Application WO/2014/154375
Kind Code:
A1
Abstract:
The invention concerns a method for the computerized control and/or regulation of a technical system. Within the context of the method according to the invention, an action-selection rule (PO') is determined which has a low level of complexity and yet is well suited to the regulating and/or control of the technical system, there being used for determination of the action-selection rule (PO') an evaluation measure (EM) which is determined on the basis of a distance measure and/or a reward measure and/or an action-selection rule evaluation method. The action-selection rule is then used to control and/or regulate the technical system. The method according to the invention has the advantage of the action-selection rule being comprehensible to a human expert. Preferably, the method according to the invention is used for regulating and/or controlling a gas turbine and/or a wind turbine.

Inventors:
DÜLL SIEGMUND (DE)
HENTSCHEL ALEXANDER (DE)
UDLUFT STEFFEN (DE)
Application Number:
PCT/EP2014/051187
Publication Date:
October 02, 2014
Filing Date:
January 22, 2014
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
SIEMENS AG (DE)
International Classes:
G05B13/02
Foreign References:
US20090099985A12009-04-16
DE102007042440B32009-01-29
Other References:
LUCIAN BUSONIU ET AL: "Approximate reinforcement learning: An overview", ADAPTIVE DYNAMIC PROGRAMMING AND REINFORCEMENT LEARNING (ADPRL), 2011 IEEE SYMPOSIUM ON, IEEE, 11 April 2011 (2011-04-11), pages 1 - 8, XP031907569, ISBN: 978-1-4244-9887-1, DOI: 10.1109/ADPRL.2011.5967353
DANIEL SCHNEEGAÃ ET AL: "Improving Optimality of Neural Rewards Regression for Data-Efficient Batch Near-Optimal Policy Identification", 9 September 2007, ARTIFICIAL NEURAL NETWORKS Â ICANN 2007; [LECTURE NOTES IN COMPUTER SCIENCE], SPRINGER BERLIN HEIDELBERG, BERLIN, HEIDELBERG, PAGE(S) 109 - 118, ISBN: 978-3-540-74689-8, XP019069348
L. BUSONIU; D. ERNST; B. DE SCHUTTER; R. BABUSKA: "Approximate Reinforcement Learning: An Overview", ADAPTIVE DYNAMIC PROGRAMMING AND REINFORCEMENT LEARNING, IEEE CONFERENCE PROCEEDINGS, 2011
S. SILVA; M. CASTELLI; L. VANNESCHI: "Proceedings of the 12th annual conference on Genetic and evolutionary computation", 2010, ACM, article "Measuring Bloat, Overfitting and Functional Complexity in Genetic Programming", pages: 877 - 884
Download PDF:
Claims:
Patentansprüche

1. Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems, bei dem:

a) das dynamische Verhalten des technischen Systems für

mehrere Zeitpunkte jeweils durch einen Zustand (x) des technischen Systems und eine am technischen System ausgeführte Aktion (a) charakterisiert wird, wobei eine je¬ weilige Aktion (a) zu einem jeweiligen Zeitpunkt in ei- nen neuen Zustand (χ') des technischen Systems zum nächsten Zeitpunkt führt;

b) Aktionsauswahlregeln (PO) bereitgestellt und/oder erzeugt werden, wobei eine jeweilige Aktionsauswahlregel (PO) eine zu einem entsprechenden Zeitpunkt am techni- sehen System auszuführende Aktion (a) in Abhängigkeit von zumindest dem Zustand des technischen Systems zum entsprechenden Zeitpunkt angibt und wobei jeder Aktions¬ auswahlregel (PO) ein Komplexitätsmaß (CM) zugeordnet ist, das eine Komplexität der jeweiligen Aktionsauswahl- regel (PO) beschreibt, welche kleiner oder kleiner gleich einer vorbestimmte Komplexitätsschwelle (CT) ist; c) aus den bereitgestellten und/oder erzeugten Aktionsauswahlregeln (PO) mittels der Berechnung von Bewertungsmaßen (EM), welche jeweils die Eignung einer Aktionsaus- wahlregel (PO) zur Regelung und/oder Steuerung des technischen Systems beschreiben, die Aktionsauswahlregel (ΡΟ') mit dem höchsten Bewertungsmaß (EM) der bereitge¬ stellten und/oder erzeugten Aktionsauswahlregeln (PO) ermittelt wird, wobei ein höheres Bewertungsmaß (EM) ei- ne bessere Eignung der Aktionsauswahlregel (PO) zur Re¬ gelung und/oder Steuerung des technischen Systems beschreibt und wobei das Bewertungsmaß (EM) einer jeweili¬ gen Aktionsauswahlregel (PO) abhängt von

einem Distanzmaß zwischen der jeweiligen Aktionsaus- wahlregel (PO) und einer vorgegebenen optimalen Aktionsauswahlregel, wobei abnehmende Distanzmaße hö¬ here Bewertungsmaße (EM) repräsentieren; und/oder einem Belohnungsmaß, welches sich bei der Ausführung der jeweiligen Aktionsauswahlregel (PO) in einer Si¬ mulation des technischen Systems ergibt, wobei höhe¬ re Belohnungsmaße zu höheren Bewertungsmaßen führen; und/oder

einem Gütemaß für die jeweilige Aktionsauswahlregel (PO) , welches mittels einer Aktionsauswahlregel- Evaluations-Methode bestimmt wird, wobei höhere Gütemaße zu höheren Bewertungsmaßen (EM) führen;

das technische System basierend auf der in Schritt c) ermittelten Aktionsauswahlregel (ΡΟ') geregelt und/oder gesteuert wird.

2. Verfahren nach Anspruch 1, bei dem die bereitgestellten und/oder erzeugten Aktionsauswahlregeln (PO) durch einen funktionalen Zusammenhang repräsentiert werden, der basierend auf zumindest dem Zustand des technischen Systems zum jewei¬ ligen Zeitpunkt die zum jeweiligen Zeitpunkt auszuführende Aktion (a) liefert.

3. Verfahren nach Anspruch 2, bei dem das Komplexitätsmaß (CM) durch eine Beschreibungslänge des funktionalen Zusammenhangs repräsentiert wird, wobei die Komplexität gemäß dem Komplexitätsmaß umso geringer ist, je geringer die Beschrei- bungslänge ist, wobei die Beschreibungslänge die Länge einer binären oder ASCII-Repräsentation des funktionalen Zusammenhangs und/oder die Anzahl an Knoten in dem durch den funktionalen Zusammenhang repräsentierten Parsebaum und/oder die Anzahl von einstellbaren Parametern des funktionalen Zusammen- hangs umfasst, wobei die Komplexität gemäß dem Komplexitäts¬ maß (CM) umso geringer ist, je geringer die Länge der binären oder ASCII-Repräsentation des funktionalen Zusammenhangs ist bzw. je geringer die Anzahl der Knoten im Parsebaum ist bzw. je geringer die Anzahl der einstellbaren Parameter ist.

4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die in Schritt b) bereitgestellten Aktionsauswahlregeln auf Expertenwissen beruhen.

5. Verfahren nach einem der vorhergehenden Ansprüche, bei die Schritte b) und c) mittels genetischer Programmierung und/oder basierend auf einer Particle-Swarm-Optimierung durchgeführt werden.

6. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Erzeugung der Aktionsauswahlregeln (PO) in Schritt b) derart erfolgt, dass die Aktionsauswahlregeln (PO) aus einer vorbestimmten optimalen Aktionsauswahlregel abgeleitet wer¬ den .

7. Verfahren nach Anspruch 6, bei dem das Ableiten der Aktionsauswahlregeln (PO) durch eine Approximation der vorbestimmten optimalen Aktionsauswahlregel mittels eines funktio¬ nalen Zusammenhangs erfolgt, der ein Komplexitätsmaß (CM) mit einer Komplexität repräsentiert, die kleiner oder kleiner gleich der vorbestimmten Komplexitätsschwelle (CT) ist.

8. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Distanzmaß in Schritt c) derart bestimmt wird, dass aus der vorgegebenen optimalen Aktionsauswahlregel eine oder mehrere Aktionen (a) und aus der jeweiligen Aktionsauswahlregel eine oder mehrere Aktionen (a) generiert werden und die Ab¬ weichung zwischen der oder den Aktionen, die aus der optimalen Aktionsauswahlregel generiert sind, und der oder den Ak¬ tionen (a) , die aus der jeweiligen Aktionsauswahlregel (PO) generiert sind, bestimmt wird, wobei eine größere Abweichung ein größeres Distanzmaß repräsentiert.

9. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Simulation des technischen Systems in Schritt c) auf ei¬ nem neuronalen Netz basiert.

10. Verfahren nach einem der vorhergehenden Ansprüche, bei dem als Aktionsauswahlregel-Evaluations-Verfahren eine

"Fitted Policy Evaluation Method" verwendet wird. 11. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das technische System eine Gasturbine und/oder Windturbi¬ ne ist.

12. Verfahren nach Anspruch 11, bei dem die Zustände (x) der Gasturbine eine oder mehrere der folgenden Größen umfassen: die Temperatur und/oder den Druck an einer oder mehreren Stellen an der Gasturbine, insbesondere die Umgebungstem¬ peratur und/oder den Umgebungsdruck und/oder die

Kompressortemperatur und/oder den Kompressordruck

und/oder die Temperatur in der Brennkammer und/oder den

Druck in der Brennkammer;

die Luftfeuchtigkeit an einer oder mehreren Stellen an der Gasturbine;

Brennkammerbeschleunigungen in der Gasturbine;

- die Schadstoffemission der Gasturbine, insbesondere die Stickoxid-Emission;

die durch die Gasturbine erzeugte Leistung.

13. Verfahren nach Anspruch 11 oder 12, bei dem die an der Gasturbine auszuführenden Aktionen (a) eine Veränderung der

Einstellung von einem oder mehreren Kraftstoff-Einspritzventilen und/oder eine Veränderung der Position von einer oder mehreren Schaufeln in der Gasturbine umfassen. 14. Verfahren nach einem der Ansprüche 11 bis 13, bei dem die Zustände (x) der Windturbine eine oder mehrere der folgenden Größen umfassen:

die Temperatur und/oder den Druck und/oder die Luftfeuchtigkeit an einer oder mehreren Stellen an der Windturbi- ne, insbesondere die Umgebungstemperatur und/oder den Umgebungsdruck und/oder die Umgebungsluftfeuchtigkeit;

die Windstärke an der Windturbine; die durch die Windturbine erzeugte Leistung.

15. Verfahren nach einem der Ansprüche 11 bis 14, bei dem die an der Windturbine auszuführenden Aktionen (a) eine Veränderung der Anstellwinkel der Rotorblätter des Rotors der Wind¬ turbine und/oder eine Veränderung der Ausrichtung des Rotors der Windturbine zum Wind umfassen.

16. Computerprogrammprodukt mit einem auf einem maschinenles¬ baren Träger gespeicherten Programm zur Durchführung eines Verfahrens nach einem der vorhergehenden Ansprüche, wenn das Programm auf einem Rechner abläuft.

Description:
Beschreibung

Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems

Die Erfindung betrifft ein Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems sowie ein entsprechendes Computerprogrammprodukt.

Komplexe technische Systeme, wie z.B. Gasturbinen oder Wind ¬ turbinen, werden oftmals basierend auf rechnergestützten Verfahren geregelt, welche basierend auf Trainingsdaten und ent ¬ sprechenden Optimalitätskriterien eine Aktionsauswahlregel (englisch: Policy) festlegen. Diese Aktionsauswahlregel gibt an, welche Aktion am technischen System in einem entsprechenden Zustand des Systems durchzuführen ist. Hierdurch kann z.B. ein Betrieb des technischen Systems mit einem hohen Wirkungsgrad erreicht werden. Für Gasturbinen können ferner gegebenenfalls die Brennkammerdynamik bzw. die Emissionen reduziert werden. Bei Windturbinen kann z.B. auch die Ausrichtung der Gondel in Bezug auf den Wind optimiert werden.

Zur Bestimmung entsprechender Aktionsauswahlregeln für technische Systeme werden meist aufwändige Regressions-Verfahren, wie z.B. neuronale Netze, verwendet. Diese weisen jedoch den Nachteil auf, dass sie komplexe Aktionsauswahlregeln generie ¬ ren, die durch menschliche Experten nicht mehr interpretiert bzw. verstanden werden können. Demzufolge werden komplexe Aktionsauswahlregeln mangels Verständlichkeit zuweilen nicht im Betrieb eines technischen Systems verwendet. Aus dem Stand der Technik sind Verfahren bekannt, mit denen Aktionsauswahlregeln mit geringerer Komplexität generiert werden, z.B. indem das technische System durch Zustände mit niedriger Dimension repräsentiert wird oder einfachere Regressions-Verfahren verwendet werden. Diese Ansätze führen jedoch häufig zu einer Aktionsauswahlregel, welche für die Steuerung bzw. Regelung des technischen Systems nicht optimal ist. Aufgabe der Erfindung ist es deshalb, ein Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems zu schaffen, welches eine gut für das technische Sys- tem geeignete Aktionsauswahlregel mit geringer Komplexität verwendet .

Diese Aufgabe wird durch die unabhängigen Patentansprüche ge ¬ löst. Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen definiert.

Das erfindungsgemäße Verfahren wird nachfolgend basierend auf den Schritten a) bis c) erläutert. Die Bezeichnung dieser Schritte dient nur zur besseren Referenzierung der darin ent- haltenen Merkmale und legt keine Reihenfolge der Ausführung fest. Insbesondere können bestimmte Schritte auch parallel durchgeführt werden bzw. ineinander verwoben werden.

Das erfindungsgemäße Verfahren dient zur rechnergestützten Steuerung bzw. Regelung eines technischen Systems. Gemäß

Schritt a) wird das dynamische Verhalten des technischen Sys ¬ tems für mehrere Zeitpunkte jeweils durch einen Zustand des technischen Systems und eine am technischen System durchgeführte Aktion charakterisiert, wobei eine jeweilige Aktion zu einem jeweiligen Zeitpunkt in einen neuen Zustand des technischen Systems zum nächsten Zeitpunkt führt. Der Begriff des Zustands bzw. der Aktion ist dabei weit zu verstehen. Ein Zustand kann insbesondere einen Zustandsvektor mit einer oder mehreren Zustandsvariablen umfassen. Ein Zustand zum jeweili- gen (aktuellen) Zeitpunkt kann optional neben einem Zustands ¬ vektor zum aktuellen Zeitpunkt auch einen oder mehrere Zu- standsvektoren zu einem oder mehreren vorhergehenden Zeitpunkten umfassen, wodurch die Historie des Zustands über einen beschränkten Zeithorizont berücksichtigt wird. Ebenso kann eine Aktion einen Vektor aus mehreren Aktionsvariablen darstellen . In einem Schritt b) des erfindungsgemäßen Verfahrens werden (mehrere) Aktionsauswahlregeln bereitgestellt und/oder erzeugt, wobei eine jeweilige Aktionsauswahlregel eine zu einem entsprechenden Zeitpunkt am technischen System auszuführende Aktion in Abhängigkeit von zumindest dem Zustand des techni ¬ schen Systems zum entsprechenden Zeitpunkt angibt und wobei jeder Aktionsauswahlregel ein Komplexitätsmaß zugeordnet ist, das eine Komplexität der jeweiligen Aktionsauswahlregel be ¬ schreibt, welche kleiner oder kleiner gleich einer vorbe- stimmten Komplexitätsschwelle ist. Das Komplexitätsmaß kann dabei auf verschiedene Weise definiert sein, wobei weiter un ¬ ten Beispiele solcher Komplexitätsmaße gegeben werden.

In einem Schritt c) des erfindungsgemäßen Verfahrens wird aus den bereitgestellten und/oder erzeugten Aktionsauswahlregeln mittels der Berechnung von Bewertungsmaßen, welche jeweils die Eignung einer Aktionsauswahlregel zur Regelung und/oder Steuerung des technischen Systems beschreiben, die Aktionsauswahlregel mit dem höchsten Bewertungsmaß der bereitge- stellten und/oder erzeugten Aktionsauswahlregeln ermittelt. Ein höheres Bewertungsmaß beschreibt dabei eine bessere Eig ¬ nung der Aktionsauswahlregel zur Regelung und/oder Steuerung des technischen Systems. In bestimmten Ausführungsformen können die Schritte b) und c) parallel bzw. ineinander verwoben durchgeführt werden. Zum Beispiel können zunächst bestimmte

Aktionsauswahlregeln erzeugt werden und anschließend ein Teil der Aktionsauswahlregeln mit schlechten Bewertungsmaßen verworfen werden. Anschließend werden wiederum neue Aktionsaus ¬ wahlregeln erzeugt und in gleicher Weise wieder entsprechende Aktionsauswahlregeln verworfen. Insbesondere bei der Verwendung der weiter unten beschriebenen genetischen Programmierung bzw. einer Particle-Swarm-Optimierung sind die Schritte b) und c) ineinander verwoben. Das im Rahmen von Schritt c) berechnete Bewertungsmaß einer jeweiligen Aktionsauswahlregel kann erfindungsgemäß von einer oder mehreren der folgenden drei Größen abhängen: einem Distanzmaß zwischen der jeweiligen Aktionsauswahlregel und einer vorgegebenen optimalen Aktionsauswahlregel, wobei abnehmende Distanzmaße höhere Bewertungsmaße repräsentieren und wobei die vorgegebene optimale Akti- onsauswahlregel vorzugsweise auf einem neuronalen Netz

(z.B. einem rekurrenten neuronalen Netz) basiert;

einem Belohnungsmaß, welches sich bei der Ausführung der jeweiligen Aktionsauswahlregel in einer Simulation des technischen Systems ergibt, wobei höhere Belohnungsmaße zu höheren Bewertungsmaßen führen und wobei die Simulation vorzugsweise auf einem neuronalen Netz (z.B. einem rekurrenten neuronalen Netz) basiert;

einem Gütemaß für die jeweilige Aktionsauswahlregel, welches mittels einer Aktionsauswahlregel-Evaluations- Methode (englisch: Policy Evaluation Method) bestimmt wird, wobei höhere Gütemaße zu höheren Bewertungsmaßen führen .

Das oben beschriebene Belohnungsmaß ist in Abhängigkeit von vorbestimmten Optimalitätskriterien des Betriebs des technischen Systems festgelegt, wobei ein höheres Belohnungsmaß ei ¬ ne bessere Steuerung bzw. Regelung des technischen Systems im Hinblick auf die Optimalitätskriterien festlegt. Die Bestimmung eines Gütemaßes basierend auf einer Aktionsauswahlregel- Evaluations-Methode ist an sich aus dem Stand der Technik be ¬ kannt. Insbesondere sind verschiedene Arten von Aktionsaus ¬ wahlregel-Evaluations-Methoden bekannt. In einer bevorzugten Ausführungsform wird eine „Fitted Policy Evaluation Method" verwendet (siehe Dokument [1]).

Nach Bestimmung der Aktionsauswahlregel in Schritt c) wird das technische System schließlich mit dieser Aktionsauswahlregel in Schritt d) geregelt und/oder gesteuert. Das erfindungsgemäße Verfahren ermöglicht die Regelung bzw.

Steuerung eines technischen Systems mit einer Aktionsauswahlregel mit geringer Komplexität, welche durch die Festlegung eines geeigneten Bewertungsmaßes weiterhin einen möglichst optimalen Betrieb des technischen Systems gewährleistet.

Durch die Verminderung der Komplexität der Aktionsauswahlre ¬ gel ist diese leichter durch einen Menschen verstehbar, so dass die rechnergestützte Steuerung bzw. Regelung des technischen Systems mit dieser Aktionsauswahlregel eher akzeptiert wird .

In einer besonders bevorzugten Ausführungsform werden die be- reitgestellten bzw. erzeugten Aktionsauswahlregeln jeweils durch einen funktionalen Zusammenhang repräsentiert, der basierend auf zumindest dem Zustand des technischen Systems zum jeweiligen Zeitpunkt die zum jeweiligen Zeitpunkt auszuführende Aktion liefert. Der Begriff des funktionalen Zusammen- hangs ist dabei weit zu verstehen und kann jede beliebige Art von Funktion bzw. Funktionenzusammensetzung bzw. mathematischem Ausdruck umfassen. Insbesondere kann der funktionale Zusammenhang einstellbare Parameter umfassen, wobei durch die Festlegung entsprechender Parameterwerte eine Aktionsauswahl- regel definiert wird.

Das im erfindungsgemäßen Verfahren verwendete Komplexitätsmaß kann auf verschiedene Art und Weise definiert sein. Verschie ¬ dene Verfahren zur Bestimmung von Komplexitätsmaßen sind da- bei aus dem Stand der Technik bekannt (siehe z.B. Dokument

[2]) . In einer besonders bevorzugten Ausführungsform wird das Komplexitätsmaß durch eine Beschreibungslänge des funktiona ¬ len Zusammenhangs repräsentiert, wobei die Komplexität gemäß dem Komplexitätsmaß umso geringer ist, je geringer die Be- Schreibungslänge ist. Die Beschreibungslänge umfasst in einer besonders bevorzugten Ausführungsform die Länge einer binären oder ASCII-Repräsentation des funktionalen Zusammenhangs und/oder die Anzahl an Knoten in dem durch den funktionalen Zusammenhang repräsentieren Parsebaum und/oder die Anzahl von einstellbaren Parametern des funktionalen Zusammenhangs. Dabei ist die Komplexität gemäß dem Komplexitätsmaß umso gerin ¬ ger, je geringer die Länge der binären oder ASCII-Repräsenta- tion des funktionalen Zusammenhangs ist bzw. je geringer die Anzahl der Knoten im Parsebaum ist bzw. je geringer die Anzahl der einstellbaren Parameter ist. Die Länge der binären bzw. ASCII-Repräsentation wird dabei durch die Länge des ent- sprechenden binären Codes bzw. ASCII-Codes repräsentiert. Die Erstellung eines Parsebaums aus einem funktionalen Zusammenhang ist an sich aus dem Stand der Technik bekannt und wird deshalb nicht näher erläutert. In einer weiteren Variante des erfindungsgemäßen Verfahrens beruhen die in Schritt b) bereitgestellten Aktionsauswahlre ¬ geln auf Expertenwissen. Das heißt, die Aktionsauswahlregeln sind durch Experten vorgegeben. Diese Aktionsauswahlregeln sind in einem Speicher hinterlegt und werden in Schritt b) des Verfahrens ausgelesen.

In einer weiteren, besonders bevorzugten Variante des erfindungsgemäßen Verfahrens werden die Schritte b) und c) mittels genetischer Programmierung und/oder basierend auf einer

Particle-Swarm-Optimierung durchgeführt. Bei diesen Methoden werden schrittweise neue Aktionsauswahlregeln erzeugt und zu einer Population hinzugefügt, wobei Aktionsauswahlregeln mit einem schlechten Bewertungsmaß wieder aus der Population verworfen werden. Verfahren zur genetischen Programmierung bzw. Particle-Swarm-Optimierungen sind hinlänglich aus dem Stand der Technik bekannt und werden deshalb nicht weiter im Detail beschrieben .

In einer weiteren Ausgestaltung des erfindungsgemäßen Verfah- rens erfolgt die Erzeugung der Aktionsauswahlregeln in

Schritt b) derart, dass die Aktionsauswahlregeln aus einer vorbestimmten optimalen Aktionsauswahlregel abgeleitet wer ¬ den. Die vorbestimmte optimale Aktionsauswahlregel kann dabei der vorgegebenen optimalen Aktionsauswahlregel aus Schritt c) des erfindungsgemäßen Verfahrens entsprechen. Die vorbestimmte optimale Aktionsauswahlregel weist in der Regel ein Komp ¬ lexitätsmaß auf, dessen Komplexität wesentlich höher als die vorbestimmte Komplexitätsschwelle ist. Das Ableiten der Akti ¬ onsauswahlregeln erfolgt vorzugsweise durch eine Approximati ¬ on der vorbestimmten optimalen Aktionsauswahlregel mittels eines funktionalen Zusammenhangs, der ein Komplexitätsmaß mit einer Komplexität repräsentiert, die kleiner oder kleiner gleich der vorbestimmten Komplexitätsschwelle ist.

In einer weiteren Variante des erfindungsgemäßen Verfahrens wird das Distanzmaß in Schritt c) derart bestimmt, dass aus der vorgegebenen optimalen Aktionsauswahlregel eine oder mehrere Aktionen und aus der jeweiligen Aktionsauswahlregel eine oder mehrere Aktionen generiert werden und die Abweichung zwischen der oder den Aktionen, die aus der optimalen Aktionsauswahlregel generiert sind, und der oder den Aktionen, die aus der jeweiligen Aktionsauswahlregel generiert sind, bestimmt wird. Eine größere Abweichung repräsentiert dabei ein größeres Distanzmaß und damit ein niedrigeres Bewertungs ¬ maß. Die Abweichung kann z.B. eine quadratische Abweichung sein .

Das erfindungsgemäße Verfahren eignet sich insbesondere zur Regelung bzw. Steuerung eines technischen Systems in der Form einer Gasturbine und/oder Windturbine. Im Falle einer Gasturbine umfassen die Zustände der Gasturbi ¬ ne vorzugsweise eine oder mehrere der folgenden Größen:

die Temperatur und/oder den Druck an einer oder mehreren Stellen an der Gasturbine, insbesondere die Umgebungs ¬ temperatur und/oder den Umgebungsdruck und/oder die Kompressortemperatur und/oder den Kompressordruck und/oder die Temperatur in der Brennkammer und/oder den Druck in der Brennkammer;

die Luftfeuchtigkeit an einer oder mehreren Stellen an der Gasturbine;

- Brennkammerbeschleunigungen in der Gasturbine;

die Schadstoffemission der Gasturbine, insbesondere die Stickoxid-Emission; die durch die Gasturbine erzeugte Leistung.

Demgegenüber umfassen die an der Gasturbine auszuführenden Aktionen vorzugsweise eine Veränderung der Einstellung von einem oder mehreren Kraftstoff-Einspritzventilen und/oder eine Veränderung der Position von einer oder mehreren Schaufeln der Gasturbine, wie z.B. der Vorleitschaufein . Im Falle, dass das technische System eine Windturbine ist, umfassen die Zustände der Windturbine vorzugsweise eine oder mehrere der folgenden Größen:

die Temperatur und/oder den Druck und/oder die Luftfeuchtigkeit an einer oder mehreren Stellen an der Wind- turbine, insbesondere die Umgebungstemperatur und/oder den Umgebungsdruck und/oder die Umgebungsluftfeuchtig ¬ keit;

die Windstärke an der Windturbine;

die durch die Windturbine erzeugte Leistung.

Demgegenüber umfassen die an der Windturbine auszuführenden Aktionen vorzugsweise eine Veränderung der Anstellwinkel der Rotorblätter des Rotors der Windturbine und/oder eine Veränderung der Ausrichtung des Rotors der Windturbine zum Wind.

Neben dem oben beschriebenen Verfahren betrifft die Erfindung ferner ein Computerprogrammprodukt mit einem auf einem ma ¬ schinenlesbaren Träger gespeicherten Programm zur Durchführung des erfindungsgemäßen Verfahrens bzw. einer oder mehre- rer bevorzugter Varianten des erfindungsgemäßen Verfahrens, wenn das Programm auf einem Rechner abläuft.

Ein Ausführungsbeispiel der Erfindung wird nachfolgend anhand der beigefügten Fig. 1 beschrieben. Diese Figur zeigt in schematischer Darstellung den Ablauf einer Variante des erfindungsgemäßen Verfahrens . Die im Folgenden beschriebene Ausführungsform ermöglicht die Bestimmung einer Aktionsauswahlregel zur Steuerung bzw. Regelung eines technischen Systems, welche eine niedrige Komple ¬ xität aufweist und somit durch den Bediener des technischen Systems bzw. einen menschlichen Experten verstanden werden kann. Die Aktionsauswahlregel weist ferner ein hohes Bewer ¬ tungsmaß auf, welches die Eignung einer Aktionsauswahlregel zur Regelung bzw. Steuerung des technischen Systems repräsentiert. Wie bereits im Vorangegangenen beschrieben, eignet sich das Verfahren insbesondere zur Regelung und/oder Steuerung einer Gasturbine bzw. einer Windturbine.

Der mit Bezugszeichen S (S = Start) bezeichnete Ausgangspunkt des Verfahrens der Fig. 1 ist eine Charakterisierung des dy- namischen Verhaltens des zu regelnden bzw. steuernden technischen Systems über einen Zustand x zu einem entsprechenden Zeitpunkt sowie einer zu diesem Zeitpunkt durchgeführten Aktion a, die zu einem Folgezustand x' führt. Der Zustand kann dabei ein Zustandsvektor mit einer Vielzahl von Zustandsvari- ablen sein. Ebenso kann eine Aktion durch einen Vektor mit mehreren Aktionsvariablen repräsentiert sein.

In einem Schritt Sl des Verfahrens der Fig. 1 wird eine Viel ¬ zahl von Aktionsauswahlregeln PO bereitgestellt, denen je- weils ein Komplexitätsmaß CM zugeordnet ist, das unterhalb einer vorgegebenen Komplexitätsschwelle CT liegt. In der hier beschriebenen Variante sind die Aktionsauswahlregeln durch einen Experten vorgegeben und werden dabei durch eine Funktion mit einer vorbestimmten Anzahl von freien (d.h. einstell- baren) Parametern repräsentiert, wobei die Anzahl von Parame ¬ tern das Komplexitätsmaß CM bestimmt. Die Anzahl der freien Parameter wurde dabei derart klein gewählt, dass sich hieraus ein Komplexitätsmaß ergibt, das unterhalb der Komplexitäts ¬ schwelle CT liegt.

Aus den bereitgestellten Aktionsauswahlregeln des Schritts Sl werden schließlich in einem Schritt S2 weitere Aktionsaus- wahlregeln PO mittels einer Particle-Swarm-Optimierung

(abgegürzt PSO) generiert. Dabei werden neue Aktionsauswahl ¬ regeln durch Veränderung der freien Parameter erzeugt, die zu der Population der Aktionsauswahlregeln hinzugefügt werden. Die neuen Aktionsauswahlregeln werden anschließend basierend auf einem Bewertungsmaß EM bewertet. Ein höheres Bewertungs ¬ maß repräsentiert dabei eine bessere Eignung einer Aktions ¬ auswahlregel zur Regelung bzw. Steuerung des technischen Systems. Da nur die freien Parameter in der durch den Experten vorgegebenen Aktionsauswahlregel optimiert werden, wird si ¬ chergestellt, dass alle neuen Aktionsauswahlregeln ein Komplexitätsmaß CM aufweisen, das unterhalb der Komplexitäts ¬ schwelle CT liegt. Im Rahmen der Particle-Swarm-Optimierung werden schrittweise Aktionsauswahlregeln mit geringen Bewer- tungsmaßen verworfen und immer wieder neue Aktionsauswahlregeln zu der Population hinzugefügt, bis schließlich basierend auf einem Abbruchkriterium diejenige Aktionsauswahlregel PO' aus der Population bestimmt wird, welche das höchste Bewer ¬ tungsmaß aufweist.

Die soeben erläuterten Schritte Sl und S2 können wie folgt zusammengefasst werden:

Ein Experte bestimmt eine Aktionsauswahlregel (Funktion) mit freien Parametern.

Beispiel: x ist Zustandsvariable des Systems. Der Experte denkt, dass eine optimale Aktionsauswahlregel (a ist Akti ¬ on) durch folgende Formel beschrieben ist:

a = sin(k * x) - g * x 2

wobei k, g freie Parameter sind

PSO sucht basierend auf den Bewertungsmaßen nach besten (numerischen) Werten für diese freien Parameter.

Beispiel: PSO findet k = 2,704 und g = -0,629 als opti ¬ mal .

- Die Aktionsauswahlregel mit den vom PSO als optimal befun ¬ denen Parameter-Werten wird zur Aktionsauswahlregel PO' obiges Beispiel also sin(2, 704 * x) + 0, 629* x

Die ermittelte Aktionsauswahlregel PO' wird schließlich in einem Schritt S3 zur Regelung bzw. Steuerung des technischen Systems genutzt. Das heißt, basierend auf dem aktuellen Zu ¬ stand und gegebenenfalls zusätzlicher vergangener Zustände des technischen Systems wird mittels der Aktionsauswahlregel PO' die Aktion bestimmt, die zum aktuellen Zeitpunkt am tech ¬ nischen System ausgeführt wird.

Das Bewertungsmaß EM, das in Schritt S2 berechnet wird, kann auf verschiedene Art und Weise ermittelt werden. In einer Va ¬ riante stellt das Bewertungsmaß das oben beschriebene Dis ¬ tanzmaß zwischen einer jeweiligen Aktionsauswahlregel und ei ¬ ner vorgegebenen optimalen Aktionsauswahlregel dar. Ebenso kann das Bewertungsmaß das oben beschriebene Belohnungsmaß bzw. das oben beschriebene Gütemaß darstellen bzw. Kombinati ¬ onen aus dem Distanzmaß, dem Belohnungsmaß und dem Gütemaß. Anstatt einer Particle-Swarm-Optimierung können in Schritt S2 des oben beschriebenen Verfahrens auch andere Methoden zur Ermittlung der Aktionsauswahlregel PO' herangezogen werden. Zum Beispiel kann eine an sich bekannte Genetische Program ¬ mierung verwendet werden.

Im Folgenden wird eine Variante der Schritte Sl und S2 für die Ermittlung einer Aktionsauswahlregel mittels einer gene ¬ tischen Programmierung erläutert. In Schritt Sl werden funktionale Bausteine, z.B. sin (x) , exp (x) , durch einen Experten vorgegeben, wobei x den Zustand des technischen Systems mit entsprechenden Zustandsvariablen repräsentiert. Durch zufälliges Zusammenfügen der funktiona ¬ len Bausteine zu gültigen mathematischen Formeln basierend auf den Zustandsvariablen werden initiale Aktionsauswahlre ¬ geln PO generiert. Der Generierungsprozess garantiert dabei, dass nur Aktionsauswahlregeln erzeugt werden, deren Komplexi- tätsmaß die Komplexitätsschwelle CT nicht überschreiten. Aus den bereitgestellten Aktionsauswahlregeln des Schritts Sl werden schließlich in einem Schritt S2 weitere Aktionsauswahlregeln PO mittels der genetischen Programmierung bestimmt. Dabei werden neue Aktionsauswahlregeln erzeugt, die zu der Population der Aktionsauswahlregeln hinzugefügt werden. Die neuen Aktionsauswahlregeln werden anschließend basierend auf einem Bewertungsmaß EM bewertet. Ein höheres Be ¬ wertungsmaß repräsentiert dabei eine bessere Eignung einer Aktionsauswahlregel zur Regelung bzw. Steuerung des technischen Systems. Durch die genetische Programmierung wird si ¬ chergestellt, dass alle neuen Aktionsauswahlregeln ein Komplexitätsmaß CM aufweisen, das unterhalb der Komplexitäts ¬ schwelle CT liegt. Im Rahmen der genetischen Programmierung werden schrittweise Aktionsauswahlregeln mit geringen Bewertungsmaßen verworfen und immer wieder neue Aktionsauswahlregeln zu der Population hinzugefügt, bis schließlich basieren auf einem Abbruchkriterium diejenige Aktionsauswahlregel PO' aus der Population bestimmt wird, welche das höchste Bewer ¬ tungsmaß aufweist.

Die soeben erläuterten Schritte Sl und S2 können wie folgt zusammengefasst werden:

Ein Experte bestimmt funktionale Bausteine für Aktionsaus wahlregeln mit freien Parametern.

Beispiel: Der Experte definiert, dass in einer Aktionsaus wahlregel für die Aktion a folgende mathematische Baustei ne verwendet werden dürfen:

Multiplikation, Addition, Subtraktion,

Sinus, Cosinus,

Zustandsvariable x,

numerische Konstanten (d.h. beliebige festen Zahlen).

Die Genetische Programmierung versucht, aus den mathemati sehen Bausteinen Formeln für Aktionsauswahlregeln zusammenzusetzen, die ein möglichst hohes Bewertungsmaß haben und das vorgegebene Komplexitätsmaß nicht überschreiten. Beispiel: Die Genetische Programmierung ermittelt, dass die folgende Aktionsauswahlregel am besten ist:

a = sin(2, 704 * x) + 0, 629* x * x.

Diese Aktionsauswahlregel wird dann zur Aktionsauswahlre ¬ gel PO' .

Die im Vorangegangenen beschriebene Ausführungsform der Erfindung weist eine Reihe von Vorteilen auf. Insbesondere wird eine Regelung bzw. Steuerung eines technischen Systems mit einer Aktionsauswahlregel mit geringer Komplexität erreicht. Die Aktionsauswahlregel ist somit durch den Bediener des technischen Systems bzw. einen menschlichen Experten verstehbar und führt zu einer höheren Akzeptanz der durch die Aktionsauswahlregel durchgeführten Regelung bzw. Steuerung des technischen Systems. Ferner wird weiterhin sichergestellt, dass die Aktionsauswahlregel trotz ihrer geringen Komplexität sehr gut zur Steuerung bzw. Regelung des technischen Systems geeignet ist.

Literaturverzeichnis :

[1] L. Busoniu, D. Ernst, B. De Schutter, R. Babuska, "Ap- proximate Reinforcement Learning: An Overview", Adaptive Dynamic Programming And Reinforcement Learning, IEEE Conference Proceedings, 2011

[2] S. Silva, M. Castelli, L. Vanneschi, "Measuring Bloat, Overfitting and Functional Complexity in Genetic Pro ¬ gramming", Proceedings of the 12th annual Conference on Genetic and evolutionary computation, Seiten 877-884, ACM New York, NY, 2010