Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
CONTROLLER FOR CONTROLLING A TECHNICAL SYSTEM, AND METHOD FOR CONFIGURING THE CONTROLLER
Document Type and Number:
WIPO Patent Application WO/2020/002447
Kind Code:
A1
Abstract:
A technical system (TS) controller (CTL) according to the invention is trained using a machine learning method. For this purpose, a chronological sequence of training data (TD) is detected for the machine learning method. The training data (TD) comprises state data (SD), which specifies states of the technical system (TS), and control action data (AD), which specifies control actions of the technical system (TS). A chronological sequence of control action data (AD) is extracted specifically from the training data (TD) and is checked for a change over time. If a change over time is ascertained, a time window (TF) comprising the change is ascertained, and training data (FTD) which can be found within the time window (TF) is extracted in a manner which is specific to the time window. The controller (CTL) is then trained by means of the machine learning method preferably using the extracted training data (FTD) and is thus configured for controlling the technical system (TS).

Inventors:
DÜLL SIEGMUND (DE)
HEESCHE KAI (DE)
STERZING VOLKMAR (DE)
WEBER MARC CHRISTIAN (DE)
Application Number:
PCT/EP2019/067036
Publication Date:
January 02, 2020
Filing Date:
June 26, 2019
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
SIEMENS AG (DE)
International Classes:
G05B13/02
Foreign References:
DE102016224207A12018-06-07
DE102010011221A12011-09-15
Other References:
VENUGOPAL K P ET AL: "A recurrent neural network controller and learning algorithm for the on-line learning control of autonomous underwater vehicles", NEURAL NETWORKS, ELSEVIER SCIENCE PUBLISHERS, BARKING, GB, vol. 7, no. 5, 1 January 1994 (1994-01-01), pages 833 - 846, XP024392946, ISSN: 0893-6080, [retrieved on 19940101], DOI: 10.1016/0893-6080(94)90104-X
PSALTIS D ET AL: "A multilayered neural network controller", IEEE CONTROL SYSTEMS MAGAZINE, IEEE SEWRVICE CENTER, PISCATAWAY, NJ, US, vol. 8, no. 2, 1 April 1988 (1988-04-01), pages 17 - 21, XP011417106, ISSN: 0272-1708, DOI: 10.1109/37.1868
YANG FAN ET AL: "Learning What Data to Learn", 27 February 2017 (2017-02-27), XP055476976, Retrieved from the Internet [retrieved on 20181203]
JIE CAI ET AL: "Feature selection in machine learning: A new perspective", NEUROCOMPUTING, vol. 300, 9 March 2018 (2018-03-09), AMSTERDAM, NL, pages 70 - 79, XP055529887, ISSN: 0925-2312, DOI: 10.1016/j.neucom.2017.11.077
KISHAN MALADKAR: "How To Get Started With Preparing Data For Machine Learning", 1 February 2018 (2018-02-01), XP002787062, Retrieved from the Internet [retrieved on 20181204]
SAURAV KAUSHIK: "Introduction to Feature Selection methods with an example (or how to select the right variables?)", 1 December 2016 (2016-12-01), XP002787063, Retrieved from the Internet [retrieved on 20181204]
JASON BROWNLEE: "How to Prepare Data For Machine Learning", 25 December 2013 (2013-12-25), XP002787068, Retrieved from the Internet [retrieved on 20181204]
Download PDF:
Claims:
Patentansprüche

1. Verfahren zum Konfigurieren einer Steuereinrichtung (CTL) für ein technisches System (TS) mittels eines maschinellen Lernverfahrens, wobei

a) eine zeitliche Abfolge von Trainingsdaten (TD) für das ma schinelle Lernverfahren erfasst wird, wobei die Trainings daten (TD) Zustände des technischen Systems (TS) spezifi zierende Zustandsdaten (SD) sowie Steueraktionen des tech nischen Systems (TS) spezifizierende Steueraktionsdaten (AD) umfassen,

b) aus den Trainingsdaten (TD) eine zeitliche Abfolge der Steueraktionsdaten (AD) spezifisch extrahiert wird, c) die Abfolge der Steueraktionsdaten (AD) auf eine zeitliche Veränderung geprüft wird, und bei Feststellen einer zeit lichen Veränderung ein diese Veränderung umfassendes Zeit fenster (TF) ermittelt wird,

d) die innerhalb des Zeitfensters (TF) befindlichen Trai

ningsdaten (FTD) zeitfensterspezifisch extrahiert werden, und

e) die Steuereinrichtung (CTL) mittels des maschinellen Lern verfahrens bevorzugt anhand der extrahierten Trainingsda ten (FTD) trainiert und damit zum Steuern des technischen Systems (TS) konfiguriert wird.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das technische System (TS) eine Gasturbine, eine Wind turbine, ein Solarkraftwerk, eine Verbrennungskraftmaschine, eine Fertigungsanlage, ein Verkehrsleitsystem, eine Energie steuerung für ein Gebäude, ein Energieübertragungsnetz und/oder ein 3d-Drucker ist.

3. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet,

dass das maschinelle Lernverfahren ein Verfahren des bestär kenden Lernens, ein künstliches neuronales Netz, ein

rekurrentes neuronales Netz, ein faltendes neuronales Netz, einen Autoencoder, eine Deep-Learning-Architektur, eine Sup- port-Vector-Machine, ein datengetriebenes trainierbares Reg ressionsmodell, einen k-nächste-Nachbarn-Klassifikator, ein physikalisches Modell und/oder einen Entscheidungsbaum ver wendet oder implementiert.

4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet,

dass außerhalb des Zeitfensters (TF) befindliche Trainingsda ten beim Trainieren der Steuereinrichtung (CTL) unterdrückt oder verworfen werden.

5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet,

dass Betriebsdaten (BD) des technischen Systems (TS) im lau fenden Betrieb erfasst und in die Abfolge der Trainingsdaten (TD) integriert werden, und

dass die Steuereinrichtung (CTL) bevorzugt anhand der extra hierten Trainingsdaten (FTD) im laufenden Betrieb weitertrai niert wird.

6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet,

dass bei der Prüfung auf zeitliche Veränderung der Abfolge der Steueraktionsdaten (AD) ein vorgegebenes Veränderungsmus ter in dieser Abfolge gesucht wird, und

dass infolge eines Auffindens des Veränderungsmusters die zeitliche Veränderung festgestellt wird.

7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet,

dass bei der Prüfung auf zeitliche Veränderung der Abfolge der Steueraktionsdaten (AD) ein Veränderungsmaß (D) abhängig von einem Vergleich, einer Differenzbildung, einer gewichte ten Differenzbildung und/oder einem Differenzenquotienten von verschiedenen Zeiten zugeordneten Steueraktionsdaten (AD) er mittelt wird, und

dass die Feststellung einer zeitlichen Veränderung anhand des ermittelten Veränderungsmaßes (D) erfolgt.

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass die Steueraktionsdaten (AD) jeweils mehrere Komponenten umfassen, und

dass für die Komponenten der Steueraktionsdaten (AD) jeweils ein komponentenspezifisches Veränderungsmaß ermittelt wird.

9. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet,

dass eine Rate und/oder eine Amplitude von zeitlichen Verän derungen der Abfolge der Steueraktionsdaten (AD) ermittelt wird, und

dass eine Länge des Zeitfensters (TF) und/oder ein Schwell wert (TH) zum Vergleich mit einem Veränderungsmaß (D) der zeitlichen Veränderungen abhängig von der ermittelten Rate und/oder Amplitude festgelegt wird.

10. Verfahren nach einem der vorhergehenden Ansprüche, da durch gekennzeichnet,

dass eine Zielfunktion (RF) bereitgestellt wird, die abhängig von zumindest einem Teil der Zustandsdaten (SD) einen im Be trieb des technischen Systems (TS) zu optimierenden

Performanzparameter (PP) ermittelt, und

dass die Steuereinrichtung (CTL) bevorzugt anhand des in den extrahierten Trainingsdaten (FTD) enthaltenen Teils der Zu standsdaten (SD) darauf trainiert wird, den

Performanzparameter (PP) zu optimieren.

11. Verfahren nach einem der vorhergehenden Ansprüche, da durch gekennzeichnet,

dass ein Anteil der extrahierten Trainingsdaten (FTD) an den Trainingsdaten (TD) ermittelt wird, und

dass abhängig vom ermittelten Anteil ein Qualitätsmaß für die Trainingsdaten (TD) ermittelt und zum Steuern des technischen Systems (TS) ausgegeben wird.

12. Verfahren nach einem der vorhergehenden Ansprüche, da durch gekennzeichnet, dass die Trainingsdaten (TD) und/oder die extrahierten Trai ningsdaten (FTD) mittels einer Aggregationsfunktion aggre giert werden, und

dass das Training anhand der aggregierten Trainingsdaten er- folgt.

13. Steuereinrichtung (CTL) zum Steuern eines technischen Systems (TS) , eingerichtet zum Ausführen eines Verfahrens nach einem der vorhergehenden Ansprüche.

14. Computerprogrammprodukt eingerichtet zum Ausführen eines Verfahrens nach einem der Ansprüche 1 bis 12.

15. Computerlesbares Speichermedium mit einem Computerpro- grammprodukt nach Anspruch 14.

Description:
Beschreibung

Steuereinrichtung zum Steuern eines technischen Systems und Verfahren zum Konfigurieren der Steuereinrichtung

Komplexe technische Systeme wie z.B. Gasturbinen, Windturbi nen, Solarkraftwerke, Verbrennungskraftmaschinen, Fertigungs anlagen oder Stromnetze benötigen für einen produktiven Be trieb in der Regel eine aufwendige Konfiguration, um bei spielsweise einen Ertrag, einen Ressourcenbedarf, einen Wir kungsgrad, einen Schadstoffausstoß , eine Stabilität, einen Verschleiß und/oder andere Zielparameter des technischen Sys tems gezielt zu optimieren.

Zeitgemäße Steuereinrichtungen von technischen Systemen ver wenden zur Konfiguration häufig Verfahren des maschinellen Lernens. Mittels derartiger Lernverfahren kann eine Steuer einrichtung anhand von Trainingsdaten darauf trainiert wer den, ausgehend von aktuellen Betriebsdaten des technischen Systems diejenigen Steueraktionen zum Steuern des technischen Systems zu ermitteln, die spezifisch ein gewünschtes oder an derweitig optimales Verhalten des technischen Systems bewir ken. Zu diesen Zwecken steht eine Vielzahl bekannter Lernver fahren, wie z.B. Verfahren des bestärkenden Lernens zur Ver fügung. Als Trainingsdaten können dabei insbesondere histori sche und/oder aktuelle Betriebsdaten des technischen Systems oder ähnlicher technischer Systeme verwendet werden.

Bei bekannten Lernverfahren wird für ein erfolgreiches Trai ning in der Regel eine große Menge von Trainingsdaten benö tigt, die zudem die Betriebsbedingungen des technischen Sys tems möglichst repräsentativ abdecken sollten. Eine zu gerin ge Menge an repräsentativen Trainingsdaten oder eine zu ge ringe Abdeckung von relevanten Betriebsbedingungen kann sich negativ auf einen Trainingserfolg auswirken.

Es ist Aufgabe der vorliegenden Erfindung, eine Steuerein richtung zum Steuern eines technischen Systems sowie ein Ver- fahren zum Konfigurieren der Steuereinrichtung anzugeben, die ein effizienteres Training erlauben.

Gelöst wird diese Aufgabe durch ein Verfahren mit den Merkma len des Patentanspruchs 1, durch eine Steuereinrichtung mit den Merkmalen des Patentanspruchs 13, durch ein Computerpro grammprodukt mit den Merkmalen des Patentanspruchs 14 sowie durch ein computerlesbares Speichermedium mit den Merkmalen des Patentanspruchs 15.

Zum Konfigurieren einer Steuereinrichtung für ein technisches System mittels eines maschinellen Lernverfahrens wird eine zeitliche Abfolge von Trainingsdaten für das maschinelle Lernverfahren erfasst. Die Trainingsdaten umfassen hierbei Zustände des technischen Systems spezifizierende Zustandsda ten sowie Steueraktionen des technischen Systems spezifizie rende Steueraktionsdaten. Das technische System kann insbe sondere eine Gasturbine, eine Windturbine, ein Solarkraft werk, eine Verbrennungskraftmaschine, eine Fertigungsanlage, ein Verkehrsleitsystem, eine Energiesteuerung für ein Gebäu de, ein Energieübertragungsnetz oder ein 3d-Drucker sein.

Aus den Trainingsdaten wird eine zeitliche Abfolge der Steu eraktionsdaten spezifisch extrahiert und auf eine zeitliche Veränderung geprüft. Bei Feststellen einer zeitlichen Verän derung wird ein diese Veränderung umfassendes Zeitfenster er mittelt und die innerhalb des Zeitfensters befindlichen Trai ningsdaten werden zeitfensterspezifisch extrahiert. Die Steu ereinrichtung wird dann mittels des maschinellen Lernverfah rens bevorzugt anhand der extrahierten Trainingsdaten trai niert und damit zum Steuern des technischen Systems konfigu riert .

Zum Ausführen des erfindungsgemäßen Verfahrens sind eine Steuereinrichtung, ein Computerprogrammprodukt sowie ein com puterlesbares Speichermedium vorgesehen.

Das erfindungsgemäße Verfahren sowie die erfindungsgemäße Steuereinrichtung können beispielsweise mittels eines oder mehrerer Computer, Prozessoren, anwendungsspezifischer inte grierter Schaltungen (ASIC) , digitaler Signalprozessoren (DSP) und/oder sogenannter „Field Programmable Gate Arrays" (FPGA) ausgeführt bzw. implementiert werden.

Insofern ein jeweiliges Zeitfenster gezielt so ermittelt wird, dass es eine zeitliche Veränderung von Steueraktionsda ten umfasst, ist zu erwarten, dass die im Zeitfenster enthal ten Trainingsdaten überdurchschnittlich viel Information über Auswirkungen von Steuereingriffen auf Zustände des techni schen System beinhalten. Es erweist sich, dass durch die spe zifische Extraktion von innerhalb des Zeitfensters befindli chen Trainingsdaten und deren bevorzugter Nutzung zum Trai ning der Steuereinrichtung Wirkungszusammenhänge zwischen Steuereingriffen und deren Auswirkungen oft erheblich schnel ler und effizienter gelernt werden können. In vielen Fällen kann entgegen einer verbreiteten Lehrmeinung beobachtet wer den, dass ein auf spezifisch selektierte Trainingsdaten be schränktes Training effizienter ist als ein Training mit al len Trainingsdaten. Häufig können weniger relevante oder re dundante Trainingsdaten einen Trainingserfolg sogar ver schlechtern .

Vorteilhafte Ausführungsformen und Weiterbildungen der Erfin dung sind in den abhängigen Ansprüchen angegeben.

Vorteilhafterweise kann das maschinelle Lernverfahren ein Verfahren des bestärkenden Lernens, ein künstliches neurona les Netz, ein rekurrentes neuronales Netz, ein faltendes neuronales Netz, einen Autoencoder, eine Deep-Learning- Architektur, eine Support-Vector-Machine, ein datengetriebe nes trainierbares Regressionsmodell, einen k-nächste- Nachbarn-Klassifikator, ein physikalisches Modell und/oder einen Entscheidungsbaum verwenden oder implementieren. Für die angegebenen Varianten steht eine Vielzahl von effizienten Implementierungen zur Verfügung. Durch die Erfindung kann insbesondere eine Stabilität und Konvergenz einer sog. Q- Funktion bei Verfahren des bestärkenden Lernens verbessert werden. Derartige Verfahren des bestärkenden Lernens werden häufig auch als Reinforcement Learning bezeichnet.

Gemäß einer vorteilhaften Ausführungsform der Erfindung kön nen außerhalb des Zeitfensters befindliche Trainingsdaten beim Trainieren der Steuereinrichtung unterdrückt oder ver worfen werden. Alternativ oder zusätzlich können die außer halb des Zeitfensters befindlichen Trainingsdaten beim Trai ning geringer gewichtet werden als die extrahierten Trai ningsdaten .

Nach einer vorteilhaften Weiterbildung der Erfindung können Betriebsdaten des technischen Systems im laufenden Betrieb erfasst und in die Abfolge der Trainingsdaten integriert wer den. Die Steuereinrichtung kann dann bevorzugt anhand der ex trahierten Trainingsdaten im laufenden Betrieb weitertrai niert werden; insbesondere während die Steuereinrichtung das technische System steuert. Auf diese Weise kann die Steuer einrichtung an im Betrieb entstehende, z.B. verschleißbeding te Veränderungen im Verhalten des technischen Systems ange passt werden. Alternativ oder zusätzlich kann die Steuerein richtung zumindest teilweise vorab oder offline trainiert werden .

Weiterhin kann bei der Prüfung auf zeitliche Veränderung der Abfolge der Steueraktionsdaten ein vorgegebenes Veränderungs muster in dieser Abfolge, z.B. mittels eines Mustererken nungsverfahrens gesucht werden. Infolge eines Auffindens des Veränderungsmusters kann dann die zeitliche Veränderung fest gestellt werden.

Darüber hinaus kann bei der Prüfung auf zeitliche Veränderung der Abfolge der Steueraktionsdaten ein Veränderungsmaß abhän gig von einem Vergleich, einer Differenzbildung, einer ge wichteten Differenzbildung und/oder einem Differenzenquotien ten von verschiedenen Zeiten zugeordneten Steueraktionsdaten ermittelt werden. Die Feststellung einer zeitlichen Verände rung kann dann anhand des ermittelten Veränderungsmaßes er- folgen. Als Veränderungsmaß kann insbesondere ein Absolut betrag oder ein Quadrat einer Differenz oder eines Differen zenquotienten aufeinanderfolgender Steueraktionsdaten berech net werden. Dabei können auch höhere Differenzenquotienten berücksichtigt werden. Durch das Veränderungsmaß kann die je weilige zeitliche Veränderung quantifiziert werden.

Für den Fall, dass die Steueraktionsdaten jeweils mehrere Komponenten umfassen, kann für die Komponenten der Steuerak tionsdaten jeweils ein komponentenspezifisches Veränderungs maß ermittelt werden. Dabei kann jede dieser Komponenten in dividuell auf zeitliche Veränderung geprüft werden.

Als Kriterium für die Feststellung einer zeitlichen Verände rung kann eine Überschreitung eines ggf. mehrkomponentigen Schwellwerts durch ein jeweiliges Veränderungsmaß verwendet werden .

Nach einer vorteilhaften Weiterbildung der Erfindung kann ei ne Rate und/oder eine Amplitude von zeitlichen Veränderungen der Abfolge der Steueraktionsdaten ermittelt werden. Abhängig von der ermittelten Rate und/oder Amplitude kann dann eine Länge des Zeitfensters , ein Schwellwert zum Vergleich mit ei nem Veränderungsmaß der zeitlichen Veränderungen und/oder ein Veränderungsmuster festgelegt werden. Alternativ oder zu sätzlich kann die Länge des Zeitfensters , der Schwellwert und/oder das Veränderungsmuster abhängig von internen Korre lationen oder anderen statistischen Eigenschaften der Steuer aktionsdaten oder der Trainingsdaten festgelegt werden.

Nach einer weiteren vorteilhaften Ausführungsform der Erfin dung kann eine Zielfunktion bereitgestellt werden, die abhän gig von zumindest einem Teil der Zustandsdaten einen im Be trieb des technischen Systems zu optimierenden Performanz- parameter ermittelt. Eine solche Zielfunktion wird häufig auch als Belohnungsfunktion oder Reward Function bezeichnet. Die Steuereinrichtung kann dann bevorzugt anhand des in den extrahierten Trainingsdaten enthaltenen Teils der Zustandsda- ten darauf trainiert werden, den Performanzparameter zu opti mieren. Unter einer Optimierung sei hier und im Folgenden auch eine Annäherung an ein Optimum verstanden. Der

Performanzparameter kann insbesondere einen Ertrag, eine Aus beute, einen Wirkungsgrad, einen Schadstoffausstoß oder einen Ressourcenverbrauch des technischen Systems oder eines Teils davon oder eine ggf. gewichtete Kombination dieser Parameter betreffen. Die Zielfunktion kann den Performanzparameter aus Zustandsdaten oder anderen Betriebsdaten, z.B. Umgebungsdaten des technischen Systems berechnen.

Zur Optimierung des Performanzparameters steht eine Vielzahl von bekannten Verfahren insbesondere des bestärkenden Lernens und des überwachten Lernens zur Verfügung.

Weiterhin kann ein Anteil der extrahierten Trainingsdaten an einer Gesamtheit der Trainingsdaten ermittelt werden. Abhän gig vom ermittelten Anteil kann dann ein Qualitätsmaß für die Trainingsdaten ermittelt und zum Steuern des technischen Sys tems ausgegeben werden. Durch ein solches Qualitätsmaß kann gewissermaßen eine für das Training relevante Informations dichte der Trainingsdaten quantifiziert werden. Falls mehrere Abfolgen von Trainingsdaten verfügbar sind, kann bevorzugt eine Abfolge mit hohem Qualitätsmaß selektiert und zum Trai ning verwendet werden.

Nach einer vorteilhaften Weiterbildung der Erfindung können die Trainingsdaten und/oder die extrahierten Trainingsdaten mittels einer Aggregationsfunktion aggregiert werden. Das Training kann dann anhand der aggregierten Trainingsdaten er folgen. Durch eine solche Aggregation können die Trainingsda ten bzw. die extrahierten Trainingsdaten vorzugsweise zeit fensterspezifisch zusammengefasst oder reduziert werden, z.B. indem fortlaufend ein ggf. gewichteter Mittelwert oder Me dian, ein Maximum oder ein Minimum mehrerer zeitlich aufei nanderfolgender Trainingsdaten gebildet wird. Ein Ausführungsbeispiel der Erfindung wird nachfolgend anhand der Zeichnung näher erläutert. Dabei zeigen jeweils in sche matischer Darstellung:

Figur 1 eine Gasturbine mit einer erfindungsgemäßen Steuer einrichtung,

Figur 2 eine erfindungsgemäße Steuereinrichtung in einer

Trainingsphase und

Figur 3 ein Diagramm mit gegen die Zeit aufgetragenen Trai ningsdaten .

Figur 1 veranschaulicht beispielhaft eine Gasturbine als technisches System TS. Alternativ oder zusätzlich kann das technische System TS auch eine Windturbine, ein Solarkraft werk, eine Verbrennungskraftmaschine, eine Fertigungsanlage, ein Verkehrsleitsystem, eine Energiesteuerung für ein Gebäu de, ein Energieübertragungsnetz, wie z.B. ein Stromnetz, ei nen 3D-Drucker oder ein anderes System zur additiven Ferti gung umfassen.

Die Gasturbine TS ist mit einer rechnergestützt trainierbaren Steuereinrichtung CTL gekoppelt, die als Teil der Gasturbine TS oder ganz oder teilweise extern zur Gasturbine TS imple mentiert sein kann. Die Steuereinrichtung CTL dient zum Steu ern des technischen Systems TS und ist zu diesem Zweck mit tels eines maschinellen Lernverfahrens trainierbar. Unter ei nem Steuern des technischen Systems TS sei hierbei auch eine Regelung des technischen Systems TS sowie eine Ausgabe und Verwendung von steuerungsrelevanten, d.h. zum Steuern des technischen Systems TS beitragenden Daten und Steuersignalen verstanden .

Derartige steuerungsrelevante Daten können insbesondere Steu eraktionsdaten, Prognosedaten, Überwachungsdaten und/oder Klassifikationsdaten umfassen, die insbesondere zur Betriebs optimierung, Überwachung oder Wartung des technischen Systems TS und/oder zur Verschleiß- oder Beschädigungserkennung ver wendet werden können.

Die Gasturbine TS verfügt weiterhin über mit der Steuerein richtung CTL gekoppelte Sensoren S, die fortlaufend einen oder mehrere Betriebsparameter des technischen Systems TS messen und in Form von Betriebsdaten BD zur Steuereinrichtung CTL übermitteln. Neben den Sensordaten können durch die Steu ereinrichtung CTL noch weitere Betriebsparameter aus anderen Datenquellen des technischen Systems TS oder aus externen Da tenquellen erfasst werden.

Als Betriebsdaten BD sind hier und im Folgenden insbesondere physikalische, regelungstechnische, wirkungstechnische und/oder bauartbedingte Betriebsgrößen, Eigenschaftsdaten, Leistungsdaten, Wirkungsdaten, Zustandsdaten, Systemdaten, Vorgabewerte, Steuerdaten, Sensordaten, Messwerte, Umgebungs daten, Überwachungsdaten, Prognosedaten, Analysedaten

und/oder andere im Betrieb des technischen Systems TS anfal lende und/oder einen Betriebszustand oder eine Steueraktion des technischen Systems TS beschreibende Daten zu verstehen. Dies können z.B. Daten über Temperatur, Druck, Emissionen, Vibrationen, Schwingungszustände oder Ressourcenverbrauch des technischen Systems TS sein. Speziell bei einer Gasturbine können die Betriebsdaten BD eine Turbinenleistung, eine Rota tionsgeschwindigkeit, Vibrationsfrequenzen oder Vibrations amplituden betreffen. Die Betriebsdaten BD können skalar, vektorwertig oder tensorwertig und insbesondere hochdimensio nal sein.

Figur 2 zeigt in schematischer Darstellung eine erfindungsge mäße Steuereinrichtung CTL in einer Trainingsphase, durch die die Steuereinrichtung CTL für eine optimierte Steuerung eines technischen Systems TS konfiguriert wird. Die Steuereinrich tung CTL ist an das technische System TS gekoppelt.

Die Steuereinrichtung CTL sowie das technische System TS kön nen wie in Zusammenhang mit Figur 1 beschrieben, ausgestaltet oder implementiert sein. Die Steuereinrichtung CTL verfügt über einen oder mehrere Prozessoren PROC zum Ausführen aller Verfahrensschritte der Steuereinrichtung CTL sowie über einen oder mehrere mit dem Prozessor PROC gekoppelte Speicher MEM zum Speichern der von der Steuereinrichtung CTL zu verarbei tenden Daten.

Vom technischen System TS wird eine zeitliche Abfolge von Be triebsdaten, die sowohl Zustandsdaten als auch Steueraktions daten umfassen, sensorisch erfasst und als Trainingsdaten TD(t) zur Steuerungseinrichtung CTL übermittelt, t bezeichnet hier und im Folgenden eine zeitliche Abhängigkeit einer je weiligen Größe bzw. deren Zuordnung zu einem jeweiligen Zeit punkt t.

Die zeitliche Abfolge der Trainingsdaten TD(t) stammt im vor liegenden Ausführungsbeispiel vom technischen System TS. All gemein können indessen als Trainingsdaten beliebige zum Trai ning verwendbare historische oder aktuelle Betriebsdaten des technischen Systems TS oder ähnlicher technischer Systeme verwendet werden.

Die Trainingsdaten TD(t) enthalten insbesondere eine zeitli che Abfolge von Zustandsdaten SD(t) sowie eine zeitliche Ab folge von Steueraktionsdaten AD(t). Die Zustandsdaten SD(t) spezifizieren hierbei Betriebszustände des technischen Sys tems TS während die Steueraktionsdaten AD(t) am technischen System TS vorgenommene Steueraktionen spezifizieren. Die Be triebszustände können beispielsweise eine Leistung, eine Drehzahl, eine Temperatur, einen Druck, einen Schwingungszu stand und/oder eine Emission des technischen Systems betref fen .

Die Steuereinrichtung CTL verfügt über ein datengetrieben trainierbares Rechenmodul NN, das ein maschinelles Lernver fahren implementiert. Im vorliegenden Ausführungsbeispiel verfügt das trainierbare Rechenmodul NN über ein künstliches neuronales Netz, mittels dessen ein Verfahren des bestärken- den Lernens implementiert wird. Ein solches trainierbares Re chenmodul oder eine entsprechend trainierte Steuereinrichtung wird häufig auch als trainierbarer oder lernender Policy Agent oder als Steuermodell bezeichnet. Das neuronale Netz des Rechenmoduls NN weist eine Trainingsstruktur auf, die sich während eines Trainings ausbildet.

Unter einem Training sei allgemein eine Optimierung einer Ab bildung von Eingabeparametern eines parametrisierten System modells, z.B. eines neuronalen Netzes, auf einen oder mehrere Ausgabeparameter verstanden. Diese Abbildung wird nach vorge gebenen, gelernten und/oder zu lernenden Kriterien während einer Trainingsphase optimiert. Als Kriterium kann z.B. bei Steuermodellen ein Erfolg von Steueraktionen herangezogen werden, der z.B. einen Ertrag, einen Ressourcenbedarf, einen Schadstoffausstoß , einen Verschleiß oder einen anderen eine Performanz des technischen Systems quantifizierenden Parame ter betreffen kann. Eine Trainingsstruktur kann z.B. eine Vernetzungsstruktur von Neuronen eines neuronalen Netzes und/oder Gewichte von Verbindungen zwischen den Neuronen um fassen, die durch das Training so ausgebildet werden, dass die Kriterien möglichst gut erfüllt werden.

Im vorliegenden Ausführungsbeispiel wird das Rechenmodul NN mittels eines Verfahrens des bestärkenden Lernens darauf trainiert, das technische System TS optimiert zu steuern. Da bei wird das Rechenmodul NN darauf trainiert, anhand von als Eingabeparameter zugeführten Betriebsdaten des technischen Systems TS optimierte Steueraktionsdaten OAD als Ausgabepara meter auszugeben, die eine Zielfunktion RF optimieren. Für derartige Lernverfahren steht eine Vielzahl von bekannten Standardroutinen zur Verfügung.

Die Zielfunktion RF berechnet aus zugeführten Betriebsdaten einen Performanzparameter PP, der durch das genannte Lernver fahren zu optimieren ist. Zu diesem Zweck werden die durch die Zielfunktion RF berechneten Werte des Performanzpara- meters PP dem Rechenmodul NN zugeführt, wie in Figur 2 durch einen strichlierten Pfeil angedeutet ist. Damit wird die Trainingsstruktur des neuronalen Netzes mittels des Lernver fahrens derart angepasst, dass die Ausgabeparameter OAD des neuronalen Netzes den Performanzparameter PP optimieren.

Durch den Performanzparameter PP wird ein erwünschtes Verhal ten des technischen Systems TS quantifiziert. So kann als Performanzparameter PP beispielsweise eine ggf. gewichtete Kombination von Ertrag, Ausbeute, Wirkungsgrad, Schadstoff ausstoß, Verschleiß und Ressourcenverbrauch des technischen Systems TS oder eines Teils davon oder ein anderer eine Per- formanz des technischen Systems TS betreffender Parameter verwendet werden. Durch Optimierung des Performanzparameters PP wird das Rechenmodul NN auf eine Ausgabe von optimierten Steueraktionsdaten OAD trainiert und so die Steuereinrichtung CTL für eine optimierte Steuerung des technischen Systems TS konfiguriert .

Eine Zielfunktion, hier RF, zur Berechnung eines Performanz- parameters, hier PP, wird häufig auch als Belohnungsfunktion oder Reward Function bezeichnet. Der Performanzparameter gibt dabei vorzugsweise einen langfristigen Gewinn oder eine Ge samtbelohnung an.

Die in die Zielfunktion RF eingehenden Betriebsdaten werden häufig auch als Targetdaten bezeichnet und sind in der Regel ein Teil der in den Betriebsdaten enthaltenen Zustandsdaten des technischen Systems TS. Zur Berechnung von Performanz- parametern aus Targetdaten des technischen Systems TS ist ei ne Vielzahl von Verfahren bekannt.

Es erweist sich, dass ein Trainingserfolg des Rechenmoduls NN erheblich von einer Qualität der Trainingsdaten TD abhängig ist. In diesem Sinne soll erfindungsgemäß angestrebt werden, diejenigen Trainingsdaten zu finden und zu extrahieren, die für das Training oder den Trainingserfolg besonders nützlich sind . Zur Selektion und Extraktion dieser trainingsfördernden Trai ningsdaten enthält die Steuereinrichtung CTL ein Filter F, zu dem die Trainingsdaten TD(t) übermittelt werden. Das Filter F dient zu dem Zweck, Zeitintervalle oder Zeitfenster TF zu identifizieren, die bevorzugt trainingsfördernde Trainingsda ten enthalten und diese trainingsfördernden Trainingsdaten spezifisch zu extrahieren bzw. herauszufiltern.

Es erweist sich, dass diejenigen Trainingsdaten besonders trainingsfördernd sind, die Information über Auswirkungen von Steuereingriffen auf Zustände des technischen Systems TS ent halten. Durch Fokussierung des Lernverfahrens auf derartige Trainingsdaten können Wirkungszusammenhänge zwischen Steuer eingriffen und deren Auswirkungen in der Regel erheblich schneller und effizienter erlernt werden. Somit erweist es sich als vorteilhaft, diejenigen Zeitfenster zu identifizie ren oder beim Training zu bevorzugen, in denen Steueraktionen angewandt werden oder wechseln, d.h. in denen sich Steuerak tionen zeitlich verändern.

Zum Feststellen einer zeitlichen Veränderung der Steueraktio nen umfasst das Filter F einen Veränderungsdetektor DD, zu dem die zeitliche Abfolge der Steueraktionsdaten AD(t) über mittelt wird. Die Steueraktionsdaten AD(t) werden hierzu durch das Filter F aus den Trainingsdaten TD(t) spezifisch extrahiert .

Zur Detektion der zeitlichen Veränderung der Steueraktionsda ten AD(t) ermittelt der Veränderungsdetektor DD fortlaufend ein Veränderungsmaß D. Letzteres kann beispielsweise als Be trag einer Differenz aufeinanderfolgender Steueraktionsdaten | AD (t) -AD (t-1 ) | oder als Quadrat einer solchen Differenz (AD (t) -AD (t-1 ) ) 2 berechnet werden. Bei mehrkomponentigen Steueraktionsdaten AD(t) können entsprechend mehrdimensionale euklidische oder gewichtete Abstände aufeinanderfolgender Steueraktionsvektoren als Veränderungsmaß D ermittelt werden. Der Veränderungsdetektor DD vergleicht die fortlaufend ermit telten Veränderungsmaße D mit einem vorgegebenen oder ander weitig bestimmten Schwellwert TH und stellt infolge einer Überschreitung dieses Schwellwerts TH eine zeitliche Verände rung der Steueraktionsdaten AD(t) fest. Bei mehrkomponentigen Steueraktionsdaten können entsprechend komponentenspezifische Schwellwerte vorgesehen sein. Alternativ oder zusätzlich kann der Veränderungsdetektor DD die Abfolge der Steueraktionsda ten AD(t) nach einem vorgegebenen oder anderweitig bestimmten Veränderungsmuster durchsuchen und infolge des Auftretens dieses Veränderungsmusters eine zeitliche Veränderung der Steueraktionsdaten AD(t) feststellen.

Infolge einer Feststellung einer jeweiligen Veränderung wird eine jeweilige Veränderungsstelle in der Abfolge der Steuer aktionsdaten AD(t) ermittelt. Im vorliegenden Ausführungsbei spiel wird als jeweilige Veränderungsstelle ein jeweiliger Veränderungszeitpunkt t s ermittelt, an dem der Schwellwert TH durch das jeweilige Veränderungsmaß D überschritten wird.

Die ermittelten Veränderungszeitpunkte t s werden vom Verände rungsdetektor DD zu einem Selektionsmodul SEL des Filters F übermittelt. Zu diesem Selektionsmodul SEL wird auch die Ab folge der Trainingsdaten TD(t) übermittelt. Das Selektionsmo dul SEL ermittelt anhand der Veränderungszeitpunkte t s je weils ein Zeitfenster TF, das den jeweiligen Veränderungs zeitpunkt t s umfasst. Vorzugsweise wird das jeweilige Zeit fenster TF um den jeweiligen Veränderungszeitpunkt t s herum zentriert. In diesem Fall ergibt sich als Zeitfenster das Zeitintervall TF (t s ) = [t s -L/2, t s +L/2], wobei L eine Länge des Zeitfensters TF bezeichnet.

Die Länge L des Zeitfensters kann je nach dem zu steuernden technischen System TS abhängig von einer Reaktionszeit von dessen Sensoren, einer Reaktionszeit auf Steuerungsmaßnahmen, einer Änderungszeit von Umgebungsbedingungen oder abhängig von einer anderen für die Steuerung des technischen System TS maßgeblichen Zeitskala festgelegt werden. Bei Gasturbinen oder Windturbinen kann vorzugsweise ein Länge L von einer Se kunde bis drei oder mehr Minuten, insbesondere eine Länge von 30 bis 60 Sekunden vorgesehen sein.

Vorzugsweise können der Schwellwert TH sowie die Länge L ab hängig von einer Analyse der zeitlichen Veränderungen der Ab folge der Steueraktionsdaten AD(t) bestimmt werden. So können z.B. eine Rate und/oder eine Amplitude der Schwankungen der Steueraktionsdaten AD(t) ermittelt werden und der Schwellwert TH und die Länge L abhängig davon berechnet oder modifiziert werden. Insbesondere kann bei größeren Amplituden ein kleine rer Schwellwert TH und bei höheren Raten eine geringere Länge L festgelegt werden.

Die Ermittlung der Zeitfenster TF wird anhand von Figur 3 weiter veranschaulicht. Figur 3 zeigt ein Diagramm, in dem eine Abfolge von Trainingsdaten TD(t) gegen die Zeit t aufge tragen ist. Die Trainingsdaten TD(t) umfassen Zustandsdaten SD(t), die im unteren Teil des Diagramms veranschaulicht sind und Steueraktionsdaten AD(t), die im oberen Teil veranschau licht sind. Aus Übersichtlichkeitsgründen ist nur jeweils ein Verlauf eines einzigen Werts in stark vereinfachter Weise dargestellt .

Die Abfolge der Steueraktionsdaten AD(t) zeigen mehrere zeit liche Veränderungen Sl, S2, S3 und S4 zu den Zeitpunkten t si , t S 2, t S 3 und t s4 . Bei den Veränderungszeitpunkten t si , t S 2 sowie t S 3 liegt das ermittelte Veränderungsmaß D oberhalb des

Schwellwerts TH, bei t s4 darunter. Die Veränderung S4 wird infolgedessen verworfen und definiert mithin kein Zeitfens ter. Dagegen definieren die zeitliche Veränderung Sl bzw. der Zeitpunkt t si ein Zeitfenster TF1, die Veränderung S2 bzw. der Zeitpunkt t S 2 ein Zeitfenster TF2 und die Veränderung S3 bzw. der Zeitpunkt t S 3 ein Zeitfenster TF3. Die Zeitfenster TF2 und TF3 überlappen sich und werden infolgedessen zu einem gemeinsamen Zeitfenster TF23= [t S2 _ L/2, t S3 +L/2] zusammenge fasst . Der weitere Verlauf des erfindungsgemäßen Verfahrens wird wieder anhand von Figur 2 veranschaulicht.

Anhand der ermittelten Zeitfenster TF selektiert und extra hiert das Selektionsmodul SEL spezifisch diejenigen der Trai ningsdaten TD(t), die sich innerhalb dieser Zeitfenster TF befinden. Diese innerhalb der Zeitfenster TF befindlichen Trainingsdaten werden im Folgenden als extrahierte oder ge filterte Trainingsdaten FTD bezeichnet. Für ein den Verände rungszeitpunkt t s umfassendes (nicht überlappendes) Zeitfens ter TF können die extrahierten Trainingsdaten beispielsweise gegeben sein durch FTD = { TD (t s -L/2 ) , TD(t s +L/2)}.

Die zeitfensterspezifisch selektierten und gefilterten Trai ningsdaten FTD werden vom Selektionsmodul SEL bzw. vom Filter F zum Rechenmodul NN übermittelt. Weiterhin werden die gefil terten Trainingsdaten FTD der Zielfunktion RF zugeführt, die aus den in den extrahierten Trainingsdaten FTD enthaltenen Betriebsdaten und insbesondere aus den darin enthaltenen Zu standsdaten den Performanzparameter PP berechnet. Anhand der extrahierten Trainingsdaten FTD sowie dem berechneten

Performanzparameter PP wird das neuronale Netz des Rechenmo duls NN, wie oben bereits angedeutet, derart trainiert, dass Steueraktionsdaten OAD ausgegeben werden, die - wenn auf das technische Systems TS angewandt -, den Performanzparameter PP optimieren .

Im vorliegenden Ausführungsbeispiel werden dem Rechenmodul NN keine außerhalb der Zeitfenster TF befindlichen Trainingsda ten zugeführt und das neuronale Netz damit ausschließlich an hand der extrahierten Trainingsdaten FTD trainiert. Wie oben bereits erwähnt, kann alternativ oder zusätzlich zum neurona len Netz insbesondere ein Verfahren des bestärkenden Lernens im Rechenmodul NN implementiert sein. Insofern sich Trai ningsdaten als besonders trainingsfördernd erweisen, die sich in zeitlicher Nähe zu Steuereingriffen bzw. Veränderungen der Steueraktionsdaten befinden, kann in der Regel ein Trainings- erfolg verbessert bzw. ein Trainingsaufwand verringert wer den .

Alternativ können dem Rechenmodul NN auch außerhalb der Zeit fenster befindliche Trainingsdaten zugeführt werden. In die sem Fall kann das Rechenmodul NN zumindest bevorzugt oder überwiegend anhand der gefilterten Trainingsdaten FTD trai niert werden. So können die gefilterten Trainingsdaten FTD beim Training stärker gewichtet werden als die außerhalb der Zeitfenster befindlichen Trainingsdaten oder letztere können reduziert, ausgedünnt und/oder teilweise verworfen werden.

Anhand der extrahierten Trainingsdaten FTD und deren Anteil an einer Gesamtheit der Trainingsdaten TD kann ein Qualitäts maß für die Trainingsdaten TD abgeleitet werden. Ein derart bestimmtes Qualitätsmaß kann gewissermaßen eine für das Trai ning relevante Informationsdichte quantifizieren.

Vorzugsweise können fortlaufend und aktuell erfasste Trai ningsdaten TD(t) durch das Filter F fortlaufend gefiltert werden und die Steuereinrichtung CTL im laufenden Betrieb an hand der gefilterten Trainingsdaten FTD weitertrainiert wer den .

Optional kann zwischen dem Filter F und dem Rechenmodul NN ein Aggregator (nicht dargestellt) zwischengeschaltet sein, der die gefilterten Trainingsdaten FTD vorzugsweise zeitfens terweise aggregiert, d.h. zusammenfasst und/oder reduziert. Die aggregierten Trainingsdaten werden dann zum Training an das Rechenmodul NN übermittelt. Die Aggregation kann bei spielsweise durch Bilden eines Mittelwerts, eines Median, ei nes Minimums und/oder eines Maximums über einen vorgegebenen Abschnitt der Abfolge der gefilterten Trainingsdaten FTD er folgen .

Indem das neuronale Netz und damit das Rechenmodul NN trai niert wird, wird die Steuereinrichtung CTL für eine optimier te Steuerung des technischen Systems TS konfiguriert. Beim Steuern wendet die Steuereinrichtung CTL die durch das Trai ning erlernte Steuerstrategie an, d.h. bildet aktuelle Sys temzustände auf hinsichtlich der Zielfunktion RF optimale Steueraktionen ab.

Durch die spezifische Filterung der Trainingsdaten wird das Rechenmodul NN durch besonders trainingsfördernde Trainings daten trainiert. Diese selektierten Trainingsdaten FTD ent halten besonders viele Korrelationen zwischen Steuereingrif- fen und deren Auswirkungen auf Systemzustände des technischen Systems TS und sind damit besonders repräsentativ für dessen Steuerung. Durch die spezifische Selektion der Trainingsdaten kann effektiv vermieden werden, dass redundante, weniger re levante oder weniger signifikante Information den Lernprozess stört oder verzögert. Es zeigt sich, dass durch die erfin dungsgemäße Filterung der Trainingsdaten ein Trainingserfolg signifikant verbessert bzw. ein Trainingsaufwand signifikant verringert werden kann.