Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
CONTROL OF A SUPPLY NETWORK, IN PARTICULAR AN ELECTRICITY NETWORK
Document Type and Number:
WIPO Patent Application WO/2022/263309
Kind Code:
A1
Abstract:
The invention relates to a method for reinforced learning of an artificial neural network, wherein the neural network determines, from measurements associated with a supply network, in particular an electricity network, a plurality of control values for controlling the supply network. The method is characterised by the following steps: - (S1) determining a control value such that at least one limit value of a measured variable of the supply network is exceeded during a time period, wherein the time period is fixed such that protective devices of the supply network are not triggered; - (S2) acquiring at least one measurement associated with the control value; and - (S3) training the neural network by means of the calculated control value and the acquired associated measurement. The invention further relates to an artificial neural network for controlling a supply network and to a control device comprising such a neural network.

Inventors:
DUCKHEIM MATHIAS (DE)
METZGER MICHAEL (DE)
Application Number:
PCT/EP2022/065805
Publication Date:
December 22, 2022
Filing Date:
June 10, 2022
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
SIEMENS AG (DE)
International Classes:
H02J3/38; G06N3/02
Foreign References:
US20200327411A12020-10-15
US20200119556A12020-04-16
CN111525548A2020-08-11
US20200285204A12020-09-10
Download PDF:
Claims:
Patentansprüche

1. Verfahren zum bestärkten Lernen eines künstlichen neurona len Netzes, wobei das neuronale Netz aus mit einem Versor gungsnetz, insbesondere mit einem Stromnetz, assoziierten Messwerten mehrere Steuerungswerte zur Steuerung des Versor gungsnetzes ermittelt, gekennzeichnet durch die Schritte:

- (Sl) Ermitteln eines Steuerungswertes derart, dass wenigs tens ein Grenzwert einer Messgröße des Versorgungsnetzes in einem Zeitbereich verletzt wird, wobei der Zeitbereich derart festgelegt wird, dass Schutzvorrichtungen des Versorgungsnet zes nicht auslösen;

- (S2) Erfassen wenigstens eines mit dem Steuerungswert asso ziierten Messwertes; und

- (S3) Trainieren des neuronalen Netzes mittels des berechne ten Steuerungswertes und des erfassten zugehörigen Messwer tes.

2. Verfahren gemäß Anspruch 1, gekennzeichnet dadurch, dass das Versorgungsnetz ein Stromnetz ist.

3. Verfahren gemäß Anspruch 2, gekennzeichnet dadurch, dass das Versorgungsnetz als Mittelspannungsnetz und/oder Nieder spannungsnetz ausgebildet ist.

4. Verfahren gemäß einem der vorhergehenden Ansprüche, ge kennzeichnet dadurch, dass das Lernen während des Betriebes des Versorgungsnetzes erfolgt.

5. Verfahren gemäß einem der vorhergehend en Ansprüche, gekennzeichnet dadurch, dass der Zeitbereich kleiner oder gleich einer Minute ist.

6. Verfahren gemäß einem der vorhergehenden Ansprüche, ge kennzeichnet dadurch, dass vermiedene Verletzungen von Grenz werten als Güteparameter des bestärkten Lernens verwendet werden. 7. Verfahren gemäß einem der Ansprüche 2 bis 6, gekennzeich net dadurch, dass als Messwerte Wirkleistungen, Blindleistun gen, Winkel und/oder Ströme der jeweiligen Phase an jeweili gen Netzknoten des Stromnetzes und/oder in den jeweiligen Leitungen des Stromnetzes verwendet werden.

8. Verfahren gemäß einem der Ansprüche 2 bis 7, gekennzeich net dadurch, dass aufgrund der Steuerungswerte Änderungen von Wirkleistungen und/oder Blindleistungen in das Stromnetz ein gespeist und/oder ausgespeist werden.

9. Verfahren gemäß Anspruch 8, gekennzeichnet dadurch, dass die Steuerungswerte mittels eines Rundsteuersignals und/oder Fernwirksignals an ein Smartmeter und/oder an einen regelba ren Netztransformator und/oder an Umrichter von Photovoltaik anlagen und/oder an Ladesäulen übermittelt werden.

10. Verfahren gemäß einem der Ansprüche 2 bis 9, gekennzeich net dadurch, dass als Belohnungsfunktion verwendet wird, wobei Gk eine Messgröße und G™ax ihren zughö rigen Grenzwert, AP eine Änderung der Wirkleistung, AQ eine

Änderung der Blindleistung und st = (Pl t,P2, einen Zustand des Stromnetzes zum Zeitpunkt t kennzeichnet.

11. Verfahren gemäß Anspruch 10, gekennzeichnet dadurch, dass das Lernen derart erfolgt, dass die Belohnungsfunktion r(st) maximiert wird.

12. Verfahren gemäß Anspruch 10 oder 11, gekennzeichnet dadurch, dass das neuronale Netz den Vektor at =

(APlt,...,APFt,AQlt,...,AQFt)T als Steuerungswerte ermittelt.

13. Verfahren gemäß einem der Ansprüche 2 bis 12, gekenn zeichnet dadurch, dass das Lernen zusätzlich mit syntheti schen Messwerten erfolgt, wobei die synthetischen Messwerte mittels einer Zustandsschätzung berechnet werden. 14. Künstliches neuronales Netz zur Steuerung eines Versor gungsnetzes, insbesondere eines Stromnetzes, dadurch gekenn zeichnet, dass dieses gemäß einem der Ansprüche 1 bis 13 trainiert ist.

15. Steuervorrichtung zur Steuerung eines Versorgungsnetzes, insbesondere eines Stromnetzes, dadurch gekennzeichnet, dass diese ein künstliches neuronales Netz gemäß Anspruch 14 um- fasst.

Description:
Beschreibung

Steuerung eines Versorgungsnetzes, insbesondere eines Strom netzes

Die Erfindung betrifft ein Verfahren gemäß dem Oberbegriff des Patentanspruches 1, ein künstliches neuronales Netz gemäß dem Oberbegriff des Patentanspruches 14 sowie eine Steuervor richtung zur Steuerung eines Versorgungsnetzes gemäß dem Oberbegriff des Patentanspruches 15.

Versorgungsnetze, insbesondere Verteilnetze der Niederspan nung und Mittelspannung, müssen Versorgungsaufgaben unter neuen Verbrauchs- und Erzeugungsszenarien lösen. Der Zubau von Photovoltaik, Batteriespeichern und Ladegeräten für Elektrofahrzeuge führt zu größeren Belastungen im elektri schen Netz (Stromnetz).

Neben einem aufwendigen Netzausbau sind Betriebsansätze at traktiv, welche die genannten Verbraucher in kritischen Netz situationen gezielt steuern, um Überlastungen, beispielsweise Verletzungen des Spannungsbandes oder ein Auslösen einer Si cherung durch Überschreiten ihrer Maximalleistung (Grenz wert), zu vermeiden. Diese Ansätze können umso effizienter ermöglicht werden, je genauer der Zustand des Versorgungsnet zes bekannt ist.

Niederspannungsnetze oder Mittelspannungsnetze weisen im Ge gensatz zu Übertragungsnetzen kaum eine Messinfrastruktur auf. Außerdem gibt es weniger Steuerfreiheitsgrade, wie bei spielsweise die Abschaltung von Ladegeräten oder das Abregeln von Photovoltaikanlagen oder Wärmepumpen. Eingriffe in den Betrieb dieser Anlagen können verwendet werden, um das be reits bestehende Netz besser zu nutzen. Dadurch würde der weitere Netzausbau minimiert werden. Die Steuereingriffe wer den beispielsweise dazu verwendet, Überlastungen von Leitun gen des Netzes zu vermeiden. Allerdings gibt es viele verschiedene Niederspannungsnetze oder Mittelspannungsnetze mit deutlich verschiedenen Kombina tionen an Verbraucher, Erzeugern oder Prosumern, sodass eine zentrale Steuervorrichtung zur Steuerung des Versorgungsnet zes, die beispielsweise mehrere Ortsnetze gleichzeitig steu ert, schwer oder nur mit unverhältnismäßigem Aufwand zu rea lisieren ist. Hierzu wäre eine verlässliche, prohibitiv teu re, Echtzeitkommunikationsanbindung aller Netze an die zent rale Steuervorrichtung erforderlich.

Auch eine durchgehend verlässlich korrekte Parametrierung für ein Model einer jeden Ortsnetzstation ist sehr schwer zu rea lisieren.

Weiterhin sind typischerweise nicht für alle Zustandsgrößen des Netzes zugehörige Messungen verfügbar.

Zusammenfassend werden durch die genannten technischen Schwierigkeiten Niederspannungsnetze bisher nicht automati siert betrieben.

Der vorliegenden Erfindung liegt die Aufgabe zugrunde, eine verbesserte Steuerung für ein Versorgungsnetz, insbesondere ein Niederspannungsnetz oder ein Mittelspannungsnetz, bereit zustellen.

Die Aufgabe wird durch ein Verfahren mit den Merkmalen des unabhängigen Patentanspruches 1, durch ein künstliches neuro nales Netz mit den Merkmalen des unabhängigen Patentanspru ches 14, sowie durch eine Steuervorrichtung mit den Merkmalen des unabhängigen Patenanspruches 15 gelöst. In den abhängigen Patentansprüchen sind vorteilhafte Ausgestaltungen und Wei terbildungen der Erfindung angegeben.

Das erfindungsgemäße Verfahren zum bestärkten Lernen eines künstlichen neuronalen Netzes, wobei das neuronale Netz aus mit einem Versorgungsnetz, insbesondere mit einem Stromnetz, assoziierten Messwerten mehrere Steuerungswerte zur Steuerung des Versorgungsnetzes ermittelt, ist gekennzeichnet durch we nigstens die folgenden Schritte:

- Ermitteln eines Steuerungswertes derart, dass wenigstens ein Grenzwert einer Messgröße des Versorgungsnetzes in einem Zeitbereich verletzt wird, insbesondere überschritten oder unterschritten wird, wobei der Zeitbereich derart festgelegt wird, dass Schutzvorrichtungen des Versorgungsnetzes nicht auslösen;

- Erfassen wenigstens eines mit dem Steuerungswert assoziier ten Messwertes; und

- Trainieren des neuronalen Netzes mittels des berechneten Steuerungswertes und des erfassten zugehörigen Messwertes.

Das erfindungsgemäße Verfahren und/oder eine oder mehrere Funktionen, Merkmale und/oder Schritte des erfindungsgemäßen Verfahrens und/oder einer seiner Ausgestaltungen können com putergestützt sein. Insbesondere wird das erfindungsgemäße Verfahren und/oder einer seiner Ausgestaltung mittels einer Recheneinheit durchgeführt.

Das künstliche neuronale Netz ist, insbesondere durch das Training, zur Steuerung des Versorgungsnetzes ausgebildet.

Eine Messgröße des Versorgungsnetzes ist typischerweise eine Zustandsgröße des Versorgungsnetzes, beispielsweise eine Wirkleistung und/oder eine Blindleistung. Im Weiteren wird der Begriff Leistung abkürzend für eine Wirkleistung und/oder eine Blindleistung, insbesondere ebenfalls für eine Schein leistung (Wirkleistung und Blindleistung), verwendet. Es wer den eine oder mehrere Zustandsgrößen des Versorgungsnetzes gemessen, das heißt erfasst.

Das künstliche neuronale Netz, welches zur Steuerung des Ver sorgungsnetzes ausgebildet ist, wird mittels selbstverstärk ten beziehungsweise bestärkten Lernens (englisch: Reinforce ment Learning) während des Betriebes des Versorgungsnetzes trainiert. Dadurch lernt das künstliche neuronale Netz wäh rend des Betriebes selbstständig. Das künstliche neuronale Netz kann vor dem erfindungsgemäßen Training bereits vortrai niert oder untrainiert sein. Das künstliche neuronale Netz passt sich autonom während des Betriebes des Versorgungsnet zes an und erlernt sinnbildlich verbesserte Strategien für den Betrieb des Versorgungsnetzes (verbesserte Betriebsstra tegien). Durch das erfindungsgemäß trainierte neuronale Netz wird somit eine verbesserte Steuerung des Versorgungsnetzes bereitgestellt beziehungsweise eine solche Steuerung erst er möglicht.

Hierzu ermittelt das künstliche neuronale Netz einen oder mehrere Steuerungswerte (Steuerungsbefehle), beispielsweise Spannungsänderungen und/oder Leistungsänderungen an Knoten und/oder Leitungen des Versorgungsnetzes, die der Steuerung des Versorgungsnetzes zugrunde liegen.

Der beziehungsweise die ermittelten Steuerungswerte können bevorzugt basierend auf einer Belohnungsfunktion für bestärk tes Lernen ermittelt werden.

Die Belohnungsfunktion liegt dem bestärkten Lernen des neuro nalen Netzes zugrunde. Sie legt fest, welche Eingriffe, bei spielsweise Änderungen von Spannungen und/oder Leistungen, vorteilhaft für die Steuerung des Versorgungsnetzes sind. Mit anderen Worten wird das neuronale Netz während des Betriebes und somit während seines Lernens derart trainiert, dass es sinnbildlich seine Belohnung, die es für bestimmte Eingriffe unter bestimmten Umständen gemäß der Belohnungsfunktion er hält, möglichst maximiert. Beispielsweise wird ein Eingriff stets als negativ quantifiziert, sodass die Belohnungsfunkti on Strafterme für Eingriffe in den Betrieb des Versorgungs netzes, beispielsweise durch Änderungen der Spannungen und/oder Leistungen, aufweist. Je größer die Änderung der mit dem Versorgungsnetz assoziierten Steuergröße desto weniger die Belohnung. Das derart trainierte neuronale Netz steuert das Versorgungsnetz somit durch möglichst wenige Eingriffe mit einer möglichst geringen Änderung des bestehenden Netzzu standes. Weiterhin kann die Belohnungsfunktion Strafterme für ein Überschreiten oder Unterschreiten von Grenzwerten, das heißt für Grenzwertverletzungen, umfassen. Dadurch wird das neuro nale Netz derart trainiert, dass solche Überschreitungen und/oder Unterschreitungen von Grenzwerten, beispielsweise maximalen Spannungen, Strömen und/oder Leistungen, möglichst nicht erfolgen.

Die Belohnungsfunktion umfasst somit einen oder mehrere Strafterme, die ein technisch nicht erwünschtes Steuerungs verhalten sanktionieren. Die Strafterme der Belohnungsfunkti on können je nach Anforderung verschieden gewichtet werden. Diese Gewichtung kann sich mit dem Fortschritt des Lernens des neuronalen Netzes verändern beziehungsweise neu einge stellt werden.

Ein Grundgedanke des erfindungsgemäßen Verfahrens ist es, das Training des neuronalen Netzes und somit die Steuerung des Versorgungsnetzes durch gezielte Eingriffe zu verbessern. Hierzu werden Steuerungswerte beziehungsweise Steuerungsbe fehle erzeugt, die zu einem Überschreiten oder Unterschreiten eines Grenzwertes des Versorgungsnetzes, das heißt zu einer oder mehreren Grenzwertverletzungen, führen. Mit anderen Wor ten werden synthetische Steuerungsbefehle erzeugt, die aller dings zu tatsächlichen Eingriffen in den Betrieb des Versor gungsnetzes führen.

Erfindungsgemäß wird der Grenzwert lediglich innerhalb eines festgelegten Zeitbereiches überschritten beziehungsweise un terschritten. Hierbei wird der Zeitbereich erfindungsgemäß derart festgelegt, dass Schutzvorrichtungen des Versorgungs netzes nicht auslösen. Dadurch kann das Versorgungsnetz wäh rend des Lernens des neuronalen Netzes weiter regulär betrie ben werden.

Mit anderen Worten wird der Zeitbereich bezüglich der Schutz vorrichtungen derart kurz festgelegt, dass diese auslösungs- frei bleiben. Die Länge des Zeitbereiches kann von den vor handenen Schutzvorrichtungen abhängen und ist so festzulegen, dass diese auslösungsfrei bleiben. Allerdings können trotz der genannten zeitlichen Kürze der Eingriffe Messwerte von mit dem Versorgungsnetz assoziierten Größen, insbesondere Spannungen, Ströme und/oder Leistungen, die wenigstens teil weise auf den sozusagen künstlich erzeugten Eingriffen basie ren, erfasst werden, beispielsweise unmittelbar nachdem der oder die Eingriffe erfolgten. Dadurch wird das Versorgungs netz sinnbildlich getestet und seine Reaktion auf den in die sem Sinne für das Training des neuronalen Netzes vorgesehenen künstlich erzeugten Eingriff erfasst. Dadurch sind für das Training des neuronalen Netzes nicht nur mehr Messwerte be ziehungsweise Messdaten verfügbar, sondern zeitgleich werden Randbereiche der Steuerung, das heißt in der Nähe von Grenz werten, untersucht. Mit anderen Worten wird dadurch die Be lohnungsfunktion in ihren Randbereichen gesampelt/exploriert (englisch: sampling/exploration). Das derart trainierte neu ronale Netz weist somit insbesondere in den genannten Randbe reichen eine verbesserte Steuerung auf, sodass insgesamt eine verbesserte Steuerung des Versorgungsnetzes, ebenfalls in kritischen Situationen nahe einer Grenzwertverletzung, ermög licht wird.

Das erfindungsgemäße Training des künstlichen neuronalen Net zes führt somit technisch zu einer verbesserten Steuerung des Versorgungsnetzes, wobei die Steuerung mittels des derart trainierten neuronalen Netzes erfolgt. Für die Steuerung er mittelt das neuronale Netz einen oder mehrere Steuerungswerte beziehungsweise Steuerungsbefehle, die einer Änderung einer oder mehrerer mit dem Versorgungsnetz assoziierten techni schen Größen, beispielsweise Spannungen und/oder einer oder mehreren Leistungen, an einem oder mehreren Netzknoten oder innerhalb von einer oder mehreren Leitungen des Versorgungs netzes zugrunde liegen. Das Ermitteln der Steuerungswerte ba siert wenigstens auf einen oder mehreren aktuellen Messwer ten, die als Eingang für das neuronale Netz verwendet werden. Der Ausgang des neuronalen Netzes wird durch die Steuerungs werte ausgebildet.

Bevorzugt ist das Versorgungsnetz als Stromnetz ausgebildet. Besonders bevorzugt ist das Versorgungsnetz als Mittelspan nungsnetz und/oder als Niederspannungsnetz ausgebildet.

Das vorliegende Verfahren ist besonders für Mittelspannungs netze und/oder Niederspannungsnetze von Vorteil, da für diese Netze typischerweise wenig Messwerte/Messdaten vorliegen. Durch das erfindungsgemäße Training des neuronalen Netzes, welches auf synthetisch erzeugten Eingriffen basiert und wäh rend des Betriebes des Stromnetzes erfolgt, können mehr Mess werte/Messdaten bereitgestellt werden. Dadurch ist ein kos tenintensiver Ausbau von Mittelspannungsnetzen oder Nieder spannungsnetzen, insbesondere im Hinblick auf Messeinrichtun gen, nicht erforderlich oder dieser wird deutlich reduziert. Das neuronale Netz, das zur Steuerung des Mittel- oder Nie derspannungsnetzes vorgesehen und ausgebildet ist, schafft sich sinnbildlich seine Messwerte/Messdaten durch die geziel ten synthetisch erzeugten Eingriffe selbst und kann dadurch stetig während des Betriebes des Stromnetzes weiter lernen.

Das erfindungsgemäße künstliche neuronale Netz zur Steuerung eines Versorgungsnetzes, insbesondere eines Stromnetzes, ist dadurch gekennzeichnet, dass dieses gemäß einem Verfahren der vorliegenden Erfindung und/oder einer ihrer Ausgestaltungen trainiert ist.

Hierbei wird insbesondere ein bestärktes Lernen (englisch: Reinforcement Learning) verwendet.

Es ergeben sich zum erfindungsgemäßen Verfahren gleichartige und gleichwertige Vorteile und/oder Ausgestaltungen.

Die erfindungsgemäße Steuervorrichtung zur Steuerung eines Versorgungsnetzes, insbesondere eines Stromnetzes, ist dadurch gekennzeichnet, dass diese ein künstliches neuronales Netz gemäß der vorliegenden Erfindung und/oder einer ihrer Ausgestaltungen umfasst.

Insbesondere umfasst die Steuervorrichtung eine Recheneinheit mittels welcher das künstliche neuronale Netz implementiert ist.

Es ergeben sich zum erfindungsgemäßen Verfahren gleichartige und gleichwertige Vorteile und/oder Ausgestaltungen.

Gemäß einer bevorzugten Ausgestaltung der Erfindung erfolgt das Lernen während des Betriebes des Versorgungsnetzes.

Dadurch ist ein Unterbrechen des Betriebes des Versorgungs netzes nicht erforderlich. Dies ist deshalb möglich, da die synthetisch erzeugten Eingriffe derart erzeugt werden, dass durch diese Schutzvorrichtungen des Versorgungsnetzes nicht ausgelöst werden. Weiterhin wird dadurch das derart trainier te neuronale Netz stetig besser bezüglich der Steuerung des Versorgungsnetzes, insbesondere im Hinblick auf kritische Si tuationen, die durch ein Überschreiten oder Unterschreiten von Grenzwerten des Versorgungsnetzes gekennzeichnet sind.

In einer vorteilhaften Weiterbildung der Erfindung ist der Zeitbereich kleiner oder gleich einer Minute.

Mit anderen Worten wird der Zeitbereich kleiner oder gleich einer Minute festgelegt. Dadurch ist insbesondere für Mit telspannungsnetze und/oder Niederspannungsnetze sicherge stellt, dass bekannte und installierte Schutzvorrichtungen, beispielsweise Sicherungen, nicht auslösen, das heißt auslö sungsfrei bleiben.

Gemäß einer vorteilhaften Ausgestaltung der Erfindung werden Überschreitungen von Grenzwerten in Güteparametern des be stärkten Lernens berücksichtigt. Mit anderen Worten kann festgehalten werden, wie häufig die ermittelten Eingriffe (Steuerungswerte/Steuerungsbefehle) des neuronalen Netzes zu Überschreitungen von Grenzwerten führen. Dies kann als Güteparameter, das heißt als Parameter, der die Qualität des trainierten neuronalen Netzes erfasst, herange zogen werden. Grundsätzlich sollten keine Überschreitungen von Grenzwerten durch das Steuern mittels des neuronalen Net zes erfolgen. Ein Überschreiten ist jedoch nicht grundsätz lich ausgeschlossen, sodass ein neuronales Netz in diesem Sinne besser trainiert ist, wenn dieses im Betrieb durch sei ne Eingriffe zu weniger Grenzwertverletzungen führt. Als Gü teparameter kann die Anzahl der Grenzwertüberschreitungen in nerhalb eines Zeitbereiches und/oder die Größe der Grenzwert überschreitungen, das heißt die Größe der Abweichung vom Grenzwert herangezogen werden. Für einen derart festgelegten Güteparameter kann ein Schwellenwert festgelegt werden. Wird der Schwellenwert überschritten, beispielsweise erfolgten zu viele Grenzwertüberschreitungen, so kann das Training des neuronalen Netzes verworfen werden und das neuronale Netz neu gemäß der vorliegenden Erfindung und/oder einer ihrer Ausge staltungen trainiert beziehungsweise angelernt werden. Mit anderen Worten wird das Reinforcement-Modell verworfen und neu trainiert.

Besonders bevorzugt werden vermiedene Verletzungen, insbeson dere Überschreitungen, von Grenzwerten als Güteparameter des bestärkten Lernens verwendet werden.

In einer vorteilhaften Weiterbildung der Erfindung werden als Messwerte Wirkleistungen, Blindleistungen, Winkel und/oder Ströme der jeweiligen Phase an den jeweiligen Netzknoten des Stromnetzes und/oder in den jeweiligen Leitungen des Strom netzes verwendet.

Dadurch werden vorteilhafterweise für ein Stromnetz technisch zugängliche und erfassbare Messgrößen für das Training bezie hungsweise für das Lernen des neuronalen Netzes und für die Steuerung des Stromnetzes verwendet. Gemäß einer vorteilhaften Ausgestaltung der Erfindung werden aufgrund der Steuerungswerte Änderungen von Wirkleistungen und/oder Blindleistungen in das Stromnetz eingespeist und/oder ausgespeist.

Hierbei können bevorzugt die durch das neuronale Netz ermit telten Steuerungswerte den vorgesehenen Änderungen von Leis tungen entsprechen. Mit anderen Worten werden die ermittelten Änderungen der Leistungen an die jeweiligen Anlagen, die an das Stromnetz angeschlossen sind und eine Leistung ein- oder ausspeisen können, weitergegeben, die dann diese Änderung be züglich ihrer Leistung ausführen. Dadurch werden durch das neuronale Netz Einspeisungen in das Stromnetz und/oder Aus speisungen aus dem Stromnetz gesteuert.

In einer vorteilhaften Weiterbildung der Erfindung werden die Steuerungswerte beziehungsweise Steuerungsbefehle mittels ei nes Rundsteuersignals und/oder Fernwirksignals an ein Smart meter und/oder an einen regelbaren Netztransformator und/oder an Umrichter von Photovoltaikanlagen und/oder an Ladesäulen übermittelt .

Dadurch wird vorteilhafterweise eine Steuerung mittels typi scher Netzanlagen ermöglicht. Mittels eines regelbaren Netztransformators, insbesondere mittels eines regelbaren Ortsnetztransformators, können ebenfalls Spannungen geregelt beziehungsweise gesteuert werden, sodass dadurch Spannungsan hebungen und/oder Spannungssenkungen ebenfalls möglich sind.

Gemäß einer vorteilhaften Ausgestaltung der Erfindung wird als Belohnungsfunktion verwendet, wobei G k eine Messgröße und G™ ax ihren zughörigen Grenzwert, DR eine Änderung der Wirkleistung, Q eine Ände- rung der Blindleistung und s t = (P l t, P 2 , P N , Qlt, Q2,t> > nen Zustand des Stromnetzes zum Zeitpunkt t kennzeichnet. Der Zustand des Stromnetzes wird somit vorliegend bevorzugt durch die Leistungen ausgebildet. Typischerweise wird der Zu stand durch Spannungsbeträge und Winkel ausgebildet. Mit an deren Worten sind vorliegend die Leistungen als Zustandsgröße vorteilhaft. Eine Leistung P jt beziehungsweise Qi t kennzeich net die Wirk- beziehungsweise Blindleistung an einem Netzkno ten i zum Zeitpunkt beziehungsweise innerhalb des Zeitschrit tes t. Vorliegend weist das Stromnetz N Netzknoten auf. An jedem der Netzknoten ist eine Änderung der Wirkleistung und/oder Blindleistung möglich. Die gesamten Änderungen der Wirkleistung oder Blindleistung ist durch DR beziehungsweise Q symbolisiert. Jeder Eingriff und somit jede Änderung ist grundsätzlich technisch unerwünscht, sodass die zu diesen Än derungen zughörigen Strafterme innerhalb der Belohnungsfunk tion ein negatives Vorzeichen aufweisen. Die Änderung der Wirkleistungen und die Änderung der Blindleistungen weisen grundsätzlich verschiedene Parameter a P beziehungsweise 0C Q auf. Mit anderen Worten werden diese innerhalb der Beloh nungsfunktion verschieden gewichtet. Weiterhin werden Grenz wertverletzungen, insbesondere im Hinblick auf eine maximal zulässige Spannung G 1i = lt max und/oder einen maximal zulässi gen G 2I = / j max Strom, durch den letzten Term der Belohnungs funktion sanktioniert, das heißt diese führen ebenfalls sinn bildlich zu einer geringen Belohnung. Jeder dieser Grenzwert terme weist wiederum einen Gewichtungsparameter y k auf. Die Funktion max(0, kann ebenfalls als relu(G , das heißt als Gleichrichter (englisch: Rectifier) bezeichnet wer den.

Weiterhin ist es besonders bevorzugt, wenn a P ,a Q «Y k=VI ist. Das ist deshalb von Vorteil, da dadurch Grenzwertverletzungen deutlich stärker sanktioniert werden als Eingriffe, die zu einer Änderung der Leistungen innerhalb der jeweiligen Grenz werte führen. Mit anderen Worten ist die Strafe für eine Grenzwertverletzung größer als für ein Steuern innerhalb der Grenzwerte. Zudem können Grenzwertunterschreitungen, beispielsweise für die Spannung, die innerhalb eines Spannungsbandes, welches durch einen minimalen und maximalen Spannungsgrenzwert be grenzt ist, sanktioniert werden. Mit anderen Worten sollte während des Betriebes lt min < < lt max für die Netzknoten so wie |/ w |< /i max für die Leitungen erfüllt sein. Dies kann durch entsprechende Strafterme innerhalb der Belohnungsfunktion be rücksichtigt werden.

Wird somit mit a t = (AP l t , ..., AP F t ,AQ l t , ...,AQ F t ) T ein Eingriff ge kennzeichnet, das heißt eine Änderung der Wirkleistung DP jt und der Blindleistung AQi t zum Zeitpunkt t am Netzknoten i, wobei F die Gesamtzahl der Einspeisungen/Ausspeisungen be zeichnet, so kann das neuronale Netz als eine Abbildung verstanden werden. Gemäß der Abbildung / (englisch: Policy-Function) ermittelt das gemäß der vorliegenden Erfin dung und/oder einer ihrer Ausgestaltungen trainierte neurona le Netz aus einem allgemeinen gemessenen Zustand z^ = einen möglichst op timalen Eingriff a t * . Der Eingriff a t * wird hierbei derart er mittelt, dass die Belohnungsfunktion möglichst maximiert wird, besonders bevorzugt den Wert Null aufweist. Dies wird durch das Training des neuronalen Netzes erreicht. Alternativ oder ergänzend können weitere Verfahren zum bestärkten Ler nen, beispielsweise Actor-Critic-Verfahren, verwendet werden.

Die Daten , a t * können während des Betriebes des Versor gungsnetzes erfasst beziehungsweise ermittelt und gespeichert werden.

In einer vorteilhaften Weiterbildung der Erfindung erfolgt das Lernen derart, dass die Belohnungsfunktion r(s t ) maximiert wird.

Mit anderen Worten werden vorteilhafterweise Grenzwertverlet zungen sowie grundsätzlich Eingriffe in den Betrieb des Stromnetzes sanktioniert. Durch diese Sanktionierung in der Belohnungsfunktion wird technisch erreicht, dass möglichst wenige Eingriffe sowie möglichst wenige Grenzwertverletzungen während des Betriebes des Stromnetzes erfolgen. Hierbei wer den bevorzugt Grenzwertverletzungen stärker als regelnde be ziehungsweise steuernde Eingriffe innerhalb der Belohnungs funktion gewichtet.

Gemäß einer vorteilhaften Ausgestaltung der Erfindung ermit telt das neuronale Netz den Vektor a t =

(AP lt ,...,AP Ft ,AQ l t ,...,AQ Ft ) T als Steuerungswerte.

Mit anderen Worten werden bevorzugt Änderungen der Leistungen als Steuerungswerte beziehungsweise Steuerungsbefehle verwen det. Dadurch wird eine effiziente Steuerung ermöglicht, da für typische Anlagen des Stromnetzes lediglich ihre einge speiste und/oder ausgespeiste Leistung steuerbar ist. Span nungen und/oder Ströme sind beispielsweise durch einen regel baren Ortnetztransformator steuerbar.

In einer vorteilhaften Weiterbildung der Erfindung erfolgt das Lernen zusätzlich mit synthetischen Messwerten, wobei die synthetischen Messwerte mittels einer Zustandsschätzung be rechnet werden.

Mit anderen Worten werden durch eine Zustandsschätzung und/oder eine Simulation weitere Daten zum Training des neu ronalen Netzes bereitgestellt. Dadurch wird das Training des neuronalen Netzes und somit die Steuerung des Stromnetzes verbessert. Mittels der synthetischen Messwerte kann zudem vorteilhafterweise ermittelt werden, ob ein Grenzwert bei ei ner bestimmten Situation überschritten werden würde.

Weitere Vorteile, Merkmale und Einzelheiten der Erfindung er geben sich aus den im Folgenden beschriebenen Ausführungsbei spielen sowie anhand der Zeichnung. Dabei zeigt die einzige Figur schematisiert ein Ablaufdiagramm eines Verfahrens gemäß einer Ausgestaltung der vorliegenden Erfindung. Gleichartige, gleichwertige oder gleichwirkende Elemente kön nen in der Figur mit denselben Bezugszeichen versehen sein.

Gemäß dem vorliegenden Ausführungsbeispiel ist das Versor gungsnetz ein Stromnetz, insbesondere ein Mittelspannungsnetz und/oder Niederspannungsnetz, beispielsweise ein Ortsnetz.

Bei dem Verfahren zum bestärkten Lernen eines künstlichen neuronalen Netzes werden aus mehreren mit einem Stromnetz as soziierten Messwerten mehrere Steuerungswerte beziehungsweise Steuerungsbefehle zur Steuerung des Stromnetzes durch das neuronale Netz ermittelt. Zu den Messwerten sind technische Messgrößen des Stromnetzes zugehörig, insbesondere Leistun gen, Spannungen, Spannungsbeträge, Zweigströme, Zweigstrombe träge und/oder Spannungswinkel und/oder Zweigstromwinkel. Die Gesamtheit an verwendeten Messgrößen beziehungsweise ihrer zugehörigen Messwerte kann als (erweiterter) Zustand des Stromnetzes bezeichnet werden. Das neuronale Netz ist zur Steuerung des Stromnetzes basierend auf den erfassten Mess werten ausgebildet.

Für Mittelspannungsnetze beziehungsweise Niederspannungsnetze sind typischerweise vergleichsweise wenig Messwerte verfüg bar. Mit anderen Worten wird typischerweise lediglich eine Teilmenge der genannten Zustandsgrößen (Messgrößen) erfasst beziehungsweise gemessen, das heißt es gilt z^ = C m z t . Hier bei repräsentiert die (Projektions-)Matrix C m mit einer 1 in der entsprechenden Zeile den Anschluss einer Messung.

Basierend auf den erfassten Zustandsgrößen z^ ermittelt das trainierte neuronale Netz grundsätzlich einen oder mehrere Eingriffe a t * , das heißt einen oder mehrere Steuerungswerte zur Steuerung des Stromnetzes. Das neuronale Netz beziehungs wese dessen Wirkung oder Steuerung kann somit grundsätzlich als Abbildung verstanden werden.

Gemäß einem ersten Schritt S1 des Verfahrens zum Trainieren einen solchen, wie obenstehend beschriebenen, künstlichen neuronalen Netzes werden somit Steuerungswerte basierend auf einer Belohnungsfunktion durch das neuronale Netz berechnet beziehungsweise ermittelt. Die Belohnungsfunktion liegt dem bestärkten Lernen des neuronalen Netzes zugrunde. Das neuro nale Netz wird mit der Belohnungsfunktion derart trainiert, dass bezüglich der Belohnungsfunktion optimale Eingriffe ap proximiert werden.

Weiterhin wird der Steuerungswert derart erzeugt, dass we nigstens ein Grenzwert einer Messgröße des Stromnetzes für diesen Steuerungswert in einem Zeitbereich überschritten oder unterschritten wird. Der Zeitbereich wird hierbei derart festgelegt, dass Schutzvorrichtungen des Stromnetzes, bei spielsweise Sicherungen, nicht auslösen, das heißt auslö sungsfrei verbleiben, obwohl der Grenzwert kurzfristig über schritten beziehungsweise unterschritten, das heißt verletzt wird. Mit anderen Worten werden zum Training des neuronalen Netzes künstliche Steuerungswerte an die Anlagen des Strom netzes übermittelt, die zu einer kurzfristigen Verletzung ei nes oder mehrerer Grenzwerte führen. Aufgrund der Kurzfris tigkeit dieser künstlichen Eingriffe lösen die Schutzvorrich tungen nicht aus, sodass der Betrieb des Stromnetzes durch diese nicht gestört wird. Die derartigen grenzwertverletzen den Eingriffe erfolgen somit bevorzugt während des Betriebes des Stromnetzes. Das neuronale Netz lernt somit während des Betriebes des Stromnetzes. Die Grenzwerte sind insbesondere Spannungsgrenzwerte, Stromgrenzwerte und/oder Leistungsgrenz werte. Es können Grenzwertüberschreitungen und/oder Grenzwer tunterschreitungen im oben genannten Sinne durch das Training des neuronalen Netzes ausgelöst werden.

In einem zweiten Schritt S2 des Verfahrens werden nach dem Eingriff, der zur Grenzwertverletzung führte, mehrere Mess werte der Messgrößen erfasst. Mit anderen Worten ist dadurch dem Eingriff, der zur Grenzwertverletzung führte, wenigstens ein Messwert zugeordnet. Dadurch ist der Steuerungswert mit dem Messwert assoziiert. Diese bilden ein Tupel wel ches zum Training des neuronalen Netzes herangezogen wird. Dadurch werden nicht nur mehr Trainingsdaten (Tupel) für das neuronale Netz bereitgestellt, sondern weiterhin das neurona le Netz in den kritischen Grenzbereichen des Stromnetzes trainiert. Dadurch wird das Training des neuronalen Netzes und somit die Steuerung des Stromnetzes durch das neuronale Netz verbessert.

Gemäß einem dritten Schritt S3 des Verfahrens wird schließ lich das neuronale Netz mittels des berechneten Steuerungs wertes und des erfassten zugehörigen Messwertes trainiert. Hierzu können die Daten ebenfalls gespeichert wer den.

Fehlt eine Messung oder kann ein Messwert zu einer Messgröße nicht erfasst werden, so können Schätzungen verwendet werden. Dies kann mittels einer Simulation und/oder einer Zustands schätzung erfolgen.

Das beschriebene Vorgehen zum Trainieren des neuronalen Net zes kann somit ebenfalls als ein Austesten des Zustandes be zeichnet werden (englisch: state exploration). Während des Trainings kann ebenfalls die Belohnungsfunktion verändert werden. So könnten anfänglich Grenzwertverletzungen stärker gewichtet werden. Treten diese später seltener auf, kann de ren Gewichtung reduziert werden. Dadurch ist eine autonome Anpassung des neuronalen Netzes beziehungsweise des zugrunde liegenden Modells während des Betriebes möglich. Weiterhin könnte ein Modell vollständig verworfen werden und das neuro nale Netz neu trainiert werden.

Durch das vorliegende Verfahren zum Trainieren des neuronalen Netzes, welches während des Betriebes des Stromnetzes durch geführt wird, bildet sich somit ein verbessertes trainiertes neuronales Netz, insbesondere im Hinblick auf kritische Situ ationen, aus. Das derart trainierte Netz wird zur Steuerung des Stromnetzes verwendet, sodass die Steuerung des Stromnet zes verbessert wird. Insbesondere können Leitungsüberlastun gen und Spannungsbandverletzungen vermieden beziehungsweise im Vergleich zu klassischen Regelungen/Steuerungen reduziert werden. Somit wird ein autonomer effizienter Betrieb von Mit tel- und/oder Niederspannungsnetzen ermöglicht. Obwohl die Erfindung im Detail durch die bevorzugten Ausfüh rungsbeispiele näher illustriert und beschrieben wurde, so ist die Erfindung nicht durch die offenbarten Beispiele ein geschränkt oder andere Variationen können vom Fachmann hie raus abgeleitet werden, ohne den Schutzumfang der Erfindung zu verlassen.

Bezugszeichenliste

51 erster Schritt

52 zweiter Schritt S3 dritter Schritt