Forward and Inverse Problems in Optimal Control
Tid: Fr 2025-12-05 kl 10.00
Plats: Kollegiesalen, Brinellvägen 8, Stockholm
Språk: Engelska
Ämnesområde: Tillämpad matematik och beräkningsmatematik Optimeringslära och systemteori
Respondent: Yuexin Cao , Numerisk analys, optimeringslära och systemteori
Opponent: Professor Ming Cao,
Handledare: Professor Xiaoming Hu, Numerisk analys, optimeringslära och systemteori; Professor Boualem Djehiche, Sannolikhetsteori, matematisk fysik och statistik
QC 2025-11-13
Abstract
I denna avhandling studeras två typer av problem inom systemteori: analys och optimering av nätverkskopplade dynamiska system, samt rekonstruktion av okända kostnadsfunktioner inom styrning och lärande. Dessa problem uppstår naturligt i en mängd olika tillämpningar, från tekniska system till naturliga fenomen.
Den första problemtypen handlar om effektiv styrning och optimering över storskaliga nätverkssystem. Först undersöks problemet att säkerställa styrbarhet samtidigt som antalet styrsignaler minimeras. Dessutom studeras optimal placering av styrsignaler under en begränsad styrbudget, för att förbättra energieffektiviteten och minska beräknings- och implementationskostnaderna. Den andra problemtypen berör inversa problem inom optimal styrning, där syftet är att rekonstruera okända kostnadsfunktioner från observerat beteende. Dessa problem är värdefulla för att avslöja de mål som ligger bakom komplexa system i naturen och i samhället. Båda fallen beaktas: när systemdynamiken är känd a priori och när den är okänd.
Artikel A undersöker optimal placering av styrsignaler för nätverkssystem som följer Turings reaktions–diffusionsmodell, ett klassiskt ramverk för att förstå självorganisation och mönsterbildning i biologiska system. Vi ger en fulltsändig karakterisering av diffusionsmatrisens egenstruktur, inför symmetriska kontrollmängder som uppfyller nödvändiga och tillräckliga grafteoretiska villkor, och garanterar styrbarhet för diffusionssystem över nätverk av godtycklig storlek och för ett godtyckligt antal parametrar. Dessa resultat utvidgas vidare till reaktions–diffusionssystem.
Artikel B utvidgar analysen till energieffektiv placering av styrsignaler i nätverksbaserade system. Genom att klassificera nätverkssymmetrier och utnyttja symmetriska styrkombinationer utvecklar vi en metod som möjliggör effektiv beräkning av spektrumet för kontrollbarhetsgramianen genom representationer i lägre dimensioner. Detta angreppssätt generaliseras vidare till osymmetriska fall, där övre och nedre spektrala gränser härleds. Vidare, genom att använda matrisspåret av kontrollbarhetsgramianen som målfunktion, föreslår vi en algoritm på sluten form för att optimera placering av styrsignaler under en begränsad styrbudget, för system med begränsad kontrollerbarhet. Vi gör även simuleringar som bekräftar metodens effektivitet.
Artikel C behandlar invers optimal styrning för kontinuerliga linjära kvadratiska regulatorer över ändliga tidshorisonter, med fokus på rekonstruktion av de okända kostnadsmatriserna R, Q och F i målfunktionen - baserat på observerade optimala styrbanor. Det underliggande linjära systemet antas vara känt. Både fallet där R är okänt och där R är givet analyseras. Först utvecklas två metoder för rekonstruktion av R: en som utnyttjar den fullständiga banan av den optimala återkopplingsmatrisen och ger nödvändiga och tillräckliga villkor för entydighet, samt en som enbart baseras på utvalda tidpunkter för att reducera beräkningskomplexiteten, vilket är särskilt effektivt om F är positivt definit. Sedan undersöks villkor för inversproblemets välställdhet då R är känd. Inledningsvis antas att systemet är styrbart, men sedan relaxeras detta antagande och ersätts med en uppsättning tillräckliga villkor, tillsammans med explicita analytiska uttryck för Q och F. Slutligen karakteriseras den strukturella ekvivalensen mellan inversproblem för optimal styrning med okänt respektive givet känt värde på R, under vissa förutsättningar.
Artikel D undersöker invers förstärkningsinlärning (IRL) som en metod för att rekonstruera den okända kostnadsfunktionen i en modellfri miljö, där systemdynamiken också är okänd. Konventionella IRL-algoritmer kräver ofta on-policy datainsamling och så kallad bi-level-optimering, vilket medför potentiella praktiska begränsningar. För att övervinna dessa utmaningar föreslår vi en direkt och adaptiv IRL-algoritm som lär sig från off-policy data som endast uppfyller ett svagt ”persistence of excitation”-villkor. Genom att använda Nesterov–Todd (NT)-stegs primal-duala inre punkts-iterationer uppdateras kostnadsparametern via enkla enstegsrekursioner, vilket undviker upprepade framåtriktade RL-beräkningar. Den teoretiska analysen kvantifierar inverkan av systembrus och fastställer sublinjär konvergens för den föreslagna algoritmen. Metoden generaliseras vidare till icke-linjära målfunktioner via differential dynamisk programmering, där gradienterna av förlustfunktionen beräknas genom en bakåtriktad passering. Numeriska simuleringar visar metodens effektivitet och prestanda.
