On large deviations in probabilistic deep learning and generative modeling
Tid: To 2025-12-11 kl 14.00
Plats: Kollegiesalen, Brinellvägen 8, Stockholm
Språk: Engelska
Ämnesområde: Matematik
Respondent: Viktor Nilsson , Sannolikhetsteori, matematisk fysik och statistik
Opponent: Professor Luc Rey-Bellet,
Handledare: Pierre Nyquist, Sannolikhetsteori, matematisk fysik och statistik
QC 2025-11-21
Abstract
Denna avhandling avser användandet av probabilistiska metoder inom maskininlärnining. Dessa spelar en grundläggande roll i att motivera och definiera maskininlärningsalgoritmer, såväl som att förklara varför dessa algoritmer fungerar, och hur väl de fungerar. Under åren som detta arbete utfördes (2020-2025) har maskininlärning gått från att leverera en handfull av imponerande och demonstrerbara resultat, till att bli en stapelvara av det moderna utvecklade samhället, med produkter som ChatGPT, etc., med kapacitet och tillämpbarhet bortom vad någon i fältet hade förväntat sig för tio år sedan. Att förklara varför de moderna metoderna fungerar såväl, trots deras konceptuella simplicitet och elegans, kräver både empiriska och teoretiska studier. Denna avhandling har båda delar, medan betoningen är på teori. Den första delen av avhandlingen, Artiklar A-C, berör implementation och analys av nya metodologier i djupinlärning, medan Artiklar D-F berör rent teoretiska stora avvikelse-resultat för modeller som ligger nära maskininlärning. Den huvudsakliga tråden är tillämpningen av matematiska verktyg från sannolikhetsteori och statistik, såsom teorin för stora avvikelser och empirisk processteori, till att förstå och förbättra metodologi inom maskininlärning.
I Artikel A, vilken utgör den mest tillämpade riktningen i denna avhandling, appliceras en probabilistisk djup nätverksmodell till en uppgift från fältet av klinisk strålningsterapi, nämligen dosprediktion, där ett målvärde av strålningsdos ska tilldelas varje pixel/voxel av en mänsklig vävnad baserat på en CT-bild. Den utvecklade probabilistiska modellen är baserad på mixturdensitetsnätverk. Empiriskt demonstreras att ett faltningsbaserat U-net kan lära sig en tillfredsställande mixturdistribution över dosen i varje pixel. Så vitt vi vet är detta den första implementationen av mixturdensitetsnätverk som verkar på bilder med en faltningsarkitektur.
I Artikel B, konstrueras och implementeras en ny metod kallad REMEDI för entropiestimering av kontinuerliga distributioner med hjälp av djupa neurala nätverk. Dessutom visas, med hjälp av empirisk processteori, att en sådan estimator har en konsistensegenskap, vilket försäkrar oss om att den har teoretisk kapacitet att estimera entropin till godtycklig precision. Metoden baseras på det bejublade Donsker-Varadhan-lemmat, ett välkänt resultat ifrån teorin för stora avvikelser. Tillämpbarheten av metoden demonstreras på distributioner i moderat dimension, såväl som för modellträning inom informations-flaskhalsramverket, med tillfredsställande prestanda.
I Artikel C utforskas integrationen av icke-parametriska modellkomponenter i flödes-matchningsramverket. Detta görs genom a lära sig en tungt komprimerad latent representation av bilder i träningsdatamängden, som sedan används som betingningsvariabler för vektorfältsnätverket. Dessa kan effektivt betraktas som syntetiska, kontinuerliga klassvariabler. Vinsten är en mer effektiv inlärningsprocess jämför med baslinjemodeller, samt mer tolkningsbar slumpgenerering. Det demonstreras att, med tillräcklig komprimering, kan överträning undvikas, och mångfald bland slumpgenererade exempel uppnås, trots att betingningen på träningsexempel.
Det kan argumenteras för att den mest betydelsefulla fältet inom maskininlärning är generativ modellering. En del av denna avhandling handlar om att tillämpa teorin för stora avvikelser på två av dess huvudsakliga metoder, generativa motstående nätverk (GAN) och diffusionsmodeller, särskilt Schrödingerbroar. Målet här är att bevisa stora avvikelseprinciper för särskilda sannolikhetsmått associerade med modellerna. I båda fallen tillåter detta en stark karaktärisering av konvergensen a dessa modeller, när särskilda modellparametrar varieras, mot en idealiserad beskrivning av deras beteende, som ofta bär en välförstådd matematisk struktur.
Inom Schrödingerbroar består denna idealiserade gränsmodell av en dynamisk optimal transportplan. Detta säger oss att när parametern i fråga varieras, vilken är brusnivån av referensen, eller som ofta är ekvivalent, nivån av entropisk regularisering, konvergerar planerna snabbt mot optimal transportbeteende, vilket rättfärdigar tolkningen av svagt regulariserade Schrödingerbroar som approximativa optimala transportplaner. Eftersom Schrödingerbroar (eller entropiskt regulariserade optimala transportplaner) har trevligare beräkningsmässiga egenskaper än optimal transport, används de ofta i dess plats, och det är därför viktigt att förstå hur nära denna koppling är. Den härledda stora avvikelseprincipen, som är tillämpbar på många populära djupa generativa modeller, bidrar därför till denna förståelse. Att formulera och bevisa sådana stora avvikelseprinciper är innehållet i Artikel E och Artikel F.
För GAN-modeller betraktar vi nyligen utvecklade partikelsystem, som utgör kohorter av nätverk för den generativa uppgiften, i Artikel D. Här visar vi att när parametern tas till att vara antalet partiklar i systemet, konvergerar träningsdynamiken av dessa nätverk mot en McKean-Vlasov process, och en stor avvikeleprincip etableras. Detta möjliggör studien av konvergensen för sådana partikelsystem, som nyligen har framlagts som en ny generativ model i GAN-litteraturen, mot deras medelfältsteoretiska beteende med hjälp av teorin för stora avvikelser.
