Till innehåll på sidan

Topics on Large Deviations in Artificial Intelligence

Tid: Fr 2023-10-27 kl 13.00

Plats: F3 (Flodis), Lindstedtsvägen 26 & 28, Stockholm

Språk: Engelska

Ämnesområde: Tillämpad matematik och beräkningsmatematik, Matematisk statistik

Respondent: Adam Lindhe , Matematisk statistik

Handledare: Henrik Hult, Matematisk statistik; Jimmy Olsson, Matematisk statistik

Exportera till kalender

QC 2023-10-03

Abstract

Artificiell intelligens har blivit en av de viktigaste forskningsfälten de senaste åren. Användningsområden finns inom medicin forskning, självkörande fordon, finans samt vardagsbruk. Analysen av stabilitet och konvergens av dessa algoritmer har därför aldrig varit viktigare. Ett sätt att analysera dessa algoritmer är med hjälp av stora avvikelser teori. I stora avvikelser teori, en hastighets-funktion som karakteriserar den exponentiella konvergens hastigheten för stokastiska processer. Till exempel, genom att evaluera hastighets-funktionen för stokastisk approximations algoritmer för träning av neurala nätverk, snabbare konvergens kan uppnås. Den här avhandlingen består av fem artiklar som tar idéer från stora avvikelser teori för att förstå och förbättra utvalda maskininlärnings modeller. 

Artikel I bevisar att en stokastisk approximations algoritm uppfyller stora avvikelser principen med en specifik hastighest-funktion. Den här klassen av stokastisk approximation innehåller många intressanta maskininlärmnings metoder såsom, stokastisk gradient nedstigning, persistent contrastive divergence och Wang-Landau algoritmen. 

Att analysera hastighetsfunktionen från artikel I är inte enkelt. I artikel II, använder vi verktyg från svag KAM teori för att karakterisera hastighetsfunktionen. Hastighetsfunktionen är på formen av en Lagrangian och kan evalueras genom att hitta viscositetslösningar till motsvarande Hamilton-Jacobi ekvation. I Artikel II så identifierar vi den projicerade Aubry mängden, en mängd som är av stor vikt när det kommer till att beskriva viscositetslönsingar.

Artiklarna III, IV, V behandlar alla Variational autoencers (VAE), en generativ djup inlärningsmodell med latent variabel struktur. I Artikel III, utveklar vi en evaluerings metrik för VAEs baserat på stora aviklser teori. Ideen är att mäta skillnaden mellan den inducerade empiriska måttet och priori fördelningen på latenta rummet. Det åstakoms genom att träna ett adversalt nätverk och genom att bevisa en modifierad version av Sanovs sats. 

Genom att använda det adversala nätverket från artikel III vi utvecklar en stochastisk intepolations algoritm i artikel IV. Interpolations artikeln använder brygg processer och adversala nätverket för att generera interpolationer som respekterar priori fördelningen och genererar hög-kvalitativa trajektorier. 

Slutligen i artikel IV, introduceras en klustringsalgoritm. VAE inducerar en sannolikhetsförednling på data rummet, och i denna artikel, vi introducerar en algoritm för att estimera gradienten av fördelningen. Detta leder till stokastisk approximations algoritm som samlar datan i olika kluster.  

urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-337383