Data | Inizio | Fine | Ore | Docente | Inserita | Titolo | Descrizione |
16/09/2020 | 10:30 | 13:30 | 3.00 | Banelli | Introduzione e ripasso teoria della probabilità | Introduzione
all'analisi di grandi moli di dati: contesto, sfide tecnologiche,
strumenti. Obiettivi ed architettura dell'insegnamento. Ripasso dei concetti di base di teoria della probabilità: indipendenza, probabilità condizionata, Teorema di Bayes. Variabili aleatorie singole e congiunte: densità di probabilità, funzione cumulativa di distribuzione, valor medio, deviazione standard, correlazione e covarianza. Densità di probabilità marinali e condizionate. Esempio: variabili aleatorie congiuntamente gaussiane e condizionate: valor medio e varianza condizionate, retta di regressione lineare e diminuzione dell'incertezza da un osservazione distribuita in modo congiuntamente gaussiano a un'altra grandezza incognita. Generalizzazione a variabili aleatorie gaussiane N-dimensionali. Cenno ai processi aleatori e alla stazionarietà in senso lato e senso stretto. |
|
21/09/2020 | 10:30 | 13:30 | 3.00 | Banelli | Introduzione alla teoria della stima | Concetto
di stimatore di un parametro a partire dalla osservazione di un insieme di
dati: approccio classico e approccio Bayesiano. Densità di probabilità associata a uno stimatore e bontà dela stima. Errore di stima, polarizzazione, errore quadratico medio (MSE), e varianza dello stimatore in senso classico. Esempio: media campionaria come stimatore di un parametro affetto da rumore additivo. Esempio di stimatori Minimum MSE classici non realizzabili. Stimatori non polarizzati a varianza minima (MVUE). Limite inferiore alla varianza di qualunque stimatore: teorema di CRAMER-RAO, condizioni di raggiungibilità, teorema di fattorizzazione di Fisher, raggiungibilità e calcolo del MVUE. Esempio: parametro costante affetto da rumore additivo Gaussiano e fattorizzazione di Fisher. Stimatori efficienti e conservazione dell'efficienza (CRLB) per trasformazione affini di parametri. Disuguaglianza generale per la varianza dello stimatore soggetto a trasformazioni non affini. Cenni a statistiche sufficienti. |
|
23/09/2020 | 10:30 | 13:30 | 3.00 | Stimatori a massima verosimiglianza | Definizione
e proprietà di statistiche sufficienti. Teorema di fattorizzazione di
Neymann-Fisher per statistiche sufficienti. Esempio: parametro costante soggetto a rumore additivo Gaussiano indipendente. Stimatore MVUE come trasformazione di una statistica sufficiente. Osservazione su CRLB per stimatori efficienti: MVUE che raggiunge il CRLB è anche uno stimatore a massima verosimiglianza (MLE). Criterio sub-ottimo a MVUE: Maximum Likelihood Estimator (MLE). MLE è asintoticamente non polarizzato, efficiente, distribuito Gaussianamente. Invarianza di MLE a trasformazioni dei parametri (anche non lineari). MLE per un modello lineare di osservazione vettoriale di un parametro scalare soggetto a rumore additivo Gaussiano e indipendente. Osservazione sulla media pesata delle singole osservazioni. Coincidenza con MVUE a partire dalla funzione di "score". BEST LINEAR UNBIASED ESTIMATOR (BLUE) per lo stesso modello di osservazione lineare. Derivazione dalla funzione Lagrangiana associata. Soluzione che dipende solo dai momenti di ordine 2. Coincidente con MVUE e MLE per modelli Gaussiani. Stima di un vettore di parametri. Estensione del CRAMER-RAO LOWER BOUND, teorema di fattorizzazione, matrice di informazione di Fisher e matrice di covarianza dell'errore di stima. Esempio: stima di media e varianza di osservazioni Gaussiane. Esistenza del MVUE per la media ma non per la varianza. Stima euristica dalla varianza campionaria e polarizzazione dello stimatore. Varianza campionaria non polarizzata. BLUE per modello lineare di osservazione vettoriale di parametri incogniti vettoriali: matrice di covarianza dell'errore di stima. Caso particolari per rumnore gaussiano, scorrelato, a vaianza costante: BLUE coicidente con MLE, MVUE e "stimatore" Least Square (LS). Cenni al concetto di LSE e alla matrice di proiezione. |
||
28/09/2020 | 10:30 | 13:30 | 3.00 | Stimatori Bayesiani | Concetto
di stimatore Bayesiano: densità di probabilità a priori e a posteriori del
parametro da stimare. MSE Bayesiano e relazioni con MSE condizionato ai dati
e al parametro. Dimostrazione dell'espressione formale del Mimimum MSE (MMSE) Bayesiano come valor medio a posteriori del parametro dopo aver osservato i dati. MMSE Bayesiano non polarizzato rispetto a dati e parametro, ma polarizzato condizionatamente al singolo valore assunto dal parametro. Stimatore MMSE Bayesiano per vettori di parametri distribuiti congiuntamente gaussiani rispetto ai dati: regressione lineare dello stimatore matrice di covarianza dello stimatore (errore). Caso particolare di modelli di osservazione LINEARI nei parametri e Gaussiani: espressioni equivalenti dello stimatore e della matrice di covarianza. Esempio: parametro Gaussiano in rumore additivo Gaussiano e indipendente. Osservazione sullo stimatore come media pesata del MLE (a posteriori) e dello stimatore ottimo a priori. Osservazione sull'uso dello stimatore Bayesiano anche in assenza di ipotesi statistiche a priori, e utilizzo fittizio di una densità di probabilità. Analisi dell'errore di stima in funzione del valore del parametro da stimare e del sua coerenza con l'ipotesi statistica fittizia. Generalizzazione del rischio di Bayes: stimatori a MINIMO VALORE ASSOLUTO (mediana a posteriori) e a MINIMO TASSO DI ERRORE (moda a posteriori). Stimatori LINEARI Bayesiani (L-MMSE): derivazione, equazione normale e caso particolare per modelli di osservazione lineari vettoriali e Gaussiani. Coincidenza di L-MMSE con MMSE Bayesiano per statistiche Gaussiane. |
||
30/09/2020 | 10:30 | 13:30 | 3.00 | Relazioni tra inferenza statistica e metodi basati su machine learning | Inferenza statistica ottima ma presuppone la conoscenza apriori delle informazioni statistiche del problema in oggetto. Machine learning è composto di due fasi: a) stima dei parametri statistici(medie, correlazioni, etc) rilevanti alla soluzione ottima del problema (Learning del modello) a partire da un set finito di dati e parametri cui si conosce tutto. b) utilizzo di questi parametri (modello) all'interno dello specifico stimatore/decisore (ottimo/sub-ottimo) in fase di Test. | ||
05/10/2020 | 10:30 | 13:30 | 3.00 | Introduzione alla verifica di ipotesi e rapporto di verosimiglianza | Introduzione
alla verifica di ipotesi. Approccio classico. Caso generale e semplificato di
dipendenza della pdf dei dati da un paramentro. Verifica di ipoesi binarie:
errori di tipo I (falaso allarme) e tipo II (mancata rivelazione) e loro
probabilità Pfa e Pmd. Esempio:
singola osservazione con pdf Gaussiana e diverso valor medio nelle due
ipotesi. Critero intuitivo di decisione a soglia, calcolo e andamento di Pfa
e Pmd al variare della soglia. Estensione al caso di osservazioni
multiple: introduzione intuitiva alla
definizione di una "statistica" di decisone a soglia, tramite media
campionaria. Pfa e Pd, ROC del test. Generalizzazione formale del problema: regioni di decisione, Pfa, Pmd. Tipologia di test di ipotesi: semplici, composte, single-sided, two-sided. Concetto e definizione di statistica sufficiente e teoorema di fattorizzazione di Neymann-Fisher. Introduzione intuitiva al rapporto di verosimiglianza come statistica di decisione. Criterio di Neymann-Pearson e dimostrazione dell'ottimalità del rapporto di verosimiglianza. Proprietà della ROC per NP-test: soglia del test e tangente alla ROC. Accenni al GLRT (generalized likelyhood ratio test) come estensione a verifica di ipotesi composte. |
||
07/10/2020 | 10:30 | 13:30 | 3.00 | Approccio Bayesiano alla verifica di Ipotesi | Probabilità a priori e a posteriori associata a ciascuna ipotesi. Concetto di rischio di Bayes associato a ciascuna decisione e relazioni con la probabilità di errore e corretta decisione. Rapporto di verosimiglianza come test ottimo per la minimizzazione del rischio di Bayes, per ipotesi semplici. Set della soglia per l'approccio Bayesiano, ROC, e relazioni con il Neymann-Pearson Test. Grafico del rischio di Bayes in funzione della probabilità di un evento. Test bayesiano robusto all incertezza sulle probabilità a priori delle ipotesi: strategia Min-Max e determinazione della soglia ottima associata. Esempio: verifica di ipotesi binaria con osservazioni (multidimensionali Gaussiane) a stessa varianza e diverso valore medio nelle due ipotesi. Decisore ottimo separa i dati tramite un iperpiano analogamente ad algoritmi di PCA, piuttosto che di Linear Discriminant Analysys o di Logistic Regression nel ML. Relazioni tra i due approcci e risultati dell'approccio statistico come limite massimo di prestazioni di un metodo di machine learning. | ||
12/10/2020 | 10:30 | 13:30 | 3.00 | Introduzione alla ottimizzazione convessa | Ottimizazione
vincolata. Insieme delle soluzioni ammissibili. Insiemi affini, insiemi
convessi, insiemi conici, insiemi conici e convessi. Esempi: iperpiani,
semi-spazi, sfere, poliedri,insieme delle matrici simmetriche e semi-definite
positive. Metodi di dimostrazione della convessità di insiemi: a) verifica
della definizione b) intersezione di insiemi convessi, c) mappaggio tramite
funzioni affini d) funzione perspettiva e) funzioni lineari fratte. Funzioni convesse: definizione ed esempi. Dimostrazione della convessità di funzioni: a) definizione, b) restrizione a una linea (es. log(det(X)) is concave) c) Condizione del primo ordine d) Condizione del secondo ordine (Hessiano): esempio funzioni quadratiche in R^n. Esempi: funzione quadratica su funzione lineare, media geometrica, log-sum-exp. Minimizzazione su insiemi convessi. Insiemi di sotto-livello di una funzione. Operazioni che preservano la convessità. Regole di composizione con funzioni scalari. Funzioni Log-Convesse e proprietà. |
||
14/10/2020 | 10:30 | 13:30 | 3.00 | Ottimizzazione Convessa-I | Prospettiva
di una Funzione convessità. Esempio: Kullback-Leibler distance is convex.
Epigrafo di una funzione e proprietà. Definizione del problema standard di ottimizzazione convessa vincolato. Minimi locali e globali per problemi non convessi. Soluzioni ammissibili per problemi convessi, gradiente e MINIMUM PRINCIPLE. Problemi convessi equivalenti: a) variabili "slack", b) metodo dell'epigrafo, c) introduzione di vincoli affini di uguaglianza. Programmi Lineari: soluzione sul vertice di un poliedro, non calcolabile in forma chiusa, ricavabile con metodi numerici (simplesso, etc.). Esempi di problemi convessi: problemi quadratici con vincoli quadratici, programmi semidefiniti, minimizzazione dell'autovalore massimo di autovalori di matrici affini nelle variabili e forma epigrafica. |
||
19/10/2020 | 10:30 | 13:30 | 3.00 | Ottimizzazione Convessa-II | Funzione Lagrangiana, funzione duale, problema di ottimizzazione duale (concavo), condizioni di dualità forte e condizione di Slater. Condizioni KKT di dualità e sufficienza per problemi convessi. | ||
21/10/2020 | 10:30 | 13:30 | 3.00 | Esempi di problemi di Ottimizzazione | Esempi
di ottimizzazione e formulazione duale: forme quadratiche con vincoli
lineari, waterfilling, programmi lineari in forma duale, Least Square,
(Linear) Support Vector Machine: formulazione di Rosemblatt, formulazione di
Vaipnik, problema duale e soluzioni. Introduzione agli algoritmi di ottimizzazione. Problemi di ottimizzazione non vincolata e condizione di esistenza del minimo. Algoritmi a discesa: gradient descent, algoritmo di Newton, algoritmi quasi-Newton. Cenni alle condizioni di convergenza e alla velocità di convergenza. |
||
26/10/2020 | 10:30 | 13:30 | 3.00 | Algoritmi di ottimizzazione | Algoritmi iterativi per problemi di ottimizazzione vincolata. Condizione di Liptschitz: gradient projection e condizine di convergenza.. Algoritmi per problemi regolarizzati non differenziabili: proximal-operator. Casi particolari di regolarizzazione: funzione indicatore e proximal gradient; norma L1 e Soft-Threshold operator: Iterative Soft Thresholding Algorithm (ISTA). Caso particolare: LASSO. Algoritmi iterativi "Primal-Dual". Esempio: linear equality constrained problems: DUAL ASCENT algorithm. Augmented Lagrangian and Method of Multipliers. Disaccoppiamento di problemi di ottimizzzzione regolarizzati: L'algoritmo ADMM e lasua versione scalata. Soluzione di problemi regolarizzati non vincolati attraverso ADMM: esempio- LASSO by ADMM. | ||
28/10/2020 | 10:30 | 13:30 | 3.00 | Ottimizzazione distribuita-I | Esempio
di applicazione di ADMM ad ottimizzazione vincola: algoritmo BASIS
Pursuit. Differenza tra architetture di rete parallele e distribuite per risolvere problemi di otttimizzazione. Ottimizzazione non-vincolata tramite CONSENSO per funzioni obiettivo somma di funzioni convesse: variabili locali, variabili globali, Lagrangiano aumentato e soluzione tramite ADMM scalato in parallelo su ciascun agente, consenso tramite FUSION CENTER (o average consensus), e local UPSCENT sulla variabili duali. Versione semplificata. Estensione di ottimizzazione al Consenso a problemi di ottimizzazione convessa regolarizzata (LASSO, RIDGE REGRESSION, etc.). Soluzione tramite Scaled ADMM. Esempio: Soluzione di LASSO distribuita attraverso splitting dei dati osservati su N agenti in paralleo. |
||
02/11/2020 | 10:30 | 13:30 | 3.00 | Ottimizzazione distribuita-II | Implementazione
di ottimizzazione al CONSENSO con ADMM, con fusione delle ottimizzazioni
tramite ullteriore algoritmo iterativo di diffusione (AVERAGE CONSENSUS) di
tipo scalare: concetto di TOTAL VARIATION su un grafo, proprietà degli
autovalori, consenso come minimizzazione al gradiente della TOTAL
VARIATION. Formulazione alternativa del problema di ottimizzazione, incorporando l'algoritmo di AVERAGE CONSENSUS all'interno del problema originale attraverso la minimizzazione congiunta della TOTAL VARIATION: piu' veloce perchè il consenso procede contemporaneamente alla ottimizzazione locale. Risultati di convergenza, matrici di mixing delle variabili locali "right-stochastic". Esempio Soluzione distribuita di LASSO dividendo il problema rispetto ai DATI (CONSENSUS OPTIMIZATION) oppure rispetto alle VARIABILI di ottiimizzazione (SHARING OPTIMIZATION): soluzione dello step-2 di ADMM tramite Lagrangiano e dualità. |
||
04/11/2020 | 10:30 | 13:30 | 3.00 | Ottimizzazione Distribuita e Machine Learning: Distributed Model Fitting | Consensus and Sharing Optimization in problemi di machine learning regolarizzati:Distributed (regularized) Model Fitting). Funzioni di ottimizzazione modellabili come L(Ax-b). Funzioni di ottimizzazione additive: Consensun optimization. Funzioni di regolarizzazione separabili: Sharing Optimization. Esempio: Linear regression Analysis by ML estimation (uncostrained optimization). Bayesian MAP formulation of Linear regression analysis: regularized optimization induced by the prior. Example: Laplacian & LASSO, Gaussian and Ridge Regression. Esempi di calssifizazione: Linear SVM and aplitting by Features and Examples. Funzioni di loss additive e stimatori ML e Bayesiani MAP con pdf log-concave (LS, LASSO, Ridge Regression). Fomulazione del problema per LOGISTIC REGRESSION (da fare come possibilie tesina, splitting rispetto a Examples (dati) e splitting rispetto a Features (variabili). | ||
09/11/2020 | 10:30 | 13:30 | 3.00 | Stochastic optimization and LMS | LMMSE estimation and gradient descent. Stochastic optimization principles. The LMS algorithm, convergence conditions and convergence speed. | ||
11/11/2020 | 10:30 | 13:30 | 3.00 | RLS e Kalman Filtering | Newtwon ieterative solution for L-MMSE estimation. Stochastic optimization implementation and Recursive Leat Squares. Convergence propertires and comparison with LMS. Introduction to Kalman filetering for linear state and onservation model. | ||
16/11/2020 | 10:30 | 13:30 | 3.00 | Compressed sensing | Introduzione al compressed sampling e alla rappresentazione sparsa dei segnali. Teoria ed algoritmi di ricostruzione per segnali sparsi. | ||
18/11/2020 | 10:30 | 13:30 | 3.00 | Sparse sampling | Problemi di stima e decisione attraverso sotto-campionamento dei dati disponibili: teoria ed algoritmi. | ||
23/11/2020 | 10:30 | 13:30 | 3.00 | Grapi, Cenni a teoria Algebrica dei Grafi e Introduzione ai segnali definiti su grafi | Esempi e motivazioni; Teoria algebrica dei grafi. Caratteristiche dei grafi: matrice delle adiacenze, Laplaciano, connettività di un grafo, cut-size, etc.. Segnali definiti su un grafo, Total Variation, Minimizzazione del cut size, algoritmo rilassato e relazioni con total variation. Autovettori del laplaciano e proprietà di clusterizzazione. Cenni alla Graph Fourier Transform. | ||
25/11/2020 | 10:30 | 13:30 | 3.00 | Segnali su grafo e Graph Fourier Transform | Graph Fourier Transform. Similitudine con DFT e grafi circolanti. Filtraggio di segnali su grafi. Filtraggio distribuito su grafi e filtri come espansione polinomiale di matrici delle adiacenze o del Laplaciano. Equazione di diffusione di un segnale su un grafo (osservazione sulla sua natura di Filtro passa-basso).. | ||
30/11/2020 | 10:30 | 13:30 | 3.00 | Elaborazione dei segnali su grafo | Campionamento e ricostruzione di dati definiti sui nodi di un grafo. Teorema del campionamento su Grafi. Ricostruzione in assenza di rumore e formulazioni alternative. Ricostruzioni iterative: approssimazione della matrice inversa o utilizzo degli autovettori del grafo. Effetto del rumore e criteri di ricostruzione da sparse- sampling ed Empirical design (E-Optimality, D-Optimality, A-optimality). | ||
02/12/2020 | 10:30 | 13:30 | 3.00 | Calcolo distribuito di autovalori e autovettori del Laplaciano di un grafo | Rayleight-Ritz Theorem, Leading eigenvector (eigenvector centrality) and power iteration method. Normalization problems and possible solutions. Iterative distributed computation of leading eigenvectors. Alternative implementation to compute lamba_2(L) by the Laplacian diffusion matrix W = I - eL. | ||
07/12/2020 | 10:30 | 13:30 | 3.00 | Online Gradient-Based Optimization: distribured solutions. | Average Consensus: soluzione iterativa con fusione dei dati congiuntamente a passo di gradiente locale. Dagli algoritmi di consenso a quelli di Diffusione: aggiornamento del gradiente locale separato dalla fusione centralizzata. Confronto tra Average Consensus e allgoritmi di diffusione. ESEMPIO: Regressione Lineare attraverso LMS locale a ogni singolo nodo: matrice di connettività, convergenza, e velocita' di convergenza (autovalori). | ||
09/12/2020 | 10:30 | 13:30 | 3.00 | Examples of distributed implementations | Campionamento e ricostruzione on-line di segnali sui nodi di un grafo attraverso LMS: analisi di prestazioni, selezione dei nodi, risultati di simulazione (articolo IEEE). | ||
75.00 | Implementazione algoritmi ottimizazione con CVX | Esempi di soluzione di algoritmi con CVX: LASSO distribuito, sparse sampling, BLUE con sensori che quantizzano e trasmettono wireless (articolo congresso) |