Data | Inizio | Fine | Ore | Titolo | Descrizione |
20/09/2021 | 10:30 | 13:30 | 3.00 | Introduzione e ripasso teoria della probabilità | Introduzione
all'analisi di grandi moli di dati: contesto, sfide tecnologiche,
strumenti. Obiettivi ed architettura dell'insegnamento. Ripasso dei concetti di base di teoria della probabilità: indipendenza, probabilità condizionata, Teorema di Bayes. Variabili aleatorie singole e congiunte: densità di probabilità, funzione cumulativa di distribuzione, valor medio, deviazione standard, correlazione e covarianza. Densità di probabilità marinali e condizionate. Esempio: variabili aleatorie congiuntamente gaussiane e condizionate: valor medio e varianza condizionate, retta di regressione lineare e diminuzione dell'incertezza da un osservazione distribuita in modo congiuntamente gaussiano a un'altra grandezza incognita. Generalizzazione a variabili aleatorie gaussiane N-dimensionali. Cenno ai processi aleatori e alla stazionarietà in senso lato e senso stretto. |
22/09/2021 | 10:30 | 13:30 | 3.00 | Introduzione alla teoria della stima | Concetto
di stimatore di un parametro a partire dalla osservazione di un insieme di
dati: approccio classico e approccio Bayesiano. Densità di probabilità associata a uno stimatore e bontà dela stima. Errore di stima, polarizzazione, errore quadratico medio (MSE), e varianza dello stimatore in senso classico. Esempio: media campionaria come stimatore di un parametro affetto da rumore additivo. Esempio di stimatori Minimum MSE classici non realizzabili. Stimatori non polarizzati a varianza minima (MVUE). Limite inferiore alla varianza di qualunque stimatore: teorema di CRAMER-RAO, condizioni di raggiungibilità, teorema di fattorizzazione di Fisher, raggiungibilità e calcolo del MVUE. Esempio: parametro costante affetto da rumore additivo Gaussiano e fattorizzazione di Fisher. Stimatori efficienti e conservazione dell'efficienza (CRLB) per trasformazione affini di parametri. Disuguaglianza generale per la varianza dello stimatore soggetto a trasformazioni non affini. Cenni e definizione di statistiche sufficienti. Teorema di fattorizzazione di Neymann-Fisher per statistiche sufficienti. Esempio: parametro costante soggetto a rumore additivo Gaussiano indipendente. Stimatore MVUE come trasformazione di una statistica sufficiente. Osservazione su CRLB per stimatori efficienti: MVUE che raggiunge il CRLB è anche uno stimatore a massima verosimiglianza (MLE). Criterio sub-ottimo a MVUE: Maximum Likelihood Estimator (MLE). |
27/09/2021 | 10:30 | 13:30 | 3.00 | Stimatori a massima verosimiglianza | Maximum
Likelihood Estimator (MLE). MLE è asintoticamente non polarizzato, efficiente, distribuito Gaussianamente. Invarianza di MLE a trasformazioni dei parametri (anche non lineari). MLE per un modello lineare di osservazione vettoriale di un parametro scalare soggetto a rumore additivo Gaussiano e indipendente. Osservazione sulla media pesata delle singole osservazioni. Coincidenza con MVUE a partire dalla funzione di "score". BEST LINEAR UNBIASED ESTIMATOR (BLUE) per lo stesso modello di osservazione lineare. Derivazione dalla funzione Lagrangiana associata. Soluzione che dipende solo dai momenti di ordine 2. Coincidente con MVUE e MLE per modelli Gaussiani. Stima di un vettore di parametri. Estensione del CRAMER-RAO LOWER BOUND, teorema di fattorizzazione, matrice di informazione di Fisher e matrice di covarianza dell'errore di stima. Esempio: stima di media e varianza di osservazioni Gaussiane. Esistenza del MVUE per la media ma non per la varianza. Stima euristica dalla varianza campionaria e polarizzazione dello stimatore. Varianza campionaria non polarizzata. BLUE per modello lineare di osservazione vettoriale di parametri incogniti vettoriali: matrice di covarianza dell'errore di stima. Caso particolari per rumnore gaussiano, scorrelato, a vaianza costante: BLUE coicidente con MLE, MVUE e "stimatore" Least Square (LS). Cenni al concetto di LSE e alla matrice di proiezione. |
29/09/2021 | 10:30 | 13:30 | 3.00 | Stimatori Bayesiani | Concetto
di stimatore Bayesiano: densità di probabilità a priori e a posteriori del
parametro da stimare. MSE Bayesiano e relazioni con MSE condizionato ai dati
e al parametro. Dimostrazione dell'espressione formale del Mimimum MSE (MMSE) Bayesiano come valor medio a posteriori del parametro dopo aver osservato i dati. MMSE Bayesiano non polarizzato rispetto a dati e parametro, ma polarizzato condizionatamente al singolo valore assunto dal parametro. Stimatore MMSE Bayesiano per vettori di parametri distribuiti congiuntamente gaussiani rispetto ai dati: regressione lineare dello stimatore matrice di covarianza dello stimatore (errore). Caso particolare di modelli di osservazione LINEARI nei parametri e Gaussiani: espressioni equivalenti dello stimatore e della matrice di covarianza. Esempio: parametro Gaussiano in rumore additivo Gaussiano e indipendente. Osservazione sullo stimatore come media pesata del MLE (a posteriori) e dello stimatore ottimo a priori. Osservazione sull'uso dello stimatore Bayesiano anche in assenza di ipotesi statistiche a priori, e utilizzo fittizio di una densità di probabilità. Analisi dell'errore di stima in funzione del valore del parametro da stimare e del sua coerenza con l'ipotesi statistica fittizia. Generalizzazione del rischio di Bayes: stimatori a MINIMO VALORE ASSOLUTO (mediana a posteriori) e a MINIMO TASSO DI ERRORE (moda a posteriori). Stimatori LINEARI Bayesiani (L-MMSE): derivazione, equazione normale e caso particolare per modelli di osservazione lineari vettoriali e Gaussiani. Coincidenza di L-MMSE con MMSE Bayesiano per statistiche Gaussiane. |
04/10/2021 | 10:30 | 13:30 | 3.00 | Relazioni tra inferenza statistica e metodi basati su machine learning | Inferenza
statistica ottima ma presuppone la
conoscenza apriori delle informazioni statistiche del problema in
oggetto. Machine learning è composto di due fasi: a) stima dei parametri
statistici(medie, correlazioni, etc) rilevanti alla soluzione ottima del
problema (Learning del modello) a partire da un set finito di dati e
parametri cui si conosce tutto. b) utilizzo di questi parametri (modello)
all'interno dello specifico stimatore/decisore (ottimo/sub-ottimo) in fase di Test. ESEMPIO-1: Linear regression analysis e relazione con stimatore Least Square ESEMPIO2: K-nearest neighbour e relazione con stimatore MMSE bayesiano |
06/10/2021 | 10:30 | 13:30 | 3.00 | Introduzione alla verifica di ipotesi e rapporto di verosimiglianza | Introduzione
alla verifica di ipotesi. Approccio classico. Caso generale e semplificato di
dipendenza della pdf dei dati da un paramentro. Verifica di ipoesi binarie:
errori di tipo I (falaso allarme) e tipo II (mancata rivelazione) e loro
probabilità Pfa e Pmd. Esempio:
singola osservazione con pdf Gaussiana e diverso valor medio nelle due
ipotesi. Critero intuitivo di decisione a soglia, calcolo e andamento di Pfa
e Pmd al variare della soglia. Estensione al caso di osservazioni
multiple: introduzione intuitiva alla
definizione di una "statistica" di decisone a soglia, tramite media
campionaria. Pfa e Pd, ROC del test. Generalizzazione formale del problema: regioni di decisione, Pfa, Pmd. Tipologia di test di ipotesi: semplici, composte, single-sided, two-sided. Concetto e definizione di statistica sufficiente e teoorema di fattorizzazione di Neymann-Fisher. Introduzione intuitiva al rapporto di verosimiglianza come statistica di decisione. Criterio di Neymann-Pearson e dimostrazione dell'ottimalità del rapporto di verosimiglianza. Proprietà della ROC per NP-test: soglia del test e tangente alla ROC. Accenni al GLRT (generalized likelyhood ratio test) come estensione a verifica di ipotesi composte. |
11/10/2021 | 10:30 | 13:30 | 3.00 | Approccio Bayesiano alla verifica di Ipotesi | Probabilità a priori e a posteriori associata a ciascuna ipotesi. Concetto di rischio di Bayes associato a ciascuna decisione e relazioni con la probabilità di errore e corretta decisione. Rapporto di verosimiglianza come test ottimo per la minimizzazione del rischio di Bayes, per ipotesi semplici. Set della soglia per l'approccio Bayesiano, ROC, e relazioni con il Neymann-Pearson Test. Grafico del rischio di Bayes in funzione della probabilità di un evento. Test bayesiano robusto all incertezza sulle probabilità a priori delle ipotesi: strategia Min-Max e determinazione della soglia ottima associata. Esempio: verifica di ipotesi binaria con osservazioni (multidimensionali Gaussiane) a stessa varianza e diverso valore medio nelle due ipotesi. Decisore ottimo separa i dati tramite un iperpiano analogamente ad algoritmi di PCA, piuttosto che di Linear Discriminant Analysys o di Logistic Regression nel ML. Relazioni tra i due approcci e risultati dell'approccio statistico come limite massimo di prestazioni di un metodo di machine learning. |
13/10/2021 | 10:30 | 13:30 | 3.00 | Introduzione alla ottimizzazione convessa | Ottimizazione
vincolata. Insieme delle soluzioni ammissibili. Insiemi affini, insiemi
convessi, insiemi conici, insiemi conici e convessi. Esempi: iperpiani,
semi-spazi, sfere, poliedri,insieme delle matrici simmetriche e semi-definite
positive. Metodi di dimostrazione della convessità di insiemi: a) verifica
della definizione b) intersezione di insiemi convessi, c) mappaggio tramite
funzioni affini d) funzione perspettiva e) funzioni lineari fratte. Funzioni convesse: definizione ed esempi. Dimostrazione della convessità di funzioni: a) definizione, b) restrizione a una linea (es. log(det(X)) is concave) c) Condizione del primo ordine d) Condizione del secondo ordine (Hessiano): esempio funzioni quadratiche in R^n. Esempi: funzione quadratica su funzione lineare, media geometrica, log-sum-exp. Minimizzazione su insiemi convessi. Insiemi di sotto-livello di una funzione. Operazioni che preservano la convessità. Regole di composizione con funzioni scalari. Funzioni Log-Convesse e proprietà. |
18/10/2021 | 10:30 | 13:30 | 3.00 | Ottimizzazione Convessa-I | Prospettiva
di una Funzione convessità. Esempio: Kullback-Leibler distance is convex.
Epigrafo di una funzione e proprietà. Definizione del problema standard di ottimizzazione convessa vincolato. Minimi locali e globali per problemi non convessi. Soluzioni ammissibili per problemi convessi, gradiente e MINIMUM PRINCIPLE. Problemi convessi equivalenti: a) variabili "slack", b) metodo dell'epigrafo, c) introduzione di vincoli affini di uguaglianza. Programmi Lineari: soluzione sul vertice di un poliedro, non calcolabile in forma chiusa, ricavabile con metodi numerici (simplesso, etc.). Esempi di problemi convessi: problemi quadratici con vincoli quadratici, programmi semidefiniti, minimizzazione dell'autovalore massimo di autovalori di matrici affini nelle variabili e forma epigrafica. |
20/10/2021 | 10:30 | 13:30 | 3.00 | Ottimizzazione Convessa-II | Funzione Lagrangiana, funzione duale, problema di ottimizzazione duale (concavo), condizioni di dualità forte e condizione di Slater. Condizioni KKT di dualità e sufficienza per problemi convessi. |
25/10/2021 | 10:30 | 13:30 | 3.00 | Esempi di problemi di Ottimizzazione | Esempi
di ottimizzazione e formulazione duale: forme quadratiche con vincoli
lineari, waterfilling, programmi lineari in forma duale, Least Square,
(Linear) Support Vector Machine: formulazione di Rosemblatt, formulazione di
Vaipnik, problema duale e soluzioni. Introduzione agli algoritmi di ottimizzazione. Problemi di ottimizzazione non vincolata e condizione di esistenza del minimo. Algoritmi a discesa: gradient descent, algoritmo di Newton, algoritmi quasi-Newton. Cenni alle condizioni di convergenza e alla velocità di convergenza. |
27/10/2021 | 10:30 | 13:30 | 3.00 | Algoritmi di ottimizzazione | Algoritmi iterativi per problemi di ottimizazzione vincolata. Condizione di Liptschitz: gradient projection e condizine di convergenza.. Algoritmi per problemi regolarizzati non differenziabili: proximal-operator. Casi particolari di regolarizzazione: funzione indicatore e proximal gradient; norma L1 e Soft-Threshold operator: Iterative Soft Thresholding Algorithm (ISTA). Caso particolare: LASSO. Algoritmi iterativi "Primal-Dual". Esempio: linear equality constrained problems: DUAL ASCENT algorithm. Augmented Lagrangian and Method of Multipliers. Disaccoppiamento di problemi di ottimizzzzione regolarizzati: L'algoritmo ADMM e lasua versione scalata. Soluzione di problemi regolarizzati non vincolati attraverso ADMM: esempio- LASSO by ADMM. |
03/11/2021 | 10:30 | 13:30 | 3.00 | Ottimizzazione distribuita-I | Esempio
di applicazione di ADMM ad ottimizzazione vincolata: algoritmo BASIS
Pursuit. Differenza tra architetture di rete parallele e distribuite per risolvere problemi di otttimizzazione. Ottimizzazione non-vincolata tramite CONSENSO per funzioni obiettivo somma di funzioni convesse: variabili locali, variabili globali, Lagrangiano aumentato e soluzione tramite ADMM scalato in parallelo su ciascun agente, consenso tramite FUSION CENTER (o average consensus), e local UPSCENT sulla variabili duali. Versione semplificata. Estensione di ottimizzazione al Consenso a problemi di ottimizzazione convessa regolarizzata (LASSO, RIDGE REGRESSION, etc.). Soluzione tramite Scaled ADMM. Esempio: Soluzione di LASSO distribuita attraverso splitting dei dati osservati su N agenti in paralleo. |
08/11/2021 | 10:30 | 13:30 | 3.00 | Ottimizzazione distribuita-II | Implementazione
di ottimizzazione al CONSENSO con ADMM, con fusione delle ottimizzazioni
tramite ullteriore algoritmo iterativo di diffusione (AVERAGE CONSENSUS) di
tipo scalare: concetto di TOTAL VARIATION su un grafo, proprietà degli
autovalori, consenso come minimizzazione al gradiente della TOTAL
VARIATION. Formulazione alternativa del problema di ottimizzazione, incorporando l'algoritmo di AVERAGE CONSENSUS all'interno del problema originale attraverso la minimizzazione congiunta della TOTAL VARIATION: piu' veloce perchè il consenso procede contemporaneamente alla ottimizzazione locale. Risultati di convergenza, matrici di mixing delle variabili locali "right-stochastic". Esempio Soluzione distribuita di LASSO dividendo il problema rispetto ai DATI (CONSENSUS OPTIMIZATION) oppure rispetto alle VARIABILI di ottiimizzazione (SHARING OPTIMIZATION): soluzione dello step-2 di ADMM tramite Lagrangiano e dualità. |
15/11/2021 | 10:30 | 13:30 | 3.00 | Ottimizzazione Distribuita e Machine Learning: Distributed Model Fitting | Consensus and Sharing Optimization in problemi di machine learning regolarizzati:Distributed (regularized) Model Fitting). Funzioni di ottimizzazione modellabili come L(Ax-b). Funzioni di ottimizzazione additive: Consensun optimization. Funzioni di regolarizzazione separabili: Sharing Optimization. Esempio: Linear regression Analysis by ML estimation (uncostrained optimization). Bayesian MAP formulation of Linear regression analysis: regularized optimization induced by the prior. Example: Laplacian & LASSO, Gaussian and Ridge Regression. Esempi di classificazione: Linear SVM and splitting by Features and Examples. Funzioni di loss additive e stimatori ML e Bayesiani MAP con pdf log-concave (LS, LASSO, Ridge Regression). Fomulazione del problema per LOGISTIC REGRESSION (da fare come possibilie tesina, splitting rispetto a Examples (dati) e splitting rispetto a Features (variabili). |
16/11/2021 | 14:30 | 16:30 | 2.00 | Centralized and Distributed ML estimation: Matlab implementation. | Stima Maximum Likelihood di un vettore di parametri da agenti multipli con modelllodi osservazione (regressione) lineare in condizioni di rumore additico Gaussinao e incorrelato. Analisi della soluzione centralizzata ed implementazione distribuita (con centro di fusione) attraverso ADMM: implementazione, confronto di prestazioni, e sensibilità ai parametri dell'agoritmo e del modello tramite Matlab. |
17/11/2021 | 10:30 | 12:30 | 2.00 | Stochastic optimization and LMS | Stimatore L-MMSE ed implementazione tramite metodo del gradiente a discesa. Cenni ai principi di ottimizzazione stocastica. Algoritmo Least Mean Square (LMS): condizioni e velocità di convegenza. |
22/11/2021 | 10:30 | 13:30 | 3.00 | RLS e Kalman Filtering | Metodo iterativo di Newton per la soluzione di L-MMSE: non realizzabile perché richiede la conoscenza della stima. Recursive Least Square: stima iterativa (invertibile) con forgetting factor della matrice di correlazione ed ottimizzazione stocastica del passo di aggionamento. Riduzione della complessità con aggiornamento della matrice di precisione con identità di Woodburry e ruolo del guadagno (di Kalman). Condizioni e velocità di convergenza al variare dello step-size e del forgetting factor. Considerazioni sul parametro di regolarizzazione, sul MSE e la convergenze in media ma non in media quadratica. Criteri di confronto di algoritmi adattativi a parità di veocità di convergenza o MSE residuo in convergenza. Formulazione di RLS come soluzione di un problema di fitting Weighted-LS regolarizzato con ridge-regression. Confronto di RLS con LMS: influenza del forgetting factor sulla velocità di convergenza attraverso studio approssimato della equazione di aggiornamento in regime di convergenza. Tracking di un parametro al variare del tempo: Modello di osservazione e spazio di stato lineare e stima dello (tempo-variante) dello stato con filtro di Kalman (cenni senza dimostrazioni e commneto delle equazioni sulla base dei concetti stima L-MMSE). Cenni alla possibilizzità di utilizzare di LMS, RLS o filtro di Kalman per segnali rumorosi, definiti sopra un grafo e osservati (campionati) più volte solo su alcuni dei nodi.(Future lezioni) |
23/11/2021 | 14:30 | 16:30 | 2.00 | Esercitazione Matlab su filtri adattativi (LMS, RLS) | Utilizzo di LMS o RLS per approssimare la stima MMSE di parametri vettoriali in modelli di osservazione (regressione) lineari di tipo scalare, in presenza di osservazioni multiple (successive). Discussione della possibile implementazione in matlab, soluzione, e confronto dei risultati di smimulazione per LMS e RLS, al variare di step-size, forgetting factor e parametri del modello di osservazione. Stima di parametri fissi e tracking di parametri variabili nel tempo con andamento sinusoidale. |
24/11/2021 | 10:30 | 12:30 | 2.00 | Inference by sparse sampling | Problemi di stima e decisione attraverso opportuna selezione dei dati disponibili: fondamenti teorici ed algoritmi per modelli di osservazione (regerssione) lineare basati su MMSE. Estensione a modelli di osservazione non lineari tramite minimizzazione del Kramer-Rao lower-bound. |
29/11/2021 | 10:30 | 13:30 | 3.00 | Compressed sensing | Introduzione al compressed sensing e alla rappresentazione sparsa dei segnali. Condizioni di ricostruibilità per segnali sparsi: spark della matrice complessiva, coerenza mutua della matrice di sparsità con la matrice di campionamento,restricted isometry property. Ricostruzione come un problema di ottimizzazione con norma L0, soluzione rilassata con norma L1 e algoritmo di Basis Pursuit (già studiato con ADMM). Ricostruzione in presenza di rumore: formulazione con minimizzazione della norma dell'errore (LASSO based) e algoritmi di Basis Pursuit con vincolo quadratico. Algoritmi di tipo GREEDY: Orthogonal Matching Pursuit e Iterative Hard Thresholding. Cenni alla applicazione alla acquisizione e ricostruzione di immagini con denoising (possibile tesina). |
01/12/2021 | 10:30 | 13:30 | 3.00 | Grafi, Cenni a teoria Algebrica dei Grafi e Introduzione ai segnali definiti su grafi | Esempi e motivazioni; Teoria algebrica dei grafi. Caratteristiche dei grafi: matrice delle adiacenze, Laplaciano, connettività di un grafo, cut-size, etc.. Segnali definiti su un grafo, Total Variation, Minimizzazione del cut size, algoritmo rilassato e relazioni con total variation. Autovettori del laplaciano e proprietà di clusterizzazione. Cenni alla Graph Fourier Transform. |
06/12/2021 | 10:30 | 13:30 | 3.00 | Calcolo distribuito di autovalori e autovettori del Laplaciano di un grafo | Rayleight-Ritz Theorem, Leading eigenvector (eigenvector centrality) e Power Iteration Method. Normalization problems and possible solutions. Iterative distributed computation of leading eigenvectors. Alternative implementation to compute lamba_2(L) by the Laplacian diffusion matrix W = I - eL. |
07/12/2021 | 14:30 | 16:30 | 2.00 | Segnali su grafo e Graph Fourier Transform | Graph Fourier Transform. Similitudine con DFT e grafi circolanti. Filtraggio di segnali su grafi. Filtraggio distribuito su grafi e filtri come espansione polinomiale di matrici delle adiacenze o del Laplaciano. Equazione di diffusione di un segnale su un grafo (osservazione sulla sua natura di Filtro passa-basso).. |
13/12/2021 | 10:30 | 13:30 | 3.00 | Elaborazione dei segnali su grafo | Campionamento e ricostruzione di dati definiti sui nodi di un grafo. Teorema del campionamento su Grafi. Ricostruzione in assenza di rumore e formulazioni alternative. Ricostruzioni iterative: approssimazione della matrice inversa o utilizzo degli autovettori del grafo. Effetto del rumore e criteri di ricostruzione da sparse- sampling ed Empirical design (E-Optimality, D-Optimality, A-optimality). |
14/12/2021 | 14:30 | 16:30 | 2.00 | Online Gradient-Based Optimization: soluzioni distribuite. | Average Consensus: soluzione iterativa con fusione dei dati congiuntamente a passo di gradiente locale. Dagli algoritmi di consenso a quelli di Diffusione: aggiornamento del gradiente locale separato dalla fusione centralizzata. Confronto tra Average Consensus e algoritmi di diffusione. ESEMPIO: Regressione Lineare attraverso LMS locale a ogni singolo nodo: matrice di connettività, convergenza, e velocita' di convergenza (autovalori). |
15/12/2021 | 10:30 | 13:30 | 3.00 | Esempio
di processing ed ottimizzazione distribuita Implementazione algoritmi ottimizazione con CVX |
Campionamento
e ricostruzione on-line di segnali sui nodi di un grafo: BLUE con sensori che
quantizzano e trasmettono wireless (articolo congresso). Campionamento e ricostruzione on-line di segnali sui nodi di un grafo attraverso LMS: analisi di prestazioni, selezione dei nodi, risultati di simulazione (articolo IEEE). |
75.00 |