Data Inizio Fine Ore Titolo Descrizione
20/09/2021 10:30 13:30 3.00 Introduzione e ripasso teoria della probabilità Introduzione all'analisi di grandi moli di dati: contesto, sfide tecnologiche, strumenti.
Obiettivi ed architettura dell'insegnamento.
Ripasso dei concetti di base di teoria della probabilità: indipendenza, probabilità condizionata, Teorema di Bayes. Variabili aleatorie singole e congiunte: densità di probabilità, funzione cumulativa di distribuzione, valor medio, deviazione standard, correlazione e covarianza. Densità di probabilità marinali e condizionate. Esempio: variabili aleatorie congiuntamente gaussiane e condizionate: valor medio e varianza condizionate, retta di regressione lineare e diminuzione dell'incertezza da un osservazione distribuita in modo congiuntamente gaussiano a un'altra grandezza incognita. Generalizzazione a variabili aleatorie gaussiane N-dimensionali. Cenno ai processi aleatori e alla stazionarietà in senso lato e senso stretto.
22/09/2021 10:30 13:30 3.00 Introduzione alla teoria della stima Concetto di stimatore di un parametro a partire dalla osservazione di un insieme di dati: approccio classico e approccio Bayesiano.
Densità di probabilità associata a uno stimatore e bontà dela stima.
Errore di stima, polarizzazione, errore quadratico medio (MSE), e varianza dello stimatore in senso classico.
Esempio: media campionaria come stimatore di un parametro affetto da rumore additivo.
Esempio di stimatori Minimum MSE classici non realizzabili. Stimatori non polarizzati a varianza minima (MVUE). Limite inferiore alla varianza di qualunque stimatore: teorema di CRAMER-RAO,  condizioni di raggiungibilità, teorema di fattorizzazione di Fisher, raggiungibilità e calcolo del MVUE.
Esempio: parametro costante affetto da rumore additivo Gaussiano e fattorizzazione di Fisher.
Stimatori efficienti e conservazione dell'efficienza (CRLB) per trasformazione affini di parametri. Disuguaglianza generale per la varianza dello stimatore soggetto a trasformazioni non affini.
Cenni e definizione di statistiche sufficienti. Teorema di fattorizzazione di Neymann-Fisher per statistiche sufficienti. Esempio: parametro costante soggetto a rumore additivo Gaussiano indipendente.
Stimatore MVUE come trasformazione di una statistica sufficiente.
Osservazione su CRLB per stimatori efficienti: MVUE che raggiunge il CRLB è anche uno stimatore a massima verosimiglianza (MLE).
Criterio sub-ottimo a MVUE: Maximum Likelihood Estimator (MLE). 
27/09/2021 10:30 13:30 3.00 Stimatori a massima verosimiglianza Maximum Likelihood Estimator (MLE).
MLE è asintoticamente non polarizzato, efficiente, distribuito Gaussianamente.
Invarianza di MLE a trasformazioni dei parametri (anche non lineari).
MLE per un modello lineare di osservazione vettoriale di un parametro scalare soggetto a rumore additivo Gaussiano e indipendente. Osservazione sulla media pesata delle singole osservazioni. Coincidenza con MVUE a partire dalla funzione di "score".
BEST LINEAR UNBIASED ESTIMATOR (BLUE) per lo stesso modello di osservazione lineare.
Derivazione dalla funzione Lagrangiana associata.
Soluzione che dipende solo dai momenti di ordine 2.
Coincidente con MVUE e MLE per modelli Gaussiani.
Stima di un vettore di parametri. Estensione del CRAMER-RAO LOWER BOUND, teorema di fattorizzazione, matrice di informazione di Fisher e matrice di covarianza dell'errore di stima.
Esempio: stima di media e varianza di osservazioni Gaussiane. Esistenza del MVUE per la media ma non per la varianza. Stima euristica dalla varianza campionaria e polarizzazione dello stimatore. Varianza campionaria non polarizzata.
BLUE per modello lineare di osservazione vettoriale di parametri incogniti vettoriali: matrice di covarianza dell'errore di stima.
Caso particolari per rumnore gaussiano, scorrelato, a vaianza costante: BLUE coicidente con MLE, MVUE e "stimatore" Least Square (LS). Cenni al concetto di LSE e alla matrice di proiezione.
29/09/2021 10:30 13:30 3.00 Stimatori Bayesiani Concetto di stimatore Bayesiano: densità di probabilità a priori e a posteriori del parametro da stimare. MSE Bayesiano e relazioni con MSE condizionato ai dati e al parametro.
Dimostrazione dell'espressione formale del Mimimum MSE (MMSE) Bayesiano come valor medio a posteriori del parametro dopo aver osservato i dati. MMSE Bayesiano non polarizzato rispetto a dati e parametro, ma polarizzato condizionatamente al singolo valore assunto dal parametro.
Stimatore MMSE Bayesiano per vettori di parametri distribuiti congiuntamente gaussiani rispetto ai dati: regressione lineare dello stimatore matrice di covarianza dello stimatore (errore).
Caso particolare di modelli di osservazione LINEARI nei parametri e Gaussiani: espressioni equivalenti dello stimatore e della matrice di covarianza.

Esempio: parametro Gaussiano in rumore additivo Gaussiano e indipendente. Osservazione sullo stimatore come media pesata del MLE (a posteriori) e dello stimatore ottimo a priori.

Osservazione sull'uso dello stimatore Bayesiano anche in assenza di ipotesi statistiche a priori, e utilizzo fittizio di una densità di probabilità. Analisi dell'errore di stima in funzione del valore del parametro da stimare e del sua coerenza con l'ipotesi statistica fittizia.
Generalizzazione del rischio di Bayes: stimatori a MINIMO VALORE ASSOLUTO (mediana a posteriori) e a MINIMO TASSO DI ERRORE (moda a posteriori).

Stimatori LINEARI Bayesiani (L-MMSE): derivazione, equazione normale e caso particolare per modelli di osservazione lineari vettoriali e Gaussiani. Coincidenza di L-MMSE con MMSE Bayesiano per statistiche Gaussiane.
04/10/2021 10:30 13:30 3.00 Relazioni tra inferenza statistica  e metodi basati su machine learning Inferenza statistica ottima ma presuppone la  conoscenza apriori delle informazioni statistiche del problema in oggetto. Machine learning è composto di due fasi: a) stima dei parametri statistici(medie, correlazioni, etc) rilevanti alla soluzione ottima del problema (Learning del modello) a partire da un set finito di dati e parametri cui si conosce tutto. b) utilizzo di questi parametri (modello) all'interno dello specifico stimatore/decisore (ottimo/sub-ottimo)  in fase di Test.
ESEMPIO-1: Linear regression analysis e relazione con stimatore Least Square
ESEMPIO2: K-nearest neighbour e relazione con stimatore MMSE bayesiano
06/10/2021 10:30 13:30 3.00 Introduzione alla verifica di ipotesi e rapporto di verosimiglianza Introduzione alla verifica di ipotesi. Approccio classico. Caso generale e semplificato di dipendenza della pdf dei dati da un paramentro. Verifica di ipoesi binarie: errori di tipo I (falaso allarme) e tipo II (mancata rivelazione) e loro probabilità Pfa e Pmd.  Esempio: singola osservazione con pdf Gaussiana e diverso valor medio nelle due ipotesi. Critero intuitivo di decisione a soglia, calcolo e andamento di Pfa e Pmd al variare della soglia. Estensione al caso di osservazioni multiple:  introduzione intuitiva alla definizione di una "statistica" di decisone a soglia, tramite media campionaria. Pfa e Pd, ROC del test.
Generalizzazione formale del problema: regioni di decisione, Pfa, Pmd. Tipologia di test di ipotesi: semplici, composte, single-sided, two-sided. Concetto e definizione di statistica sufficiente e teoorema di fattorizzazione di Neymann-Fisher.
Introduzione intuitiva al rapporto di verosimiglianza come statistica di decisione. Criterio di Neymann-Pearson e dimostrazione dell'ottimalità del rapporto di verosimiglianza. Proprietà della ROC per NP-test: soglia del test e tangente alla ROC.
Accenni al GLRT (generalized likelyhood ratio test) come estensione a verifica di ipotesi composte.
11/10/2021 10:30 13:30 3.00 Approccio Bayesiano alla verifica di Ipotesi  Probabilità a priori e a posteriori associata a ciascuna ipotesi. Concetto di rischio di Bayes associato a ciascuna decisione e relazioni con la probabilità di errore e corretta decisione. Rapporto di verosimiglianza come test ottimo  per la minimizzazione del rischio di Bayes, per ipotesi semplici. Set della soglia per l'approccio Bayesiano, ROC, e relazioni con il Neymann-Pearson Test.  Grafico del rischio di Bayes in funzione della probabilità di un evento. Test bayesiano robusto all incertezza sulle probabilità a priori delle ipotesi: strategia Min-Max e determinazione della soglia ottima associata. Esempio: verifica di ipotesi binaria con osservazioni (multidimensionali Gaussiane) a stessa varianza e diverso valore medio nelle due ipotesi. Decisore ottimo separa i dati tramite un iperpiano analogamente ad algoritmi di PCA, piuttosto che di Linear Discriminant Analysys o di Logistic Regression nel ML. Relazioni tra i due approcci e risultati dell'approccio statistico come limite massimo di prestazioni di un metodo di machine learning.
13/10/2021 10:30 13:30 3.00 Introduzione alla ottimizzazione convessa Ottimizazione vincolata. Insieme delle soluzioni ammissibili. Insiemi affini, insiemi convessi, insiemi conici, insiemi conici e convessi. Esempi: iperpiani, semi-spazi, sfere, poliedri,insieme delle matrici simmetriche e semi-definite positive. Metodi di dimostrazione della convessità di insiemi: a) verifica della definizione b) intersezione di insiemi convessi, c) mappaggio tramite funzioni affini d) funzione perspettiva e) funzioni lineari fratte.
Funzioni convesse: definizione ed esempi. Dimostrazione della convessità di funzioni: a) definizione, b) restrizione a una linea (es. log(det(X)) is concave)  c) Condizione del primo ordine  d) Condizione del secondo ordine (Hessiano): esempio funzioni quadratiche in R^n. Esempi: funzione quadratica su funzione lineare, media geometrica, log-sum-exp. Minimizzazione su insiemi convessi. Insiemi di sotto-livello di una funzione.
Operazioni che preservano la convessità. Regole di composizione con funzioni scalari. Funzioni Log-Convesse e proprietà.
18/10/2021 10:30 13:30 3.00 Ottimizzazione Convessa-I Prospettiva di una Funzione convessità. Esempio: Kullback-Leibler distance is convex. Epigrafo di una funzione e proprietà.

Definizione del problema standard di ottimizzazione convessa vincolato. Minimi locali e globali per problemi non convessi. Soluzioni ammissibili per problemi convessi, gradiente e MINIMUM PRINCIPLE.  Problemi convessi equivalenti: a) variabili "slack", b) metodo dell'epigrafo, c) introduzione di vincoli affini di uguaglianza.
Programmi Lineari: soluzione sul vertice di un poliedro, non calcolabile in forma chiusa, ricavabile con metodi numerici (simplesso, etc.). Esempi di problemi convessi: problemi quadratici con vincoli quadratici, programmi semidefiniti, minimizzazione dell'autovalore massimo di autovalori di matrici affini nelle variabili e forma epigrafica.
20/10/2021 10:30 13:30 3.00 Ottimizzazione Convessa-II Funzione Lagrangiana, funzione duale, problema di ottimizzazione duale (concavo), condizioni di dualità forte e condizione di Slater. Condizioni KKT di dualità  e sufficienza per problemi convessi.
25/10/2021 10:30 13:30 3.00 Esempi di problemi di Ottimizzazione Esempi di ottimizzazione e formulazione duale: forme quadratiche con vincoli lineari, waterfilling, programmi lineari in forma duale, Least Square, (Linear) Support Vector Machine: formulazione di Rosemblatt, formulazione di Vaipnik, problema duale e soluzioni.
Introduzione agli algoritmi di ottimizzazione. Problemi di ottimizzazione non vincolata e condizione di esistenza del minimo. Algoritmi a discesa: gradient descent, algoritmo di Newton, algoritmi quasi-Newton. Cenni alle condizioni di convergenza e alla velocità di convergenza. 
27/10/2021 10:30 13:30 3.00 Algoritmi di ottimizzazione Algoritmi iterativi per problemi di ottimizazzione vincolata. Condizione di Liptschitz: gradient projection e condizine di convergenza.. Algoritmi per problemi regolarizzati non differenziabili: proximal-operator. Casi particolari di regolarizzazione: funzione indicatore e proximal gradient; norma L1 e Soft-Threshold operator: Iterative Soft Thresholding Algorithm (ISTA). Caso particolare: LASSO. Algoritmi iterativi "Primal-Dual". Esempio: linear equality constrained problems: DUAL ASCENT algorithm. Augmented Lagrangian and Method of Multipliers. Disaccoppiamento di problemi di ottimizzzzione regolarizzati: L'algoritmo ADMM e lasua versione scalata. Soluzione di problemi regolarizzati non vincolati attraverso ADMM: esempio- LASSO by ADMM.
03/11/2021 10:30 13:30 3.00 Ottimizzazione distribuita-I Esempio di applicazione di ADMM ad ottimizzazione vincolata: algoritmo BASIS Pursuit.
Differenza tra architetture di rete parallele e distribuite per risolvere problemi di otttimizzazione. Ottimizzazione non-vincolata tramite CONSENSO per funzioni obiettivo somma di funzioni convesse: variabili locali, variabili globali, Lagrangiano aumentato e soluzione tramite ADMM scalato in parallelo su ciascun agente, consenso tramite FUSION CENTER (o average consensus), e local UPSCENT sulla variabili duali. Versione semplificata. Estensione di ottimizzazione al Consenso a problemi di ottimizzazione convessa regolarizzata (LASSO, RIDGE REGRESSION, etc.). Soluzione tramite Scaled ADMM. Esempio: Soluzione di LASSO distribuita attraverso splitting dei dati osservati su N agenti in paralleo.
08/11/2021 10:30 13:30 3.00 Ottimizzazione distribuita-II Implementazione di ottimizzazione al CONSENSO con ADMM, con fusione delle ottimizzazioni tramite ullteriore algoritmo iterativo di diffusione (AVERAGE CONSENSUS) di tipo scalare: concetto di TOTAL VARIATION su un grafo, proprietà degli autovalori, consenso come minimizzazione al gradiente della TOTAL VARIATION.
Formulazione alternativa del problema di ottimizzazione, incorporando l'algoritmo di AVERAGE CONSENSUS all'interno del problema originale attraverso la minimizzazione congiunta della TOTAL VARIATION: piu' veloce perchè il consenso procede contemporaneamente alla ottimizzazione locale. Risultati di convergenza, matrici di mixing delle variabili locali "right-stochastic".
Esempio  Soluzione distribuita di LASSO dividendo il problema rispetto ai DATI (CONSENSUS OPTIMIZATION) oppure rispetto alle VARIABILI di ottiimizzazione (SHARING OPTIMIZATION): soluzione dello step-2 di ADMM tramite Lagrangiano e dualità. 
15/11/2021 10:30 13:30 3.00 Ottimizzazione Distribuita e Machine Learning: Distributed Model Fitting Consensus and Sharing Optimization in problemi di machine learning regolarizzati:Distributed (regularized) Model Fitting). Funzioni di ottimizzazione modellabili come L(Ax-b). Funzioni di ottimizzazione additive: Consensun optimization. Funzioni di regolarizzazione separabili: Sharing Optimization. Esempio: Linear regression Analysis by ML estimation (uncostrained optimization). Bayesian MAP formulation of Linear regression analysis: regularized optimization induced by the prior. Example: Laplacian & LASSO, Gaussian and Ridge Regression. Esempi di classificazione: Linear SVM and splitting by Features and Examples. Funzioni di loss additive e stimatori ML e Bayesiani MAP con pdf log-concave (LS, LASSO, Ridge Regression). Fomulazione del problema per LOGISTIC REGRESSION (da fare come possibilie tesina, splitting rispetto a Examples  (dati) e splitting rispetto a Features (variabili).
16/11/2021 14:30 16:30 2.00 Centralized and Distributed ML estimation: Matlab implementation. Stima Maximum Likelihood di un vettore di parametri da agenti multipli con modelllodi osservazione (regressione) lineare in condizioni di rumore additico Gaussinao e incorrelato.  Analisi della soluzione centralizzata ed implementazione distribuita (con centro di fusione)  attraverso ADMM: implementazione, confronto di prestazioni, e sensibilità ai parametri dell'agoritmo e del modello tramite Matlab. 
17/11/2021 10:30 12:30 2.00 Stochastic optimization and LMS Stimatore L-MMSE ed implementazione tramite metodo del gradiente a discesa. Cenni ai principi di ottimizzazione stocastica. Algoritmo Least Mean Square (LMS): condizioni e velocità di convegenza.
22/11/2021 10:30 13:30 3.00 RLS e Kalman Filtering Metodo iterativo di Newton per la soluzione di L-MMSE: non realizzabile perché richiede la conoscenza della stima. Recursive Least Square: stima iterativa (invertibile) con forgetting factor della matrice di correlazione ed ottimizzazione stocastica del passo di aggionamento. Riduzione della complessità con aggiornamento della matrice di precisione con identità di Woodburry e ruolo del guadagno (di Kalman). Condizioni e velocità di convergenza al variare dello step-size e del forgetting factor. Considerazioni sul parametro di regolarizzazione, sul MSE e la convergenze in media ma non in media quadratica. Criteri di confronto di algoritmi adattativi a parità di veocità di convergenza o MSE residuo in convergenza. Formulazione di RLS come soluzione di un problema di fitting Weighted-LS regolarizzato con ridge-regression. Confronto di RLS con LMS: influenza del forgetting factor sulla velocità di convergenza attraverso studio approssimato della equazione di aggiornamento in regime di convergenza. Tracking di un parametro al variare del tempo: Modello di osservazione e spazio di stato lineare e stima dello (tempo-variante) dello stato con filtro di Kalman (cenni senza dimostrazioni e commneto delle equazioni sulla base dei concetti stima L-MMSE). Cenni alla possibilizzità di utilizzare di LMS, RLS o filtro di Kalman per segnali rumorosi, definiti sopra un grafo e osservati (campionati) più volte solo su alcuni dei nodi.(Future lezioni)
23/11/2021 14:30 16:30 2.00 Esercitazione Matlab su filtri adattativi (LMS, RLS) Utilizzo di LMS o RLS per approssimare la stima MMSE di parametri vettoriali in modelli di osservazione (regressione) lineari di tipo scalare, in presenza di osservazioni multiple (successive). Discussione della possibile implementazione in matlab, soluzione, e confronto dei risultati di smimulazione per LMS e RLS, al variare di step-size, forgetting factor e parametri del modello di osservazione. Stima di parametri fissi e tracking di parametri variabili nel tempo con andamento sinusoidale.
24/11/2021 10:30 12:30 2.00 Inference by sparse sampling Problemi di stima e decisione attraverso opportuna selezione dei dati disponibili: fondamenti teorici ed algoritmi per modelli di osservazione (regerssione) lineare basati su MMSE. Estensione a modelli di osservazione non lineari tramite minimizzazione del Kramer-Rao lower-bound.
29/11/2021 10:30 13:30 3.00 Compressed sensing Introduzione al compressed sensing e alla rappresentazione sparsa dei segnali. Condizioni di ricostruibilità per segnali sparsi:  spark della matrice complessiva, coerenza mutua della matrice di sparsità con la matrice di campionamento,restricted isometry property. Ricostruzione come un problema di ottimizzazione con norma L0, soluzione rilassata con norma L1 e algoritmo di Basis Pursuit (già studiato con ADMM). Ricostruzione in presenza di rumore: formulazione con minimizzazione della norma dell'errore (LASSO based) e algoritmi di Basis Pursuit con vincolo quadratico. Algoritmi di tipo GREEDY: Orthogonal Matching Pursuit e Iterative Hard Thresholding. Cenni alla applicazione alla acquisizione e ricostruzione di immagini con denoising (possibile tesina).
01/12/2021 10:30 13:30 3.00 Grafi, Cenni a teoria Algebrica dei Grafi e Introduzione ai segnali definiti su grafi Esempi e motivazioni; Teoria algebrica dei grafi. Caratteristiche dei grafi: matrice delle adiacenze, Laplaciano, connettività di un grafo, cut-size, etc.. Segnali definiti su un grafo, Total Variation, Minimizzazione del cut size, algoritmo rilassato e relazioni con total variation. Autovettori del laplaciano e proprietà di clusterizzazione. Cenni alla Graph Fourier Transform.
06/12/2021 10:30 13:30 3.00 Calcolo distribuito di autovalori e autovettori del Laplaciano di un grafo Rayleight-Ritz Theorem, Leading eigenvector (eigenvector centrality) e Power Iteration Method. Normalization problems and possible solutions. Iterative distributed computation of leading eigenvectors. Alternative implementation to compute lamba_2(L) by the Laplacian diffusion matrix W = I - eL.  
07/12/2021 14:30 16:30 2.00 Segnali su grafo e Graph Fourier Transform Graph Fourier Transform.  Similitudine con DFT e grafi circolanti. Filtraggio di segnali su grafi. Filtraggio distribuito su grafi e filtri come espansione polinomiale di matrici delle adiacenze o del Laplaciano. Equazione di diffusione di un segnale su un grafo (osservazione sulla sua natura di Filtro passa-basso)..
13/12/2021 10:30 13:30 3.00 Elaborazione dei segnali su grafo Campionamento e ricostruzione di dati definiti sui nodi di un grafo. Teorema del campionamento su Grafi. Ricostruzione in assenza di rumore e formulazioni alternative. Ricostruzioni iterative: approssimazione della matrice inversa o utilizzo degli autovettori del grafo. Effetto del rumore e criteri di ricostruzione da sparse- sampling ed Empirical design (E-Optimality, D-Optimality, A-optimality). 
14/12/2021 14:30 16:30 2.00 Online Gradient-Based Optimization: soluzioni distribuite. Average Consensus: soluzione iterativa con fusione dei dati congiuntamente a passo di gradiente locale. Dagli algoritmi di consenso a quelli di Diffusione: aggiornamento del gradiente locale separato dalla fusione centralizzata. Confronto tra Average Consensus e algoritmi di diffusione. ESEMPIO: Regressione Lineare attraverso LMS locale a ogni singolo nodo: matrice di connettività, convergenza, e velocita' di convergenza (autovalori).
15/12/2021 10:30 13:30 3.00 Esempio di processing ed ottimizzazione distribuita
Implementazione algoritmi ottimizazione con CVX
Campionamento e ricostruzione on-line di segnali sui nodi di un grafo: BLUE con sensori che quantizzano e trasmettono wireless (articolo congresso).
Campionamento e ricostruzione on-line di segnali sui nodi di un grafo attraverso LMS: analisi di prestazioni, selezione dei nodi, risultati di simulazione (articolo IEEE). 
75.00