L'insegnamento si propone di fornire agli studenti e alle studentesse una generale comprensione delle tecniche di analisi statistica dei dati necessarie per analizzare dataset di esperimenti di fisica delle alte energie. Una particolare attenzione è riservata alle sessioni pratiche con tutorial interattivi, per esplorare i software e gli strumenti tipici utilizzati negli esperimenti in fisica delle particelle. Gli studenti e le studentesse impareranno i tipici metodi statistici utilizzati nelle analisi dati, inclusi algoritmi di machine learning e la loro implementazione attraverso il framework ROOT e i toolkit RooFit e RooStats.
Prerequisiti
- Conoscenza di base di programmazione (python o C++) - Conoscenza di base di tecniche di rivelazione di particelle - Conoscenza di base di cinematica relativistica e fenomenologia delle particelle
Metodi didattici
Il corso consiste in lezioni frontali e laboratorio. Le lezioni si svolgono mediante proiezione di slides, che verranno fornite agli studenti come materiale complementare. Le attività di laboratorio si svolgono tramite dei python notebook sulla piattaforma Google Colab.
Verifica Apprendimento
L'esame finale si basa sulla presentazione della risoluzione di un problema fornito dal docente, formato da dati veri o simulati. Il candidato riceverà un dataset e dovrà utilizzare le conoscenze e le tecniche imparate durante il corso per selezionare gli eventi e misurare una particolare grandezza di interesse (la massa di una particella, la significatività di un segnale, il limite sulla produzione di un nuovo stato....). Tutte le informazioni necessarie riguardo il processo fisico in esame verranno fornite con il problema. Il candidato dovrà scrivere un report o una presentazione per illustrare e discutere le metodologie utilizzate e i risultati dell'analisi.
Testi
Glen Cowan, "Statistical data analysis" Cesare Bini, "Lezioni di statistica per la fisica sperimentale"
Contenuti
Il corso ha una durata di 60 ore divise in 27 ore di lezione frontale e 33 ore di laboratorio. È strutturato secondo le seguenti sezioni:
SEZIONE 1 INTRODUZIONE ALL'ANALISI DEI DATI IN FISICA DELLE ALTE ENERGIE [16h] - Introduzione alla fisica dei collider e agli esperimenti su collisioni protone-protone - Richiami di concetti di base sulla rivelazione di particelle - Tracce, depositi di energia e identificazione di particelle - Osservabili di rilievo nell'analisi dei dati in fisica delle particelle - Richiami di teoria degli errori - Incertezze statistiche, sistematiche, propagazione di incertezze - Distribuzioni di densità probabilità - Distribuzioni tipiche e loro significato fisico - Simulazioni Monte Carlo - Pseudoesperimenti
SEZIONE 2 SELEZIONE DEGLI EVENTI, STIMA DEI PARAMETRI E MACHINE LEARNING - Tecniche di selezione degli eventi - Separazione delle componenti - Selezione n-dimensionale e multivariata - Stima dei parametri - Test di verifica di ipotesi - Algoritmi di machine learning - Classificazione degli eventi con una rete neurale
SEZIONE 3 METODI STATISTICI E COMPUTAZIONALI - ROOT, RooFit e RooStats - Costruzione della workspace - Modelli di fit compositi, estesi e multidimensionali - Metodo della Delta-log-likelihood - Profile likelihood - Intervalli di confidenza di Feldman-Cousins e intervalli Bayesiani - Limiti di misura e livello di confidenza, metodo CLs - Riduzione statistica del fondo: metodo sPlot - Addestramento e test di algoritmi di machine learning