ID:
118152
Tipo Insegnamento:
Obbligatorio
Opzionale
Durata (ore):
48
CFU:
6
SSD:
SISTEMI DI ELABORAZIONE DELLE INFORMAZIONI
Url:
INTELLIGENZA ARTIFICIALE, DATA SCIENCE E BIG DATA/INTELLIGENZA ARTIFICIALE BIG DATA: LINGUAGGI Anno: 1
INTELLIGENZA ARTIFICIALE, DATA SCIENCE E BIG DATA/INTELLIGENZA ARTIFICIALE BIG DATA:COMPUTER VISION Anno: 1
INTELLIGENZA ARTIFICIALE, DATA SCIENCE E BIG DATA/INTELLIGENZA ARTIFICIALE: DATA SCIENCE Anno: 2
Anno:
2025
Dati Generali
Periodo di attività
Secondo Semestre (26/02/2026 - 05/06/2026)
Syllabus
Obiettivi Formativi
Il NLP è uno dei campi di applicazione principali dell’Intelligenza Artificiale, come le recenti innovazioni hanno confermato. Studiare il NLP consente di comprendere concretamente diversi concetti fondamentale della IA nella loro completezza ed evoluzione storica, arrivando fino ai moderni Large Language Models.
Il corso si pone i seguenti obiettivi formativi:
-Acquisire le conoscenze di base per capire il Natural Language Processing (NLP) come ambito della Intelligenza Artificiale e le sue principali applicazioni
-Comprendere le fasi tipiche dell'elaborazione dei dati e del processo di modellazione predittiva in NLP
-Apprendere la collocazione teorica, la creazione e il confronto critico di diverse soluzioni per alcuni task NLP
-Fornire un'introduzione generale al task NLP del Topic Modeling (TM) e alla sua evoluzione teorica e storica
-Comprendere l'importanza della riduzione dimensionale, degli approcci geometrici e probabilistici, attraverso il TM
-Acquisire una prima conoscenza della metodologia di Word Embedding e delle sue varie declinazioni
-Apprendere le basi dei moderni Large Language Model, le possibili applicazioni, alcuni limiti e contromisure
-Mostrare come la ricerca e sviluppo industriale sfrutta tali teorie e metodologie in casi reali
Al termine del corso, lo studente dovrà essere in grado di:
-Riconoscere e definire i principali task del NLP
-Avere un quadro ampio e critico su quali sono i diversi metodi algoritmici per la risoluzione di task NLP, con i relativi approcci teorici
-Saper impostare un'analisi di una problematica NLP, riconoscendone le componenti principali e le criticità
-Disegnare un processo risolutivo di una problematica NLP che comprenda l'esplorazione dei dati, il pre-processamento degli stessi, la composizione dei diversi modelli ML necessari allo scopo, l'esecuzione e il confronto delle soluzioni
Il corso si pone i seguenti obiettivi formativi:
-Acquisire le conoscenze di base per capire il Natural Language Processing (NLP) come ambito della Intelligenza Artificiale e le sue principali applicazioni
-Comprendere le fasi tipiche dell'elaborazione dei dati e del processo di modellazione predittiva in NLP
-Apprendere la collocazione teorica, la creazione e il confronto critico di diverse soluzioni per alcuni task NLP
-Fornire un'introduzione generale al task NLP del Topic Modeling (TM) e alla sua evoluzione teorica e storica
-Comprendere l'importanza della riduzione dimensionale, degli approcci geometrici e probabilistici, attraverso il TM
-Acquisire una prima conoscenza della metodologia di Word Embedding e delle sue varie declinazioni
-Apprendere le basi dei moderni Large Language Model, le possibili applicazioni, alcuni limiti e contromisure
-Mostrare come la ricerca e sviluppo industriale sfrutta tali teorie e metodologie in casi reali
Al termine del corso, lo studente dovrà essere in grado di:
-Riconoscere e definire i principali task del NLP
-Avere un quadro ampio e critico su quali sono i diversi metodi algoritmici per la risoluzione di task NLP, con i relativi approcci teorici
-Saper impostare un'analisi di una problematica NLP, riconoscendone le componenti principali e le criticità
-Disegnare un processo risolutivo di una problematica NLP che comprenda l'esplorazione dei dati, il pre-processamento degli stessi, la composizione dei diversi modelli ML necessari allo scopo, l'esecuzione e il confronto delle soluzioni
Prerequisiti
Il corso prevede delle conoscenze di base acquisite in ambito di:
-Algoritmi e Strutture Dati
-Algebra Lineare
-Probabilità e Statistica
-(Racc.) Machine Learning e Data Mining/Processing
-(Racc.) Programmazione in linguaggio Python
-Algoritmi e Strutture Dati
-Algebra Lineare
-Probabilità e Statistica
-(Racc.) Machine Learning e Data Mining/Processing
-(Racc.) Programmazione in linguaggio Python
Metodi didattici
Lezioni frontali, lezioni da remoto in streaming sincrono, seminari specifici con (ex) studenti.
Verifica Apprendimento
Allo studente verrà chiesto di eseguire un approfondimento scritto su tematiche assegnate individualmente e concordate con il docente. L'elaborato sarà poi discusso durante una presentazione (con relative domande di chiarimento e teoria) che ha valore di esame orale.
L'approfondimento viene strutturato secondo i seguenti requisiti:
- introdurre in modo adeguato una problematica NLP (un task specifico, un problema teorico, un problema pratico, etc.)
- esaminare i dati coinvolti nel problema affrontato e le relative criticità
- identificare e approfondire approcci e soluzioni algoritmiche, calandole nel corretto contesto teorico visto a lezione
- introdurre dei casi applicativi per le soluzioni proposte
- eseguire un confronto critico delle soluzioni
- discutere le prospettive future relative al tema affrontato
La valutazione dell'esame comprende anche i seguenti aspetti:
- stimolare lo studente nel proporre delle tematiche attinenti al corso che lo interessano e meritevoli di ulteriore studio
- capacità di ricerca e analisi delle fonti dalla letteratura
- capacità di strutturare un elaborato di tipo accademico compilativo, attraverso un equilibrio di analisi, sintesi e contenuti formali
- la comprensione e l'esposizione adeguata dei concetti approfonditi in relazione a quanto appreso durante il corso
- la collocazione, lo sfruttamento e la comprensione della teoria e dei concetti di base appresi durante il corso
- la capacità di collegare diversi argomenti in modo trasversale alle parti del corso
- la capacità di confronto critico delle diverse soluzioni esaminate, alla luce della teoria di base
- quando previsto, l'allineamento dell'approfondimento con attività sperimentale (project work)
L'approfondimento viene strutturato secondo i seguenti requisiti:
- introdurre in modo adeguato una problematica NLP (un task specifico, un problema teorico, un problema pratico, etc.)
- esaminare i dati coinvolti nel problema affrontato e le relative criticità
- identificare e approfondire approcci e soluzioni algoritmiche, calandole nel corretto contesto teorico visto a lezione
- introdurre dei casi applicativi per le soluzioni proposte
- eseguire un confronto critico delle soluzioni
- discutere le prospettive future relative al tema affrontato
La valutazione dell'esame comprende anche i seguenti aspetti:
- stimolare lo studente nel proporre delle tematiche attinenti al corso che lo interessano e meritevoli di ulteriore studio
- capacità di ricerca e analisi delle fonti dalla letteratura
- capacità di strutturare un elaborato di tipo accademico compilativo, attraverso un equilibrio di analisi, sintesi e contenuti formali
- la comprensione e l'esposizione adeguata dei concetti approfonditi in relazione a quanto appreso durante il corso
- la collocazione, lo sfruttamento e la comprensione della teoria e dei concetti di base appresi durante il corso
- la capacità di collegare diversi argomenti in modo trasversale alle parti del corso
- la capacità di confronto critico delle diverse soluzioni esaminate, alla luce della teoria di base
- quando previsto, l'allineamento dell'approfondimento con attività sperimentale (project work)
Testi
-Speech and Language Processing. Daniel Jurafsky & James H. Martin. Copyright © 2023. All
rights reserved. Draft of January 7, 2023.
-David M. Blei.Probabilistic topic models.Commun. ACM, 55(4):77–84, 2012.
-David M. Blei, Andrew Y. Ng, and Michael I. Jordan.Latent dirichlet allocation.J. Mach. Learn. Res., 3:993–1022, 2003.
-Thomas K Landauer, Peter W. Foltz, and Darrell Laham.An introduction to latent semantic analysis.Discourse Processes, 25(2-3):259–284, 1998.
-Dumais S. T. Landauer T. K.A solution to plato’s problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge.Psychological Review, 104(2):211–240, 1997.
-Omer Levy and Yoav Goldberg.Neural word embedding as implicit matrix factorization.In Zoubin Ghahramani, Max Welling, Corinna Cortes, Neil D.Lawrence, and Kilian Q. Weinberger, editors,Advances in NeuralInformation Processing Systems 27: Annual Conference onNeural Information Processing Systems 2014, December 8-132014, Montreal, Quebec, Canada, pages 2177–2185, 2014.
-Tomás Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean.Efficient estimation of word representations in vector space.In Yoshua Bengio and Yann LeCun, editors,1st InternationalConference on Learning Representations, ICLR 2013,Scottsdale, Arizona, USA, May 2-4, 2013, Workshop TrackProceedings, 2013.
-Tomás Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado,and Jeffrey Dean.Distributed representations of words and phrases and theircompositionality.In Christopher J. C. Burges, Léon Bottou, Zoubin Ghahramani,and Kilian Q. Weinberger, editors,Advances in NeuralInformation Processing Systems 26: 27th Annual Conference onNeural Information Processing Systems 2013. Proceedings of ameeting held December 5-8, 2013, Lake Tahoe, Nevada, UnitedStates, pages 3111–3119, 2013.
rights reserved. Draft of January 7, 2023.
-David M. Blei.Probabilistic topic models.Commun. ACM, 55(4):77–84, 2012.
-David M. Blei, Andrew Y. Ng, and Michael I. Jordan.Latent dirichlet allocation.J. Mach. Learn. Res., 3:993–1022, 2003.
-Thomas K Landauer, Peter W. Foltz, and Darrell Laham.An introduction to latent semantic analysis.Discourse Processes, 25(2-3):259–284, 1998.
-Dumais S. T. Landauer T. K.A solution to plato’s problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge.Psychological Review, 104(2):211–240, 1997.
-Omer Levy and Yoav Goldberg.Neural word embedding as implicit matrix factorization.In Zoubin Ghahramani, Max Welling, Corinna Cortes, Neil D.Lawrence, and Kilian Q. Weinberger, editors,Advances in NeuralInformation Processing Systems 27: Annual Conference onNeural Information Processing Systems 2014, December 8-132014, Montreal, Quebec, Canada, pages 2177–2185, 2014.
-Tomás Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean.Efficient estimation of word representations in vector space.In Yoshua Bengio and Yann LeCun, editors,1st InternationalConference on Learning Representations, ICLR 2013,Scottsdale, Arizona, USA, May 2-4, 2013, Workshop TrackProceedings, 2013.
-Tomás Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado,and Jeffrey Dean.Distributed representations of words and phrases and theircompositionality.In Christopher J. C. Burges, Léon Bottou, Zoubin Ghahramani,and Kilian Q. Weinberger, editors,Advances in NeuralInformation Processing Systems 26: 27th Annual Conference onNeural Information Processing Systems 2013. Proceedings of ameeting held December 5-8, 2013, Lake Tahoe, Nevada, UnitedStates, pages 3111–3119, 2013.
Contenuti
Il corso è diviso in due parti correlate e consequenziali e tratta tre argomenti principali. Durante la prima parte forniremo un'introduzione generale all'elaborazione del linguaggio naturale (NLP), dopo aver introdotto ed esaminato alcuni concetti fondamentali, concentrandoci in seguito sui passaggi comunemente utilizzati nell'elaborazione dei dati nell’ambito NLP; successivamente, vedremo come creare semplici classificatori di testi. Nella seconda parte del corso ci concentreremo sul Topic Modeling (TM) fornendo prima un'introduzione generale su ciò per cui è utile il TM e la sua evoluzione storica; quindi, indagheremo la relazione tra riduzione di dimensionalità e TM, seguita dalla comprensione del TM probabilistico e dei suoi vantaggi. Come terzo e ultimo argomento introdurremo la metodologia di Word Embedding esplorando le sue varie declinazioni ed il collegamento con la riduzione di dimensionalità e TM. Passeremo poi ad esaminare l’architettura di rete neurale Transformer e alcuni Neural LLM. In conclusione, forniremo alcuni esempi reali provenienti dallo sfruttamento industriale delle teorie e metodologie precedentemente introdotte.
Programma del corso:
- Introduzione al corso, contenuti e obiettivi
- Un caso applicativo: automazione conversazionale
Parte Introduzione NLP:
- Introduzione ai concetti chiave di AI, ML e NLP
- Introduzione alle principali applicazioni del NLP
- Gli strumenti fondamentali per la normalizzazione, la comparazione e la scoperta di pattern nei testi
- Introduzione a N-gram Language Model
- Un classificatore di testi di tipo generativo
- Un classificatore di testi di tipo discriminativo
- EXTRA: un classificatore non parametrico e simbolico
Parte TM e NNLP:
- Introduzione alla rappresentazione vettoriale di parole e documenti
- Introduzione al topic modeling
- Riduzione di dimensionalità e topic modeling: PCA and SVD
- Latent Semantic Analysis (LSA)
- Probabilistic topic modeling – pLSA
- Probabilistic topic modeling – LDA
- Word embeddings: introduzione a word2vec, ELMo e varianti
- Introduzione ai neural language models: Architettura Transformer, BERT, GPT
- EXTRA: seminari su LLM benchmarking e utilizzo, Agentic Programming in NLP, Attacchi Avversariali, Allucinazioni
Durante il corso, in relazione ai diversi argomenti trattati, saranno forniti degli esempi mutuati da un caso applicativo reale, l'automazione conversazionale. Lo scopo è quello di fornire una prospettivo concreta e critica dell'impiego di diverse soluzioni NLP in un ambito della R&D aziendale. Inoltre, i contenuti extra sono direttamente mutuati dall'attività di R&D industriale con risvolti accademici (pubblicazioni, tesi, tirocini).
Programma del corso:
- Introduzione al corso, contenuti e obiettivi
- Un caso applicativo: automazione conversazionale
Parte Introduzione NLP:
- Introduzione ai concetti chiave di AI, ML e NLP
- Introduzione alle principali applicazioni del NLP
- Gli strumenti fondamentali per la normalizzazione, la comparazione e la scoperta di pattern nei testi
- Introduzione a N-gram Language Model
- Un classificatore di testi di tipo generativo
- Un classificatore di testi di tipo discriminativo
- EXTRA: un classificatore non parametrico e simbolico
Parte TM e NNLP:
- Introduzione alla rappresentazione vettoriale di parole e documenti
- Introduzione al topic modeling
- Riduzione di dimensionalità e topic modeling: PCA and SVD
- Latent Semantic Analysis (LSA)
- Probabilistic topic modeling – pLSA
- Probabilistic topic modeling – LDA
- Word embeddings: introduzione a word2vec, ELMo e varianti
- Introduzione ai neural language models: Architettura Transformer, BERT, GPT
- EXTRA: seminari su LLM benchmarking e utilizzo, Agentic Programming in NLP, Attacchi Avversariali, Allucinazioni
Durante il corso, in relazione ai diversi argomenti trattati, saranno forniti degli esempi mutuati da un caso applicativo reale, l'automazione conversazionale. Lo scopo è quello di fornire una prospettivo concreta e critica dell'impiego di diverse soluzioni NLP in un ambito della R&D aziendale. Inoltre, i contenuti extra sono direttamente mutuati dall'attività di R&D industriale con risvolti accademici (pubblicazioni, tesi, tirocini).
Lingua Insegnamento
ITALIANO
Altre informazioni
Codice Classroom:
oz76druj
oz76druj
Corsi
Corsi
INTELLIGENZA ARTIFICIALE, DATA SCIENCE E BIG DATA
Laurea Magistrale
2 anni
No Results Found