118152 - NATURAL LANGUAGE PROCESSING E TOPIC MODELING

insegnamento

ID:

118152

Tipo Insegnamento:

Obbligatorio

Opzionale

Durata (ore):

48

CFU:

SSD:

SISTEMI DI ELABORAZIONE DELLE INFORMAZIONI

Url:

Dettaglio Insegnamento:

INTELLIGENZA ARTIFICIALE, DATA SCIENCE E BIG DATA/INTELLIGENZA ARTIFICIALE BIG DATA: LINGUAGGI Anno: 1

Dettaglio Insegnamento:

INTELLIGENZA ARTIFICIALE, DATA SCIENCE E BIG DATA/INTELLIGENZA ARTIFICIALE BIG DATA:COMPUTER VISION Anno: 1

Dettaglio Insegnamento:

INTELLIGENZA ARTIFICIALE, DATA SCIENCE E BIG DATA/INTELLIGENZA ARTIFICIALE: DATA SCIENCE Anno: 2

Anno:

2025

Course Catalogue:

https://unife.coursecatalogue.cineca.it/af/2025?co...

Periodo di attività

Secondo Semestre (26/02/2026 - 05/06/2026)

Obiettivi Formativi

Il NLP è uno dei campi di applicazione principali dell’Intelligenza Artificiale, come le recenti innovazioni hanno confermato. Studiare il NLP consente di comprendere concretamente diversi concetti fondamentale della IA nella loro completezza ed evoluzione storica, arrivando fino ai moderni Large Language Models.

Il corso si pone i seguenti obiettivi formativi:

-Acquisire le conoscenze di base per capire il Natural Language Processing (NLP) come ambito della Intelligenza Artificiale e le sue principali applicazioni

-Comprendere le fasi tipiche dell'elaborazione dei dati e del processo di modellazione predittiva in NLP

-Apprendere la collocazione teorica, la creazione e il confronto critico di diverse soluzioni per alcuni task NLP

-Fornire un'introduzione generale al task NLP del Topic Modeling (TM) e alla sua evoluzione teorica e storica

-Comprendere l'importanza della riduzione dimensionale, degli approcci geometrici e probabilistici, attraverso il TM

-Acquisire una prima conoscenza della metodologia di Word Embedding e delle sue varie declinazioni

-Apprendere le basi dei moderni Large Language Model, le possibili applicazioni, alcuni limiti e contromisure

-Mostrare come la ricerca e sviluppo industriale sfrutta tali teorie e metodologie in casi reali

Al termine del corso, lo studente dovrà essere in grado di:

-Riconoscere e definire i principali task del NLP

-Avere un quadro ampio e critico su quali sono i diversi metodi algoritmici per la risoluzione di task NLP, con i relativi approcci teorici

-Saper impostare un'analisi di una problematica NLP, riconoscendone le componenti principali e le criticità

-Disegnare un processo risolutivo di una problematica NLP che comprenda l'esplorazione dei dati, il pre-processamento degli stessi, la composizione dei diversi modelli ML necessari allo scopo, l'esecuzione e il confronto delle soluzioni

Prerequisiti

Il corso prevede delle conoscenze di base acquisite in ambito di:

-Algoritmi e Strutture Dati

-Algebra Lineare

-Probabilità e Statistica

-(Racc.) Machine Learning e Data Mining/Processing

-(Racc.) Programmazione in linguaggio Python

Metodi didattici

Lezioni frontali, lezioni da remoto in streaming sincrono, seminari specifici con (ex) studenti.

Verifica Apprendimento

Allo studente verrà chiesto di eseguire un approfondimento scritto su tematiche assegnate individualmente e concordate con il docente. L'elaborato sarà poi discusso durante una presentazione (con relative domande di chiarimento e teoria) che ha valore di esame orale.

L'approfondimento viene strutturato secondo i seguenti requisiti:

- introdurre in modo adeguato una problematica NLP (un task specifico, un problema teorico, un problema pratico, etc.)
- esaminare i dati coinvolti nel problema affrontato e le relative criticità
- identificare e approfondire approcci e soluzioni algoritmiche, calandole nel corretto contesto teorico visto a lezione
- introdurre dei casi applicativi per le soluzioni proposte
- eseguire un confronto critico delle soluzioni
- discutere le prospettive future relative al tema affrontato

La valutazione dell'esame comprende anche i seguenti aspetti:

- stimolare lo studente nel proporre delle tematiche attinenti al corso che lo interessano e meritevoli di ulteriore studio
- capacità di ricerca e analisi delle fonti dalla letteratura
- capacità di strutturare un elaborato di tipo accademico compilativo, attraverso un equilibrio di analisi, sintesi e contenuti formali
- la comprensione e l'esposizione adeguata dei concetti approfonditi in relazione a quanto appreso durante il corso
- la collocazione, lo sfruttamento e la comprensione della teoria e dei concetti di base appresi durante il corso
- la capacità di collegare diversi argomenti in modo trasversale alle parti del corso
- la capacità di confronto critico delle diverse soluzioni esaminate, alla luce della teoria di base
- quando previsto, l'allineamento dell'approfondimento con attività sperimentale (project work)

Testi

-Speech and Language Processing. Daniel Jurafsky & James H. Martin. Copyright © 2023. All
rights reserved. Draft of January 7, 2023.

-David M. Blei.Probabilistic topic models.Commun. ACM, 55(4):77–84, 2012.
-David M. Blei, Andrew Y. Ng, and Michael I. Jordan.Latent dirichlet allocation.J. Mach. Learn. Res., 3:993–1022, 2003.
-Thomas K Landauer, Peter W. Foltz, and Darrell Laham.An introduction to latent semantic analysis.Discourse Processes, 25(2-3):259–284, 1998.
-Dumais S. T. Landauer T. K.A solution to plato’s problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge.Psychological Review, 104(2):211–240, 1997.
-Omer Levy and Yoav Goldberg.Neural word embedding as implicit matrix factorization.In Zoubin Ghahramani, Max Welling, Corinna Cortes, Neil D.Lawrence, and Kilian Q. Weinberger, editors,Advances in NeuralInformation Processing Systems 27: Annual Conference onNeural Information Processing Systems 2014, December 8-132014, Montreal, Quebec, Canada, pages 2177–2185, 2014.
-Tomás Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean.Efficient estimation of word representations in vector space.In Yoshua Bengio and Yann LeCun, editors,1st InternationalConference on Learning Representations, ICLR 2013,Scottsdale, Arizona, USA, May 2-4, 2013, Workshop TrackProceedings, 2013.
-Tomás Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado,and Jeffrey Dean.Distributed representations of words and phrases and theircompositionality.In Christopher J. C. Burges, Léon Bottou, Zoubin Ghahramani,and Kilian Q. Weinberger, editors,Advances in NeuralInformation Processing Systems 26: 27th Annual Conference onNeural Information Processing Systems 2013. Proceedings of ameeting held December 5-8, 2013, Lake Tahoe, Nevada, UnitedStates, pages 3111–3119, 2013.

Contenuti

Il corso è diviso in due parti correlate e consequenziali e tratta tre argomenti principali. Durante la prima parte forniremo un'introduzione generale all'elaborazione del linguaggio naturale (NLP), dopo aver introdotto ed esaminato alcuni concetti fondamentali, concentrandoci in seguito sui passaggi comunemente utilizzati nell'elaborazione dei dati nell’ambito NLP; successivamente, vedremo come creare semplici classificatori di testi. Nella seconda parte del corso ci concentreremo sul Topic Modeling (TM) fornendo prima un'introduzione generale su ciò per cui è utile il TM e la sua evoluzione storica; quindi, indagheremo la relazione tra riduzione di dimensionalità e TM, seguita dalla comprensione del TM probabilistico e dei suoi vantaggi. Come terzo e ultimo argomento introdurremo la metodologia di Word Embedding esplorando le sue varie declinazioni ed il collegamento con la riduzione di dimensionalità e TM. Passeremo poi ad esaminare l’architettura di rete neurale Transformer e alcuni Neural LLM. In conclusione, forniremo alcuni esempi reali provenienti dallo sfruttamento industriale delle teorie e metodologie precedentemente introdotte.

Programma del corso:

- Introduzione al corso, contenuti e obiettivi
- Un caso applicativo: automazione conversazionale

Parte Introduzione NLP:

- Introduzione ai concetti chiave di AI, ML e NLP
- Introduzione alle principali applicazioni del NLP
- Gli strumenti fondamentali per la normalizzazione, la comparazione e la scoperta di pattern nei testi
- Introduzione a N-gram Language Model
- Un classificatore di testi di tipo generativo
- Un classificatore di testi di tipo discriminativo
- EXTRA: un classificatore non parametrico e simbolico

Parte TM e NNLP:

- Introduzione alla rappresentazione vettoriale di parole e documenti
- Introduzione al topic modeling
- Riduzione di dimensionalità e topic modeling: PCA and SVD
- Latent Semantic Analysis (LSA)
- Probabilistic topic modeling – pLSA
- Probabilistic topic modeling – LDA
- Word embeddings: introduzione a word2vec, ELMo e varianti
- Introduzione ai neural language models: Architettura Transformer, BERT, GPT
- EXTRA: seminari su LLM benchmarking e utilizzo, Agentic Programming in NLP, Attacchi Avversariali, Allucinazioni

Durante il corso, in relazione ai diversi argomenti trattati, saranno forniti degli esempi mutuati da un caso applicativo reale, l'automazione conversazionale. Lo scopo è quello di fornire una prospettivo concreta e critica dell'impiego di diverse soluzioni NLP in un ambito della R&D aziendale. Inoltre, i contenuti extra sono direttamente mutuati dall'attività di R&D industriale con risvolti accademici (pubblicazioni, tesi, tirocini).

Lingua Insegnamento

ITALIANO

Altre informazioni

Codice Classroom:
oz76druj

Corsi

INTELLIGENZA ARTIFICIALE, DATA SCIENCE E BIG DATA

Laurea Magistrale

2 anni

No Results Found

Persone (2)

MARZANO ENRICO

AREA MIN. 09 - Ingegneria industriale e dell'informazione

Settore ING-INF/05 - Sistemi di Elaborazione delle Informazioni

Collaboratori

MILELLA MAURO

Personale esterno ed autonomi

No Results Found

118152 - NATURAL LANGUAGE PROCESSING E TOPIC MODELING

48

SISTEMI DI ELABORAZIONE DELLE INFORMAZIONI

Dati Generali

Periodo di attività

Syllabus

Obiettivi Formativi

Prerequisiti

Metodi didattici

Verifica Apprendimento

Testi

Contenuti

Lingua Insegnamento

Altre informazioni

Corsi

Corsi

INTELLIGENZA ARTIFICIALE, DATA SCIENCE E BIG DATA

Persone

Persone (2)

MARZANO ENRICO

MILELLA MAURO