Skip to Main Content (Press Enter)

Logo UNIFE
  • ×
  • Home
  • Corsi
  • Insegnamenti
  • Professioni
  • Persone
  • Pubblicazioni
  • Strutture

UNI-FIND
Logo UNIFE

|

UNI-FIND

unife.it
  • ×
  • Home
  • Corsi
  • Insegnamenti
  • Professioni
  • Persone
  • Pubblicazioni
  • Strutture
  1. Insegnamenti

118152 - NATURAL LANGUAGE PROCESSING E TOPIC MODELING

insegnamento
ID:
118152
Tipo Insegnamento:
Obbligatorio
Opzionale
Durata (ore):
48
CFU:
6
SSD:
SISTEMI DI ELABORAZIONE DELLE INFORMAZIONI
Url:
Dettaglio Insegnamento:
INTELLIGENZA ARTIFICIALE, DATA SCIENCE E BIG DATA/DATA SCIENCE 1 Anno: 2
Dettaglio Insegnamento:
INTELLIGENZA ARTIFICIALE, DATA SCIENCE E BIG DATA/DATA SCIENCE 2 Anno: 2
Dettaglio Insegnamento:
INTELLIGENZA ARTIFICIALE, DATA SCIENCE E BIG DATA/INTELLIGENZA ARTIFICIALE BIG DATA: LINGUAGGI Anno: 1
Dettaglio Insegnamento:
INTELLIGENZA ARTIFICIALE, DATA SCIENCE E BIG DATA/INTELLIGENZA ARTIFICIALE BIG DATA:COMPUTER VISION Anno: 1
Anno:
2024
  • Dati Generali
  • Syllabus
  • Corsi
  • Persone

Dati Generali

Periodo di attività

Primo Semestre (19/09/2024 - 17/12/2024)

Syllabus

Obiettivi Formativi

Il NLP è uno dei campi di applicazione principali dell’Intelligenza Artificiale, come le recenti innovazioni hanno confermato. Studiare il NLP consente di comprendere concretamente diversi concetti fondamentale della IA nella loro completezza ed evoluzione storica, arrivando fino ai moderni Large Language Models.

Il corso si pone i seguenti obiettivi formativi:

-Acquisire le conoscenze di base per capire il Natural Language Processing (NLP) come ambito della Intelligenza Artificiale e le sue principali applicazioni
-Comprendere le fasi tipiche dell'elaborazione dei dati in NLP
-Apprendere la creazione di classificatori elementari di testi in Machine Learning
-Fornire un'introduzione generale al Topic Modeling (TM) e alla sua evoluzione storica
-Comprendere la relazione tra la riduzione dimensionale e il TM
-Comprendere i vantaggi del TM probabilistico
-Acquisire una prima conoscenza della metodologia di Word Embedding e delle sue varie declinazioni
-Acquisire una conoscenza di base delle relazioni che intercorrono tra le metodologie di TM e le soluzioni a rete neurale
-Apprendere le basi dei moderni Large Language Model con alcune applicazioni
-Mostrare come la R&S industriale sfrutta tali teorie e metodologie in casi reali

Prerequisiti

Il corso prevede delle conoscenze di base acquisite in ambito di:

-Algoritmi e Strutture Dati,
-Algebra Lineare,
-Probabilità e Statistica,
-(Racc.) Machine Learning e Data Mining/Processing,
-(Racc.) Programmazione in linguaggio Python

Metodi didattici

Lezioni frontali, lezioni da remoto in streaming sincrono, lettura di articoli scientifici selezionati.

Verifica Apprendimento

Allo studente verrà chiesto di eseguire un approfondimento su tematiche assegnate individualmente e da discutere durante una presentazione che ha valore di esame orale.

L'approfondimento viene strutturato secondo i seguenti scopi:
-stimolare lo studente nel proporre delle tematiche attinenti al corso che lo interessano e meritevoli di ulteriore studio
-capacità di ricerca e analisi della fonti dalla letteratura
-capacità di strutturare un elaborato di tipo accademico compilativo, attraverso un equilibrio di analisi, sintesi e contenuti formali
-la comprensione e l'esposizione adeguata dei concetti approfonditi
-la collocazione, lo sfruttamento e la comprensione della teoria e dei concetti di base
-la capacità di collegare diversi argomenti in modo trasversale alle parti del corso
-la capacità di confronto critico delle diverse soluzioni esaminate, alla luce della teoria di base
-quando previsto, l'allineamento dell'approfondimento con attività sperimentale (project work)

Testi

-Speech and Language Processing. Daniel Jurafsky & James H. Martin. Copyright © 2023. All
rights reserved. Draft of January 7, 2023.

-David M. Blei.Probabilistic topic models.Commun. ACM, 55(4):77–84, 2012.
-David M. Blei, Andrew Y. Ng, and Michael I. Jordan.Latent dirichlet allocation.J. Mach. Learn. Res., 3:993–1022, 2003.
-Thomas K Landauer, Peter W. Foltz, and Darrell Laham.An introduction to latent semantic analysis.Discourse Processes, 25(2-3):259–284, 1998.
-Dumais S. T. Landauer T. K.A solution to plato’s problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge.Psychological Review, 104(2):211–240, 1997.
-Omer Levy and Yoav Goldberg.Neural word embedding as implicit matrix factorization.In Zoubin Ghahramani, Max Welling, Corinna Cortes, Neil D.Lawrence, and Kilian Q. Weinberger, editors,Advances in NeuralInformation Processing Systems 27: Annual Conference onNeural Information Processing Systems 2014, December 8-132014, Montreal, Quebec, Canada, pages 2177–2185, 2014.
-Tomás Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean.Efficient estimation of word representations in vector space.In Yoshua Bengio and Yann LeCun, editors,1st InternationalConference on Learning Representations, ICLR 2013,Scottsdale, Arizona, USA, May 2-4, 2013, Workshop TrackProceedings, 2013.
-Tomás Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado,and Jeffrey Dean.Distributed representations of words and phrases and theircompositionality.In Christopher J. C. Burges, Léon Bottou, Zoubin Ghahramani,and Kilian Q. Weinberger, editors,Advances in NeuralInformation Processing Systems 26: 27th Annual Conference onNeural Information Processing Systems 2013. Proceedings of ameeting held December 5-8, 2013, Lake Tahoe, Nevada, UnitedStates, pages 3111–3119, 2013.

Contenuti

Il corso è diviso in due parti correlate e consequenziali e tratta tre argomenti principali. Durante la prima parte forniremo un'introduzione generale all'elaborazione del linguaggio naturale (NLP), dopo aver introdotto ed esaminato alcuni concetti fondamentali, concentrandoci in seguito sui passaggi comunemente utilizzati nell'elaborazione dei dati nell’ambito NLP; successivamente, vedremo come creare semplici classificatori di testi. Nella seconda parte del corso ci concentreremo sul Topic Modeling (TM) fornendo prima un'introduzione generale su ciò per cui è utile il TM e la sua evoluzione storica; quindi, indagheremo la relazione tra riduzione di dimensionalità e TM, seguita dalla comprensione del TM probabilistico e dei suoi vantaggi. Come terzo e ultimo argomento introdurremo la metodologia di Word Embedding esplorando le sue varie declinazioni ed il collegamento con la riduzione di dimensionalità e TM. Passeremo poi ad esaminare l’architettura di rete neurale Transformer e alcuni Neural LLM. In conclusione, forniremo alcuni esempi reali provenienti dallo sfruttamento industriale delle teorie e metodologie precedentemente introdotte.

Programma del corso.

-Introduzione al corso, contenuti e obiettivi
-Un caso applicativo: automazione conversazionale

Parte Introduzione NLP:
-Introduzione ai concetti chiave di AI, ML e NLP
-Introduzione alle principali applicazioni del NLP
-Gli strumenti fondamentali per la normalizzazione, la comparazione e la scoperta di pattern nei testi
-Introduzione a N-gram Language Model
-Un classificatore di testi di tipo generativo
-Un classificatore di testi di tipo discriminativo
-EXTRA: un classificatore non parametrico e simbolico

Parte TM e NNLP:
-Introduzione alla rappresentazione vettoriale di parole e documenti
-Introduzione al topic modeling
-Riduzione di dimensionalità e topic modeling: PCA and SVD
-Latent Semantic Analysis (LSA)
-Probabilistic topic modeling – pLSA
-Probabilistic topic modeling – LDA
-Word embeddings: introduzione a word2vec, ELMo e varianti
-Introduzione ai neural language models: Architettura Transformer, BERT, GPT
-EXTRA: seminari su LLM benchmarking e utilizzo, Neural Topic Modeling e architetture avanzate per LLM

Durante il corso, in relazione ai diversi argomenti trattati, saranno forniti degli esempi mutuati da un caso applicativo reale, l'automazione conversazionale. Lo scopo è quello di fornire una prospettivo concreta e critica dell'impiego di diverse soluzioni NLP in un ambito della R&D aziendale. Inoltre, i contenuti extra sono direttamente mutuati dall'attività di R&D industriale con risvolti accademici (pubblicazioni, tesi, tirocini).

Lingua Insegnamento

ITALIANO

Altre informazioni

Codice Classroom:
2aqulsi

Corsi

Corsi

INTELLIGENZA ARTIFICIALE, DATA SCIENCE E BIG DATA 
Laurea Magistrale
2 anni
No Results Found

Persone

Persone

MARZANO ENRICO
AREA MIN. 09 - Ingegneria industriale e dell'informazione
Settore ING-INF/05 - Sistemi di Elaborazione delle Informazioni
Collaboratori
No Results Found
  • Utilizzo dei cookie

Realizzato con VIVO | Designed by Cineca | 25.4.2.0