Emesso da: Università degli Studi di Napoli Parthenope

Statistica per Big Data

Introduzione al Corso

Con l’espressione Big Data ci riferiamo a raccolte di dati caratterizzate da una notevole dimensione e un elevato grado di complessità. La dimensione e il grado di complessità sono tali da richiedere strumenti specifici per l’acquisizione, la gestione, l’analisi e la visualizzazione. In questo contesto, è quindi di fondamentale importanza l'apporto dell’informatica e della metodologia statistica.

Questo MOOC si sofferma in particolare sugli aspetti statistici per l’analisi dei Big Data.

Il corso ha una durata di 4 settimane

La prima settimana introduce i Big Data sottolineando come lo sviluppo di molteplici tecnologie abbia comportato una crescita di esponenziale del volume di dati, che sono di grande interesse per molti attori economici, in primis le aziende. Ma si tratta di una mole immensa di dati che va gestita e analizzata affinché si trasformi in informazione. Per questo motivo ci si sofferma sulla fase di preparazione dei dati e si spiega in che modo un’efficace analisi grafica dei dati possa costituire un punto di partenza utile a fornire indicazioni sugli step successivi dell’analisi.

La seconda settimana si focalizza sulle più importanti tecniche di supervised learning. Si parla di supervised learning (o apprendimento supervisionato) quando una serie di informazioni (input) sono analizzate e utilizzate per prevedere uno specifico fenomeno di interesse (output). Un algoritmo di supervised learning può essere presentato come Y=f(X), dove Y indica l’output da prevedere e X racchiude le informazioni in input. Le tecniche di supervised learning presentate sono la regressione, con speciale enfasi sulla regressione polinomiale e sulla regressione spline, e gli alberi di decisioni, classificabili come alberi di classificazione e alberi di regressione.

Nella terza settimana si introducono i più rilevanti metodi di unsupervised learning (o apprendimento non supervisionato). In questo caso, in assenza di una specifica variabile risposta di interesse, una grande quantità di informazioni viene analizzata e utilizzata per determinare relazioni e scoprire somiglianze tra i dati. Viene presentata l’analisi in componenti principali e due metodi di classificazione, un metodo non gerarchico (l’algoritmo delle k medie), e un metodo gerarchico (la cluster analysis).

L’ultima settimana è dedicata all’analisi testuale, o text mining, un insieme di tecniche statistiche innovative che hanno l’obiettivo di estrarre informazioni significative da dati testuali, come tweet, mail, recensioni, e altro. Dopo una breve introduzione al text mining, si descrive la fase di pre-processing, ovvero delle operazioni essenziali propedeutiche alle analisi statistiche, quindi la sezione si focalizza sulla costruzione ed interpretazione di una word cloud, sull’analisi delle associazioni testuali (Word association) e infine sulla rappresentazione grafica e sull’interpretazione di cluster di parole (Word clustering).

Per ogni settimana sono previste due o tre unità didattiche. Ogni unità didattica è composta da una video lezione, una lettura di approfondimento, e un elenco di quiz a risposta multipla con 4 possibile risposte di cui una esatta come strumento di verifica dell’apprendimento.

Il superamento del quiz è conseguito rispondendo correttamente ad almeno 5 domande ed abilita a seguire l’ultima attività, ovvero uno specifico approfondimento della tematica affrontata.

Ogni argomento sarà accompagnato da applicazioni svolte con il software R (un software open-source scaricabile dal sito https://cran.r-project.org) utilizzando l’interfaccia R-Studio (la cui versione free è scaricabile dalla pagina https://rstudio.com/products/rstudio/download)

Frequenza e Attestati

Frequenza

GRATUITO!

Attestato di Partecipazione

GRATUITO!

Categoria

Computer and Data Sciences

Ore di Formazione

Livello

Base

Modalità Corso

Tutoraggio

Lingua

Italian

Durata

4 Settimane

Tipologia

Online

Stato del Corso

Archiviato

Spiacente, il tempo è scaduto!

Agenda del Corso

Avvio Iscrizioni

15 Set 2022

Apertura Corso

1 Ott 2022

Inizo Tutoraggio

1 Ott 2022

Fine Tutoraggio

31 Dic 2022

Tutoraggio Soft

1 Gen 2023

Chiusura Corso

31 Mag 2023

Risultati Attesi

- Comprendere le potenzialità dei dati

- Individuare la metodologia statistica idonea al raggiungimento dell'obiettivo

- Svolgere analisi di dati con il software R

Pre-requisiti

Conoscenza dei concetti base della statistica.

Libri di testo e letture consigliate

James G., Witten D., Hastie T., Tibshirani R., Introduzione all'apprendimento statistico con applicazioni in R, Piccin.

Altre letture sono suggerite all'interno del corso.

Formato del corso

Il corso è articolato in 4 settimane. Per ogni settimana sono previste due o tre unità didattiche. Ogni unità didattica è composta da una video lezione, una lettura di approfondimento, e un quiz a risposta multipla come strumento di verifica dell’apprendimento. Ogni quiz è composto da 8 domande ciascuna con 4 possibile risposte. Il superamento del quiz abilita a seguire l’ultima attività, ovvero uno specifico approfondimento della tematica affrontata.

Regole per ottenere gli Attestati e sostenere gli Esami

Attestato di Partecipazione

L' Attestato di Partecipazione è rilasciato dopo aver visionato tutte le videolezioni e risposto correttamente ad almeno 5 domande su 8 di ciascun test.