Le attività tipiche di un data scientist possono essere divise nelle seguenti
aree:
Conoscenza fonti e raccolta dati;
Strutturazione dei dati;
Analisi dei dati;
Presentazione dei risultati.
L'attività di “Strutturazione dei dati” è cruciale in un qualunque progetto di Data Analysis. Molto spesso,
infatti, l'attività più strettamente di analisi dei dati consiste nell'applicare, su strutture dati predefinite,
algoritmi già disponibili (sviluppati in R ad, esempio, oppure contenuti nei moduli python statsmodels,
linearmodels o scikit-learn). L'attività di strutturazione dei dati serve proprio a costruire le specifiche
strutture richieste dagli algoritmi di analisi che si vogliono usare.
Il modulo Pandas di python è uno tra gli strumenti informatici più efficienti ed efficaci di gestione di ampie e
complesse strutture dati. Esso mette a disposizione strumenti specifici per:
unire due o più strutture dati;
estrarre parti di strutture dati sulla base di specifiche condizioni;
elaborare dati, organizzandoli per gruppi e sottogruppi;
modificare una struttura dati ridefinendo righe e colonne.
L'obiettivo del corso “Python e strutture dati” e quello di consentire ad un aspirante data scientist
l'apprendimento dei concetti di base e degli strumenti python per poter costruire in autonomia le specifiche
strutture dati richieste dagli algoritmi di analisi.