Big Data Analytics con Python e Spark 2.4: il Corso Completo
Impara ad analizzare e processare i Big Data con Python e Spark ( PySpark )
Description
Impara a utilizzare le Ultime Tecnologie per l'Analisi dei Big Data con il linguaggio di Programmazione più popolare al mondo - Spark e Python !
Siamo entrati nell'era dei Big Data, oggi i dati sono il nuovo petrolio e sapere come elaborarli e analizzarli vuol dire avere un posto di lavoro garantito in un futuro molto prossimo e un vantaggio competitivo enorme rispetto ai rivali in affari.
In questo corso impareremo a lavorare con i Big Data utilizzando Spark, il framework per il calcolo distribuito più popolare al mondo, usato in produzione da giganti come Amazon, Microsoft, Oracle, Verizon e Cisco.
Cosa faremo durante il corso ?
Nella prima sezione del corso introdurre l'argomento Big Data, vedendo cosa sono, da dover arrivano e come possono essere sfruttati.
Vedremo quali sono le principali tecnologie utilizzate per i Big Data: Apache Hadoop, Hadoop MapReduce e Spark, chiarendone le differenze, i punti deboli e i punti di forza.
Nella seconda sezione vedremo come installare e configurare Spark su una macchina locale, prima usando VirtualBox per creare una macchina simulata sulla quale installare Ubuntu, poi creando una macchina remota sfruttando gli Amazon Web Service, nello specifico AWS EC2.
Nella terza sezione impareremo a creare un cluster di macchine con Spark e lo faremo in due modi differenti:
Usando AWS EMR (Elastic MapReduce)
Usando DataBricks, piattaforma per l'analisi dei Big Data co-fondata dallo stesso creatore di Spark.
Nella quarta sezione studieremo la principale struttura dati di Spark: il Resilient Distributed Dataset (RDD), introducendo la teoria del suo funzionamento per poi eseguire qualche esercizio pratico per studiarne le API.
Nella quinta sezione ci sporcheremo le mani con il primo laboratorio in cui analizzeremo un dataset contenente 22.5 milioni di recensioni di prodotti su Amazon.
Nella sesta sezione introdurremo una struttura dati a più alto livello che Spark mette a disposizione dalle sue versioni più recenti: il DataFrame, parleremo brevemente della suo funzionamento per poi vedere come può essere utilizzato nella pratica. Vedremo anche come creare una tabella SQL partendo da un DataFrame per poi interrogarla con query di selezione.
Nella settima sezione svolgeremo un secondo laboratorio, usando un DataFrame per analizzare ben 28 milioni di recensioni di film.
Nell'ottava sezione parleremo di serie storiche (time series) e analizzeremo le azioni di Apple dal 1980 ad oggi.
Nella nona sezione parleremo di Machine Learning, scoprendo come funziona e a cosa serve e studiando i due modelli di base rispettivamente per modelli di Regressione e Classificazione:
La Regressione Lineare
La Regressione Logistica
Al termine di questa sezione introdurremo il modulo MLlib (Machine Learning Library) di Spark, il quale ci permette di costruire modelli di Machine Learning distribuiti.
Nelle sezioni dieci e undici vedremo come utilizzare il modulo MLlib con le sue API per il Dataframe, per risolvere semplici problemi di regressione e classificazione, come:
Stimare il valore di abitazioni partendo dalle loro caratteristiche
Riconoscere un tumore al seno maligno da un'agobiopsia
Nella sezione dodici utilizzeremo le conoscenze acquisite sul Machine Learning e MLlib per costruire un modello di Sentiment Analysis utilizzando il dataset di Yelp, il quale contiene oltre 5 GB di recensioni di locali e attività commerciali.
Per addestrare il modello di Machine Learning sull'intero dataset così grande utilizzeremo un cluster AWS EMR, imparando a configurare un cluster e a importare grandi quantità di dati nel Hadoop File System (HDFS) da un bucket S3 utilizzando l'utility s3-dist-cp.
Nella nona sezione introdurremo uno delle estensioni più hot di Spark: Spark Streaming, che ci permette di analizzare ed elaborare flussi di dati in tempo reale !
Nella decima sezione svolgeremo un progetto usando Spark Streaming e le API di Twitter: monitoreremo tutti i tweets pubblicati in tempo reale, relativi ad un determinato argomento selezionato da noi, e creeremo un grafico interattivo con gli hashtags più popolari !
Perché seguire questo corso ?
I Big Data sono il futuro, sapere come sfruttarli sarà un vantaggio enorme, sia per un professionista che per un imprenditore, non perdere questa occasione !
What You Will Learn!
- Utilizzare Python e Spark per Analizzare i Big Data
- Utilizzare MLlib per Creare Modelli di Machine Learning con i Big Data
- Installare e Configurare PySpark su una Macchina Virtuale
- Installare e Configurare PySpark con Amazon EC2
- Creare un Cluster di Macchine per PySpark con Amazon EMR
- Utilizzare gli Amazon Web Service (AWS) per l'Analisi di Big Data
- Imparare ad Utilizzare DataBricks per l'Analisi di Big Data
- Utilizzare l'RDD per Elaborare Dati in Parallelo
- Utilizzare il DataFrame per Processare Dati in Maniera Efficiente
- Utilizzare Spark Streaming per elaborare flussi di dati in Tempo Reale
- Creare un Modello di Sentiment Analysis con il Dataset di Yelp (5 GB !)
- Processare Tweets pubblicati su Twitter in Tempo Reale
Who Should Attend!
- Chiunque voglia imparare a elaborare grandi quantità di dati in maniera distribuita
- Chiunque voglia imparare a sfruttare il vantaggio competitivo dei Big Data