Guida al text mining e alla sentiment analysis con R
Una guida al text mining e alla sentiment analysis con R in lingua italiana
Description
Questo corso è dedicato a chi si avvicina al mondo del text mining e della sentiment analysis per la prima volta, pur avendo delle basi di programmazione e analisi dati con R. Non si tratta di un corso divulgativo generico sul text mining e sulla sentiment analysis, ma di un corso che vuole spiegare le basi dell'analisi dei testi tramite il linguaggio di programmazione R.
Se non sai ancora programmare con R, purtroppo questo corso non è quello giusto per te, ma puoi dare un'occhiata al mio corso base.
Se invece stai cercando esempi e casi per capire in maniera semplice le tecniche base per effettuare un'analisi di text mining o scoprire il sentiment dei tuoi testi con R, sei nel posto giusto. R è uno dei linguaggi di programmazione più diffusi quando si parla di analisi dati, e comprende una serie di pacchetti e funzioni che possono aiutarci sia nel text mining descrittivo che nel text mining predittivo.
Il text mining descrittivo "descrive" un testo a partire dalle parole che lo compongono, mentre il text mining predittivo utilizza le caratteristiche di un gruppo di testi per effettuare delle predizioni, ad esempio se un'email è spam o no, oppure se un testo è stato scritto o meno da un autore, oppure, per tornare alla sentiment analysis, se un commento è positivo o negativo.
Per prima cosa partiamo capendo come mai il text mining e la sentiment analysis sono tanto importante, e quali sono gli usi che se ne fanno, e le lingue più analizzate (spoiler: c'è anche l'italiano).
Analizzare un testo non è come analizzare un dataset: il testo va prima trasformato in qualcosa che il computer possa capire: imparerai quindi le tecniche più importanti per sintetizzare un testo, preprocessarlo, normalizzarlo e rappresentarlo.
Imparerai poi a importare un documento o un corpus in R, preprocessarlo e analizzarlo, creando anche delle rappresentazioni grafiche.
Oltre al pacchetto base ci sono molti pacchetti per il text mining: il più importante per le analisi di base è di sicuro tm.
Una volta chiarite queste parti introduttive, ci dedichiamo alle tecniche di machine learning applicate al text mining, che ci permettono a partire da un corpus o da un testo, di effettuare delle predizioni.
Uno degli strumenti per l'analisi più interessante è Twitter: in questo corso imparerai a estrarre dei tweet e ad analizzarli. Oltre ai pacchetti per il trattamento testi, come tm, e per l'estrazione dati, esistono ancora moltissimi pacchetti per il text mining che imparerai a utilizzare con questo corso, non solo per il text mining ma anche per la sentiment analysis. Vedremo quindi, dato un testo, come predire in maniera automatica tramite varie tecniche di machine learning, se il testo è positivo o negativo, tramite metodi supervisionati e non supervisionati.
Il corso si chiude con una parte sulla rappresentazione grafica dei testi e alcuni cenni sui metodi di analisi qualitativa CAQDAS.
***Attenzione, questo corso al momento non comprende una parte relativa agli esercizi, che sarà aggiunta a breve con modalità che saranno chiarite nella Bonus Section
What You Will Learn!
- Analizzare e trattare testi tramite le funzioni base e tm
- Standardizzare un testo
- Applicare procedure supervisionate e non supervisionate a corpus di documenti
- Estrarre e analizzare tweet
- Utilizzare varie stringhe e pacchetti per la gestione dei testi in R
- Creare word cloud e rappresentazioni grafiche di documenti
- Analizzare il sentiment di un testo con metodi supervisionati e non
- Effettuare alcune analisi qualitative con RQDA
Who Should Attend!
- Studenti con almeno alcune nozioni introduttive su R