Analiza sentymentu i wyszukiwanie najczęściej używanych słów w tweetach Donalda Trumpa
January 4, 2021
Opis projektu
- dane zostały pobrane ze strony internetowej www.thetrumparchive.com;
- analiza została przeprowadzona na tweetach publikowanych od 20.01.2017 do 31.12.2020;
- przeanalizowano tylko tweety w języku angielskim;
- analiza sentymentu została przeprowadzona z wykorzystaniem biblioteki TextBlob;
- modelowanie tematyczne zostało przeprowadzone przy użyciu Latent Dirichlet Allocation (LDA).
Po odzyskaniu danych musiałam je wyczyścić, aby można było je wykorzystać do analizy. Wprowadziłam następujące zmiany i utworzyłam następujące zmienne:
- Utworzono kolumny zawierające hashatgi, wzmianki, retweety;
- Aby usunąć tekst, usunięto linki, znaki interpunkcyjne, cyfry, ikony emoji, wielokrotne spacje i znaki „@”, „#”, „RT”;
- Usunięto tweety bez tekstu;
- Zidentyfikowano języki, w których napisano tweety;
- Tweety zostały poddane tokenizacji, lematyzacji i usunięto stopwords.
W wyniku powyższych operacji otrzymano następujące kolumny: ‘text’, ‘clean_tweet’, ‘date’, ‘retweeted’, ‘mentioned’, ‘hashtags’, ‘language’.
Aby przeprowadzić analizę, konieczne było zdefiniowanie dla każdego tweeta:
- Subiektywności
- Polaryzacji
- Sentymentu
Następnie sprawdzono, jak zmieniała się liczba tweetów, biorąc pod uwagę podział na tweety negatywne / neutralne / pozytywne w poszczególnych latach.
Na koniec przeprowadziłam modelowanie tematyczne za pomocą Latent Dirichet Allocation i wyznaczyłam 10 tematów, które obejmują analizowane tweety. Dla każdego tematu wyróżnionych jest 10 najczęściej używanych słów w tweetach.