Analiza sentymentu i wyszukiwanie najczęściej używanych słów w tweetach Donalda Trumpa

January 4, 2021


Opis projektu

  • dane zostały pobrane ze strony internetowej www.thetrumparchive.com;
  • analiza została przeprowadzona na tweetach publikowanych od 20.01.2017 do 31.12.2020;
  • przeanalizowano tylko tweety w języku angielskim;
  • analiza sentymentu została przeprowadzona z wykorzystaniem biblioteki TextBlob;
  • modelowanie tematyczne zostało przeprowadzone przy użyciu Latent Dirichlet Allocation (LDA).

Po odzyskaniu danych musiałam je wyczyścić, aby można było je wykorzystać do analizy. Wprowadziłam następujące zmiany i utworzyłam następujące zmienne:

  • Utworzono kolumny zawierające hashatgi, wzmianki, retweety;
  • Aby usunąć tekst, usunięto linki, znaki interpunkcyjne, cyfry, ikony emoji, wielokrotne spacje i znaki „@”, „#”, „RT”;
  • Usunięto tweety bez tekstu;
  • Zidentyfikowano języki, w których napisano tweety;
  • Tweety zostały poddane tokenizacji, lematyzacji i usunięto stopwords.

W wyniku powyższych operacji otrzymano następujące kolumny: ‘text’, ‘clean_tweet’, ‘date’, ‘retweeted’, ‘mentioned’, ‘hashtags’, ‘language’.

Aby przeprowadzić analizę, konieczne było zdefiniowanie dla każdego tweeta:

  • Subiektywności
  • Polaryzacji
  • Sentymentu

Następnie sprawdzono, jak zmieniała się liczba tweetów, biorąc pod uwagę podział na tweety negatywne / neutralne / pozytywne w poszczególnych latach.

Na koniec przeprowadziłam modelowanie tematyczne za pomocą Latent Dirichet Allocation i wyznaczyłam 10 tematów, które obejmują analizowane tweety. Dla każdego tematu wyróżnionych jest 10 najczęściej używanych słów w tweetach.


Linki:

Repozytorium GitHub

Otwórz w Google Colab