Analiza odejścia klientów telekomunikacyjnych

March 11, 2021


Analiza czynników, które mogą mieć wpływ na odejście klientów od operatora telekomunikacyjnego. Próba przewidywania, którzy klienci mogą zrezygnować z usług operatora.

Przegląd projektu

  • wygenerowanie podstawowego raportu na temat danych wejściowych za pomocą pandas_profiling;
  • brakujące dane w kolumnie ‘TotalCharges’ zostały uzupełnione medianą wartości w tej kolumnie;
  • stworzono wizualizacje danych;
  • dane podzielono na dane treningowe (70%) i dane testowe (30%);
  • przetestowano następujące metody uczenia maszynowego: regresja logistyczna, maszyna wektorów nośnych, las losowy, k-najbliższych sąsiadów, drzewo decyzyjne;
  • obliczono prawdopodobieństwo rezygnacji dla każdego klienta.

Dane pobrano ze strony kaggle.com

Opis poszczególnych kolumn:

  • customerID - numer identyfikacyjny klienta,
  • gender - płeć,
  • SeniorCitizen - czy jest to osoba starsza,
  • Partner - czy ma partnera,
  • Dependents - czy ma jakieś zależności,
  • tenure - ile miesięcy jest już u tego operatora,
  • PhoneService - czy ma telefon?
  • MultipleLines - czy ma wiele numerów telefonów,
  • InternetService - czy ma internet,
  • OnlineSecurity - czy ma usługę bezpieczeństwa online,
  • OnlineBackup - czy ma usługę tworzenia kopii zapasowych danych online,
  • DeviceProtection - czy ma usługę bezpieczeństwa telefonu,
  • TechSupport - czy ma usługę pomocy technicznej,
  • StreamingTV - czy ma opcję przesyłania strumieniowego TV,
  • StreamingMovies - czy ma opcję przesyłania strumieniowego filmów,
  • Contract - czy jest zawarta na czas określony (jeden lub 2 lata), czy na czas nieokreślony (z miesiąca na miesiąc),
  • PaperlessBilling - e-faktura,
  • PaymentMethod - metoda płatności,
  • MonthlyCharges - opłaty miesięczne,
  • TotalCharges - łączna kwota opłat,
  • churn - czy klient odszedł, czy nie.

Wykorzystane algorytmy uczenia maszynowego i ich dokładność predykcji

Model Dokładność
Regresja logistyczna 80,03
Maszyna wektorów nośnych 79,37
Las losowy 78,75
K-najbliższych sąsiadów 76,43
Drzewo decyzyjne 72,36

Linki:

Repozytorium GitHub

W tym repozytorium znajduje się plik: