Analiza odejścia klientów telekomunikacyjnych
March 11, 2021
Analiza czynników, które mogą mieć wpływ na odejście klientów od operatora telekomunikacyjnego. Próba przewidywania, którzy klienci mogą zrezygnować z usług operatora.
Przegląd projektu
- wygenerowanie podstawowego raportu na temat danych wejściowych za pomocą pandas_profiling;
- brakujące dane w kolumnie ‘TotalCharges’ zostały uzupełnione medianą wartości w tej kolumnie;
- stworzono wizualizacje danych;
- dane podzielono na dane treningowe (70%) i dane testowe (30%);
- przetestowano następujące metody uczenia maszynowego: regresja logistyczna, maszyna wektorów nośnych, las losowy, k-najbliższych sąsiadów, drzewo decyzyjne;
- obliczono prawdopodobieństwo rezygnacji dla każdego klienta.
Dane pobrano ze strony kaggle.com
Opis poszczególnych kolumn:
- customerID - numer identyfikacyjny klienta,
- gender - płeć,
- SeniorCitizen - czy jest to osoba starsza,
- Partner - czy ma partnera,
- Dependents - czy ma jakieś zależności,
- tenure - ile miesięcy jest już u tego operatora,
- PhoneService - czy ma telefon?
- MultipleLines - czy ma wiele numerów telefonów,
- InternetService - czy ma internet,
- OnlineSecurity - czy ma usługę bezpieczeństwa online,
- OnlineBackup - czy ma usługę tworzenia kopii zapasowych danych online,
- DeviceProtection - czy ma usługę bezpieczeństwa telefonu,
- TechSupport - czy ma usługę pomocy technicznej,
- StreamingTV - czy ma opcję przesyłania strumieniowego TV,
- StreamingMovies - czy ma opcję przesyłania strumieniowego filmów,
- Contract - czy jest zawarta na czas określony (jeden lub 2 lata), czy na czas nieokreślony (z miesiąca na miesiąc),
- PaperlessBilling - e-faktura,
- PaymentMethod - metoda płatności,
- MonthlyCharges - opłaty miesięczne,
- TotalCharges - łączna kwota opłat,
- churn - czy klient odszedł, czy nie.
Wykorzystane algorytmy uczenia maszynowego i ich dokładność predykcji
Model | Dokładność |
---|---|
Regresja logistyczna | 80,03 |
Maszyna wektorów nośnych | 79,37 |
Las losowy | 78,75 |
K-najbliższych sąsiadów | 76,43 |
Drzewo decyzyjne | 72,36 |
Linki:
W tym repozytorium znajduje się plik: