Prediction du Taux Churn

Prévision du taux de Churn – Comparaison de plusieurs Machine Learning

Le taux de churn désigne la proportion des clients que perd une entreprise sur une période donnée. C’est un indicateur marketing clé pour mesurer la fidélité de sa clientèle et un signe d’intérêt que portent les clients aux produits ou service de la marque. Le taux de churn est un indicateur de performance critique pour les entreprises avec un business model basé sur l’abonnement comme le Telecom, Streaming Vidéos music (Netflix, Spotify,..), SaaS,… Il est important pour les entreprises de se concentrer sur la notion de churn car ce taux permet d’analyser la satisfaction de la clientèle et par extension leur rentabilité. Sans oublier le cout d’acquittions d’un nouveau client requiert des budgets importants.

Des études réalisées estiment les dépenses consacrées à l’acquisition client comme étant 5 fois supérieures à celles consacréesà la rétention.

Pourquoi prévoir le Taux de Churn ?

Détecter les clients avec un risque potentiel de churn à l’avance permet de cibler ces personnes afin de l’empêcher de mettre fin à son abonnement. Aussi, avoir la capacité de prédire avec précision le taux de churn est nécessaire car cela permet à l’entreprise de mieux comprendre les revenus futurs attendus. La prévision de taux churn peut également aider à prendre des décisions proactives et améliorer les domaines dans lesquels le service client fait défaut. Prévoir le taux churn par des machine Learning Dans cet article, nous allons créer des modèles de prévision de taux churn basé sur une base de données de Telecom.

Les données ont été fourni par IBM Developer Platform et disponible ici. Certaines informations, telles le nom, les données du client ont été gardés anaonyme par souci de confidentialité mais sans impact sur nos models. L’objectif est déterminer si le client a churné (Yes/No) c’est problem de classement en utilisant plusieurs Machine Learnig pour pouvoir comparer leur performance de prévision. J’utilise la library caret combiné avec le fabuleux library purrr le processus classique d’un Data Science:

Imporation des données
Exploration des données
Split des données
Preprocessing
Modélisation
Evaluation

L’objectif est d’identifier les client perdus (Churn = yes) à partir de leurs caractéristique (gender, SeniorCitizen, Partner, Dependens, tenure,… ). C’est un exercice de classement

Imporation des données

library(readr)
library(dplyr)
library(purrr)
library(tibble)
Customer_Churn <- read_csv("D:/Data/ChurnPrediction/WA_Fn-UseC_-Telco-Customer-Churn.csv")
Customer_Churn%>%glimpse()

## Rows: 7,043
## Columns: 21
## $ customerID       <chr> "7590-VHVEG", "5575-GNVDE", "3668-QPYBK", "7795-CF...
## $ gender           <chr> "Female", "Male", "Male", "Male", "Female", "Femal...
## $ SeniorCitizen    <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,...
## $ Partner          <chr> "Yes", "No", "No", "No", "No", "No", "No", "No", "...
## $ Dependents       <chr> "No", "No", "No", "No", "No", "No", "Yes", "No", "...
## $ tenure           <dbl> 1, 34, 2, 45, 2, 8, 22, 10, 28, 62, 13, 16, 58, 49...
## $ PhoneService     <chr> "No", "Yes", "Yes", "No", "Yes", "Yes", "Yes", "No...
## $ MultipleLines    <chr> "No phone service", "No", "No", "No phone service"...
## $ InternetService  <chr> "DSL", "DSL", "DSL", "DSL", "Fiber optic", "Fiber ...
## $ OnlineSecurity   <chr> "No", "Yes", "Yes", "Yes", "No", "No", "No", "Yes"...
## $ OnlineBackup     <chr> "Yes", "No", "Yes", "No", "No", "No", "Yes", "No",...
## $ DeviceProtection <chr> "No", "Yes", "No", "Yes", "No", "Yes", "No", "No",...
## $ TechSupport      <chr> "No", "No", "No", "Yes", "No", "No", "No", "No", "...
## $ StreamingTV      <chr> "No", "No", "No", "No", "No", "Yes", "Yes", "No", ...
## $ StreamingMovies  <chr> "No", "No", "No", "No", "No", "Yes", "No", "No", "...
## $ Contract         <chr> "Month-to-month", "One year", "Month-to-month", "O...
## $ PaperlessBilling <chr> "Yes", "No", "Yes", "No", "Yes", "Yes", "Yes", "No...
## $ PaymentMethod    <chr> "Electronic check", "Mailed check", "Mailed check"...
## $ MonthlyCharges   <dbl> 29.85, 56.95, 53.85, 42.30, 70.70, 99.65, 89.10, 2...
## $ TotalCharges     <dbl> 29.85, 1889.50, 108.15, 1840.75, 151.65, 820.50, 1...
## $ Churn            <chr> "No", "No", "Yes", "No", "Yes", "Yes", "No", "No",...

Nous disposons de 7043 observations et 20 variables, dont la cible Churn

Exploration des données

Exploration est la première étape. Le Package summarytools permet de faire une analyse descriptive des variables numériques et catégorielles. La fonction dfSummary est utilisé pour résumer les données, des statistique descriptives, ainsi des graphes pour montrer la distribution

library(summarytools)
print(dfSummary(Customer_Churn%>%select(-customerID), graph.magnif = .7), method= "render")

Data Frame Summary

Customer_Churn

Dimensions: 7043 x 20
Duplicates: 22

Variable

Stats / Values

Freqs (% of Valid)

Graph

Valid

Missing

gender [character]

1. Female 2. Male

3488	(	49.5%	)
3555	(	50.5%	)

7043 (100.0%)

0 (0.0%)

SeniorCitizen [numeric]

Min : 0 Mean : 0.2 Max : 1

0	:	5901	(	83.8%	)
1	:	1142	(	16.2%	)

7043 (100.0%)

0 (0.0%)

Partner [character]

1. No 2. Yes

3641	(	51.7%	)
3402	(	48.3%	)

7043 (100.0%)

0 (0.0%)

Dependents [character]

1. No 2. Yes

4933	(	70.0%	)
2110	(	30.0%	)

7043 (100.0%)

0 (0.0%)

tenure [numeric]

Mean (sd) : 32.4 (24.6) min < med < max: 0 < 29 < 72 IQR (CV) : 46 (0.8)

73 distinct values

7043 (100.0%)

0 (0.0%)

PhoneService [character]

1. No 2. Yes

682	(	9.7%	)
6361	(	90.3%	)

7043 (100.0%)

0 (0.0%)

MultipleLines [character]

1. No 2. No phone service 3. Yes

3390	(	48.1%	)
682	(	9.7%	)
2971	(	42.2%	)

7043 (100.0%)

0 (0.0%)

InternetService [character]

1. DSL 2. Fiber optic 3. No

2421	(	34.4%	)
3096	(	44.0%	)
1526	(	21.7%	)

7043 (100.0%)

0 (0.0%)

OnlineSecurity [character]