Pipeline complet de détection de fraude sur transactions par carte bancaire
Ce projet met en place une approche complète de détection de fraude bancaire sur des transactions par carte de crédit, en s'appuyant sur un jeu de données réel fortement déséquilibré. L'objectif est de construire une chaîne de traitement robuste, de l'exploration des données à l'évaluation des modèles, en passant par la gestion fine du déséquilibre de classes.
Le jeu de données est chargé à partir d'un environnement Python (Kaggle) et d'un dossier projet
structuré (data/, notebooks/, images/, rapport_synthese.md, etc.).
Une première analyse met en évidence un fort déséquilibre entre transactions normales et frauduleuses.
Nettoyage, normalisation des montants, transformation éventuelle de certaines variables, création de nouvelles features dérivées utiles pour différencier des comportements usuels et suspects.
Plusieurs approches sont testées pour gérer le très faible taux de fraude : pondération des classes, resampling (sous-échantillonnage des transactions non frauduleuses, sur-échantillonnage des fraudes, techniques de type SMOTE) et calibration des seuils de décision.
Plusieurs modèles sont entraînés et comparés via validation croisée, en se concentrant sur la capacité à détecter un maximum de fraudes tout en limitant les fausses alertes. Les résultats sont présentés et discutés dans les notebooks et le rapport de synthèse.
Les résultats sont synthétisés dans un rapport métier et dans un notebook dédié, avec des visualisations (matrices de confusion, courbes ROC/PR, importance des variables) pour faciliter la prise de décision des équipes métiers et risque.
Le projet est documenté dans un notebook unique et condensé sur Kaggle (version light) et dans un dossier complet sur Google Drive (avec README, explication des modèles, rapport de synthèse, etc.).
Le dossier contient notamment : requirements.txt, README_USAGE_FR.md,
explication_modeles_ML.txt et rapport_synthese.md.
En contexte de fraude, l'objectif principal est de maximiser la détection des fraudes tout en maîtrisant le nombre de fausses alertes envoyées aux équipes.
Métriques clés
Recall (sensibilité), Precision, F1-score, AUC-ROC, courbe PR (Precision-Recall).
Contraintes métiers
Coût d'une fraude non détectée vs. coût d'une alerte injustifiée, temps de traitement, interprétabilité des modèles.
Le projet local est organisé pour être facilement réutilisable :
data/ – jeux de données préparésnotebooks/ – notebooks d'analyse et de modélisationimages/ – visuels et graphiques clésrapport_synthese.md – synthèse des résultatsREADME_USAGE_FR.md – guide d'utilisation