Tokyo Residential Rent & Yield Predictor (R)

Aperçu du Projet

Ce projet développe un modèle de machine learning prédictif pour estimer les prix des propriétés résidentielles et identifier les opportunités d'investissement à Tokyo, Japon. L'analyse s'appuie sur plus de 500,000 transactions immobilières (2005-2019) couvrant les 23 arrondissements spéciaux de Tokyo.

Version R : Ce projet est entièrement développé en R utilisant l'écosystème tidyverse, démontrant la polyvalence à travailler dans différents environnements de programmation statistique. Le workflow R Markdown permet de générer des rapports professionnels directement depuis le code.

Objectif métier : Construire un modèle production-ready qui démontre à la fois l'expertise immobilière et les compétences avancées en Data Science, destiné à être présenté aux grandes firmes immobilières (CBRE, JLL, Cushman & Wakefield) et fonds d'investissement.

Feature Engineering métier : Création de 15+ variables reflétant la connaissance approfondie du marché tokyoïte (distance à la gare, réglementation sismique 1981, classification des arrondissements par tiers).
Modélisation avancée : XGBoost et Random Forest avec validation croisée, atteignant un R² de 0.91 sur le jeu de test.
Interprétabilité : Analyse d'importance des features (XGBoost gain, Random Forest IncNodePurity) pour expliquer les prédictions et valider la logique métier.
Insights business : Identification de 3-5 arrondissements sous-évalués, analyse de rendement par segment, impact des réglementations sismiques.
Visualisations interactives : Carte Leaflet de Tokyo avec classification des arrondissements, dashboard de métriques, analyse des résidus.

R tidyverse XGBoost Leaflet Real Estate

Insights Clés pour Investisseurs

Distance à la Gare : Le Driver #1 (42% d'impact)

La proximité de la gare représente 42% de la variance des prix selon l'analyse d'importance des features. Les propriétés à moins de 5 minutes à pied commandent une prime de 15-25% par rapport à celles nécessitant plus de 20 minutes.

Implication business : La proximité de la gare est non-négociable pour un prix premium à Tokyo.

Arrondissements Sous-évalués : 3 Opportunités Identifiées

Le modèle identifie les arrondissements où le prix prédit > prix actuel (erreur positive = sous-évaluation). Top 3 : Adachi, Itabashi, Nerima - arrondissements "Value" avec bon accès aux gares mais prix actuels inférieurs. Potentiel de rendement : 5.5-6.5% vs moyenne marché 4.5%.

Action : Analyse approfondie de ces arrondissements pour opportunités d'investissement valeur.

Réglementation Sismique 1981 : Impact de 18% sur les Prix

La révision de la loi japonaise sur les normes de construction en 1981 (Shin-taishin) a introduit des exigences plus strictes de résistance aux séismes. Les bâtiments pré-1981 (Kyu-taishin) se négocient avec une décote de 15-20% en raison des coûts d'assurance plus élevés, des défis de financement et des préoccupations de sécurité perçues.

Opportunité : Potentiel de valeur ajoutée via rénovation sismique pour bâtiments pré-1981 en zones premium.

Tendances Temporelles : Impact Jeux Olympiques 2020

Tous les tiers d'arrondissements ont montré une appréciation des prix pendant la période de préparation des Jeux Olympiques (2015-2019). C5W Premium : +23.5%, Premium : +16.1%, Standard : +13.3%, Value : +11.4%.

Limitation : Les données se terminent en 2019 - les tendances post-Olympiques (2020-2024) ne sont pas capturées.

Carte Interactive de Tokyo

Carte interactive créée avec Leaflet (package R, équivalent de Folium en Python) montrant la classification des 23 arrondissements spéciaux de Tokyo par tiers de marché. Chaque marqueur est cliquable et affiche les statistiques clés de l'arrondissement.

C5W Premium Premium Standard Value

Méthodologie & Pipeline R

1. Chargement & Nettoyage des Données

Chargement de 2 datasets Kaggle (500,000+ transactions Tokyo 2005-2019) avec data.table::fread() pour performance. Filtrage aux 23 arrondissements spéciaux et aux condominiums résidentiels uniquement. Gestion des valeurs manquantes avec imputation informée par le domaine utilisant dplyr (médiane par arrondissement pour distance gare, médiane par type de structure pour année de construction).

2. Feature Engineering Métier

Création de 15+ features reflétant l'expertise immobilière avec dplyr et fonctions personnalisées : catégories de distance à la gare (Walk 0-5min, Walk+ 5-10min, Need Train 10-20min, Far >20min), réglementation sismique 1981 (Shin-taishin vs Kyu-taishin), classification des arrondissements par tiers (C5W Premium, Premium, Standard, Value), catégories de taille (Studio, 1-Bed, 2-Bed, 3+ Bed).

3. Modélisation

XGBoost (package xgboost) et Random Forest (package randomForest) avec validation croisée 5-fold via caret::createFolds(). Split train/test 80/20 stratifié par arrondissement pour assurer la représentation dans les deux jeux. Métriques : RMSE, MAE, R². Le modèle final atteint R² = 0.91 sur le jeu de test.

4. Interprétabilité

Analyse d'importance des features : xgb.importance() pour XGBoost (Gain), importance() pour Random Forest (IncNodePurity). Validation de la logique métier (les features importantes correspondent à la connaissance du marché). Visualisations avec ggplot2 et plotly pour interactivité.

5. Insights Business & Visualisations

Traduction des résultats du modèle en insights actionnables : identification d'arrondissements sous-évalués, analyse de rendement par segment, impact des réglementations. Création de visualisations interactives (carte Leaflet, dashboard de métriques avec ggplot2, analyse des résidus).

Avantages de la Version R

R Markdown Workflow

Génération de rapports professionnels HTML/PDF directement depuis le code. Workflow unifié : code + résultats + visualisations dans un seul document.

tidyverse Ecosystem

Manipulation de données intuitive avec dplyr, visualisations puissantes avec ggplot2. Syntaxe cohérente et expressive pour analyses statistiques.

Leaflet Integration

Cartes interactives natives R avec le package leaflet. Intégration seamless dans R Markdown, pas besoin de mélanger Python/R.

Shiny for Dashboards

Solution native R pour dashboards interactifs. Déploiement facile avec Shiny Server ou Shinyapps.io. Pas besoin de framework externe comme Streamlit.

Reproducibility

R Markdown garantit la reproductibilité : code + résultats + environnement dans un seul fichier. Facilite le partage et la collaboration.

R Markdown & Documentation

Le projet est entièrement documenté dans un notebook R Markdown professionnel avec sections markdown explicatives, code R commenté, et visualisations. Tous les résultats sont reproductibles. Compilez le fichier .Rmd pour générer un rapport HTML complet.

Voir le R Markdown sur GitHub (A venir) Télécharger la Documentation R via Google Drive

Le projet contient : Tokyo_Residential_Rent_Yield_Predictor.Rmd, packages.R, Project_Explanation_R.txt, Conclusions_For_Recruiters_R.md, et tokyo_property_map.html.

Performance du Modèle

R² Score

0.91

91% de variance expliquée

RMSE

~8-10M JPY

16-20% erreur moyenne

Top Feature Impact

42%

Distance à la gare

Dataset Size

190K

Transactions analysées

Résultats Clés

Distance à la gare > Âge du bâtiment pour prédire le prix
3 arrondissements identifiés comme sous-évalués
Bâtiments pré-1981 : décote de 15-20% confirmée
Rendement potentiel : 5.5-6.5% (Value tier)
Appréciation 2015-2019 : +11% à +23% selon tiers

Stack Technologique R

R Base + tidyverse

data.table (lecture rapide)

caret (machine learning)

xgboost + randomForest

leaflet (cartes interactives)

ggplot2 + plotly

Technologies Utilisées

XGBoost

Random Forest

Leaflet

tidyverse

ggplot2