French Tech 2025
Méthodologie.
Comment ces données sont collectées, leurs limites, et les sources officielles utilisées.
Transparence avant tout
Aucune donnée n'est inventée ni achetée à un broker. L'ensemble du dataset provient de sources publiques officielles (data.gouv.fr, presse, sites des fonds) ou de résolutions techniques standard (DNS, certificats publics, plages IP cloud documentées). Cette page détaille la pipeline pour que chacun puisse reproduire, contester ou améliorer les résultats.
Le périmètre
Deux jeux de données distincts, agrégés sur le site :
120 startups : la promotion 2025 du programme officiel FrenchTech120 (Mission French Tech, juin 2025), incluant les 40 startups Next40 et les 80 autres FT120.
99 communautés FT : 13 capitales French Tech + 38 communautés en France + 48 communautés internationales, labellisées par la Mission French Tech. Source : data.gouv.fr.
La pipeline de collecte
Tout est généré côté client. Pour chaque domaine :
1.
DNS : résolution complète via Resolve-DnsName (Windows) : NS, A, AAAA, CNAME, MX, TXT (SPF/DMARC), SOA, CAA.
2.
ASN + géolocalisation IP : appels API à ipinfo.io (free tier, ~50k/jour). Le quota est rapidement épuisé.
3.
Fallback offline : matching des IP non résolues contre les plages publiées officiellement par AWS, GCP et Cloudflare. Ça couvre > 80 % des cas.
4.
Région cloud → pays : table de correspondance hardcodée (par ex. eu-west-3 → FR). Source la plus précise pour la question de souveraineté.
5.
Enumération de subdomains : interrogation de crt.sh (Certificate Transparency logs). Lent, rate-limited, mais sans auth.
6.
Révélation d'origine : pour les sites planqués derrière Cloudflare/Fastly, on cherche dans les subdomains révélés une IP qui n'est pas celle du CDN, c'est l'origine probable.
Investisseurs & origine des fonds
Pour chaque startup, on compile la liste des principaux investisseurs ayant participé aux tours de financement, le montant total levé, et la nationalité (domicile fond + pays des General Partners) de chaque investisseur.
Sourcing des données VC
Crunchbase (pages publiques) : référence VC mondiale, gratuit pour les pages détaillées
Dealroom.co : focus European Tech, données partielles publiques
TechCrunch, Sifted, EU-Startups : annonces de rounds en presse anglophone
Maddyness, Frenchweb, Les Échos : annonces en presse francophone, souvent plus détaillées sur les FR
Wikipedia : pour les unicornes les plus établies (synthèse de toutes les rounds)
Sites web des fonds : pour résoudre nationalité (domicile + GPs HQ)
Méthode d'attribution
1.
Lead vs participant : pour chaque round, on distingue les lead investors documentés (qui ont coordonné le round et écrit la plus grosse partie) des participants (co-investisseurs notables).
2.
Capital par origine : le montant d'un round est attribué à parts égales entre les lead investors documentés. Convention. Exemple : un tour de 100 M€ co-mené par Sequoia (US) + Iris (FR) crédite 50 M€ à US et 50 M€ à FR.
3.
Domicile vs GPs HQ : pour chaque fonds on renseigne deux champs. Domicile = pays où le véhicule d'investissement est légalement enregistré. GPs HQ = pays principal de l'équipe d'investissement.
4.
« Origine des fonds » en pratique : on affiche le GPs HQ par défaut (plus représentatif que la domiciliation juridique souvent optimisée). La structure des LPs n'est pas publique.
Limites importantes
LPs invisibles. Les Limited Partners derrière les fonds (sovereign wealth, fonds de pension, family offices) ne sont quasi jamais publics. On ne mesure que les GPs (les gérants), pas les vrais bailleurs de capital.
L'ASN n'est pas le pays opérationnel. Une IP Cloudflare en US peut servir du contenu depuis la France via anycast. Quand on dit « US », c'est souvent juste « anycast Cloudflare ».
L'origine « cachée » peut quand même fuiter. On regarde les subdomains crt.sh ; un attaquant sophistiqué irait plus loin (Shodan, scans full-IPv4, mail headers, etc.).
Les MX changent. Migrations mail Google → Microsoft 365 (ou inverse) ne sont visibles que si on re-scanne.
crt.sh n'est pas exhaustif. Pour des subs internes derrière un wildcard cert ou sans cert public, on ne voit rien.
Snapshot 2024-2025. Les rounds non annoncés / en cours ne sont pas dans la donnée.
FAQ
D'où vient la liste des 120 startups ?
De frenchtech120.numeum.fr, le portail officiel de la promotion. Mise à jour annuelle (juin) par la Mission French Tech.
Et les communautés ?
De l'Excel officiel publié sur data.gouv.fr. Géocodage via OpenStreetMap.
Pourquoi tant de « Cachée » ?
34 startups sur 120 ont une origine non détectable avec nos méthodes. C'est plutôt une bonne nouvelle : ces équipes ont bien configuré leur CDN (Cloudflare proxy en mode strict, pas de DNS A direct, subs internes sans cert public dans crt.sh). Bonne hygiène sécu.
Quand est-ce mis à jour ?
Refresh manuel quand on relance la pipeline. Pour l'instant : mai 2026. La prochaine promo officielle FT120 sort en juin 2026.
C'est légal de scanner ça ?
Oui, tout vient de sources publiques : résolutions DNS, MX publics, certificats publics (crt.sh est le miroir des Certificate Transparency logs), ASN ipinfo (TOS respectées via le free tier). Aucun probe agressif, aucun port scan, aucune auth tentée.
Sources
frenchtech120.numeum.fr · Liste FT120/Next40 officielle
data.gouv.fr - Capitales et communautés French Tech · XLSX officiel
ipinfo.io · ASN, geo, AS owner (free tier)
AWS IP ranges · ~10 226 préfixes officiels
GCP IP ranges · 967 préfixes officiels
Cloudflare IPv4 ranges · Plages officielles
crt.sh · Certificate Transparency logs
Electricity Maps · Intensité carbone des grids nationaux (2024)
Google Cloud sustainability · gCO₂/kWh par région GCP (officiel)
Leaflet · Carte interactive (lib JS)
Projet indépendant, sans affiliation à la Mission French Tech, Numeum ni aux startups concernées. Les données sont publiques et collectées dans un objectif documentaire et de transparence.