Financer les communs numériques : scikit-learn et l'émergence d'un modèle public-privé français

Le financement public des logiciels libres constitue désormais un enjeu stratégique de souveraineté numérique. La France, avec son soutien massif à scikit-learn32 millions d'euros provenant de la stratégie nationale d'intelligence artificielle — expérimente un modèle hybride inédit qui pourrait redéfinir l'articulation entre État, recherche publique et communs numériques. Cette étude de cas, documentée par une recherche ethnographique de 17 mois menée par Cailean Osborne de l'Université d'Oxford, révèle les tensions fondamentales entre les impératifs politiques de souveraineté et l'autonomie des communautés open source.

Un commun numérique devenu infrastructure critique mondiale

Scikit-learn incarne paradoxalement un succès français méconnu en France. Créé en 2007 comme projet Google Summer of Code par David Cournapeau, puis refondé à partir de 2010 par l'équipe Parietal de l'INRIA sous l'impulsion de Gaël Varoquaux, Fabian Pedregosa et Olivier Grisel, cette bibliothèque Python de machine learning est aujourd'hui omniprésente dans l'écosystème mondial de la science des données.

Les chiffres attestent de cette domination : 188 millions de téléchargements mensuels sur PyPI, 64 200 étoiles GitHub, plus de 3 145 contributeurs issus de 34 pays. Entre janvier 2017 et décembre 2021, scikit-learn a cumulé 621 millions de téléchargements, surpassant tous les autres frameworks Python de machine learning. Contrairement à TensorFlow (Google) ou PyTorch (Meta) qui ciblent le deep learning, scikit-learn excelle dans le machine learning classique — arbres de décision, forêts aléatoires, SVM, clustering — et reste la porte d'entrée privilégiée des data scientists du monde entier.

Cette adoption massive génère une dépendance structurelle : 96% des bases de code contiennent de l'open source, et les bibliothèques comme scikit-learn constituent jusqu'à 90% des piles logicielles. Spotify utilise scikit-learn pour ses recommandations musicales, Airbnb pour la détection de fraude et la prédiction tarifaire, Uber pour l'estimation de la demande. Pourtant, comme le souligne Julien Jerphanion, mainteneur du projet : « Une grande partie du travail repose sur la bienveillance de personnes travaillant sur leur temps libre sans demander à être rémunérées. »

L'anatomie d'un modèle de financement hybride

L'originalité de scikit-learn réside dans sa stratégie de diversification des sources de financement, analysée en profondeur par Osborne dans son étude. Cette diversification agit simultanément comme garantie de stabilité financière et comme mécanisme de protection de l'indépendance communautaire.

L'INRIA constitue le socle historique du financement depuis 2010, apportant environ 1,5 million d'euros cumulés via les salaires des mainteneurs, les locaux (bureaux à Paris-Saclay) et le sponsoring d'événements. En 2017, la création de la Fondation Inria a permis d'institutionnaliser ce soutien et d'établir en 2018 le Consortium scikit-learn, regroupant des entreprises comme Microsoft, NVIDIA, Intel, AXA, BNP Paribas Cardif, Dataiku, Boston Consulting Group, Hugging Face et Chanel.

Ce consortium opère via deux comités : un Comité consultatif où les entreprises conseillent sur la feuille de route technique, et un Comité technique pour partager les cas d'usage industriels. Comme l'explique François Goupil, community manager du projet : « Leur retour est vraiment ancré dans quelque chose de réel. Ils ont des besoins, ils travaillent avec des clients sur des projets concrets, ils ont besoin que ça fonctionne. »

Le financement gouvernemental de 32 millions d'euros, annoncé en novembre 2021 dans le cadre de la stratégie IA française, représente une rupture d'échelle. Mais ce montant s'accompagne d'une exigence de contrepartie : l'équipe scikit-learn doit doubler cette somme, « une moitié provenant du secteur privé, l'autre moitié d'autres organismes publics européens », portant potentiellement l'enveloppe totale à 64 millions d'euros.

Les tensions structurelles entre État et communs

L'étude d'Osborne documente avec précision les frictions inhérentes à l'irruption de l'État dans la gouvernance d'un commun numérique. Dès les premières négociations, les responsables gouvernementaux ont négligé la maintenance pour demander une expansion vers le deep learning, afin de proposer une alternative compétitive à PyTorch et TensorFlow. L'équipe scikit-learn a résisté : « Nous devions nous concentrer sur notre force en machine learning et consolider notre capacité de maintenance. »

Cette confrontation illustre un décalage fondamental entre logiques politique et technique. Un mainteneur témoigne : « L'opérationnalisation des objectifs gouvernementaux n'est pas facile, et parfois cela n'a vraiment aucun sens. Par exemple, d'un côté le gouvernement veut que l'équipe scikit-learn développe des outils open source de data science, et de l'autre côté il exige que scikit-learn ne concurrence pas les entreprises françaises. »

Les contraintes bureaucratiques amplifient ces tensions. Osborne rapporte qu'un mainteneur expliquait que « même 17 mois après l'annonce initiale, ils n'avaient toujours pas reçu le premier versement de la subvention ». Un officiel gouvernemental reconnaît la difficulté intrinsèque : « Financer l'open source signifie financer un produit qui ne peut pas être valorisé sur le marché et a priori il n'est pas clair quel sera son succès. Donc c'est très problématique dans le sens où si le gouvernement le finance substantiellement — ici on parle de 32 millions d'euros — le gouvernement veut savoir où va l'argent et atteindre un retour sur investissement mesurable. »

La gouvernance comme rempart de l'autonomie communautaire

Face à ces pressions, scikit-learn a développé des mécanismes de gouvernance sophistiqués pour préserver son éthique communautaire. Le Comité technique est volontairement conçu pour ne pas avoir de pouvoir sur l'équipe des contributeurs principaux tant qu'un consensus existe entre mainteneurs. Comme l'explique Adrin Jalali : « Si nous avons une majorité des deux tiers sur n'importe quel vote, le Comité technique n'intervient pas. Le Comité technique ne fait pas grand-chose dans le projet parce que le pouvoir est donné à l'équipe des mainteneurs, et c'est par conception. »

Cette structure reflète la vision politique portée par Gaël Varoquaux depuis les origines. Osborne rapporte leur première rencontre : « Il a décrit scikit-learn comme un projet politique visant à fournir une alternative publique aux outils et produits offerts par les géants de l'industrie. Il a souligné que scikit-learn n'était pas le fruit d'un intérêt commercial et que la prise de décision concernant le projet devait toujours "venir de la communauté". »

Les mainteneurs se comportent en « éditeurs » plutôt qu'en développeurs réactifs : « Ils ne se précipitent pas pour implémenter les issues ou pull requests ; au contraire, ils évaluent soigneusement les besoins et la signification des contributions, dialoguent avec les mainteneurs des dépendances clés, assistent aux conférences et ateliers, et lisent les articles pour rester à jour des tendances de recherche. »

François Goupil résume l'équilibre recherché : « Je pense que ce serait dangereux pour nous d'être exclusivement financés par le secteur privé ou exclusivement financés par le gouvernement français, parce que nous avons beaucoup de bons contributeurs qui ne sont pas français, et ils pourraient avoir le sentiment que "OK, maintenant c'est un projet du gouvernement français, ils l'achètent." »

Probabl : la société à mission comme véhicule de pérennisation

La création de Probabl en septembre 2023 représente l'aboutissement institutionnel de cette stratégie de financement hybride. Constituée en société à mission (statut juridique français imposant des objectifs sociaux et environnementaux contraignants), Probabl est issue de la mission P16 confiée à l'INRIA dans le cadre de France 2030.

L'entreprise compte 13 co-fondateurs, majoritairement des chercheurs INRIA ayant construit scikit-learn : Gaël Varoquaux (conseiller scientifique), Olivier Grisel, Guillaume Lemaitre, Alexandre Gramfort, Bertrand Thirion, François Goupil, Jérémie Du Boisberranger. La direction opérationnelle est assurée par Yann Lechelle, ancien PDG de Scaleway.

Le financement de Probabl constitue un record européen : 18,5 millions d'euros de seed funding, le plus important tour d'amorçage européen pour une entreprise de logiciel libre commercial (Commercial Open Source Software). Cette levée, co-dirigée par Serena et Capital Fund Management, associe des investisseurs stratégiques : Mozilla Ventures, Costanoa Ventures (fonds américain spécialisé open source), French Tech Souveraineté (fonds souverain opéré par Bpifrance sous France 2030) et INRIA Participations.

La structure actionnariale tripartite reflète l'hybridation recherchée : actionnaires publics (État français via French Tech Souveraineté, INRIA Participations), actionnaires privés (VCs), et contributeurs individuels/salariés. Probabl devient opérateur exclusif de la marque scikit-learn, développant des produits commerciaux (Skore pour le cycle de vie ML en entreprise, Skolar pour la formation) tout en finançant 8 mainteneurs à temps plein pour le projet open source.

L'écosystème français des politiques publiques du logiciel libre

Le financement de scikit-learn s'inscrit dans une stratégie publique plus large. En juin 2023, Emmanuel Macron annonce lors de VivaTech 40 millions d'euros pour les « Communs numériques pour l'IA générative », ciblant la constitution de bases de données d'entraînement et de ressources cruciales pour les modèles génératifs. Sept lauréats ont été sélectionnés en mai 2024.

La Direction interministérielle du numérique (DINUM) pilote depuis novembre 2021 un Plan d'action Logiciels libres et Communs numériques structuré autour de trois axes : connaître et utiliser le logiciel libre dans l'administration, développer l'ouverture des codes sources publics, et attirer les talents du numérique. Le Socle interministériel de logiciels libres (SILL) catalogue les solutions recommandées ; code.gouv.fr référence les codes sources publics.

L'initiative BlueHats fédère les contributeurs au logiciel libre utilisé par l'administration : gazette bimensuelle, webinaires, Prix BlueHats (quatre récompenses de 10 000 euros pour les mainteneurs de projets critiques), programme BlueHats Semester of Code pour les stages étudiants (lauréat du prix OSOR Community 2023 de la Commission européenne).

Comparaisons internationales : l'émergence d'une doctrine européenne

Le modèle français n'est pas isolé. L'Allemagne a créé en mai 2022 le Sovereign Tech Fund, doté de plus de 24,6 millions d'euros investis dans plus de 60 projets mondiaux. Ce fonds, rattaché au ministère fédéral de l'Économie et du Climat via l'agence SPRIND, traite l'open source comme une infrastructure numérique publique nécessitant un investissement étatique, à l'instar des routes et des ponts.

Le Sovereign Tech Fund cible les « technologies numériques de base ouvertes » — bibliothèques, protocoles, gestionnaires de paquets, outils de chiffrement — avec des financements de 50 000 à 1 million d'euros par projet. La demande dépasse largement l'offre : plus de 500 candidatures proposant 114 millions d'euros de travaux pour un budget de 24,6 millions.

L'Union européenne structure son intervention via l'initiative Next Generation Internet (NGI), coordonnée par la fondation NLnet. Le programme NGI Zero Commons Fund dispose de 21,6 millions d'euros pour 2023-2027, avec des subventions de 5 000 à 50 000 euros. Près de 1 000 projets ont été financés depuis 2019 à travers l'ensemble des programmes NGI Zero, selon une approche « low-threshold » minimisant la bureaucratie.

L'avancée la plus significative est la création en octobre 2025 du Digital Commons EDIC (European Digital Infrastructure Consortium), consortium européen d'infrastructure numérique dont le siège est à Paris. Fondé par la France, l'Allemagne, les Pays-Bas et l'Italie, avec la Belgique, le Luxembourg, la Slovénie et la Pologne comme observateurs, ce consortium vise à développer conjointement des infrastructures numériques transfrontalières, avec une obligation de publication sous licence libre.

Aux États-Unis, l'approche diffère. Le programme NSF POSE (Pathways to Enable Open-Source Ecosystems) finance non pas le développement logiciel mais la création d'organisations gestionnaires d'écosystèmes open source, avec des enveloppes de 300 000 à 1,5 million de dollars. La Chan Zuckerberg Initiative a investi plusieurs dizaines de millions de dollars dans son programme EOSS (Essential Open Source Software for Science), ciblant les outils scientifiques comme NumPy, Pandas, Jupyter — et scikit-learn.

Les huit principes d'Ostrom à l'épreuve du numérique

La théorie des communs, formalisée par Elinor Ostrom (prix Nobel d'économie 2009), offre un cadre analytique pour comprendre ces dynamiques. Son ouvrage fondateur Governing the Commons (1990) démontre que les communautés peuvent gérer durablement des ressources partagées sans privatisation ni contrôle étatique, à condition de respecter huit principes de conception : frontières clairement définies, congruence entre règles et conditions locales, arrangements de choix collectifs, surveillance, sanctions graduelles, mécanismes de résolution des conflits, reconnaissance des droits par les autorités supérieures, et gouvernance polycentrique.

Charlotte Hess, collaboratrice d'Ostrom, a étendu ce cadre aux communs de la connaissance dans Understanding Knowledge as a Commons (2007). Les ressources numériques présentent des caractéristiques distinctes : non-rivalité (l'usage par l'un ne diminue pas la disponibilité pour l'autre) et non-excluabilité (difficulté à empêcher l'accès). Mais Hess identifie des menaces spécifiques : enclosure par la propriété intellectuelle, sur-brevetage, surenchère tarifaire, défaut de préservation.

Benjamin Coriat, figure de l'école française des communs, prolonge cette réflexion dans Le Retour des Communs (2015). Il distingue les « communs » d'Ostrom — ressources gouvernées collectivement avec des règles partagées — du « bien commun » économique de Tirole. Pour Coriat, les communs numériques nécessitent une action collective institutionnalisée, irréductible aux logiques de marché.

Les risques de capture institutionnelle

L'étude d'Osborne documente les mécanismes par lesquels scikit-learn résiste à la capture, mais les risques demeurent structurels. La capture gouvernementale menace lorsque le financement est conditionné à des priorités nationales excluant les contributeurs internationaux — scikit-learn compte 34% de pull requests américaines, 8,9% indiennes, 8,5% allemandes, pour seulement 6,9% françaises. La capture corporative peut survenir lorsqu'une entreprise dominante dans le consortium impose ses priorités.

Les données d'Osborne révèlent un paradoxe : les principaux contributeurs en termes de pull requests — Google (3,7%), Microsoft (2,5%), Meta (0,8%), Amazon (0,8%) — ne financent pas proportionnellement le projet. « Ces entreprises contribuent des issues et pull requests utiles, mais ultimement leurs contributions créent plus de travail pour les mainteneurs déjà surchargés. Il serait plus utile que des entreprises comme ces Big Tech sponsorisent un mainteneur ou financent le projet en rejoignant le consortium. »

La diversification du financement constitue la principale protection. Julien Jerphanion affirme : « Il est important que des personnes soient payées pour leur travail sur scikit-learn. Mais s'il n'y a que des personnes payées, alors il manque quelque chose. Ce qui est important, c'est la compréhension qu'un projet open source est un commun et que les gens peuvent s'impliquer s'ils le souhaitent. »

Enseignements pour les politiques publiques

L'étude d'Osborne formule des recommandations explicites pour les gouvernements souhaitant financer l'open source. Première injonction : financer la maintenance, pas seulement l'innovation. La « novelty bias » des politiques publiques néglige le travail invisible de maintenance qui sustente l'infrastructure numérique mondiale. Julien Jerphanion évoque OpenBLAS, « fondamental et maintenu par seulement deux personnes, qui ont une expertise très spécifique. C'est un travail logiciel énorme, mais invisible au public. Des projets comme celui-ci sont des pierres angulaires pour de nombreux projets. Ce sont les fondations ; c'est comme une infrastructure — vous ne la voyez pas s'il n'y a pas de problème dans votre vie quotidienne. »

Deuxième principe : engager un dialogue multi-parties prenantes avec les développeurs pour concevoir des subventions équilibrant objectifs politiques et réalités opérationnelles. Le décalage initial entre les demandes gouvernementales (expansion vers le deep learning) et l'expertise des mainteneurs (consolidation du machine learning classique) illustre les coûts d'une approche top-down.

Troisième recommandation : respecter l'autonomie de gouvernance. Le Comité technique de scikit-learn « ne fait pas grand-chose par conception » — le pouvoir reste aux mainteneurs tant qu'ils maintiennent un consensus. Cette architecture institutionnelle protège contre la dérive politique tout en permettant le financement public.

Vers un nouveau contrat social du logiciel libre

L'expérience scikit-learn suggère l'émergence d'un modèle français de financement des communs numériques, articulant recherche publique (INRIA), consortium industriel, financement étatique stratégique, et véhicule commercial à mission (Probabl). Ce modèle tente de résoudre la contradiction fondamentale entre la nature mondiale et communautaire des communs numériques et les impératifs nationaux de souveraineté.

Comme le résume François Goupil : « Globalement, c'est bien d'avoir un panaché. » La diversification n'est pas seulement une stratégie financière mais une garantie politique : aucun financeur unique ne peut capturer le projet. Les 5 années de financement sécurisé permettent désormais une planification à long terme « concernant le recrutement et le développement du projet ».

Cette stabilité a un prix : la bureaucratisation partielle d'un projet né de la contribution volontaire. Mais l'alternative — l'épuisement des mainteneurs bénévoles face à une adoption exponentielle — était intenable. Le rapport Tidelift 2024 indique que 60% des mainteneurs open source ne sont pas rémunérés. L'infrastructure numérique mondiale repose sur ce travail invisible et précaire.

Le financement public des communs numériques ne résout pas cette fragilité systémique, mais il reconnaît enfin que le logiciel libre constitue une infrastructure critique méritant un investissement étatique. Comme le formule Dries Buytaert, fondateur de Drupal : « Les gouvernements doivent passer de la consommation à la contribution open source. L'infrastructure numérique qui alimente les services publics exige le même engagement d'investissement que les routes et les ponts qui connectent nos communautés. »

Le cas scikit-learn démontre qu'un tel engagement est possible sans sacrifier l'autonomie communautaire — à condition de concevoir des mécanismes de gouvernance sophistiqués, de diversifier les sources de financement, et d'accepter que les communs numériques, par leur nature même, échappent aux logiques de retour sur investissement mesurable que l'État cherche habituellement à imposer.


Sources

Référence académique principale

Osborne, Cailean (2024). "Public-private funding models in open source software development: A case study on scikit-learn." arXiv preprint, arXiv:2404.06484v1. Disponible sur : https://arxiv.org/abs/2404.06484

Sources institutionnelles

Gouvernement français (2023). "France 2030 : Emmanuel Macron annonce un effort sans précédent de la France en intelligence artificielle." info.gouv.fr. Lien

INRIA (2023). "Launch of the scikit-learn initiative, a reference software library for machine learning." inria.fr. Lien

INRIA (2024). "Probabl raises €13M in seed funding to build Europe's open source AI champion." inria.fr. Lien

Fondation Inria (2024). "Scikit-Learn Consortium." Lien

Commission européenne (2025). "Digital Commons EDIC launches to advance Europe's technological sovereignty." digital-strategy.ec.europa.eu. Lien

Interoperable Europe Portal (2024). "Funding open source: case study on the Sovereign Tech Fund." OSOR. Lien

Sovereign Tech Agency (2024). "Sovereign Tech Fund." Lien

NLnet Foundation (2025). "29 Free and Open Source Projects Receive Grants to Build Digital Commons." Lien

Next Generation Internet (2024). "NGI Open Calls." Lien

Sources documentaires scikit-learn

scikit-learn (2024). "About us — scikit-learn documentation." Lien

scikit-learn (2024). "Scikit-learn governance and decision-making." Lien

scikit-learn (2024). "Testimonials." Lien

GitHub (2024). "scikit-learn/scikit-learn: scikit-learn: machine learning in Python." Lien

PyPI Stats (2024). "scikit-learn download statistics." Lien

Presse spécialisée et médias

Sifted (2024). "Open-source startup powering Spotify and JP Morgan's AI raises €13m seed." Lien

TechCrunch (2024). "Probabl is a new AI company built around popular library scikit-learn." Lien

ActuIA (2024). "Probabl : vers une science des données souveraine et open source." Lien

Tech Funding News (2024). "Probabl lands $13M to expand open-source AI forecasting platform around scikit-learn." Lien

French Tech Journal (2024). "Mission Probabl: The Quest to Transform French AI Research into A Tech Champion." Lien

Phoronix (2024). "Germany's Sovereign Tech Fund Has Invested Over $24.9M In Open-Source In Two Years." Lien

Dataiku (2018). "Dataiku Participates in the Creation of the First Scikit-learn Consortium." Lien

Références théoriques sur les communs

Ostrom, Elinor (1990). Governing the Commons: The Evolution of Institutions for Collective Action. Cambridge University Press.

Hess, Charlotte & Ostrom, Elinor (2007). Understanding Knowledge as a Commons: From Theory to Practice. MIT Press.

Coriat, Benjamin (dir.) (2015). Le Retour des Communs : La crise de l'idéologie propriétaire. Éditions Les Liens qui Libèrent.

Politiques publiques françaises du logiciel libre

LaLIST (2021). "Plan d'action logiciels libres et communs numériques." Lien

CentraleSupélec (2023). "Le projet Open Source Blue Hats récompensé." Lien


Comment citer cet article :

BERGE, A. (2026). Financer les communs numériques : scikit-learn et l'émergence d'un modèle public-privé français. Communs numériques. Disponible sur : https://communs-numeriques.fr/comprendre/financer-communs-numeriques-scikit-learn.html