« L’open source est l’arme du challenger, l’Europe doit s’en emparer pour la datascience ! », lance Yann Lechelle, le PDG de Probabl

Développer des communs numériques pour la datascience afin de redonner un peu de souveraineté à la France et à l’Europe. Telle est la mission confiée par l’État à l’Inria, via le programme P16, et à la start-up Probabl. Selma Souihel et Yann Lechelle détaillent leur stratégie pour y parvenir.

Réservé aux abonnés
Image d'illustration de l'article
Yann Lechelle et Selma Souihel travaillent main dans la main pour transformer les outils open source de datascience développés par la recherche académique.

Quel est ce drôle de duo entre la start-up Probabl et l’initiative de l’Inria, P16 ?

Selma Souihel C’est un montage innovant. Il est issu de l’initiative P16 de l’Inria, financée par France 2030, pour développer un ensemble de communs numériques pour la science des données autour de scikit-learn, la bibliothèque open source d’outils pour la datascience la plus populaire au monde. Elle a été initialement introduite à l’Inria par Gaël Varoquaux. Son développement a été encadré par un consortium, tandis que l’Inria gardait la propriété de la marque. Aujourd’hui, le pilotage de scikit-learn a été confié à Probabl. De notre côté, P16, avec une équipe d’ingénieurs, a la charge d’identifier et de pré-industrialiser d’autres outils créés par la recherche académique pour qu’ils puissent être maintenus à long terme par Probabl.

Yann Lechelle Probabl a été créé au début de l’année dernière en associant les ingénieurs et chercheurs de l’Inria impliqués dans scikit-learn et des entrepreneurs de l’extérieur. Nous sommes une entreprise à mission de souveraineté industrielle et numérique : développer des communs numériques pour la science des données au bénéfice de la France, de l’Europe et du monde. Dans cet ordre ! L’État français, via le Secrétariat général pour l’investissement (SGPI), a abondé la moitié des 5,5 millions d’euros que nous avons levés en 2024, le reste venant du privé. Scikit-learn va rester en open source avec une gouvernance décentralisée, mais Probabl est l’opérateur exclusif de la marque. Nous allons lancer une offre commerciale à partir de scikit-learn afin de financer le développement de ces communs numériques. Nous y intégrerons les futurs outils transférés par P16.

Qu’est-ce que scikit-learn et pourquoi est-ce au cœur de Probabl ?

S. S. Scikit-learn est une bibliothèque, ou plutôt un framework [un environnement de développement, ndlr] dédié à la science des données. Écrit en Python, il permet de construire des modèles entraînés sur des données, principalement tabulaires, qui pourront ensuite faire des prédictions. Et en termes de techniques, on peut résumer en disant qu’il fait de l’apprentissage statistique classique. C’est-à-dire tout ce qui n’est pas du deep learning [les réseaux de neurones profonds, ndlr] : régressions, arbres de décision, machines à vecteurs de support, forêts aléatoires... Sa force réside notamment dans sa simplicité d’utilisation, qui le rend accessible aux non-experts.

Y. L. Scikit-learn est unique par son succès. C’est, de très loin, la bibliothèque de datascience la plus téléchargée dans le monde : 2,2 milliards de fois en cumulé ! Chaque mois, 80 millions de téléchargements sont effectués, dont 97 % hors de France. On peut aussi mesurer son impact à l’aune des dépendances créées [logiciels utilisant une brique logicielle donnée, ndlr] : scikit-learn en totalise plus de 1 million, soit plus que les frameworks de deep learning de Meta et Google combinés [PyTorch et TensorFlow, respectivement, ndlr]. C’est un actif extraordinaire, avec sa communauté d’utilisateurs et de contributeurs, qu’il ne fallait pas délaisser sous peine de perdre en dynamique ou de voir son centre de gravité traverser l’Atlantique. En tant que « scikit-learn company », Probabl va pouvoir parler à tous les datascientists de la planète. C’est un atout majeur.

Nous travaillons sur l’ensemble du cycle de la donnée. En particulier en amont de scikit-learn, avec Corese et Skrub

—  Selma Souihel

Cela peut paraître étonnant de miser sur l’apprentissage statistique classique alors qu’on ne parle que d’intelligence artificielle (IA) générative...

Y. L. C’est la « boring AI » [l’IA ennuyeuse, ndlr] ! C’est celle qui marche et qui génère de l’impact et des bénéfices en entreprise ! L’immense majorité des modèles statistiques en production, ceux qui sont maîtrisés et qui fonctionnent, sont des modèles classiques. Ce que les banques et les assurances utilisent, notamment pour la détection de fraudes, ce qui fait les recommandations sur Netflix..., ce n’est pas en majorité du deep learning. En dehors des chatbots et de la manipulation ou reconnaissance d’images, quels sont les cas d’usage de deep learning qui viennent immédiatement à l’esprit ? L’application du deep learning, y compris de l’IA générative, commence tout juste…

S. S. Pour traiter du texte ou des images, on va bien sûr opter pour le deep learning et l’IA générative. Mais à part cela, les techniques classiques suffisent la plupart du temps. Il peut être tentant d’utiliser les modèles d’IA générative, mais le plus souvent cela s’apparente à prendre un marteau-pilon pour écraser une mouche, ce qu’on appelle l’« overkill » en anglais. Avec, derrière, un énorme coût en calcul et donc en énergie. En outre, le côté boîte noire du deep learning, c’est-à-dire le fait qu’on ne puisse pas expliquer ses prédictions, est problématique pour nombre d’applications.

Y. L. Entre un modèle classique, maîtrisé, frugal, tournant sur un simple CPU [processeur classique, ndlr] et un LLM [grand modèle de langage] entraîné avec d’immenses quantités de données sur des milliers de GPU [processeurs graphiques utilisés pour le deep learning, ndlr], il y a 6 à 10 ordres de grandeur en termes de coût, de complexité, d’énergie... On n’utilise pas un LLM pour faire une régression, c’est ridicule. De plus, la plupart des entreprises ne sont même pas au stade de la régression appliquée à leurs données. Les entreprises françaises et européennes sont en pleine transformation numérique et leurs datascientists travaillent souvent sur Excel, c’est cela la réalité du terrain !

Quel regard portez-vous sur l’engouement pour l’IA générative ? Est-ce une bulle ?

Y. L. On est dans une bulle, c’est sûr. Et elle va certainement se dégonfler, sinon éclater. Côté sociétal, l’engouement s’explique par le fait que chacun, via l’écrit, peut interroger la machine et se rendre compte qu’elle est probablement meilleure que lui sur la plupart des sujets. L’effet est saisissant, choquant même. C’est la première fois que l’espèce humaine est menacée dans sa singularité : la capacité de manipuler le langage, parlé et écrit. Les capitaux-risqueurs, eux, sont motivés pour financer des projets qui visent à remplacer les travailleurs par les agents, c’est-à-dire du code informatique faisant appel à des LLM afin de réaliser une tâche humaine. Ils veulent vendre ce qu’ils appellent du service-as-software, facturé selon l’humain remplacé. Enfin, pour les Gafam, l’IA générative élève encore plus les barrières à l’entrée pour d’éventuels challengers. Microsoft avec OpenAI, AWS avec Anthropic, Google avec Gemini : ces géants, qui captent 80 % du marché du cloud, améliorent leur catalogue et consolident leur domination. Et l’Europe et la France sont toujours plus tributaires des États-Unis. La souveraineté numérique française se mesure à hauteur de 1 % seulement. L’an prochain, ce sera probablement la moitié si l’on ne réussit pas à enrayer la tendance...

On retrouve la mission de Probabl sur la souveraineté par l’open source...

Y. L. Ma réponse à la question de la souveraineté est claire : l’Europe a échoué à créer ses Gafam. Notre seule chance est d’adopter une posture radicale en misant sur l’open source et l’open science. Depuis soixante-dix ans, l’informatique joue au ping-pong entre systèmes ouverts et propriétaires. À chaque fois, l’open source est l’arme du challenger, l’Europe doit aujourd’hui s’en emparer. C’est ce que nous faisons dans la datascience avec Probabl. La multitude d’outils open source existants constitue déjà un concurrent féroce pour les grands acteurs du numérique. Mais les entreprises utilisatrices se retrouvent souvent avec, d’une part, un bricolage d’outils assez hétéroclites et peu pérennes, d’autre part, un manque d’interlocuteurs professionnels derrière ces outils, en l’occurrence en datascience. Nous allons répondre à ces besoins en créant de la cohérence et de la modularité autour des technologies open source et en offrant un accompagnement aux entreprises. En résumé, nous voulons être à scikit-learn ce que Red Hat fut à Linux. Nous avons commencé par créer une certification officielle « scikit-learn » en novembre dernier, avec déjà un millier de préinscrits. En février, nous lançons une offre de support technique pour scikit-learn et nous venons de présenter notre premier produit, Skore, un compagnon technique pour scikit-learn.

Quel est ce compagnon de scikit-learn que vous lancez ?

Y. L. Skore est un compagnon technique qui va créer de la méthode. Les datascientists sont pour l’essentiel des artisans. Ils doivent travailler à la fois sur les données et sur le code, dans un contexte d’entreprise difficile : les données ne sont pas forcément accessibles ou pas bien structurées, le modèle n’est plus adapté parce que la situation – donc les données – dérive, le code n’a pas été documenté ni maintenu... L’ensemble de la chaîne est généralement un doux chaos. Conséquence : 75 % des modèles créés par les datascientists ne passent jamais en production. Dans sa première version, Skore va aider à traquer, visualiser et diagnostiquer les modèles pour améliorer la capacité du datascientist à passer ses modèles en production et créer de la valeur en entreprise. Il est gratuit pour un individu. Mais sa version d’équipe, Score-Hub, sera payante. Et l’an prochain, nous voulons lancer Ensembl, la version d’entreprise avec des fonctions beaucoup plus avancées. L’idée générale est de fournir un socle modulaire qui couvre peu à peu toute la chaîne, de l’intégration des données à la maintenance des modèles, et qui structure le travail collaboratif dans l’entreprise. Au fond, nous sommes en train de préparer une solution RH...

L’immense majorité des modèles statistiques en production, ceux qui sont maîtrisés et qui fonctionnent, sont des modèles classiques

—  Yann Lechelle

Que prépare P16 pour enrichir les technologies de Probabl ?

S. S. Nous travaillons justement sur l’ensemble du cycle de la donnée. En particulier en amont de scikit-learn, avec Corese et Skrub. Corese, développé par une équipe Inria de Sophia Antipolis, utilise des technologies de graphes de connaissances, de web sémantique, pour offrir l’interopérabilité des données. Skrub, lui, est un outil de préparation des données. Nous effectuons au sein de P16 un travail d’ingénierie logicielle en améliorant le code de Corese et de Skrub pour que Probabl puisse les industrialiser. En septembre, nous avons aussi lancé un appel à manifestation d’intérêt (AMI) à destination de tous les acteurs de la recherche. Cela nous a permis de sélectionner tslearn, une bibliothèque de machine learning dédiée aux séries temporelles, développée à l’université de Rennes et qui pourra compléter scikit-learn. Nous allons recruter des ingénieurs pour cela.

Y a-t-il encore beaucoup d’outils logiciels sur lesquels pourrait travailler P16 ?

S. S. Nous sommes en train d’examiner les candidatures à notre AMI. Il y a en particulier un outil facilitant l’intégration des LLM dans un environnement de développement Python et l’interfaçage avec les bibliothèques de machine learning. Nous échangeons également avec les porteurs d’une bibliothèque sur le reservoir computing, qui s’appuie sur des réseaux de neurones récurrents. P16 bénéficie d’un financement France 2030 de 8 millions d’euros sur cinq ans. Nous allons continuer à identifier, sélectionner et pré-industrialiser des briques. Nous avons aussi une datascientist qui va développer des cas d’usage combinant différents outils. La recherche est très active : apprentissage fédéré, explicabilité des modèles, quantification pour alléger les modèles, apprentissage sur des données chiffrées... La transformation de ces travaux en outils open source passera aussi par la construction de larges écosystèmes, à l’image de ce qui a fait le succès de scikit-learn. Nous aimerions ainsi élargir notre spectre à l’Europe, ce qui fait partie de notre mission.

Alliance inédite

D’un côté, une ex-ingénieure de recherche Inria passée par une start-up dédiée à un langage de programmation pour les statistiques, de l’autre, un serial entrepreneur qui estime avoir échoué puisqu’il a vendu toutes ses entreprises plutôt que d’en faire des champions français ou européens. Selma Souihel et Yann Lechelle travaillent main dans la main pour transformer les outils open source de datascience développés par la recherche académique, scikit-learn en tête, en communs numériques pérennes dont les entreprises pourront s’emparer.

Un pied dans la recherche et l’autre dans le marché : un montage inédit que « certains organismes de recherche voudraient déjà reproduire », témoigne Selma Souihel, et qui vise, martèle Yann Lechelle, à enrayer, sinon inverser, la dégradation de la souveraineté française dans le numérique.

 
Image d'illustration de l'articleCome SITTLER
ITW Probabl ITW Probabl (Come SITTLER/Come SITTLER)

D’un côté, Selma Souihel, une ex-ingénieure de recherche Inria passée par une start-up dédiée à un langage de programmation pour les statistiques, de l’autre, Yann Lechelle, un serial entrepreneur qui estime avoir échoué puisqu’il a vendu toutes ses entreprises plutôt que d’en faire des champions français ou européens.

Newsletter La Quotidienne
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.
Ils recrutent des talents
Chez Framatome, façonnons les réacteurs nucléaires de demain !

Un avenir énergétique 100% électrique et bas carbone ? Tout le monde en rêve, mais le défi est bien vaste ! Entreprise industrielle de la métallurgie, au service de la filière nucléaire, chez Framatome, chaque innovation, chaque calcul d’ingénierie, chaque soudure, contribue à cet objectif.

Le témoignage
Les webinars
Les services L'Usine Nouvelle
Détectez vos opportunités d’affaires
Trouvez des produits et des fournisseurs