Abonnez-vous Identifiez-vous

Identifiez-vous

Vos codes d'accès sont erronés, Veuillez les saisir à nouveau. Mot de passe oublié ?

IA : des labos au terrain

Le blog de Sylvain Duranton

Le feature engineering doit impliquer les experts métiers!

Publié le

Le feature engineering doit impliquer les experts métiers!
© BCG Gamma/ Sebastian Kopp licensed via EyeEm

Dans le monde fantasmé des technologues et marchands de solutions miracles, le développement d'algorithmes consiste "simplement" à rassembler toutes les données disponibles sur un domaine, de tester toutes les combinaisons possibles de ces données avec toutes les familles d'algorithmes possibles et de garder celui qui "marche" (corrèle) le mieux… Tout est alors très simple, il "suffit" de monter l'infrastructure technique adéquate et de laisser les Mozart de l'algorithmique entrer en action (depuis la Silicon Valley, Bangalore ou la Russie) pour craquer tous les sujets qui tracassent les cadres de nos entreprises.

La réalité de l'entreprise est autre. La taille des jeux de données est limitée et l'utilisation des données brutes disponibles donnera des résultats peu fiables... Les data scientists passent par une phase de feature engineering: concevoir et sélectionner les variables synthétiques, des combinaisons de données brutes mises à leur disposition, sur lesquelles tourneront leurs algorithmes. Pour concevoir ces variables synthétiques, ils travaillent par itérations successives, combinant des approches statistiques -par exemple mesure du poids explicatif de chaque variable individuelle dans un premier algorithme- avec des hypothèses issues de l'expérience métier…  C'est souvent là que les équipes qui combinent data scientists et expertise métier font la différence!

Prenons le cas d'un opérateur téléphonique qui veut lutter contre le "churn". Un expert métier sait que certains processus d'acquisitions ont été mieux exécutés que d'autres. L'équipe qui travaillera son jeu de données à partir de cette hypothèse ira plus vite à une solution et sa solution sera plus performante que celle construite "en aveugle".

Dans le domaine de la santé, les données d'électrocardiogramme jouent un rôle important. Combinées à d'autres données biologiques, elles permettent  d'identifier des populations à risque dans le cadre de certains traitements. La construction de variables synthétiques nécessite un savoir médical qui permet d'extraire de l'information signifiante à partir des courbes d'électrocardiogrammes, par exemple le degré de stabilité de la fréquence… ou certaines irrégularités caractéristiques… Une analyse "brutale" des données brutes de ces courbes ne produira à coup sûr aucun résultat.

En entreprise, il est fondamental que les experts métiers qui travaillent avec des data scientists s'impliquent activement dans le data engineering. Le dialogue peut être parfois difficile entre les tenants de l'analyse de données et les référents de l'expertise métier. Les deux parties sont parfois tentées par un courtois silotage des tâches et des responsabilités. L'approche gagnante est de se retrousser les manches ensemble pour travailler sur la constitution de données synthétiques. C'est toute la différence entre le monde de Kaggle et celui de la data science en entreprise.

Créez votre compte L’Usine Connect

Fermer
L'Usine Connect

Votre entreprise dispose d’un contrat
L’Usine Connect qui vous permet d’accéder librement à tous les contenus de L’Usine Nouvelle depuis ce poste et depuis l’extérieur.

Pour activer votre abonnement vous devez créer un compte

Créer votre Compte
Suivez-nous Suivre Usine Nouvelle sur Facebook Suivre Usine Nouvelle sur Twitter RSS Usine Nouvelle