Les yeux de la Tech

Reconnaissance visuelle, l'IA au service du monde réel

Le blog d’Augustin Marty

Le data drift ou le cauchemar de l’intelligence artificielle en production

Publié le

Le data drift ou le cauchemar de l’intelligence artificielle en production
© D.R.

Mettre en production une application d’intelligence artificielle dans l’entreprise est le Graal. Pourtant un phénomène simple et bien connu menace les projets en production : l’affaiblissement naturel de leurs performances, appelé le “data drift”.

Vous l'avez déjà entendu maintes fois, dans la vie, à part les diamants, rien n'est éternel. Votre smartphone devient de plus en plus lent (et vous devez emporter votre chargeur partout avec vous), et comme le dit notre cher Sadi Carnot dans deuxième loi de la thermodynamique, avec le temps, les choses tendent naturellement vers le désastre. Même le frigo de vos grands-parents, illustre résistant, a fini par rendre l'âme. Le monde moderne et digital du machine learning ne fait pas exception à cette loi. Les applications en production perdent en performance (pensez à un antivirus qui ne vous protège plus, ou à un antispam qui laisserait tout passer au fil du temps).

Bref, quels que soient les modèles développés, leurs performances s’affaiblissent avec le temps et les applications qui lui sont liées deviennent obsolètes, malheureusement plus vite qu'un frigo (et souvent même plus vite qu'un smartphone).

Le phénomène peut sembler anodin, mais lorsque les applications sont en production dans l’entreprise, lorsqu'elles sont utilisées pour aider les travailleurs et les consommateurs, il devient grave, tend les relations entre le département digital et les départements métiers. Les bénéficiaires des applications voient leur actif technologique se réduire et prennent la technologie en grippe.

Alors pourquoi les performances des modèles de machine learning diminuent avec le temps ? Bien souvent, la cause est la même, connue et pernicieuse : le data drift (on parle aussi de concept drift, une variante ayant les mêmes effets). La traduction française serait : la dérive de la donnée ou bien la dérive conceptuelle. Explications et exemple.

Data drift : En attendant l'avènement de l'apprentissage non supervisé, quasiment tous les modèles en production sont des modèles supervisés : ils sont entraînés sur une base de données fixe représentant un ensemble de situations sur une période donnée. C'est-à-dire qu'ils ont vu et digéré de nombreux exemples de situations qui aboutissent de façon systématique à tel ou tel résultat dans un contexte précis, mais si l’on sort de ce contexte, le modèle est perdu. Or le contexte change au fil du temps, et progressivement l’application, si elle n’est pas entraînée de nouveau, perd en performances.

Prenons un exemple dans le domaine de la reconnaissance d’images. Supposons que vous soyez un constructeur de péages autoroutiers sans barrières. Vous filmez un véhicule qui passe à 120 km/h sur l'autoroute et vous essayer de comprendre la nature du véhicule pour lui attribuer un prix (la voiture a-t-elle une remorque ? Si oui, de quelle taille ? Le camion circule-t-il chargé, combien de ses essieux touchent le sol ? Tous ces éléments sont nécessaires pour déterminer le prix).

Mettons que vous utilisez des caméras thermiques et que vous avez entraîné le modèle avec succès en été (ou au Portugal). Quelques mois plus tard, vous vous rendez compte que ses performances chutent drastiquement en hiver (ou au Canada). En effet, les conditions climatiques radicalement différentes feront que les images des entrées seront transformées d'une saison ou d'un pays à l'autre. Les images ne ressembleront pas à ce à quoi le modèle est habitué. Si le phénomène n'a pas été anticipé avant la production, le modèle sera complètement perturbé, les prix facturés aux véhicules seront erronés, les clients seront indignés, la société autoroutière perdra des sommes considérables et accordera la gratuité le temps de régler le problème.

Alors, comment mieux comprendre ce problème, et en quoi le concept drift diffère du data drift ? Comment anticiper, détecter et résoudre ces problèmes ? Pourquoi le data drift est-il particulièrement fort dans le domaine de la reconnaissance d’images ? C'est ce que vous découvrirez dans la deuxième partie de cet article de blog.

Créez votre compte L’Usine Connect

Fermer
L'Usine Connect

Votre entreprise dispose d’un contrat
L’Usine Connect qui vous permet d’accéder librement à tous les contenus de L’Usine Nouvelle depuis ce poste et depuis l’extérieur.

Pour activer votre abonnement vous devez créer un compte

Créer votre Compte