Abonnez-vous Identifiez-vous

Identifiez-vous

Vos codes d'accès sont erronés, Veuillez les saisir à nouveau. Mot de passe oublié ?

Entreprise et IA

Le blog de Florian Douetteau

[IA] Apprentissage par renforcement, intuition et raisonnement abductif (2/2)

Publié le

[IA] Apprentissage par renforcement, intuition et raisonnement abductif (2/2)

L’apprentissage par renforcement est une technique largement utilisée pour optimiser les possibilités de l’intelligence artificielle appliquée aux jeux vidéo – autrement dit, pour qu’un ordinateur puisse gagner au jeu de Go, ou franchir au triple galop les différents niveaux de Super Mario Bros. Mais, appliqué au monde professionnel, il n'est pas sans soulever d'enjeux, évoqués dans le précédent article.

Autre type de problématique : comment optimiser le prix ou les modalités d’achat. Autrement dit, le commerçant est-il en mesure d’augmenter son chiffre d’affaires – et sa marge – en diminuant, par exemple, de 5 % le prix de l’article X, ou en proposant une remise sur l’achat de plusieurs articles ?

L’optimisation du prix de vente s’accompagne d’une difficulté particulière : explorer des espaces – dans le large éventail des prix pouvant être appliqués à chaque produit ou assortiment –, qui ne sont pas couverts par des données historiques. Et notamment les assortiments faisant l’objet d’un discount : dans ce cas, toutes les modalités possibles n’ont probablement pas été explorées, à juste titre, dans la mesure où certaines d’entre elles ne présentent aucune pertinence réelle. Par exemple, proposer un discount sur un panier contenant des croquettes pour chat et un téléviseur LED ne fait a priori aucun sens. Mais comme une action marketing sur cet improbable rapprochement n’a jamais été essayée, on ne dispose d’aucune donnée historique à laquelle se raccrocher. Alors, comment savoir ?

L’optimisation du prix de vente requiert in fine un certain nombre d’hypothèses sous-jacentes. Par exemple, dans quelle mesure la variation du prix peut-elle être corrélée à la décision d’achat ? Un tel comportement peut être observé partiellement sur certains produits grâce aux données, mais jamais complètement.

De l’abduction à l’induction

Le raisonnement inductif qui se base sur des formules mathématiques est certes utile, mais pas totalement satisfaisant pour au moins deux raisons :
1. On établit dans ce cas une perspective du monde qui « semble » crédible, en s’appuyant sur des répartitions bien distribuées. En choisissant la voie mathématique, on favorise implicitement la symétrie et la continuité par rapport au réalisme.
2. Il est difficile d’optimiser des modèles mathématiques.
Pour nous résumer, les algorithmes de l’apprentissage par renforcement, ou les agents, apprennent par le biais d’une interaction avec l’environnement (cf. l’article en ligne : 5 Things You Need to Know About Reinforcement Learning pour approfondir cette question).

(The process of reinforcement learning - Crédit: Towards Data Science)

L’apprentissage par renforcement jette aujourd’hui un pont entre un monde axé sur une forte densité de données et un monde faisant appel à des modèles plus légers. Plutôt que d’établir un modèle mathématique intuitif pour combler le vide, avec le paradigme de l’apprentissage par renforcement, nous tentons de créer un univers réaliste en modélisant le comportement du système dans une perspective informatique. L’apprentissage par renforcement intervient pour optimiser l’ensemble du processus et, dans un certain sens, pour « recréer » une forme d’intuition – ce qu’il semble évident de faire dans le contexte considéré.

Avec l’apprentissage par renforcement, l’optimisation des prix peut se décliner ainsi :

• Etablissement de statistiques et de modèles prédictifs pour assimiler la demande des utilisateurs et leur comportement en contexte (par ex. transformation) C’est ici le travail de la Data Science.
• Programmation d’un univers complet, intégrant utilisateurs et clients. C’est ici le travail du modélisateur IA.
• Un système d’apprentissage par renforcement peut alors tenter d’explorer cet univers, en jouant avec les prix dans ce monde virtuel et, à partir de là, en identifiant les meilleurs comportements.

Qu’attendre de l’apprentissage par renforcement cette année?

L’apprentissage par renforcement n’est pas un concept nouveau, mais il constitue un volet de plus en plus important du machine learning et de l’intelligence artificielle compte tenu de ses applications pratiques (en dehors bien sûr de la seule application au gaming). Outre les applications évoquées, les perspectives sont également nombreuses dans les systèmes informatiques et dans la gestion des ressources réseaux.

McKinsey estime que les techniques d’intelligence artificielle (incluant l’apprentissage par renforcement) peuvent potentiellement générer de 3,5 à 5,8 trillions de dollars U.S. en valeur annuelle, dans neuf fonctions commerciales, au sein de dix-neuf secteurs d’activité. Pour l’heure, il ne s’agit effectivement que de potentialités et très peu d’entreprises ont jusqu’à présent véritablement tiré parti des potentialités qu’offre l’intelligence artificielle et, plus spécifiquement, l’apprentissage par renforcement. Mais grâce à sa popularité croissante et au grand nombre d’études qui y ont été consacrées l’année dernière, l’année 2019 devrait voir l’apprentissage par renforcement sortir de la sphère de la recherche et irriguer l’univers entrepreneurial avec des développements solidement ancrés dans le monde réel.

Créez votre compte L’Usine Connect

Fermer
L'Usine Connect

Votre entreprise dispose d’un contrat
L’Usine Connect qui vous permet d’accéder librement à tous les contenus de L’Usine Nouvelle depuis ce poste et depuis l’extérieur.

Pour activer votre abonnement vous devez créer un compte

Créer votre Compte
Suivez-nous Suivre Usine Nouvelle sur Facebook Suivre Usine Nouvelle sur Twitter RSS Usine Nouvelle