Bandit et Semi-Bandit avec Retour Partiel : Une Stratégie d'Optimisation du Retour Utilisateur - ESEO-ERIS Accéder directement au contenu
Communication Dans Un Congrès Année : 2020

Bandit et Semi-Bandit avec Retour Partiel : Une Stratégie d'Optimisation du Retour Utilisateur

Résumé

Nowadays, in most fields of activities, companies are strengthening their digitization process and offer new services to their users. In recent years, many of these services have relied on machine learning techniques. Concerning combinatorial multi-armed bandit algorithms, which are particularly employed for recommendation, user feedbacks play a crucial role for online learning. However, strategies for considering those feedbacks are essentially based on the observation of a full rewards vector which can be hard to acquire when users must be directly and too frequently solicited. Herein, we propose a novel approach which overcomes these limitations, while providing a level of global accuracy similar to that obtained by classical competitive methods.
Aujourd'hui, dans de nombreux secteurs d'activités, les entreprises renforcent leur numérisation et proposent de nouveaux services à leurs usagers. Ces dernières années, nombre de ces services ont reposé sur des techniques d'ap-prentissage automatique. Pour les algorithmes de bandits-manchots combinatoires, particulièrement employés pour la recommandation, le retour utilisateur joue un rôle crucial dans l'apprentissage en ligne. Cependant, les straté-gies de prise en compte de ce retour reposent essentielle-ment sur l'observation d'un vecteur de récompenses com-plet. Celui-ci reste difficile à acquérir lorsque l'utilisateur doit être directement et trop fréquemment sollicité. Dans cet article, nous proposons une nouvelle approche permet-tant de pallier cette problématique et maintenant une pré-cision globale proche de celles des méthodes classiques.
Fichier principal
Vignette du fichier
APIA_2020_ConferencePaper.pdf (241.93 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02947326 , version 1 (23-09-2020)

Identifiants

  • HAL Id : hal-02947326 , version 1

Citer

Alexandre Letard, T Amghar, O Camp, N Gutowski. Bandit et Semi-Bandit avec Retour Partiel : Une Stratégie d'Optimisation du Retour Utilisateur. 5ème Conférence Nationale sur les Applications Pratiques de l’Intelligence Artificielle (APIA), Jul 2020, Angers, France. ⟨hal-02947326⟩
125 Consultations
56 Téléchargements

Partager

Gmail Facebook X LinkedIn More