Apprentissage auto-superviséApprentissage auto-supervisé
L'apprentissage auto-supervisé (en anglais : self-supervised learning, SSL) est une méthode d'apprentissage automatique où le modèle apprend à partir d'échantillons de données non annotées. Il peut être considéré comme une forme intermédiaire entre l'apprentissage supervisé et non supervisé. L'apprentissage auto-supervisé est typiquement utilisé sur des architectures à base de réseau de neurones artificiels[1]. Le réseau de neurones apprend en deux étapes. Tout d'abord, la tâche est résolue sur la base de pseudo-étiquettes qui aident à initialiser les poids du réseau[2],[3]. Deuxièmement, la tâche réelle est effectuée avec un apprentissage supervisé ou non supervisé[4],[5],[6]. L'apprentissage auto-supervisé a produit des résultats prometteurs ces dernières années et a trouvé une application pratique dans le traitement audio et est utilisé par Facebook et d'autres pour la reconnaissance vocale[7]. Le principal attrait du SSL est que la formation peut se produire avec des données de qualité inférieure, plutôt que d'améliorer les résultats finaux. L'apprentissage auto-supervisé imite de plus près la façon dont les humains apprennent à classifier les objets[8]. Les typesPour une tâche de classification binaire, les données d'apprentissage peuvent être divisées en exemples positifs et en exemples négatifs. Les exemples positifs sont ceux qui correspondent à la cible. Par exemple, si vous apprenez à identifier les oiseaux, les données d'entraînement positives sont les images qui contiennent des oiseaux. Les exemples négatifs sont ceux qui n'en contiennent pas[9]. SSL contrastéLe SSL contrasté utilise à la fois des exemples positifs et négatifs. La fonction de perte de l'apprentissage contrasté minimise la distance entre les échantillons positifs tout en maximisant la distance entre les échantillons négatifs[9]. SSL non contrasté (NCSSL)Le SSL non contrasté n'utilise que des exemples positifs. Contre-intuitivement, le NCSSL converge vers un minimum local utile plutôt que d'atteindre une solution triviale, avec une perte nulle. Pour l'exemple de la classification binaire, il faudrait trivialement apprendre à classer chaque exemple comme positif. Un NCSSL efficace nécessite un prédicteur supplémentaire du côté en ligne qui ne se propage pas du côté cible[9]. Comparaison avec d'autres formes d'apprentissage automatiqueLe SSL appartient aux méthodes d'apprentissage supervisé dans la mesure où le but est de générer une sortie classifiée à partir de l'entrée. Cependant, il ne nécessite pas l'utilisation explicite de paires entrée-sortie étiquetées. Au lieu de cela, les corrélations, les métadonnées intégrées dans les données ou les connaissances du domaine présentes dans l'entrée sont extraites implicitement et automatiquement des données[10]. Ces signaux de supervision, générés à partir des données, peuvent ensuite être utilisés pour la formation[8]. Le SSL est similaire à l'apprentissage non supervisé en ce sens qu'il ne nécessite pas d'étiquettes dans les exemples de données. Contrairement à l'apprentissage non supervisé, cependant, l'apprentissage ne se fait pas à l'aide de structures de données inhérentes[10]. L'apprentissage semi-supervisé combine l'apprentissage supervisé et non supervisé, ne nécessitant que l'étiquetage d'une petite partie des données d'apprentissage[3]. Dans l'apprentissage par transfert, un modèle conçu pour une tâche est réutilisé pour une tâche différente[11]. ExemplesL'apprentissage auto-supervisé est particulièrement adapté à la reconnaissance vocale. Par exemple, Facebook a développé wav2vec, un algorithme auto-supervisé, pour effectuer la reconnaissance vocale à l'aide de deux réseaux de neurones à convolution profonde qui s'appuient l'un sur l'autre[7]. Le modèle BERT ( Bidirectional Encoder Representations from Transformers ) de Google est utilisé pour mieux comprendre le contexte des requêtes de recherche[12]. Le GPT-3 d'OpenAI est un modèle de langage autorégressif qui peut être utilisé dans le traitement du langage. Il peut être utilisé pour traduire des textes ou répondre à des questions, entre autres[13]. Bootstrap Your Own Latent est un NCSSL qui a produit d'excellents résultats sur ImageNet et sur les benchmarks de transfert et semi-supervisés[14]. DirectPred est un NCSSL qui définit directement les poids des prédicteurs au lieu de les apprendre via la mise à jour du gradient[9] . Références
Liens externes
|