Methods and frameworks of annotation cost optimization for deep learning algorithms applied to medical imaging

Camille Ruppli

Résumé

In recent years, the amount of medical imaging data has kept on growing. In 1980, 30 minutes of acquisition were necessary to obtain 40 medical images.Today, 1000 images can be acquired in 4 seconds. This growth in the amount of data has gone hand in hand with the development of deep learning techniques which need quality labels to be trained. In medical imaging, labels are much more expensive to obtain as they require the expertise of a radiologist whose time is limited. The goal of this thesis is to propose and develop methods to limit the annotation load in medical imaging while maintaining a high performance of deep learning algorithms.In the first part of this thesis, we focus on self-supervised learning methods which introduce pretext tasks of various types: generation based, context based and self-distillation approaches. These tasks are used to pretrain a neural network with no additional annotations to take advantage of the amount of available unannotated data. Most of these tasks use perturbations often quite generic, unrelated to the objective task and sampled at random in a fixed list with fixed parameters. How to best combine and choose these perturbations and their parameters remains unclear. Furthermore, some perturbations can be detrimental to the target supervised task. Some works mitigate this issue by designing pretext tasks for a specific supervised task, especially in medical imaging. But these tasks do not generalize well to other problems.A balance must be found between perturbation or pretext task optimization for a given supervised problem and method generalization ability.Among context-based methods, contrastive learning approaches propose an instance-level discrimination task: the latent space is structured with instance similarity. Defining instance similarity is the main challenge of these approaches and has been widely explored.When defining similarity through perturbed versions of the same image, the same questions of perturbations optimization arise.We introduce a perturbation generator optimized for contrastive pre-training guided by a small amount of supervision.Class labels and metadata have been used to condition instance similarity, but these data can be subject to annotator variability, especially in the medical domain. Some methods have been proposed to use confidence in fully supervised and self-supervised training, but it is mostly based on loss function values. However, confidence on labels and metadata is often linked to a priori domain knowledge such as data acquisition, annotators experience and agreement. This is even more relevant for medical data.In the second part of this thesis, we focus we design an adapted contrastive loss introducing annotation confidence for the specific problem of prostate cancer lesion detection.Finally, we explore some approaches to apply self-supervised and contrastive learning to prostate cancer lesion segmentation.

Ces dernières années, la quantité de données d'imagerie médicale n'a cessé de croître. En 1980, 30 minutes d'acquisition étaient nécessaires pour obtenir 40 images médicales.Aujourd'hui, 1000 images peuvent être acquises en 4 secondes. Cette croissance de la quantité de données est allée de pair avec le développement de techniques d'apprentissage profond qui ont besoin d'annotations de qualité pour être entraînées. En imagerie médicale, les annotations sont beaucoup plus coûteuses à obtenir car elles nécessitent l'expertise d'un radiologue dont le temps est limité.L'objectif de cette thèse est de proposer et de développer des méthodes permettant de limiter la charge d'annotation en imagerie médicale tout en maintenant une performance élevée des algorithmes d'apprentissage profond.Dans la première partie de cette thèse, nous étudions les méthodes d'apprentissage auto-supervisé. Ces méthodes introduisent des sous-tâches de différents types : approches génératives, contextuelle et basée sur l'auto-distillation. Ces tâches sont utilisées pour pré-entraîner un réseau de neurones sans annotations supplémentaires afin de tirer profit des données non annotées disponibles.La plupart de ces tâches utilisent des perturbations assez génériques, sans rapport avec la tâche supervisée sous-jacente et échantillonnées au hasard dans une liste avec des paramètres fixés. La meilleure façon de combiner et de choisir ces perturbations et leurs paramètres n'est pas encore claire. En outre, certaines perturbations peuvent être préjudiciables à la tâche supervisée objectif. Certains travaux atténuent ce problème en concevant des sous-tâches pour une tâche supervisée spécifique, en particulier dans le domaine de l'imagerie médicale. Mais ces tâches ne se généralisent pas bien à d'autres problèmes.Un équilibre doit donc être trouvé entre l'optimisation de la perturbation ou de la sous-tâche pour un problème supervisé donné et la capacité de généralisation de la méthode.Parmi les méthodes basées sur le contexte, les approches d'apprentissage contrastif proposent une tâche de discrimination par instance : l'espace latent est structuré suivant la similarité entre différentes instances. La définition de la similarité des instances est le principal défi de ces approches et a été largement explorée.Lorsque des perturbations sont utilisées pour définir la similarité entre les images, les mêmes questions d'optimisation des perturbations se posent.Nous introduisons un générateur de perturbations optimisé pour le pré-entraînement contrastif guidé par une petite quantité de supervision.Les annotations de classes et certaines métadonnées ont été utilisées pour conditionner la similarité des instances, mais ces données peuvent être sujettes à la variabilité des annotateurs, en particulier dans le domaine médical. Certaines méthodes ont été proposées pour utiliser la confiance dans l'apprentissage supervisé et auto-supervisé, mais elles sont principalement basées sur les valeurs de la fonction de perte. Cependant, la confiance dans les annotations et les métadonnées est souvent liée à des connaissances a priori du domaine, telles que l'acquisition des données, l'expérience et l'accord entre les annotateurs. Ceci est encore plus pertinent pour les données médicales.Dans la deuxième partie de cette thèse, nous proposons une fonction de perte contrastive prenant en compte la confiance des annotations pour le problème spécifique de la détection des lésions du cancer de la prostate.Enfin, nous explorons quelques approches pour appliquer l'apprentissage auto-supervisé et contrastif à la segmentation des lésions du cancer de la prostate.

Methods and frameworks of annotation cost optimization for deep learning algorithms applied to medical imaging

Méthodes et systèmes d'optimisation de la charge d'annotation en imagerie médicale pour les algorithmes d'apprentissage

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager