Dans son dernier billet, Jeremy Howard, fondateur de Fast.ai, présente la bibliothèque Fasttransform, un projet open-source qui vise à simplifier considérablement le processus de transformation de données en apprentissage automatique.

Le problème auquel répond Fasttransform parait simple au premier abord mais a longtemps représenté une frustration majeure pour les chercheurs et ingénieurs : lorsqu’on applique diverses transformations aux données d’entrée pour entraîner un modèle (redimensionnements, normalisations, etc.), il devient très laborieux de retransformer ces données en leur état d’origine pour examiner et comprendre les erreurs du modèle. Traditionnellement, ceci nécessite d’écrire manuellement des fonctions inverses compliquées, ou conduit tout simplement à abandonner l’étape d’inspection visuelle pourtant cruciale.

Fasttransform résout élégamment ce problème grâce à deux mécanismes principaux :

Premièrement, chaque transformation est toujours couplée à une fonction inverse automatiquement prise en charge. Cela signifie qu’une normalisation ou toute autre transformation appliquée à vos données peut être immédiatement et facilement inversée avec la méthode .decode(), sans effort manuel particulier.

Deuxièmement, Fasttransform emploie une technique appelée multiple dispatch (dispatch multiple). Celle-ci permet à une même fonction ou transformation de s’appliquer différemment selon le type de données (par exemple une image, un texte, un masque de segmentation, un label). Ainsi, toutes les étapes du prétraitement des entrées et des labels peuvent être réunies dans une seule chaîne cohérente de transformations, évitant les erreurs et garantissant la cohérence des modifications appliquées.

Howard montre par exemple comment, avec seulement quatre lignes de code Fastai (qui utilise Fasttransform), on peut découvrir immédiatement un problème évident dans un modèle d’identification de huskies : le modèle réussissait à repérer les loups simplement en trouvant… la neige en arrière-plan des images ! Ce biais grossier aurait pu passer inaperçu sans la possibilité d’examiner facilement les données transformées.

Soulignons aussi le côté extensible et modulaire du concept : grâce au dispatch multiple, n’importe qui peut facilement étendre une transformation existante pour supporter de nouveaux types de données ou d’autres cas d’application.

Lire l’article sur fast.ai.

Je trouve que l’idée derrière Fasttransform est extrêmement pertinente et prometteuse. En simplifiant autant la visualisation et le debugging des données traitées par les modèles de deep learning, elle encourage une approche plus concrète et plus intuitive de l’analyse des problèmes. Trop souvent, on se fie aveuglément à des métriques abstraites sans se donner les moyens de véritablement comprendre ce que notre modèle « voit ». Fasttransform aide à combler précisément cette lacune, ce qui devrait représenter un gain important en productivité et en qualité pour beaucoup de projets d’apprentissage automatique.

Personnellement, cette approche m’enthousiasme particulièrement parce qu’elle remet en avant l’importance fondamentale de rester connecté à la réalité de nos données. En permettant cette « inspection visuelle » rapide, on élargit nos perspectives de debugging vers des révélations parfois très surprenantes, comme dans l’exemple frappant des huskies détectés par


Etienne Laurent

Leader des communications et de la stratégie numérique avec une solide expérience créative et technique. Force en stratégie et en exécution. Spécialités : E-commerce, Marketing interactif, communications, gestion de studio graphique, médias sociaux, SEO, SEM, PPC, marketing d'affiliation, gestion de projet Web, créativité.

0 commentaire

Laisser un commentaire

Emplacement de l’avatar

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *