La reconnaissance d'images, pilier de l'intelligence artificielle, permet aux machines d'interpréter les données visuelles avec une précision quasi humaine. Du diagnostic médical à la conduite autonome, cette technologie s'appuie sur des modèles avancés tels que les réseaux de neurones convolutifs (CNN) et les transformateurs de vision (ViT). Si les CNN dominent par leur efficacité dans l'extraction de caractéristiques locales, les transformateurs excellent dans la capture d'un contexte global. Cet article compare ces architectures, met en lumière les innovations hybrides et examine leur impact concret, ainsi que les défis qui façonnent l'avenir de la vision par l'IA.

Réseaux de neurones convolutifs (CNN) : l'épine dorsale des systèmes de vision modernes
Les réseaux de neurones convolutifs (CNN) sont la pierre angulaire de la reconnaissance d'images moderne, inspirés par l'organisation hiérarchique du cortex visuel humain. Contrairement aux modèles d'apprentissage automatique traditionnels qui reposent sur des caractéristiques conçues manuellement, les CNN apprennent automatiquement les hiérarchies spatiales de motifs – des contours et textures simples aux objets complexes – directement à partir de données de pixels brutes. Cette capacité d'auto-optimisation de l'extraction de caractéristiques a rendu les CNN indispensables pour des tâches telles que la détection d'objets, l'imagerie médicale et la reconnaissance faciale.
Au cœur des CNN se trouvent des couches convolutives, qui appliquent des filtres apprenables (noyaux) aux images d'entrée. Ces filtres glissent sur l'image par petites fenêtres (par exemple, 3×3 ou 5×5 pixels), détectant des caractéristiques locales telles que les contours, les coins ou les dégradés de couleurs. Chaque opération convolutive produit une carte de caractéristiques mettant en évidence les régions où le motif du filtre apparaît. L'empilement de plusieurs couches convolutives permet au réseau de construire des représentations de plus en plus abstraites : les premières couches capturent les formes élémentaires, tandis que les couches plus profondes identifient les structures complexes comme les visages ou les véhicules.
Pour gérer la complexité des calculs et éviter le surapprentissage, le regroupement de couches (généralement appelé « max-pooling ») sous-échantillonne les cartes de caractéristiques en ne conservant que les informations les plus importantes de chaque fenêtre. Par exemple, le « max-pooling » extrait la valeur la plus élevée d'une grille 2×2, réduisant ainsi les dimensions spatiales tout en préservant les caractéristiques critiques. Ce processus introduit également une invariance translationnelle, rendant les CNN robustes aux changements de position des objets dans une image.
Les fonctions d'activation non linéaires comme ReLU (Rectified Linear Unit) suivent les couches convolutives et de regroupement, permettant au réseau de modéliser des relations complexes en éliminant les valeurs négatives. Enfin, les couches entièrement connectées à l'extrémité du réseau agrègent ces caractéristiques apprises pour classer les images en étiquettes (par exemple, « chat » ou « chien »).
Architectures clés du CNN
- LeNet-5 (1998) : Le CNN pionnier, conçu par Yann LeCun pour la reconnaissance des chiffres manuscrits, a jeté les bases des architectures modernes.
- AlexNet (2012) : CNN mis à l'échelle à l'aide de GPU, réalisant une percée dans la classification ImageNet et popularisant l'apprentissage en profondeur.
- ResNet (2015) : Introduction de connexions résiduelles (connexions sautées) pour atténuer les gradients de disparition, permettant la formation de réseaux avec plus de 100 couches.
Les CNN excellent en termes d'efficacité et d'extraction de caractéristiques locales, ce qui les rend idéaux pour les applications temps réel comme l'analyse vidéo et la vision mobile. Cependant, leur dépendance aux champs récepteurs locaux limite leur capacité à modéliser les dépendances à longue portée, une lacune comblée par des architectures plus récentes comme les transformateurs. Malgré cela, les CNN restent largement utilisés en raison de leur efficacité de calcul, de leur interprétabilité et de leur succès avéré dans de nombreux secteurs, du diagnostic de maladies par rayons X à la reconnaissance faciale sur smartphones.

Transformateurs de vision (ViT) : redéfinir la compréhension de l'image
Les transformateurs de vision (ViT) représentent un changement de paradigme en vision par ordinateur, remettant en cause la domination de longue date des CNN en adaptant l'architecture des transformateurs, initialement conçue pour le traitement du langage naturel (TALN), aux données visuelles. Introduits en 2020 par Dosovitskiy et al., les ViT ont démontré que les mécanismes d'auto-attention pure pouvaient rivaliser, voire surpasser, les CNN dans les tâches de classification d'images lorsqu'ils étaient entraînés sur des ensembles de données suffisamment volumineux. Cette avancée a redéfini la façon dont les machines traitent l'information visuelle, privilégiant le contexte global aux caractéristiques localisées.
Les ViTs traitent les images comme des séquences de jetons, comparables aux mots d'une phrase. Tout d'abord, une image d'entrée est divisée en patchs de taille fixe (par exemple, 16 × 16 pixels), qui sont aplatis en vecteurs et intégrés linéairement. Ces intégrations de patchs sont ensuite combinées à des codages positionnels, qui injectent des informations spatiales afin de conserver les relations géométriques entre les patchs – une étape critique absente des CNN. La séquence résultante est transmise à un encodeur transformateur, où des mécanismes d'auto-attention calculent dynamiquement les interactions entre tous les patchs. Contrairement aux CNN, qui traitent les régions locales indépendamment, l'auto-attention permet aux ViTs d'évaluer la pertinence de chaque patch par rapport aux autres, permettant ainsi au modèle de prioriser les régions saillantes (par exemple, le bec d'un oiseau dans une tâche de classification d'oiseaux) tout en supprimant le bruit de fond non pertinent.
L'encodeur transformateur comprend plusieurs couches de réseaux neuronaux multi-têtes auto-attentionnels et à rétroaction. Chaque tête d'attention apprend des schémas distincts, capturant diverses relations spatiales, tandis que la normalisation des couches et les connexions résiduelles stabilisent l'apprentissage. Cette architecture excelle dans la modélisation des dépendances à longue portée, rendant les ViT particulièrement performants pour les tâches exigeant une compréhension globale, telles que la segmentation de scènes ou la classification fine (par exemple, la distinction entre les races de chiens).
Modèles de transformateurs clés
- Transformateur de vision (ViT):Le modèle fondamental, atteignant une précision de 88,36% sur ImageNet avec une architecture de transformateur pure.
- DeiT (Transformateur d'images à haut rendement):Introduction de la distillation des connaissances, permettant aux ViT de s'entraîner efficacement sur des ensembles de données plus petits en imitant un modèle d'enseignant (par exemple, un CNN).
- Transformateur Swin: Fenêtres de décalage hiérarchique adoptées pour réduire la complexité de calcul, permettant une évolutivité vers des images haute résolution.
Les ViTs prospèrent à grande échelle : des ensembles de données plus volumineux (par exemple, JFT-300M) et des modèles offrent systématiquement de meilleures performances, surpassant les CNN dans des scénarios nécessitant un raisonnement global, comme la détection d'objets occultés ou l'interprétation d'œuvres d'art abstraites. Cependant, leurs exigences de calcul restent un obstacle. L'entraînement d'un ViT nécessite souvent des clusters de GPU massifs et des semaines de formation, ce qui limite son accessibilité pour les petites organisations. De plus, les ViTs ne bénéficient pas de l'invariance de translation innée des CNN, ce qui les rend plus sensibles aux changements de position des objets, sauf entraînement explicite pour plus de robustesse.
Malgré ces défis, les ViT ont catalysé l'innovation dans les systèmes d'IA multimodaux. Des modèles comme CLIP (Contrastive Language–Image Pretraining) exploitent les ViT pour aligner les données visuelles et textuelles, permettant ainsi une classification d'images sans échantillonnage. Alors que la recherche se concentre sur l'efficacité – grâce à des techniques comme l'élagage, la quantification et les architectures hybrides – les ViT sont appelés à devenir plus pratiques pour les applications temps réel, de la réalité augmentée à l'analyse d'images satellite.
Modèles hybrides : fusionner le meilleur des deux mondes
Les modèles hybrides représentent une fusion stratégique des réseaux de neurones convolutifs (CNN) et des transformateurs de vision (ViT), conçus pour exploiter les atouts complémentaires des deux architectures. Alors que les CNN excellent dans l'extraction de caractéristiques localisées grâce à des opérations convolutives, les transformateurs exploitent l'auto-attention pour modéliser des relations globales. Les architectures hybrides visent à concilier efficacité, précision et adaptabilité, ce qui les rend polyvalentes pour des tâches diverses, des applications mobiles aux ressources limitées aux systèmes industriels à grande échelle.
Fondamentalement, les modèles hybrides utilisent souvent des CNN dans les premières couches pour traiter efficacement les motifs visuels de bas niveau (par exemple, les contours, les textures). Ces premières étapes convolutives réduisent la résolution spatiale et la charge de calcul, agissant comme un « compresseur de caractéristiques ». Les caractéristiques extraites sont ensuite transmises à des blocs transformateurs, qui appliquent l'auto-attention pour capturer les dépendances à longue portée et les relations contextuelles. Cette approche hiérarchique imite la vision humaine, où les détails locaux éclairent la compréhension globale de la scène. Par exemple, en conduite autonome, un modèle hybride pourrait utiliser des CNN pour détecter les marquages au sol et des transformateurs pour analyser la circulation sur l'ensemble de l'image.
Principales architectures hybrides
- CoAtNetCombine des couches convolutives avec des blocs transformateurs, en utilisant des convolutions en profondeur pour améliorer le raisonnement spatial avant d'appliquer l'auto-attention. Cela améliore la robustesse aux rotations et à la mise à l'échelle tout en préservant la conscience globale.
- MobileViTConçu pour les appareils périphériques, il utilise des blocs CNN légers pour générer des « jetons visuels », traités par des transformateurs pour un raisonnement de haut niveau. Cela permet d'obtenir une latence compatible avec les smartphones sans compromettre la précision.
- ConvNeXt: Modernise les CNN en intégrant des composants de type transformateur, tels que des tailles de noyau plus grandes (7 × 7), LayerNorm et des couches de goulot d'étranglement inversées, comblant ainsi les écarts de performances avec des transformateurs purs.
Les modèles hybrides sont performants dans les scénarios où les données sont limitées ou les ressources de calcul limitées. En conservant les biais inductifs des CNN, tels que l'invariance de translation et la localité, ils réduisent le surapprentissage par rapport aux transformateurs purs, qui s'appuient fortement sur de vastes ensembles de données. Parallèlement, leurs composants de transformateur permettent des tâches plus nuancées, comme la classification fine (par exemple, distinguer un mélanome des lésions cutanées bénignes) ou la segmentation panoptique (étiqueter chaque pixel d'une scène).
Cependant, la conception de modèles hybrides nécessite des compromis judicieux. Une importance excessive accordée aux couches convolutives peut diluer les avantages de l'auto-attention, tandis qu'un nombre excessif de blocs de transformateurs peut gonfler les coûts de calcul. Des avancées récentes répondent à ces défis grâce à des architectures dynamiques, où le modèle alloue automatiquement les ressources entre les CNN et les transformateurs en fonction de la complexité des entrées. Par exemple, un drone inspectant des cultures pourrait utiliser davantage de couches CNN pour l'analyse foliaire haute résolution et passer aux transformateurs pour identifier des problèmes d'irrigation à grande échelle.
Dans l'industrie, les modèles hybrides gagnent en popularité. Les plateformes d'imagerie médicale les utilisent pour combiner la détection localisée des tumeurs (force CNN) avec l'analyse holistique des scanners de patients (force du transformateur). De même, les géants du e-commerce déploient des systèmes hybrides pour la recherche visuelle, où les CNN identifient les textures des produits et les transformateurs contextualisent l'intention de l'utilisateur.
À l'avenir, la recherche se concentrera sur la recherche d'architecture automatisée pour optimiser les ratios CNN-transformateur et les hybrides intermodaux intégrant la vision au langage ou aux données de capteurs. À mesure que ces modèles évolueront, ils promettent de démocratiser l'IA de vision avancée, permettant aux petites entreprises de tirer parti de capacités de pointe à moindre coût.
Applications concrètes des modèles de reconnaissance d'images
Les modèles de reconnaissance d'images ont transcendé la recherche universitaire pour devenir des outils essentiels dans tous les secteurs, favorisant l'efficacité, la sécurité et l'innovation. En interprétant les données visuelles avec une précision quasi humaine, voire la surpassant souvent, ces technologies transforment le fonctionnement des entreprises, la prestation des soins de santé et nos interactions avec le monde.
Applications industrielles
- soins de santéLes CNN et les transformateurs analysent les rayons X, les IRM et les scanners pour détecter des tumeurs, des fractures ou des signes précoces de maladies comme la rétinopathie diabétique. Par exemple, DeepMind, de Google, a développé un système d'IA qui surpasse les radiologues dans la détection du cancer du sein à partir de mammographies.
- Véhicules autonomes:Le pilote automatique de Tesla et les voitures autonomes de Waymo s'appuient sur les CNN pour la détection d'objets en temps réel (piétons, véhicules) et sur les transformateurs pour la planification d'itinéraire en comprenant des modèles de trafic complexes.
- Vente au détailLa technologie « Just Walk Out » d'Amazon utilise des caméras fixées au plafond et des réseaux CNN pour suivre les articles récupérés par les clients, permettant ainsi des achats sans caissier. De même, Walmart utilise la reconnaissance d'images pour l'audit des rayons, garantissant ainsi l'exactitude des stocks.
- Agriculture:Des startups comme Blue River Technology déploient des drones dotés de modèles de vision pour surveiller la santé des cultures, identifier les parasites et optimiser l'utilisation des pesticides, augmentant ainsi les rendements tout en réduisant l'impact environnemental.
Au-delà de ces secteurs, la reconnaissance d'images alimente les systèmes de reconnaissance faciale dans les aéroports et sur les smartphones (par exemple, Face ID d'Apple), renforçant ainsi la sécurité grâce à l'authentification biométrique. Dans l'industrie manufacturière, des modèles de vision inspectent les chaînes de montage à la recherche de défauts, réduisant ainsi le gaspillage : Siemens utilise des caméras alimentées par l'IA pour détecter les défauts microscopiques des pales de turbine. L'industrie du divertissement exploite ces outils pour la modération de contenu (par exemple, le filtrage vidéo automatisé de YouTube) et les expériences immersives comme les lentilles de réalité augmentée de Snapchat, qui cartographient les traits du visage en temps réel.
Les applications émergentes sont tout aussi transformatrices. Dans le domaine de la conservation de l'environnement, la reconnaissance d'images permet de suivre les espèces menacées grâce à des pièges photographiques dans les forêts reculées. Lors de catastrophes, des drones équipés de modèles de vision évaluent les dégâts grâce à des images aériennes, accélérant ainsi les opérations de sauvetage. L'art et la culture en bénéficient également : les musées utilisent l'IA pour authentifier des peintures ou reconstituer des objets endommagés à partir de fragments.
L'essor de l'IA de pointe, qui consiste à déployer des modèles légers sur des appareils comme les smartphones et les capteurs IoT, a élargi l'accessibilité. Les agriculteurs des zones rurales indiennes, par exemple, utilisent des applications mobiles intégrant des modèles basés sur CNN pour diagnostiquer les maladies des cultures à partir de photos prises avec leurs smartphones. Parallèlement, les villes intelligentes intègrent des systèmes de vision pour la gestion du trafic, utilisant des transformateurs pour prédire les embouteillages en analysant les flux vidéo en direct.
Cependant, l'adoption de ces technologies soulève des questions éthiques. L'utilisation de la reconnaissance faciale à des fins de surveillance suscite des débats sur la protection de la vie privée, tandis que les biais dans les données d'apprentissage peuvent entraîner des disparités dans les diagnostics médicaux. Relever ces défis nécessite une gouvernance transparente de l'IA et des ensembles de données diversifiés, une priorité constante pour les chercheurs et les décideurs politiques.
À mesure que la puissance de calcul augmente et que les modèles gagnent en efficacité, la reconnaissance d'images continuera d'imprégner la vie quotidienne. Des outils pédagogiques personnalisés qui s'adaptent à l'engagement visuel des élèves aux plateformes de mode pilotées par l'IA qui recommandent des tenues en fonction des téléchargements des utilisateurs, le potentiel est illimité. La convergence des modèles de vision avec d'autres domaines de l'IA, comme le traitement du langage naturel dans des systèmes comme GPT-4V, promet des applications encore plus riches, comme les assistants IA qui interprètent les signaux visuels pour aider les personnes malvoyantes.
Défis et chemin à parcourir
Les modèles de reconnaissance d'images ont franchi des étapes remarquables, mais leur adoption généralisée se heurte à d'importants obstacles techniques, éthiques et pratiques. Il est essentiel de relever ces défis pour garantir que ces technologies restent évolutives, équitables et sûres à mesure de leur évolution.
Principaux défis
- Coûts de calculL'entraînement de modèles de pointe comme les ViTs requiert des clusters de GPU et une énergie considérables, ce qui engendre des préoccupations environnementales et limite l'accès pour les petites organisations. Par exemple, l'entraînement d'un seul grand modèle de transformateur peut émettre autant de CO₂ que cinq voitures au cours de leur durée de vie.
- Dépendance des donnéesLes modèles de vision, en particulier les transformateurs, nécessitent de vastes ensembles de données étiquetées (par exemple, les 14 millions d'images d'ImageNet). La gestion de ces données est coûteuse, chronophage et souvent peu pratique pour des domaines de niche comme le diagnostic des maladies rares.
- Robustesse et biais: Les modèles peuvent échouer de manière imprévisible dans des scénarios réels. Des attaques adverses – de subtiles perturbations de pixels – peuvent induire en erreur même les systèmes les plus avancés, mettant en péril la sécurité d'applications comme la conduite autonome. De plus, des biais dans les données d'apprentissage (par exemple, la sous-représentation de certains groupes démographiques) peuvent propager des stéréotypes néfastes en matière de reconnaissance faciale.
- Interprétabilité:De nombreux modèles de vision fonctionnent comme des « boîtes noires », ce qui rend difficile l’audit des décisions – un problème crucial dans le domaine des soins de santé ou de la justice pénale où la responsabilité est primordiale.
Pour surmonter ces obstacles, les chercheurs adoptent des stratégies innovantes. Des architectures performantes, telles que MobileViT et TinyViT, optimisent le nombre de paramètres sans compromettre la précision, permettant ainsi un déploiement sur des appareils périphériques comme les smartphones et les drones. Des techniques comme la recherche d'architecture neuronale (NAS) automatisent la conception des modèles, en adaptant les structures à des tâches spécifiques (par exemple, l'imagerie en basse lumière pour l'astronomie). Parallèlement, la quantification et l'élagage réduisent la taille des modèles en supprimant les pondérations redondantes ou en diminuant la précision numérique, réduisant ainsi considérablement la consommation d'énergie.
L'apprentissage auto-supervisé (SSL) constitue une autre frontière, réduisant la dépendance aux données étiquetées. Des méthodes comme les auto-encodeurs masqués (MAE) entraînent les modèles à reconstruire des portions masquées d'images, apprenant ainsi des représentations robustes à partir de données non étiquetées. De même, la génération de données synthétiques, à l'aide d'outils comme Omniverse de NVIDIA, crée des ensembles de données d'entraînement photoréalistes pour des scénarios rares, comme des conditions météorologiques extrêmes pour les véhicules autonomes.
Les cadres éthiques et réglementaires évoluent également. La loi européenne sur l'IA et des politiques similaires visent à encadrer les applications à haut risque, en imposant la transparence en matière de reconnaissance faciale et en interdisant la surveillance biométrique en temps réel dans les espaces publics. Des initiatives collaboratives telles que les Model Cards et les AI FactSheets favorisent la responsabilisation en documentant les limites des modèles, les sources de données d'entraînement et les performances selon les groupes démographiques.
À l'avenir, l'apprentissage multimodal dominera l'innovation. Des systèmes comme GPT-4V d'OpenAI, qui traite simultanément des images et du texte, permettent des applications telles que la réponse visuelle à des questions (par exemple, « Décrivez ce graphique ») ou des tuteurs IA expliquant des diagrammes. L'informatique neuromorphique, inspirée par l'efficacité du cerveau, pourrait révolutionner le matériel : la puce TrueNorth d'IBM, par exemple, imite les réseaux neuronaux pour effectuer des tâches de vision avec 1/10 000e de l'énergie des GPU traditionnels.
L'intégration de l'IA à la réalité augmentée (RA) et à la robotique renforcera encore l'impact de la reconnaissance d'images. Imaginez des robots d'entrepôt utilisant des modèles hybrides pour naviguer dans des environnements encombrés, ou des lunettes de RA fournissant des traductions en temps réel de textes étrangers. Cependant, concrétiser cette vision nécessite une collaboration interdisciplinaire, alliant les avancées en science des matériaux, en éthique et en interaction homme-machine.
En fin de compte, l'avenir de la reconnaissance d'images repose sur l'équilibre entre capacités et responsabilités. À mesure que les modèles gagnent en puissance, veiller à ce qu'ils constituent des outils équitables, et non des sources de préjudice, définira la prochaine ère de l'IA.
Flypix : comment exploiter les CNN et les transformateurs pour la vision géospatiale
Alors que nous explorons le débat en constante évolution entre les CNN et les Transformers dans la reconnaissance d'images, des plateformes comme Flypix Nous ancrons nos discussions théoriques dans des applications concrètes. Chez Flypix, nous combinons les atouts des deux architectures pour décoder des données géospatiales complexes : images satellite, captures de drones et photographies aériennes. Les CNN, grâce à leur extraction de caractéristiques localisées, optimisent notre capacité à identifier les changements d'infrastructures ou les schémas de culture, tandis que les Transformers nous aident à modéliser les dépendances à longue distance dans des paysages tentaculaires ou des ensembles de données multitemporels. Cette approche hybride reflète notre philosophie : le choix entre les CNN et les Transformers n'est pas binaire, mais contextuel, déterminé par l'échelle du problème et la complexité spatio-temporelle des données.
Notre flux de travail : relier les architectures et les outils
- CNN pour la précision:Nous nous appuyons sur des modèles basés sur CNN comme ResNet pour détecter des caractéristiques à granularité fine (pensez aux réseaux routiers ou aux systèmes d'irrigation) où les hiérarchies spatiales sont essentielles.
- Transformateurs pour le contexte:Lors de l'analyse de mosaïques de satellites à l'échelle du continent ou du suivi des changements environnementaux au fil des années, nos couches de transformateurs capturent des relations mondiales que les CNN pourraient manquer.
- Flexibilité pilotée par Python:Nos pipelines intègrent PyTorch et TensorFlow, nous permettant de prototyper des modèles hybrides dans les mêmes environnements que nous utilisons pour des projets à plus petite échelle.
- Impact sur le monde réel:Qu'il s'agisse de surveiller la déforestation ou le développement urbain, nous privilégions les architectures qui équilibrent précision et efficacité informatique, garantissant que les solutions sont à la fois puissantes et déployables.
En alliant la précision au pixel près des CNN à la vision holistique de Transformers, nous ne nous contentons pas de débattre de modèles : nous démontrons leur potentiel combiné. Pour nous, cette synergie n'est pas théorique ; elle nous permet de transformer les pixels en informations exploitables pour le développement durable, l'agriculture et l'urbanisme.
Conclusion
Les CNN et les transformateurs représentent deux philosophies distinctes en reconnaissance d'images : les premiers excellent dans l'extraction de caractéristiques locales, tandis que les seconds maîtrisent le contexte global. Les modèles hybrides et les innovations continues brouillent ces frontières, créant des outils polyvalents pour des applications diverses. À mesure que le domaine évolue, la clé réside dans l'équilibre entre efficacité, précision et accessibilité. Qu'il s'agisse d'optimiser les CNN pour les périphériques ou de dimensionner les transformateurs pour une utilisation industrielle, l'avenir de la reconnaissance d'images promet d'approfondir notre collaboration avec les machines intelligentes, transformant ainsi notre façon de voir et d'interagir avec le monde.
FAQ
Les CNN excellent dans la capture de modèles spatiaux locaux (par exemple, les bords, les textures) via des couches convolutives, ce qui les rend idéaux pour des tâches telles que la détection d'objets et l'imagerie médicale où l'extraction de caractéristiques hiérarchiques est essentielle.
Les transformateurs exploitent les mécanismes d'auto-attention pour modéliser les dépendances à longue portée, ce qui leur permet de comprendre le contexte global des images. Cela les rend performants pour des tâches telles que la compréhension de scènes ou les relations multi-objets.
En règle générale, non. Les transformateurs nécessitent de grands ensembles de données pour apprendre des modèles d'attention significatifs, tandis que les CNN généralisent mieux avec des données limitées en raison de leurs biais inductifs (par exemple, l'invariance de traduction).
Les modèles hybrides utilisent des CNN pour l'extraction de caractéristiques locales et des transformateurs pour la modélisation du contexte global. Par exemple, une structure CNN traite les détails au niveau du pixel, tandis que les couches de transformateurs affinent les relations entre les régions.
Oui. Les transformateurs présentent une complexité quadratique avec la taille de l'entrée, ce qui les rend gourmands en ressources pour les images haute résolution. Les CNN, avec leurs convolutions à partage de paramètres, sont souvent plus efficaces pour les applications temps réel.
Les CNN sont généralement privilégiés pour les tâches en temps réel (par exemple, le traitement vidéo) en raison de leur efficacité de calcul. Cependant, des transformateurs optimisés ou des modèles hybrides peuvent atteindre des vitesses compétitives grâce à des techniques telles que la réduction de jetons ou la distillation.