El reconocimiento de imágenes, un pilar de la inteligencia artificial, permite a las máquinas interpretar datos visuales con precisión similar a la humana. Desde diagnósticos sanitarios hasta conducción autónoma, esta tecnología se basa en modelos avanzados como las redes neuronales convolucionales (CNN) y los transformadores de visión (ViT). Si bien las CNN dominan con su eficiencia en la extracción de características locales, los transformadores se destacan en la captura del contexto global. Este artículo compara estas arquitecturas, destaca las innovaciones híbridas y examina su impacto en el mundo real, junto con los desafíos que configuran el futuro de la visión de la IA.

Redes neuronales convolucionales (CNN): la columna vertebral de los sistemas de visión modernos
Las redes neuronales convolucionales (CNN) son la piedra angular del reconocimiento de imágenes moderno, inspiradas en la organización jerárquica de la corteza visual humana. A diferencia de los modelos de aprendizaje automático tradicionales que dependen de características diseñadas manualmente, las CNN aprenden automáticamente jerarquías espaciales de patrones (desde bordes y texturas simples hasta objetos complejos) directamente a partir de datos de píxeles sin procesar. Esta capacidad de autooptimizar la extracción de características ha hecho que las CNN sean indispensables en tareas como la detección de objetos, la obtención de imágenes médicas y el reconocimiento facial.
En el corazón de las CNN se encuentran las capas convolucionales, que aplican filtros que se pueden aprender (núcleos) a las imágenes de entrada. Estos filtros se deslizan por la imagen en pequeñas ventanas (por ejemplo, 3x3 o 5x5 píxeles) y detectan características locales como bordes, esquinas o gradientes de color. Cada operación convolucional produce un mapa de características que resalta las regiones donde aparece el patrón del filtro. Al apilar varias capas convolucionales, la red puede construir representaciones cada vez más abstractas: las primeras capas capturan formas básicas, mientras que las capas más profundas identifican estructuras complejas como rostros o vehículos.
Para gestionar la complejidad computacional y evitar el sobreajuste, la agrupación de capas (comúnmente llamada agrupación máxima) reduce la resolución de los mapas de características al conservar solo la información más destacada de cada ventana. Por ejemplo, la agrupación máxima extrae el valor más alto de una cuadrícula de 2x2, lo que reduce las dimensiones espaciales y preserva las características críticas. Este proceso también introduce invariancia traslacional, lo que hace que las CNN sean resistentes a los cambios en la posición de los objetos dentro de una imagen.
Las funciones de activación no lineal como ReLU (unidad lineal rectificada) siguen las capas convolucionales y de agrupamiento, lo que permite que la red modele relaciones complejas descartando valores negativos. Finalmente, las capas completamente conectadas en el extremo de la red agregan estas características aprendidas para clasificar las imágenes en etiquetas (por ejemplo, "gato" o "perro").
Arquitecturas clave de CNN
- LeNet-5 (1998): La pionera CNN, diseñada por Yann LeCun para el reconocimiento de dígitos escritos a mano, sentó las bases para las arquitecturas modernas.
- AlexNet (2012): CNN escaladas utilizando GPU, logrando un gran avance en la clasificación de ImageNet y popularizando el aprendizaje profundo.
- Red de res (2015): Se introdujeron conexiones residuales (conexiones salteadas) para mitigar los gradientes que desaparecen, lo que permitió el entrenamiento de redes con más de 100 capas.
Las CNN se destacan por su eficiencia y extracción de características locales, lo que las hace ideales para aplicaciones en tiempo real como el análisis de video y la visión móvil. Sin embargo, su dependencia de campos receptivos locales limita su capacidad para modelar dependencias de largo alcance, una brecha que se soluciona con arquitecturas más nuevas como los transformadores. A pesar de esto, las CNN siguen utilizándose ampliamente debido a su eficiencia computacional, su capacidad de interpretación y su éxito demostrado en diversas industrias, desde el diagnóstico de enfermedades en rayos X hasta el reconocimiento facial en teléfonos inteligentes.
Transformadores de la visión (ViTs): redefiniendo la comprensión de las imágenes
Los transformadores de visión (ViTs) representan un cambio de paradigma en la visión por computadora, desafiando el dominio de larga data de las CNN al adaptar la arquitectura de transformadores, diseñada originalmente para el procesamiento del lenguaje natural (NLP), a los datos visuales. Introducidos en 2020 por Dosovitskiy et al., los ViTs demostraron que los mecanismos de autoatención puros podían rivalizar o superar a las CNN en tareas de clasificación de imágenes cuando se entrenaban en conjuntos de datos suficientemente grandes. Este avance redefinió la forma en que las máquinas procesan la información visual, enfatizando el contexto global sobre las características localizadas.
Los ViTs funcionan tratando las imágenes como secuencias de tokens, similares a las palabras en una oración. Primero, una imagen de entrada se divide en parches de tamaño fijo (por ejemplo, 16 × 16 píxeles), que se aplanan en vectores y se incrustan linealmente. Estas incrustaciones de parches se combinan luego con codificaciones posicionales, que inyectan información espacial para retener las relaciones geométricas entre parches, un paso crítico ausente en las CNN. La secuencia resultante se alimenta a un codificador de transformador, donde los mecanismos de autoatención calculan dinámicamente las interacciones entre todos los parches. A diferencia de las CNN, que procesan regiones locales de forma independiente, la autoatención permite a ViTs sopesar la relevancia de cada parche con respecto a todos los demás parches, lo que permite que el modelo priorice las regiones salientes (por ejemplo, el pico de un pájaro en una tarea de clasificación de aves) al tiempo que suprime el ruido de fondo irrelevante.
El codificador de transformadores comprende múltiples capas de redes neuronales de autoatención y retroalimentación de múltiples cabezas. Cada cabeza de atención aprende patrones distintos, capturando diversas relaciones espaciales, mientras que la normalización de capas y las conexiones residuales estabilizan el entrenamiento. Esta arquitectura se destaca en el modelado de dependencias de largo alcance, lo que hace que los ViT sean particularmente aptos para tareas que requieren una comprensión holística, como la segmentación de escenas o la clasificación de grano fino (por ejemplo, distinguir entre razas de perros).
Principales modelos de transformadores
- Transformador de visión (ViT):El modelo fundamental, que logra una precisión de 88.36% en ImageNet con una arquitectura de transformador pura.
- DeiT (Transformador de imágenes con uso eficiente de datos):Se introdujo la destilación de conocimientos, lo que permite a ViTs entrenarse eficazmente en conjuntos de datos más pequeños imitando un modelo docente (por ejemplo, una CNN).
- Transformador Swin:Se adoptaron ventanas de desplazamiento jerárquico para reducir la complejidad computacional, lo que permite la escalabilidad a imágenes de alta resolución.
Las ViT prosperan a gran escala: los conjuntos de datos más grandes (por ejemplo, JFT-300M) y los modelos ofrecen un rendimiento consistentemente mejor, superando a las CNN en escenarios que requieren razonamiento global, como la detección de objetos ocluidos o la interpretación de arte abstracto. Sin embargo, sus demandas computacionales siguen siendo un obstáculo. El entrenamiento de una ViT a menudo requiere clústeres de GPU masivos y semanas de tiempo de entrenamiento, lo que limita la accesibilidad para organizaciones más pequeñas. Además, las ViT carecen de la invariancia de traducción innata de las CNN, lo que las hace más sensibles a los cambios en la posición de los objetos a menos que se las entrene explícitamente para lograr robustez.
A pesar de estos desafíos, las ViTs han catalizado innovaciones en sistemas de IA multimodales. Modelos como CLIP (Preentrenamiento de lenguaje contrastivo e imagen) aprovechan las ViTs para alinear datos visuales y textuales, lo que permite la clasificación de imágenes sin tomas. A medida que la investigación se centra en la eficiencia (a través de técnicas como la poda, la cuantificación y las arquitecturas híbridas), las ViTs están preparadas para volverse más prácticas para aplicaciones en tiempo real, desde la realidad aumentada hasta el análisis de imágenes satelitales.
Modelos híbridos: fusionando lo mejor de ambos mundos
Los modelos híbridos representan una fusión estratégica de redes neuronales convolucionales (CNN) y transformadores de visión (ViT), diseñados para aprovechar las fortalezas complementarias de ambas arquitecturas. Mientras que las CNN se destacan por extraer características localizadas a través de operaciones convolucionales, los transformadores aprovechan la autoatención para modelar relaciones globales. Las arquitecturas híbridas apuntan a equilibrar la eficiencia, la precisión y la adaptabilidad, lo que las hace versátiles para diversas tareas, desde aplicaciones móviles con recursos limitados hasta sistemas industriales a gran escala.
En esencia, los modelos híbridos suelen emplear CNN en las primeras capas para procesar patrones visuales de bajo nivel (por ejemplo, bordes, texturas) de manera eficiente. Estas etapas convolucionales iniciales reducen la resolución espacial y la carga computacional, actuando como un "compresor de características". Las características extraídas luego se pasan a bloques de transformadores, que aplican autoatención para capturar dependencias de largo alcance y relaciones contextuales. Este enfoque jerárquico imita la visión humana, donde los detalles locales informan una comprensión más amplia de la escena. Por ejemplo, en la conducción autónoma, un modelo híbrido podría usar CNN para detectar marcas de carril y transformadores para analizar el flujo de tráfico en todo el marco.
Arquitecturas híbridas clave
- CoAtNet: Combina capas convolucionales con bloques transformadores, utilizando convoluciones en profundidad para mejorar el razonamiento espacial antes de aplicar la autoatención. Esto mejora la robustez a las rotaciones y al escalamiento, manteniendo al mismo tiempo la conciencia global.
- MóvilViT:Diseñado para dispositivos periféricos, utiliza bloques CNN livianos para generar “tokens visuales”, que son procesados por transformadores para un razonamiento de alto nivel. Esto logra una latencia compatible con teléfonos inteligentes sin sacrificar la precisión.
- ConvNeXt:Moderniza las CNN integrando componentes similares a transformadores, como tamaños de kernel más grandes (7×7), LayerNorm y capas de cuello de botella invertidas, cerrando las brechas de rendimiento con transformadores puros.
Los modelos híbridos prosperan en escenarios en los que los datos son limitados o los recursos computacionales están restringidos. Al conservar los sesgos inductivos de las CNN (como la invariancia de la traducción y la localidad), reducen el sobreajuste en comparación con los transformadores puros, que dependen en gran medida de grandes conjuntos de datos. Al mismo tiempo, sus componentes de transformador permiten tareas matizadas como la clasificación de grano fino (por ejemplo, distinguir el melanoma de las lesiones cutáneas benignas) o la segmentación panóptica (etiquetar cada píxel de una escena).
Sin embargo, el diseño de modelos híbridos requiere hacer concesiones cuidadosas. Poner demasiado énfasis en las capas convolucionales puede diluir los beneficios de la autoatención, mientras que los bloques de transformadores excesivos pueden inflar los costos computacionales. Los avances recientes abordan estos desafíos a través de arquitecturas dinámicas, donde el modelo asigna automáticamente recursos entre las redes neuronales convolucionales y los transformadores en función de la complejidad de entrada. Por ejemplo, un dron que inspeccione cultivos podría usar más capas de redes neuronales convolucionales para el análisis de follaje de alta resolución y cambiar a transformadores cuando identifique problemas de irrigación a gran escala.
En la industria, los modelos híbridos están ganando terreno. Las plataformas de imágenes médicas los utilizan para combinar la detección localizada de tumores (fuerza de CNN) con el análisis holístico de los escáneres de los pacientes (fuerza de Transformer). De manera similar, los gigantes del comercio electrónico implementan sistemas híbridos para la búsqueda visual, donde las CNN identifican las texturas de los productos y los Transformers contextualizan la intención del usuario.
De cara al futuro, la investigación se centra en la búsqueda de arquitecturas automatizadas para optimizar las relaciones entre las redes neuronales convolucionales y los híbridos intermodales que integran la visión con el lenguaje o los datos de los sensores. A medida que estos modelos evolucionen, prometen democratizar la inteligencia artificial de visión avanzada, lo que permitirá a las empresas más pequeñas aprovechar las capacidades de última generación sin costos prohibitivos.
Aplicaciones reales de los modelos de reconocimiento de imágenes
Los modelos de reconocimiento de imágenes han trascendido la investigación académica para convertirse en herramientas fundamentales en todas las industrias, impulsando la eficiencia, la seguridad y la innovación. Al interpretar datos visuales con una precisión similar a la humana (y a menudo superándola), estas tecnologías están transformando el funcionamiento de las empresas, la prestación de servicios de salud y la interacción con el mundo.
Aplicaciones industriales
- Cuidado de la salud:Las CNN y los transformadores analizan radiografías, resonancias magnéticas y tomografías computarizadas para detectar tumores, fracturas o signos tempranos de enfermedades como la retinopatía diabética. Por ejemplo, DeepMind de Google desarrolló un sistema de inteligencia artificial que supera a los radiólogos en la detección del cáncer de mama a partir de mamografías.
- Vehículos autónomos:El piloto automático de Tesla y los coches autónomos de Waymo se basan en CNN para la detección de objetos en tiempo real (peatones, vehículos) y en transformadores para la planificación de rutas mediante la comprensión de patrones de tráfico complejos.
- Minorista:La tecnología “Just Walk Out” de Amazon utiliza cámaras instaladas en el techo y redes neuronales convolucionales para rastrear los artículos que los clientes retiran, lo que permite realizar compras sin necesidad de cajero. De manera similar, Walmart emplea el reconocimiento de imágenes para la auditoría de los estantes, lo que garantiza la precisión de las existencias.
- Agricultura:Empresas emergentes como Blue River Technology implementan drones con modelos de visión para monitorear la salud de los cultivos, identificar plagas y optimizar el uso de pesticidas, lo que aumenta los rendimientos y reduce el impacto ambiental.
Más allá de estos sectores, el reconocimiento de imágenes potencia los sistemas de reconocimiento facial en aeropuertos y teléfonos inteligentes (por ejemplo, Face ID de Apple), mejorando la seguridad mediante la autenticación biométrica. En la fabricación, los modelos de visión inspeccionan las líneas de montaje en busca de defectos, lo que reduce el desperdicio: Siemens utiliza cámaras impulsadas por IA para detectar fallas microscópicas en las aspas de las turbinas. La industria del entretenimiento aprovecha estas herramientas para la moderación de contenido (por ejemplo, el filtrado automático de videos de YouTube) y experiencias inmersivas como las lentes AR de Snapchat, que mapean los rasgos faciales en tiempo real.
Las aplicaciones emergentes son igualmente transformadoras. En la conservación del medio ambiente, el reconocimiento de imágenes ayuda a rastrear especies en peligro de extinción mediante cámaras trampa en bosques remotos. Durante los desastres, los drones equipados con modelos de visión evalúan los daños a partir de imágenes aéreas, acelerando las tareas de rescate. Incluso el arte y la cultura se benefician: los museos utilizan la IA para autenticar pinturas o reconstruir artefactos dañados a partir de fragmentos.
El auge de la inteligencia artificial de borde (que implementa modelos livianos en dispositivos como teléfonos inteligentes y sensores de IoT) ha ampliado la accesibilidad. Los agricultores de la India rural, por ejemplo, usan aplicaciones móviles con modelos basados en CNN para diagnosticar enfermedades de los cultivos a partir de fotos de teléfonos inteligentes. Mientras tanto, las ciudades inteligentes integran sistemas de visión para la gestión del tráfico, utilizando transformadores para predecir la congestión mediante el análisis de las transmisiones de cámaras en vivo.
Sin embargo, la adopción de estas tecnologías plantea cuestiones éticas. El uso del reconocimiento facial en la vigilancia genera debates sobre la privacidad, mientras que los sesgos en los datos de entrenamiento pueden generar disparidades en los diagnósticos médicos. Para abordar estos desafíos se necesita una gobernanza transparente de la IA y conjuntos de datos diversos, una prioridad constante para los investigadores y los responsables de las políticas.
A medida que aumenta la capacidad computacional y los modelos se vuelven más eficientes, el reconocimiento de imágenes seguirá permeando la vida diaria. Desde herramientas educativas personalizadas que se adaptan a la interacción visual de los estudiantes hasta plataformas de moda impulsadas por IA que recomiendan atuendos en función de las cargas de los usuarios, el potencial es ilimitado. La convergencia de los modelos de visión con otros dominios de IA (como el procesamiento del lenguaje natural en sistemas como GPT-4V) promete aplicaciones aún más ricas, como asistentes de IA que interpretan señales visuales para ayudar a las personas con discapacidad visual.
Desafíos y camino por delante
Los modelos de reconocimiento de imágenes han alcanzado hitos notables, pero su adopción generalizada enfrenta importantes obstáculos técnicos, éticos y prácticos. Abordar estos desafíos es fundamental para garantizar que estas tecnologías sigan siendo escalables, equitativas y seguras a medida que evolucionan.
Principales desafíos
- Costos computacionales:El entrenamiento de modelos de última generación como ViTs requiere de enormes grupos de GPU y energía, lo que genera preocupaciones ambientales y limita el acceso a organizaciones más pequeñas. Por ejemplo, el entrenamiento de un único modelo de transformador grande puede emitir tanto CO₂ como cinco automóviles a lo largo de su vida útil.
- Dependencia de datos:Los modelos de visión, especialmente los transformadores, requieren grandes conjuntos de datos etiquetados (por ejemplo, los 14 millones de imágenes de ImageNet). Conservar esos datos es costoso, lleva mucho tiempo y, a menudo, resulta poco práctico para dominios específicos como el diagnóstico de enfermedades raras.
- Robustez y sesgo:Los modelos pueden fallar de manera impredecible en situaciones del mundo real. Los ataques adversarios (perturbaciones sutiles de píxeles) pueden confundir incluso a los sistemas avanzados, lo que pone en riesgo la seguridad en aplicaciones como la conducción autónoma. Además, los sesgos en los datos de entrenamiento (por ejemplo, la subrepresentación de ciertos grupos demográficos) pueden propagar estereotipos dañinos en el reconocimiento facial.
- Interpretabilidad:Muchos modelos de visión funcionan como “cajas negras”, lo que dificulta la auditoría de las decisiones, un problema crítico en la atención médica o la justicia penal donde la rendición de cuentas es primordial.
Para superar estas barreras, los investigadores están buscando estrategias innovadoras. Arquitecturas eficientes, como MobileViT y TinyViT, optimizan el recuento de parámetros sin sacrificar la precisión, lo que permite la implementación en dispositivos periféricos como teléfonos inteligentes y drones. Técnicas como la búsqueda de arquitectura neuronal (NAS) automatizan el diseño de modelos, adaptando las estructuras a tareas específicas (por ejemplo, imágenes con poca luz para astronomía). Mientras tanto, la cuantificación y la poda reducen el tamaño del modelo al eliminar pesos redundantes o disminuir la precisión numérica, lo que reduce drásticamente el consumo de energía.
El aprendizaje autosupervisado (SSL) es otra frontera que reduce la dependencia de los datos etiquetados. Métodos como los codificadores automáticos enmascarados (MAE) entrenan a los modelos para reconstruir partes enmascaradas de imágenes y aprenden representaciones sólidas a partir de datos no etiquetados. De manera similar, la generación de datos sintéticos (utilizando herramientas como Omniverse de NVIDIA) crea conjuntos de datos de entrenamiento fotorrealistas para escenarios poco comunes, como condiciones climáticas extremas para vehículos autónomos.
Los marcos éticos y regulatorios también están evolucionando. La Ley de Inteligencia Artificial de la UE y otras políticas similares tienen como objetivo regular las aplicaciones de alto riesgo, exigiendo transparencia en el reconocimiento facial y prohibiendo la vigilancia biométrica en tiempo real en espacios públicos. Las iniciativas colaborativas como las tarjetas modelo y las hojas informativas sobre inteligencia artificial promueven la rendición de cuentas al documentar las limitaciones de los modelos, las fuentes de datos de entrenamiento y el rendimiento en distintos grupos demográficos.
De cara al futuro, el aprendizaje multimodal dominará la innovación. Sistemas como el GPT-4V de OpenAI, que procesa imágenes y texto de forma conjunta, permiten aplicaciones como la respuesta visual a preguntas (por ejemplo, “Describe este gráfico”) o tutores de IA que explican diagramas. La computación neuromórfica, inspirada en la eficiencia del cerebro, podría revolucionar el hardware: el chip TrueNorth de IBM, por ejemplo, imita las redes neuronales para realizar tareas de visión con una décima parte de la energía de las GPU tradicionales.
La integración de la IA con la realidad aumentada (RA) y la robótica ampliará aún más el impacto del reconocimiento de imágenes. Imagine robots de almacén que utilicen modelos híbridos para navegar en entornos abarrotados o gafas de RA que proporcionen traducciones en tiempo real de textos extranjeros. Sin embargo, para lograr esta visión se requiere una colaboración interdisciplinaria que combine los avances en ciencia de los materiales, ética e interacción entre humanos y computadoras.
En definitiva, el futuro del reconocimiento de imágenes depende de equilibrar la capacidad con la responsabilidad. A medida que los modelos se vuelvan más poderosos, garantizar que sirvan como herramientas equitativas (y no como fuentes de daño) definirá la próxima era de la visión de la IA.
Flypix: Cómo aprovechamos las CNN y los transformadores para la visión geoespacial
A medida que exploramos el debate en evolución entre las CNN y los Transformers en el reconocimiento de imágenes, plataformas como Flypix Basamos nuestras discusiones teóricas en aplicaciones del mundo real. En Flypix, combinamos las fortalezas de ambas arquitecturas para decodificar datos geoespaciales complejos: imágenes satelitales, capturas de drones y fotografías aéreas. Las CNN, con su extracción de características localizadas, potencian nuestra capacidad de identificar cambios en la infraestructura o patrones de cultivos, mientras que los Transformers nos ayudan a modelar dependencias de largo alcance en paisajes extensos o conjuntos de datos multitemporales. Este enfoque híbrido refleja nuestra filosofía: la elección entre CNN y Transformers no es binaria sino contextual, impulsada por la escala del problema y la complejidad espacio-temporal de los datos.
Nuestro flujo de trabajo: uniendo arquitecturas y herramientas
- CNN para precisiónConfiamos en modelos basados en CNN como ResNet para detectar características de grano fino (pensemos en redes de carreteras o sistemas de irrigación) donde las jerarquías espaciales son críticas.
- Transformadores para el contexto:Al analizar mosaicos satelitales a escala continental o rastrear cambios ambientales a lo largo de los años, nuestras capas de transformadores capturan relaciones globales que las CNN podrían pasar por alto.
- Flexibilidad impulsada por Python:Nuestras canalizaciones integran PyTorch y TensorFlow, lo que nos permite crear prototipos de modelos híbridos en los mismos entornos que usamos para proyectos de menor escala.
- Impacto en el mundo real:Ya sea que se trate de monitorear la deforestación o el desarrollo urbano, priorizamos arquitecturas que equilibran la precisión y la eficiencia computacional, garantizando que las soluciones sean potentes e implementables.
Al combinar la precisión a nivel de píxel de las CNN con la visión holística de Transformers, no solo debatimos modelos, sino que demostramos su potencial combinado. Para nosotros, esta sinergia no es teórica; es la manera en que convertimos los píxeles en información práctica para la sostenibilidad, la agricultura y la planificación urbana.
Conclusión
Las CNN y los transformadores representan dos filosofías distintas en el reconocimiento de imágenes: la primera se destaca en la extracción de características locales, mientras que la segunda domina el contexto global. Los modelos híbridos y las innovaciones en curso están desdibujando estos límites, creando herramientas versátiles para diversas aplicaciones. A medida que el campo evoluciona, la clave está en equilibrar la eficiencia, la precisión y la accesibilidad. Ya sea optimizando las CNN para dispositivos periféricos o escalando los transformadores para uso industrial, el futuro del reconocimiento de imágenes promete profundizar nuestra colaboración con máquinas inteligentes, transformando la forma en que vemos e interactuamos con el mundo.
Preguntas frecuentes
Las CNN se destacan por capturar patrones espaciales locales (por ejemplo, bordes, texturas) a través de capas convolucionales, lo que las hace ideales para tareas como detección de objetos e imágenes médicas donde la extracción de características jerárquicas es fundamental.
Los transformadores aprovechan los mecanismos de autoatención para modelar dependencias de largo alcance, lo que les permite comprender el contexto global de las imágenes. Esto los hace eficaces para tareas como la comprensión de escenas o las relaciones entre múltiples objetos.
Por lo general, no. Los transformadores requieren grandes conjuntos de datos para aprender patrones de atención significativos, mientras que las CNN generalizan mejor con datos limitados debido a sus sesgos inductivos (por ejemplo, invariancia de la traducción).
Los modelos híbridos utilizan redes neuronales convolucionales para la extracción de características locales y transformadores para el modelado del contexto global. Por ejemplo, una red neuronal convolucional procesa detalles a nivel de píxel, mientras que las capas de transformadores refinan las relaciones entre regiones.
Sí. Los transformadores tienen una complejidad cuadrática con el tamaño de entrada, lo que hace que consuman muchos recursos para imágenes de alta resolución. Las CNN, con sus convoluciones que comparten parámetros, suelen ser más eficientes para aplicaciones en tiempo real.
Las CNN suelen preferirse para tareas en tiempo real (por ejemplo, procesamiento de vídeo) debido a su eficiencia computacional. Sin embargo, los transformadores optimizados o los modelos híbridos pueden alcanzar velocidades competitivas con técnicas como la reducción de tokens o la destilación.