Redes neuronales convolucionales (CNN)
Definición
Las CNN usan capas convolucionales para capturar patrones locales (bordes, texturas) y construir características jerárquicas. Son el backbone estándar para clasificación, detección y segmentación de imágenes.
A diferencia de las redes neuronales densas, las convoluciones comparten pesos en el espacio, por lo que son equivariantes a la traslación y eficientes para imágenes y otros datos de tipo rejilla. Forman el backbone de la mayoría de los sistemas de visión por computadora y también se usan en transformers para embedding de parches.
Cómo funciona
La imagen (o mapa de características) se alimenta a capas convolucionales: cada filtro se desliza sobre la entrada y calcula productos punto, produciendo mapas de activación que resaltan patrones locales (bordes, texturas). El pooling (p. ej., max pooling) reduce espacialmente el tamaño, añadiendo ligera invarianza. Las capas conv más profundas ven campos receptivos más grandes y capturan características más abstractas (partes, objetos). La cabeza final de clase (o detección/segmentación) suele ser una o más capas densas sobre las características aplanadas o con pooling. El entrenamiento usa la misma retropropagación y descenso de gradiente que otros modelos de aprendizaje profundo.
Casos de uso
Las CNN son el estándar para cualquier tarea donde la estructura espacial (imágenes, video o señales 2D/3D) importa.
- Clasificación de imágenes (p. ej., reconocimiento de objetos, análisis de imágenes médicas)
- Detección de objetos y segmentación de instancias
- Análisis de video y reconocimiento de acciones