Redes neuronales convolucionales (CNN)

Definición

Las CNN usan capas convolucionales para capturar patrones locales (bordes, texturas) y construir características jerárquicas. Son el backbone estándar para clasificación, detección y segmentación de imágenes.

A diferencia de las redes neuronales densas, las convoluciones comparten pesos en el espacio, por lo que son equivariantes a la traslación y eficientes para imágenes y otros datos de tipo rejilla. Forman el backbone de la mayoría de los sistemas de visión por computadora y también se usan en transformers para embedding de parches.

Cómo funciona

La imagen (o mapa de características) se alimenta a capas convolucionales: cada filtro se desliza sobre la entrada y calcula productos punto, produciendo mapas de activación que resaltan patrones locales (bordes, texturas). El pooling (p. ej., max pooling) reduce espacialmente el tamaño, añadiendo ligera invarianza. Las capas conv más profundas ven campos receptivos más grandes y capturan características más abstractas (partes, objetos). La cabeza final de clase (o detección/segmentación) suele ser una o más capas densas sobre las características aplanadas o con pooling. El entrenamiento usa la misma retropropagación y descenso de gradiente que otros modelos de aprendizaje profundo.

Casos de uso

Las CNN son el estándar para cualquier tarea donde la estructura espacial (imágenes, video o señales 2D/3D) importa.

Clasificación de imágenes (p. ej., reconocimiento de objetos, análisis de imágenes médicas)
Detección de objetos y segmentación de instancias
Análisis de video y reconocimiento de acciones

Redes neuronales convolucionales (CNN)

Definición

Cómo funciona

Casos de uso

Documentación externa

Ver también

Definición​

Cómo funciona​

Casos de uso​

Documentación externa​

Ver también​

Definición

Cómo funciona

Casos de uso

Documentación externa

Ver también