Pular para o conteúdo principal

Redes neurais convolucionais (CNN)

Definição

CNNs usam camadas convolucionais para capturar padrões locais (bordas, texturas) e construir características hierárquicas. São o backbone padrão para classificação, detecção e segmentação de imagens.

Diferente das redes neurais densas, as convoluções compartilham pesos no espaço, sendo equivariantes à translação e eficientes para imagens e outros dados de tipo grade. Formam o backbone da maioria dos sistemas de visão computacional e também são usadas em transformers para embedding de patches.

Como funciona

A imagem (ou mapa de características) é alimentada em camadas convolucionais: cada filtro desliza sobre a entrada e calcula produtos internos, produzindo mapas de ativação que destacam padrões locais (bordas, texturas). O pooling (ex.: max pooling) reduz espacialmente o tamanho, adicionando leve invariância. Camadas conv mais profundas veem campos receptivos maiores e capturam características mais abstratas (partes, objetos). A cabeça final de classe (ou detecção/segmentação) geralmente consiste em uma ou mais camadas densas sobre as características achatadas ou com pooling. O treinamento usa a mesma retropropagação e descida de gradiente que outros modelos de aprendizado profundo.

Casos de uso

CNNs são o padrão para qualquer tarefa onde a estrutura espacial (imagens, vídeo ou sinais 2D/3D) importa.

  • Classificação de imagens (ex.: reconhecimento de objetos, análise de imagens médicas)
  • Detecção de objetos e segmentação de instâncias
  • Análise de vídeo e reconhecimento de ações

Documentação externa

Veja também