Zum Hauptinhalt springen

Computer vision (CV)

Definition

Computer Vision ermöglicht Maschinen, Bilder und Video zu interpretieren: classification, detection, segmentation, tracking, and generative tasks. CNNs and vision transformers are core building blocks.

Es überschneidet sich mit multimodal when combining vision und Sprache (z. B. VLMs). Generative CV uses diffusion or GANs. Most pipelines follow a backbone (feature extraction) plus task head; transfer learning from ImageNet or similar is standard.

Funktionsweise

The image (or video frame) wird in ein backbone (z. B. ResNet, ViT) das ausgibt features (räumliche Feature-Maps oder Patch-Token). A head (one or more layers) maps features to the output: classification (logits pro Klasse), detection (boxes + classes), segmentation (mask per pixel), or generation (z. B. diffusion). Backbones are usually vortrainiert auf large datasets (z. B. ImageNet) then feinabgestimmt mit dem head auf dem target task. Data augmentation, normalization, and loss Entwurf (z. B. focal loss, mask head) are task-specific.

Anwendungsfälle

Computer vision wird überall verwendet, wo you need to interpret or generate images and video (detection, segmentation, recognition).

  • Object detection, instance segmentation, and tracking
  • Image classification and recognition (z. B. medical, satellite)
  • Video understanding and action recognition

Externe Dokumentation

Siehe auch