Tema: Hvad er AI?

Hvad er AI: Computer vision

2024/10/03 at 8:00 am Mark Sinclair Fleeton2024/10/03

Illustration: Mark Sinclair Fleeton/Dall-E

Dette er ottende del i serien “Hvad er AI?”. Formålet med serien er, at komme med en uddybning af nogle af de centrale begreber indenfor kunstig intelligens og den er altså ikke tænkt til dig, der allerede ved alt om AI. Du kan læse syvende del her.

TL;DR: Fire hovedpointer:

Computer vision fokuserer på at efterligne menneskets visuelle forståelse ved at analysere og fortolke billeder og videoer, med anvendelser inden for objektgenkendelse, ansigtsgenkendelse, og medicinsk billedanalyse.
Computer vision bruger avancerede teknologier som Convolutional Neural Networks (CNNs) og dyb læring til automatisk at lære komplekse mønstre i visuelle data, hvilket har ført til gennembrud i autonome systemer og ansigtsgenkendelse.
Udfordringer inden for computer vision inkluderer behovet for store mængder data, generelle datakvalitetsproblemer, og bekymringer om etik og privatliv ved anvendelse af teknologier som ansigtsgenkendelse og overvågning.
Fremskridt som self-supervised learning, Vision Transformers (ViT), 3D-vision, og kvantecomputing er under udvikling og forventes at revolutionere computer vision med mere præcise og effektive løsninger i fremtiden.

Computer Vision er et felt inden for kunstig intelligens (AI), der fokuserer på, hvordan computere kan “se” og forstå det visuelle indhold af billeder eller videoer. Formålet med computer vision er at efterligne den menneskelige evne til at forstå og fortolke billeder, så maskiner kan automatisere opgaver, der kræver visuel forståelse, såsom genkendelse af objekter, ansigter, tekst eller scener i billeder og video.

Dette felt er en kombination af flere discipliner, herunder maskinlæring, billedbehandling og mønstergenkendelse, og det er tæt forbundet med andre AI-felter som naturlig sprogbehandling (NLP) og robotics. Computer vision har gjort store fremskridt de seneste år, især takket være udviklingen af dyb læring og neurale netværk.

Hvordan fungerer computer vision?

Computer vision-systemer arbejder ved at analysere digitale billeder eller videoer og derefter bruge algoritmer til at udføre specifikke opgaver. Processen kan opdeles i flere trin:

1. Billedindsamling: Det første skridt er at indsamle eller optage billeder eller videodata ved hjælp af kameraer eller sensorer. Dette giver computeren de visuelle data, den skal arbejde med.

2. Forbehandling: Før computeren kan analysere billedet, skal det ofte behandles for at forbedre kvaliteten eller fjerne støj. Dette kan involvere processer som kantdetektion, skalering eller farvekorrektion.

3. Funktionsekstraktion: Her analyseres billedet for at identificere relevante træk eller mønstre. Dette kan være kanter, former, teksturer eller farver. I dyb læring bruges ofte Convolutional Neural Networks (CNNs) til at lære og genkende komplekse mønstre i billeder automatisk.

4. Fortolkning: I denne fase bruges maskinlæringsalgoritmer til at klassificere, segmentere eller forstå billedet baseret på de træk, der blev identificeret. For eksempel kan et system klassificere et billede som en “kat” eller en “hund”, eller segmentere billedet for at identificere, hvilke dele der repræsenterer himmel, træer eller bygninger.

5. Handling: Når computeren har fortolket billedet eller videoen, kan den tage beslutninger baseret på analysen. Dette kan indebære at give brugeren oplysninger, tage en automatisk handling (f.eks. i selvkørende biler) eller generere yderligere output, såsom billedforklaringer.

Anvendelser af computer vision

Computer vision har en bred vifte af anvendelser på tværs af mange industrier, herunder sundhed, transport, produktion og underholdning. Blandt andet bruges et til at identificere objekter i billeder eller videoer, f.eks. genstande i et hus, eller biler og fodgængere på en vej. Dette er vigtigt i systemer som selvkørende biler, der skal kunne genkende deres omgivelser i realtid for at navigere sikkert.

Computer vision bruges til at genkende og identificere ansigter i billeder, f.eks. til sikkerhedskontrol, biometrisk login på smartphones eller til sociale mediers taggingsystemer. Ansigtsgenkendelse er også blevet populært i overvågningssystemer.

Samtidigt anvendes computer vision til at forbedre kvaliteten af billeder, såsom at fjerne støj eller genskabe gamle eller beskadigede billeder. Dette bruges ofte i fotografiske restaureringsprocesser og medicinsk billedanalyse.

I sundhedssektoren anvendes computer vision til at analysere medicinske billeder som røntgenbilleder, MR-scanninger og ultralydsbilleder. Det kan hjælpe læger med at diagnosticere sygdomme som kræft eller analysere skader.

OCR-teknologi (Optic Character Recognition – Optisk Tegngenkendelse) bruger computer vision til at læse og genkende tekst i billeder, f.eks. scanning af dokumenter eller registreringsnumre. Dette bruges i alt fra scanning af bøger til automatiserede posttjenester.

Computer vision bruges til at analysere video og forstå bevægelser og aktiviteter. Dette anvendes i sikkerhedssystemer, sportsteknologi og underholdning, hvor det er vigtigt at analysere, hvad der sker i realtid.

Teknologier og algoritmer i computer vision

Flere avancerede teknologier og algoritmer har været afgørende for computer visions succes:

Convolutional Neural Networks (CNNs)

CNNs er en type dybt neuralt netværk, der er specialiseret i billedbehandling. De bruger konvolutionslag til at identificere og lære komplekse mønstre i billeder, hvilket gør dem ekstremt effektive til objektgenkendelse og billedklassificering.

Deep Learning

Dyb læring har revolutioneret computer vision ved at gøre det muligt for maskiner at lære direkte fra billeder, uden behov for manuelle funktioner. Dette har ført til gennembrud i opgaver som ansigtsgenkendelse og autonome systemer.

Feature Detection and Matching

Algoritmer som SIFT (Scale-Invariant Feature Transform) og SURF (Speeded-Up Robust Features) bruges til at identificere unikke træk i billeder, som kan matches på tværs af forskellige billeder. Dette er nyttigt i opgaver som billedsammenligning og 3D-modellering.

Udfordringer

Selvom computer vision har gjort store fremskridt, er der stadig flere udfordringer. Billeder i den virkelige verden kan være støjende, have dårlig belysning eller være taget fra vanskelige vinkler. Dette gør det udfordrende for computere at forstå komplekse scener korrekt.

Modeller trænet på én type data kan have svært ved at generalisere til nye, ukendte situationer. F.eks. kan et system trænet på billeder af biler fra en bestemt vinkel muligvis ikke genkende dem fra en anden vinkel.

Deep Learning, som driver mange af de nuværende computer vision-teknologier, kræver enorme mængder data og beregningskraft for at være præcis. Dette kan være ressourcekrævende og begrænse adgangen til avancerede CV-teknologier.

Med udbredelsen af ansigtsgenkendelse og overvågningssystemer er der voksende bekymring for privatlivsbeskyttelse og etik i brugen af computer vision.

Lige på trapperne

Computer vision er i hastig udvikling, og flere banebrydende teknologier er på vej til at revolutionere feltet yderligere. En af de mest markante fremskridt er udviklingen af selvlærende AI-modeller, hvor computere lærer fra visuelle data uden behov for store, mærkede datasæt. Dette kaldes self-supervised learning, og det reducerer afhængigheden af dyr manuel dataannotering. Denne metode gør det muligt for modeller at forstå og fortolke visuelle data på en mere generaliseret måde ved at lære fra sammenhænge i umærkede billeder og videoer.

Transformer-baserede arkitekturer, som oprindeligt blev udviklet til naturlig sprogbehandling, er nu også ved at blive implementeret i computer vision. Disse modeller, kaldet Vision Transformers (ViT), har vist lovende resultater i billedklassifikation og objektgenkendelse ved at analysere billeder i en global kontekst frem for blot lokale mønstre, som traditionelle Convolutional Neural Networks (CNNs) gør. Dette åbner døren for mere præcise og effektive CV-løsninger.

3D-vision og augmented reality er også i fokus. Ved hjælp af avancerede dybdesensorer og kameraer kan systemer nu opfatte dybde, perspektiv og bevægelser i rummet, hvilket gør det muligt for computere at forstå 3D-objekter og miljøer. Dette fremskridt vil være afgørende for udviklingen af autonome robotter, selvkørende biler og interaktive teknologier som augmented reality (AR) og virtual reality (VR).

Kvantecomputing forventes også at spille en vigtig rolle i computer vision fremover. Kvantecomputere kan behandle store mængder visuelle data langt hurtigere end traditionelle computere, hvilket vil accelerere træningen af dybe neurale netværk og muliggøre realtidsvisuelle analyser i hidtil uset skala.