Tema: Hvad er AI?

Hvad er AI: Guardrails i AI-systemer

2024/08/22 at 8:54 am Mark Sinclair Fleeton2024/08/22

Illustration: Mark Sinclair Fleeton/Dall-E

Dette er tredje del af serien “Hvad er AI?”. Formålet med serien er, at komme med en uddybning af nogle af de centrale begreber indenfor kunstig intelligens og den er altså ikke tænkt til dig, der allerede ved alt om AI. Du kan læse anden del her.

TL;DR: Fire hovedpointer

Guardrails i AI-systemer fungerer som sikkerhedsforanstaltninger, der beskytter mod fejl og uønskede output.
Bias mitigation er en central teknik for at sikre retfærdighed og repræsentation i AI-modeller.
Explainable AI (forklarlig AI) gør AI-modellers beslutningsprocesser mere gennemsigtige og forståelige.
Sikkerhedsforanstaltninger som Human-in-the-Loop og løbende overvågning sikrer, at AI-modeller forbliver pålidelige over tid.

Hvis du interesserer dig lidt for AI, er du måske stødt på begrebet guardrails. Direkte oversat er det et autoværn og det er et udtryk for de sikkerhedsforanstaltninger, der indbygges eller bør indbygges i et AI-system. Ligesom indlægssedler, der vedlægges medicin og ansvarsfraskrivelser på forskellige produkter, så er de fleste AI-selskabers første tanke, at de ikke skal blive sagsøgt for de ting, som brugerne anvender deres systemer til. Men der er selvfølgelig også større moralske og etiske spørgsmål på spil, når producenterne træner AI-modeller.

Derfor har store sprogmodeller som fx ChatGPT indbygget sikkerhedsforanstaltninger, der gør at den ikke bare fortæller dig, hvordan du bygger en bombe eller producerer billeder eller tekst, der er beskyttet af lovgivning om ophavsret.

De fleste tech giganter og AI-virksomheder generelt går ind for, at der en eller anden form for sikkerhedsforanstaltninger i deres systemer og lovgiverne i forskellige lande indfører i varierende grad regulering, der kræver sikkerhedsforanstaltninger.

Sprogmodellen Grok2, som XAI og det sociale medie X står bag er et eksempel på en model, der tilsyneladende ikke har de store sikkerhedsforanstaltninger indbygget ud fra en filosofi om, at brugerne skal have fuld mulighed for at udnytte systemet til hvad de vil. Det opfatter man som ytringsfrihed.

Men hvad er det for sikkerhedsforanstaltninger, som de fleste producenter indbygger i dag? Hvordan møder vi det som brugere af systemerne og hvad er argumenterne for og imod flere eller færre sikkerhedsforanstaltninger?

Hvorfor skal man have autoværn?

Når vi kører bil, kan det være praktisk med regler, der gør, at vi ikke støder ind i hinanden hele tiden. Altså vi er enige om, at vi kører i højre side af vejen (eller i hvert fald i i den samme side af vejen). Det kan også være rart, at der er foranstaltninger der gør, at man ikke kører af vejen alt for let. På samme måde kan det vær en god ide at indbygge sikkerhedsforanstaltninger i AI-systemer.

Sikkerhedsforanstaltningerne skal sikre, at AI-systemer opfører sig pålideligt, etisk og i overensstemmelse med samfundets værdier. Der kan være tale om teknologiske, procesrelaterede eller organisatoriske sikkerhedsforanstaltninger, der anvendes på forskellige stadier i en AI-models livscyklus fra udvikling til implementering og drift.

AI-systemer, især dem, der anvendes i kritiske sektorer som sundhed, transport og finans, har potentialet til at forårsage betydelig skade, hvis de fejler. Ved at implementere flere sikkerhedsforanstaltninger kan man minimere risikoen for utilsigtede konsekvenser som f.eks. algoritmiske fejl, bias eller misbrug.

Med flere sikkerhedsforanstaltninger, især dem, der fokuserer på forklarlighed (Explainable AI), kan det blive lettere at forstå, hvordan AI-modeller træffer beslutninger. Dette øger ansvarligheden, især i sektorer hvor beslutninger har stor indflydelse på menneskers liv.

Flere sikkerhedsforanstaltninger kan gøre AI-systemer mere modstandsdygtige over for ondsindede angreb, såsom adversarial inputs, hvor data bevidst manipuleres for at narre AI-modellen.

Sikkerhedsforanstaltninger i AI

Hvad er det så for konkrete sikkerhedsforanstaltninger, man kan bygge ind i sin model? En af de største udfordringer med de fleste AI-modeller er bias. De fleste dataset indeholder bias på den ene eller anden måde. Mangler eller skævheder i træningsdata introducerer fejlkilder til løsninger eller svar modellerne kommer med.

Derfor arbejder udviklere med det man kalder bias mitigation eller bias udbedring. Omhyggeligt udvælgelse af repræsentative datasæt, som sikrer, at forskellige grupper er passende repræsenteret. En måde at gøre det på er, at indføre fairness contstraints (begrænsninger). Det er matematiske regler eller begrænsninger, der indbygges i en maskinlæringsmodel for at kontrollere, hvordan modellen forskellige grupper af individer, så den ikke favoriserer bestemte grupper i sine svar eller løsninger.

En anden måde er post-hoc justeringer. Det er justeringer, som udviklerne foretager efter træningen, hvis man opdager bias i modellen.

For at sikre, at AI-modeller kan forstås og overvåges, skal de være transparente og forklarlige. Dette betyder, at beslutningsprocesserne i modellen skal kunne følges og forklares for ikke-tekniske brugere. Indenfor Explainable AI (forklarbar AI) skelner man mellem to typer teknikker: de model specifikke metoder og model-agnostiske (eller generelle) teknikker. Alle teknikkerne forsøger at anskueliggøre og forklare forudsætninger for og elementer i beslutningsprocessen.

AI-systemer skal være robuste over for fejl og angreb, såsom manipulerede inputs (adversarial attacks). Derfor træner man bevidst modeller på manipulerede data, så de får lettere ved at opdage, hvis den bliver forsøgt manipuleret. Det kaldes også for adverserial training. Samtidigt trænes systemerne til at opføre sig pålideligt og sikkert under forskellige forhold. Det gør man gennem at verificere robustheden, men også gennem simulations-, stress- og edge-case tests.

Efter at en AI-model er implementeret, er det vigtigt at have mekanismer for løbende overvågning og opdatering. Dette sikrer, at modellen fortsat opfører sig på en ønskværdig måde, selv når omgivelserne ændrer sig. Derfor opsætter man monitoreringssystmer, der automatisk overvåger og rapporterer uregelmæssigheder i modellens beslutninger. Og så selvfølgelig det, man kalder Human-in-the-loop. Det betyder bare, at der skal mennesker ind over og vurdere beslutningsprocessen, især i kritiske situationer.

Ved hjælp af differential privacy sikrer man, at individuelle datapunkter i et datasæt ikke kan identificeres og man sikrer at flere udviklere kan samarbejde om træningen af modellen uden at de har tilgang til hinandens data. Det er en afgørende del af træningen, fordi de fleste modeller indeholder store mængder personfølsomme data.

Hvor møder du sikkerhedsforanstaltningerne?

Når du bruger et AI-system, støder du på sikkerhedsforanstaltningerne eller konsekvenser af dem på flere forskellige niveauer. Positivt kan du opleve øget sikkerhed, forklarlighed og databeskyttelse, hvilket er med til at styrke din tillid til systemet. Negativt kan du opleve forsinkelser, reduceret frihed, kompleksitet og kontroltab, hvilket kan føre til frustration og modvilje.

Et eksempel er automatiserede beslutningssystemer. Det kan fx være i forbindelse med låneansøgninger. Hvis systemet er velafbalanceret og har implementeret fairness constraints, vil du opleve, at beslutningen er retfærdig og ikke diskriminerer på baggrund af køn, race eller andre faktorer. Dette kan også betyde, at du får en forklaring på, hvorfor lånet blev godkendt eller afvist. Du får en mere retfærdig behandling, men beslutningsprocessen kan tage lidt længere tid på grund af de ekstra valideringer og fairness checks.

Et andet eksempel kan være, når du bruger en stemmeassitent til at stille spørgsmål eller udføre opgaver. Sikkerhedsforanstaltninger kan manifestere sig som begrænsninger på, hvad assistenten kan svare på eller gøre. For eksempel kan assistenten undlade at svare på spørgsmål, der kunne udgøre en sikkerhedsrisiko, eller den kan spørge om bekræftelse, før den udfører visse handlinger, som at sende en besked eller udføre en bankoverførsel. Du kan på den måde føle dig sikker på, at assistenten ikke utilsigtet gør noget skadeligt eller upassende, men du kan opleve det som frustrerende, hvis du skal bekræfte hver enkelt handling.

Hvis du skulle være så heldig at komme i nærheden af en selvkørende bil eller et køretøj med avanceret førerassistance, vil også både forvente og opleve, at sikkerhedsforanstaltningerne har en indflydelse på din oplevelse. Sikkerhedsforanstaltninger som formel verifikation og simuleringstests betyder, at bilen tager ekstra forholdsregler under kørsel. Dette kan omfatte, at bilen sætter farten ned eller bremser i situationer, hvor den er usikker på, hvordan den skal reagere, f.eks. ved dårlige vejrforhold eller komplekse trafiksituationer. Du vil derfor forhåbentligt opleve din køretur er sikrere, men det kan resultere i en mere forsigtig og måske langsommere køreoplevelse. Dette kan til tider være irriterende, hvis bilen handler for forsigtigt i situationer, hvor du ville føle dig tryg ved at fortsætte.

Også på online platforme som fx sociale medier, vil du komme i berøring med indbyggede sikkerhedsforanstaltninger, når du poster indhold eller interagerer med andre på sociale medier. Sikkerhedsforanstaltninger som content filtrering og bias-detektion kan blokere eller moderere indhold, der anses for stødende, vildledende eller skadeligt. Hvis du forsøger at poste noget, der falder ind under disse kategorier, kan indlægget blive markeret, eller du kan modtage en besked om, at det ikke er tilladt. Det beskytter fællesskabet mod skadeligt indhold, men kan også føles som censur, hvis du mener, at indholdet er blevet forkert bedømt.

Beskyttelse af brugerne eller begrænsning af ytringsfrihed og innovation

Som i alle sikkerhedsspørgsmål er der tale om en balancegang. Hvornår bliver sikkerhedsforanstaltningerne for strammende i forhold til, hvad de skal beskytte brugeren imod?

Som jeg allerede har været inde på, så kan sikkerhedsforanstaltninger resultere i, at du oplever en forsinket eller begrænset funktionalitet af AI-systemet. Sikkerhedsforanstaltninger kan gøre, at AI-systemet bruger mere tid på at validere og analysere data, hvilket kan føre til forsinkede responstider. Brugere kan opleve dette som en negativ forsinkelse, især i tidssensitive applikationer.

Foranstaltninger som human-in-the-loop (HITL) kan introducere flere trin i brugeroplevelsen, hvilket kan opfattes som unødvendigt besværligt eller for komplekst. Brugerne kan finde det frustrerende, hvis de skal gennemgå flere niveauer af validering eller godkendelse for at udføre simple opgaver.

Sikkerhedsforanstaltninger, der indebærer overvågning eller restriktioner, kan føre til, at brugerne føler, at de mister kontrol over deres interaktioner med AI-systemet. Dette kan skabe en følelse af utilfredshed eller mistillid.

Brugernes interaktion med sikkerhedsforanstaltninger i AI-systemer kan variere betydeligt afhængigt af, hvordan disse foranstaltninger er implementeret. Positivt kan de opleve øget sikkerhed, forklarlighed og databeskyttelse, hvilket styrker tilliden til systemet. Negativt kan de opleve forsinkelser, reduceret frihed, kompleksitet og kontroltab, hvilket kan føre til frustration og modvilje mod at bruge systemet. Balancen mellem effektivitet og sikkerhed er derfor kritisk for at sikre en positiv brugeroplevelse.

På et mere overordnet plan kan krav til sikkerhedsforanstaltninger i lovgivning eller branchestandarder opleves som besværlige og begrænsende for virksomhederne, der udvikler systemerne.

Mange særligt mindre virksomheder føler, at EU’s AI forordning og øvrig digital lovgivning stiller så store krav til overholdelse, at de skal bruge uhensigtsmæssigt mange midler på juridisk rådgivning for at overholde reglerne. Dermed føler flere, at reguleringen lægger en dæmper på innovationen hos de berørte virksomheder.