Machine Learning

RLHF: Mennesket i maskinen


Journalist

   Læsetid 3 minutter
Array

Hallucinationer og forkerte oplysninger er en af de store udfordringer i de store sprogmodeller, som ChatGPT, BART og BING. Som regel skyldes det, at modellerne er sandsynligheds beregnere og derfor giver dig det mest sandsynlige svar fremfor det mest korrekte svar. Men der er andre faktorer i ligningen og en af faktorerne er mennesker.

Selvom særligt sprogmodellerne gennem det sidste lille års tid har imponeret med deres evner og potentiale, så er mennesker stadigt en del af maskinlærings processen ikke mindst i løbet af træningsprocessen. I en tidligere artikel her på AI-Portalen, fortalte vi om politiske præferencer i de store sprogmodeller. En af faktorerne, der introducerer usikkerhed i sprogmodellernes output, er RLHF.

Hvad er RLHF

Re­in­for­ce­ment lear­ning with hu­man fe­ed­ba­ck” (RLHF) er grundlæggende en del af tuningen af sprogmodeller. Udover hvad de lærer ud fra den data, de er trænet på, så bliver deres svar også bedømt af menneskelige bedømmere. 

Faktaboks:
Reinforcement Learning
Reinforcement learning er en af de tre grundlæggende læringsformer indenfor maskinlæring altså den måde, som fx store sprogmodeller trænes: Reinforcement learning (forstærkningslæring), Supervised learning (overvåget læring) og unsupervised learning (uovervåget læring).
 
Indenfor reinforcement learning bliver modellen belønnet med en positiv værdi, når den kommer med det output eller svar vi ønsker og en negativ værdi, når den kommer med et forkert svar.
 
Ved supervised learning bliver modellen trænet med eksempler på rigtige svar, mens den ved unsupervised learning selv får lov til at eksperimentere sig frem.

De menneskelige feedbacks indgår i konstruktionen af ”belønningsmodellen”, som bruges ved supervised learning (se faktabox). 

RLHF er en måde at sikre, at modellerne ”forstår” og underordner sig menneskelige prioriteringer. 

Det menneskelige element

RLHF har vist sig at være en effektiv træningsmetode, men det menneskelige element introducerer også et uforudsigeligt element i trænings-processen. Det menneskelige input består blandt andet af subjektive mål og interesser og det kan føre til mangel på sammenhæng og uklarheder i modellerne.

En ny undersøgelse kortlægger de udfordringer, som modeller trænet med RLHF står overfor. Det er udfordringer som hallucinationer og bias. Undersøgelsen ser på, hvordan man kan undgå eller imødegå udfordringerne. De skelner mellem problemer, der kan løses indenfor RLHF-metoden og udfordringer, der skal løses på en anden måde.

En udfordring er at vælge et repræsentativt udsnit af befolkningen til at komme med feedback. En anden er, at mennesker falder i en række kognitive fælder, som træthed, opmærksomhedssvigt, falske minder og almindelige misforståelse. Alt det påvirker den feedback de giver og dermed modellen i sig selv.

Gennemsigtighed og overvågning

Forskerne foreslår dels at man justerer hvordan mennesker indgår i træningsforløbet og overvåger potentielle problemer, som et resultat af RLHF-processen. Men lige så vigtigt er åbenhed omkring, hvem der udvælges til at give det menneskelige feedback. 

60 views