Baggrund

De store sprogmodeller står ved en skillevej

2023/08/29 at 8:00 am Mark Sinclair Fleeton2023/08/29

Mark Sinclair Fleeton

Journalist

Læsetid 7 minutter

Array

Tre vigtige pointer:

Virksomheder som Meta bryder lovgivningen om ophavsret, fordi de bruger bøger og andet materiale omfattet af opretshavsloven i deres træningssæt til deres store sprogmodeller.
Det kan gå hen og koste dem dyrt, fordi kunstnere og medier nu lukker ned for adgangen til deres værker.
Alle afventer resultatet af retssager på området, men løsninger er begyndt at komme på bordet.

Vi lever i de store sprogmodellers tid. På få måneder er ChatGPT, BARD, BERT, Bing AI osv. blevet en naturlig del af vores sprogbrug og for nogens vedkommende en del af deres hverdag. Potentialet er sprogmodellerne og i generativ AI i det hele taget er stort. Teknologien vil formodentligt føre store ændringer af vores hverdag og samfund med sig.

Modellerne trænes ved at fodre dem med store mængder data, for grundlæggende at lære dem at forstå sammenhængende i sproget – altså forstå hvad vi siger til den (eller i hvert genkende det og tolke en mening i det). Til gengæld har modellerne vist sig i stand til alt fra at skrive artikler, styre kalendere, planlægge virksomhedens events og meget mere.

Ulovlige data

Men lige præcis den store appetit på data er måske også modellernes akilleshæl, for hvad er det egentligt for data, som den fortærer i så store mængder? Det vi ved er, at det er data fra internettet, altså offentligt tilgængelige kilder. På det seneste har flere kunstnere hævdet, at modellerne er trænet på deres bøger i strid med reglerne om copyright.

For nyligt er det lykkedes en freelance journalist at få fat i et datasæt, der blev brugt af Meta til at træne deres LLaMA-model (en ChatGPT lignende transformer-model) og ganske rigtigt, skriver han i en artikel for magasinet The Atlantic, fandt han flere bøger, der var ulovligt kopieret til datasættet. Faktisk fandt Alex Reisner op mod 170.000 bøger fra de sidste 20 år i datasættet.

Bøgerne er en del af et populært træningsdatasæt kaldet Books3, der også er brugt til træning af Bloombergs Bloomberg GPT, AleutherAI’s GPT-J, der er open source GPT-model, og formodentligt flere andre lignende modeller.

Sagsanlæg og blokeringer

I starten af juli måned 2023 lagde den amerikanske komiker Sara Silverman, sammen med to kolleger, sag an mod OpenAI, de står bag ChatGPT og Meta, firmaet bag Facebook og sprogmodellen LLAMA. På baggrund af et research paper fra Meta, mente de tre kunstnere at kunne dokumenter den ulovlige brug af deres bøger i træningen af LLaMA og andre sprogmodeller. The Atlantic-artiklen har nu bekræftet deres formodninger.

Først i august måned tog avisen The Times konsekvensen af deres formodninger og opdaterede deres betingelser, så de ikke længere tillod brugen af deres data i træningssæt. Og midt i august fulgte New York Times så trop og opdaterede deres betingelser på samme måde. På samme måde har Elon Musk stoppet for brugen af data fra hans platform X (tidligere kendt som Twitter) med den begrundelse, at de ikke betalte nok.

Løbet er formodentlig kørt i forhold til de data, der allerede er brugt. Det vil simpelthen være for kompliceret at pille dataene ud af modellerne igen, men der er stadigt et slag, der skal slås om fremtidig brug af materialer, der er omfattet af reglerne om ophavsret.

I al stilfærdighed lagde OpenAI kort efter oplysninger ud på deres hjemmeside, der oplyser om, hvordan man blokerer firmaets GPTBot fra at scrape oplysninger fra ens site ved at tilføje et lille stykke kode til hjemmesidens robot.txt-fil.

Musikbranchen kan være et forbillede

Virksomhedernes lemfældige omgang med ophavsretsreglerne synes at bunde i en længere varende uenighed mellem udgivere og tech-virksomheder om adgangen til deres materialer. Tech-virksomhederne har ofte den holdning, at der skal være fri adgang til udgivernes materialer. Ironisk nok lagde forsøgte Meta, at få nedlagt, det der svarer til et fogedforbud i Danmark, da deres LLaMA-model blev lækket tidligere på året.

Tech-virksomhedernes begrundelse for brug af datasættene er, at de mener, at det falder ind under reglerne om fair use. Men selv hvis domstolene anerkender at det er tilfældet, så løser det ikke virksomhedernes problem med kunstnerne og medierne.

En løsning er, at værkerne omfattes af en licens-ordning, hvor virksomhederne skal betale for brugen af dataene i deres datasæt. To af bagmændene bag ”Fair use-argumentet”, juristerne Bryan Casey og Mark Lemley udtalte dog til online-mediet The Verge, at omkostningerne ville knække udviklerne af de generative AI-modeller fordi datasættene er så omfattende. Andre mener dog, at man skal gøre ligesom musikbranchen, hvor parterne fandt en licens-ordning, der mere eller mindre stoppede fil-delings tjenesternes ulovlige deling af musik.

En anden løsning kunne være, at udviklerne skaber databaser, hvor der simpelthen ikke er mulighed for at krænke andres opretshavsret enten på baggrund af en licens-ordning eller fordi dataene er specifikt skabt til træning af AI-modellerne. Der eksisterer allerede sådan en database, kaldet The Stack, der er udviklet bla. i samarbejde med Hugging Face (som man kunne kalde et online bibliotek for open source AI-modeller og træningssæt). Databasen er bygget til kun at indeholde materialer med open-source-licens og udviklerne tilbyder, at data nemt kan fjernes fra datasættet, hvis man ønsker det.

Uklar fremtid

En del af problematikken er, at ingen i virkeligheden har overblik over reglerne på området og alle afventer i eller andet omfang afgørelsen af verserende retssager. Under alle omstændigheder bliver virksomhederne nok tvunget til at skabe større synlighed omkring deres produkter og deres uendelige appetit på data betyder, at der formodentligt er et endnu større slag om ophavsret undervejs. Der er store penge på spil for virksomhederne bag AI-modellerne og fristelsen til at gå efter beskyttet materiale kan blive for stor for nogen med potentielt store konsekvenser for de virksomheder.

De store sprogmodeller og virksomhederne bag dem står ved en skillevej, men de store økonomiske interesser betyder også, at interessen for at finde løsninger, der er til alle involverede parters fordel er stor. Ligesom i musikbranchen bør alle parter være stærkt motiverede til at finde løsninger og modellerne er allerede begyndt at skyde op ved egen kraft og det kan vel tolkes som et godt tegn på en lys fremtid for både kunstnere, medier og store sprogmodeller.

Læs også:

OpenAI skærper sikkerheden op til valg

Tendenser indenfor Machine Learning i 2023

Over halvdelen af de studerende bruger ChatGPT