Tre hovedpointer:
- Det giver mening at træne GPT-modeller på lokale data
- Lokale sprogmodeller kan bevare kultur og folklore og give større markedsinsigt
- Lokale sprogmodeller giver kontrol over lokal infrastruktur og output med større forståelse for lokal kontekst
På få måneder har de store sprogmodeller som GPT4, BERT, LaMDA, Claude og flere andre indtaget verden og vores forestillingsverden. Men modellerne kommer med en række skævheder fordi de er udviklet og trænet i USA af amerikanske virksomheder. Derfor giver det mening at se på at udvikle lokale sprogmodeller i fx Danmark og de andre nordiske lande og udviklingen af lokale modeller er allerede langt og flere er allerede taget i brug. Men giver det mening og hvad er fordele og ulemper ved de lokale sprogmodeller?
Transformere og et amerikansk verdensbillede
Ideen om neurale netværk og Natural Language Processing er langtfra ny. Faktisk blev grundstenene lagt i 1950’erne. Store løfter om kunstig intelligens i form af perceptron-maskinerne, der byggede på simpel enkelt-lags neurale netværk, blev gjort til skamme på grund af manglende computerkraft og langsomheden i sprog behandlingen. I starten af 00’ere dukkede statistiske sprogmodeller op på scenen og i 10’erne fandt man deep learning frem af skuffen igen og med Recurrent Neural Networks (RNNs) og Long Short-Term Memory (LSTM) blev sprog behandlingen mere bevidst om kontekst. Gennembruddet kom dog i 2017, hvor ingeniører fra Google fandt frem til Transformer arkitekturen. Det var denne arkitektur, der for alvor gjorde modellerne i stand til at forstå sammenhængen i vores sprog – Natural Language.
Udover Transformer arkitekturen, så har de store sprogmodeller som fx BERT, GPT-4, Claude, LaMDA og PaLM det til fælles, at de er trænet i USA og derfor på mange måder er præget af amerikanske værdier og et amerikansk verdensbillede og ikke mindst, at modellerne er trænet af private virksomheder.
Lokale sprogmodeller giver mening
Derfor giver det også god mening at opbygge modeller med et mere lokalt træningsgrundlag, så outputtet ikke er bundet op på en amerikansk forretningsmodel og i højere grad afspejler fx de nordiske samfund og et nordisk verdensbillede. Det er dog ikke uden udfordringer at give sig i kast med at træne mere regionale sprogmodeller, som fx en dansk, svensk, norsk eller ligefrem en fællesnordisk sprogmodel. Norden er et relativt lille sprogområde og det kan derfor være en udfordring af finde tilstrækkelig med data til at træne modellen på. De nordiske sprog har en masse dialekter og for nogle nordiske sprog en kompliceret grammatik, der komplicerer træningen.
Samtidigt giver det lille sprogområde også en unik mulighed for at træne specialiserede modeller til specifikke opgaver eller indenfor specifikke sektorer. Indenfor sundhedssektoren vil en lokal sprogmodel være i stand til at forstå regionsspecifikke medicinske termer og dermed kunne fremme dialogen med patienterne. På det juridiske område vil en lokal sprogmodel være langt bedre i stand til at rådgive med en større forståelse for det lokale sprog og lovgivning. Uddannelsesområdet er endnu et område, der kunne have glæde af en lokal sprogmodel, der med en større forståelse af det lokale sprog og og kulturelle normer vil være i stand til at bidrage til og tilpasse undervisningsmateriale.
De nordiske lande er teknologisk meget udviklede og det giver et godt afsæt for at være på forkant med at udvikle ai-modeller. Regionale eller nordiske sprogmodeller kan også være med til at fremme og bevare lokal kultur og historie.
Ælæctra letter sagsbehandlingen
Et eksempel på en lokal sprogmodel er den dansk-udviklede Ælæctra, der er udviklet af Malte Højmark-Bertelsen fra KMD og trænet ud fra træningsmetoden ELECTRA. I modsætning til BERT-modeller, der også er brugt i udviklingen af danske sprogmodeller, kræver Ælæctra mindre ressourcer til træning og processering – BERT-modellerne bruger mindst otte gange flere ressourcer. Det vil sige, at Ælæctra også har et langt mindre klimaaftryk.
I flere af de andre nordiske lande har man udviklet lignende modeller og flere projekter er undervejs. På Norwegian Center for AI Innovation (NorwAI), der hører under det datalogiske fakultet på Norwegian University of Science and Technology (NTNU) har man indledt arbejdet med en norsk sprogmodel. Sven Størmer Thaulow, der er leder af NorwAI, ser primært tre grunde til at udvikle modellen: 1. Den vil være bedre til at tale og forstå norsk, 2. Som en lille nation har Norge brug for at have kontrol med egen infrastruktur. AI har udviklet sig til et globalt, industripolitisk kapløb og det er ikke givent at teknologien vil blive demokratiseret og 3. Modellen bør afspejle norsk kultur og verdensbillede og ikke et amerikansk.
Lokale sprogmodeller bygger broer
I det hele taget kan lokale sprogmodeller være med til at fremme lokal kultur og sprog. Ved at træne sprogmodeller med lokale dialekter og lokal sprog, kan modellerne være med til at bevare sprog, der er i fare for at uddø. De kan også være med til at lette udarbejdelsen af uddannelsesmaterialer på lokale sprog og dialekter og offentlige tjenester og information kan i langt højere grad målrettes lokalbefolkninger med andre sprog og kulturer. Det betyder også, at modeller trænet på lokale sprog og dialekter kan bruges til både at arkivere og bevare lokal historie for fremtidige generationer og de kan hjælpe med til at bygge bro mellem forskellige kulturer.
Udviklingen af regionale sprogmodeller potentielt store gevinster. Konsulentfirmaet McKinsey vurderer, at op mod 40% af de totale arbejdstimer i de nordiske lande kan automatiseres og det bare ved hjælp af allerede eksisterende teknologi. McKinsey anslår, at det kan medføre en værdi på 80 mia. dollars. Lokale sprogmodeller kan være med til at give virksomheder et meget større indblik i lokale og regionale markeder og dermed gøre dem i stand til at målrette deres markedsføring langt mere effektivt og tilpasse deres produkter til lokal kultur, forbrugsmønstre og behov. Dertil skal lægges de yderligere jobs, der bliver skabt ved værditilvæksten for virksomhederne og potentiale for yderligere innovation.
Datamangel og dataeffektivitet
Lokale sprogmodeller rummer således en række fordele, men samtidigt er de ikke uden udfordringer. I og med at der er tale om et mindre sprogområde, så kan det også være svært at skaffe tilstrækkelig data til at træne effektive data ligesom kvaliteten af data kan være mindre i et mindre datagrundlag. Dette kan dog muligvis vejes op af en større større nøjagtighed og dermed større dataeffektivitet i lokale sprogmodeller.
Samtidigt med at lokale sprogmodeller kan modvirke bias i de amerikansk udviklede modeller, så er der også en vis risiko for at de vil indkapsle og forstærk kulturelle og sociale fordomme. Lokale sprogmodeller løser heller ikke sig udfordringer omkring databeskyttelse – der vil blot være tale om lokale data, der skal sikres.
Udvikling af og vedligeholdelse af store sprogmodeller kan være dyrt og et begrænset marked kan betyder at potentielle investorer i lokale modeller ser begrænset mulighed for gevinst ved at investere i udviklingen ligesom konkurrencen med store etablerede modeller kan begrænse den økonomiske succes og skalerbarheden af et projekt.
Danske og nordiske sprogmodeller giver mening
Det kan se sort ud, når man ser på udfordringerne for lokale sprogmodeller, men overordnet må man bare konstatere, at interessen for at udvikle sprogmodeller i alle de nordiske lande er høj og udfordringerne synes ikke at have spændt ben for udviklingen. Tværtimod så arbejder bla. Aarhus Universitets Center for Language Generation and AI (CLAI) på at udvikle en dansk model bygget på Transformer arkitekturen ligesom AISweden og forskningsinstituttet Rise og det føromtalte NorwAI-projekt arbejder på lignende modeller.
Fordelene ved lokale sprogmodeller er indlysende, når man tænker efter både i form af bevarelse af lokal sprog og historie, bedre lokale markedsindsigter og bedre og mere nøjagtige resultater og data. Samtidigt vil udviklingen af danske og nordiske sprogmodeller være med til at skabe nye jobmuligheder og fremme den lokale ekspertise på AI-området og dermed kunne trække flere kapaciteter på området til Danmark og de øvrige nordiske lande.
Samtidigt giver det en langt større kontrol med vores egen infrastruktur på området og gør os mindre afhængige af store amerikanske eller multinationale virksomheder. Og så har modeller som Ælæctra også været med til at vise, at lokale sprogmodeller kan være langt mindre klimabelastende.