Nyheder

En mere eftertænksom ChatGPT


[post_RT]

TL;DR: fire hovedpointer

  • ChatGPT o1-modellerne har avancerede ræsonneringsevner og klarer sig godt i komplekse opgaver som matematik og naturvidenskab.
  • Modellerne mangler funktioner som internetadgang, fil-upload og billedgenerering, hvilket begrænser deres praktiske anvendelse sammenlignet med tidligere versioner.
  • Omkostningerne ved at bruge o1 er betydeligt højere, hvilket gør dem mindre egnede til daglig brug for almindelige opgaver.
  • For specialiserede brugere som forskere og udviklere kan o1 være en værdifuld investering, mens GPT-4o forbliver et mere omkostningseffektivt valg til hverdagsbrug.

Efter måneder med rygter kom OpenAI’s første to modeller i en serie af modeller, der er gået under navnet Strawberry. ”o1 preview” og ”o1 mini” hedder modellerne, der i sidste uge er blevet tilgængelige for betalende brugere af ChatGPT. Modellerne er blevet udråbt til at have avancerede ræsonneringsevner og gik kort tid under navnet ”Q*” (Q-Star) og vakte bekymring om OpenAI var på vej til at udvikle AGI (Artificial General Intelligence).

Nu har vi så få syn for sagen og generelt har reaktionerne været positive, men modellerne har deres begrænsninger.

Nyskabelser:

  • Avancerede ræsonneringsevner
  • Specialiseret problemløsning
  • Forbedret sikkerhed og robusthed

På den negative side finder vi, at modellerne har:

  • Manglende funktioner
  • Højere omkostninger

Den positive side

Først og fremmest har OpenAI har fremhævet o1 og o1-minis avancerede evner til at ræsonnere. Og man mærker straks, når man bruger særligt o1, at svartiden varierer en del mere end ved brug af 4o for eksempel. Undervejs (eller bagefter) kan man over svaret folde en sektion ud, hvor man kan få et indblik i modellens ræsonnering frem mod svaret.

Et billede, der indeholder tekst, skærmbillede, menu, dokument

Automatisk genereret beskrivelse
Illustration: Mark Sinclair Fleeton/ChatGPT o1 preview

Det er vel en form for ræsonnering, der er tale om her, men det er ikke selvstændig ræsonnering, forstået på den måde, at den ikke går ind i denne tankerække på eget initiativ. 

Man kan ikke tale om, at ChatGPT o1-modellen har egentlig eftertanke i en menneskelig forstand. Modellen udviser avancerede ræsonneringsevner og er i stand til at levere mere komplekse og nuancerede svar, især når den får længere tid til at bearbejde information. Dette giver illusionen af “eftertanke”, men det er vigtigt at forstå, at modellen stadig arbejder baseret på mønstergenkendelse og statistiske sandsynligheder fra dens træningsdata.

Dette kan virke som eftertanke, men det er snarere en funktion af modellens avancerede evne til at bearbejde information på baggrund af prædefinerede algoritmer og træningsdata. Modellen går ikke ind i en refleksiv tankegang på eget initiativ, som et menneske ville gøre. I stedet er dens ræsonnering styret af den input, den modtager, og de mønstre, den har lært at følge.Eftertanke indebærer bevidsthed og selvrefleksion, hvilket AI-modeller som ChatGPT o1 ikke har. De arbejder stadig inden for rammerne af maskinlærte mønstre og regler, og deres handlinger er begrænsede til de kommandoer, de får. Selvom o1-modellen kan simulere en form for tænkning og ræsonnering, er den ikke autonom i sin refleksion eller beslutningstagning.

OpenAI mener selv, at modellen er mere sikker en tidligere modeller. Ifølge OpenAI selv er modellen sværere at jailbreake og der er mindre sandsynlighed for at komme med biased eller diskriminerende svar.

Men øget selvstændighed indebærer samtidigt yderlige risici. Direktøren for AI virksomheden Cognition, Scott Wu, havde tidlig adgang til at teste systemets kode assistent, kaldet Devin. Undervejs bad han den at skabe et system til at analysere bagvedliggende mening af opslag på sociale medier ved hjælp af standard maskinlæring. Da Devin ikke kunne læse opslagene korrekt via browseren brugte den o1 til at læse indholdet direkte gennem den sociale medievirksomheds API. Vel at mærke uden at Wu havde bedt den om det

Ikke desto mindre oplyser OpenAI, at o1 modellen fik 83% i kvalifikationseksamenen til den Internationale Matematiske Olympiade. Samtidigt oplyser OpenAI at modellerne performer på niveau med PhD studerende, når det gælder opgaver indenfor fysik, kemi og biologi.

Den negative side

På den mere negative side, så er der en række funktioner, som modellerne mangler i forhold til deres forgænger 4o. Først og fremmest kan de ikke tilgå internettet. Det vil sige, at modellerne kun har adgang til deres træningsdata lidt ligesom ChatGPT’s tidliige dage. Det er heller ikke muligt at oploade billeder eller filer til modellerne ligesom modellerne ikke har adgang til at genere billeder gennem Dall-E modellen.

Mere alvorligt for de fleste brugere er nok, at brugen af modellerne er forbundet med højere omkostninger. De højere omkostninger ved at køre ChatGPT o1 skyldes flere faktorer, der påvirker både brugere og udviklere. Denne model kræver betydeligt mere computerkraft end tidligere versioner som GPT-4, hvilket gør den dyrere i drift. Ifølge flere kilder er o1-modellen væsentligt dyrere at bruge, især i forhold til opgaver, der involverer komplekse beregninger og langvarige problemstillinger.

Det betyder for det første begrænsninger i brugen af modellen. I den nuværende preview-fase får brugere af o1-preview modellen kun 30 beskeder om ugen, og o1-mini brugere får 50 beskeder om ugen. Det kan være en alvorlig begrænsning for brugere, der har brug for intensiv brug af modellen til komplekse opgaver. Til dagligdags opgaver kan omkostningerne ved brugen af o1 derfor virke uoverkommelige, især hvis man har behov for en højere mængde interaktioner.

For virksomheder og forskere, der har behov for modellens overlegne præstation inden for områder som videnskab, matematik og kodning, kan det være en investering værd. Dog skal de afveje, om den øgede pris giver den nødvendige værdi i forhold til de specifikke opgaver. For eksempel har o1-modellen vist sig at være særlig nyttig i internationale matematik- og kodningskonkurrencer, men det er ikke sikkert, at denne avancerede ydeevne er nødvendig for mere simple opgaver.

Det forventes, at når o1 bliver bredt tilgængelig, vil det ikke være billigt at bruge den på daglig basis. I forhold til tidligere versioner som GPT-4 kan vi forvente, at de højere driftsomkostninger vil blive afspejlet i abonnementer eller beskedbegrænsninger, der kan variere afhængigt af brugerens behov.

Sammenfattende betyder de højere omkostninger for brugerne, at o1 vil være mest relevant for dem, der har behov for dens avancerede funktioner og kan retfærdiggøre omkostningen i forhold til dens ydeevne. For daglig brug eller mindre komplekse opgaver kan GPT-4 fortsat være et mere omkostningseffektivt valg.

0 notes
17 views

Write a comment...

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *