ChatGPT klarer sig godt på dansk, men sproglige nuancer går tabt
ChatGPT har imponeret med sin evne til forstå og producere danske tekster. Men der er stadig et stykke vej, før den kan håndtere fx flertydige ord og overført sprog korrekt, konkluderer sprogforskere i nyt studie. Et af problemerne er, at ChatGPT og andre chatbotter ikke bliver trænet tilstrækkeligt med danske tekster.
Store sprogmodeller som ChatGPT er ved at vinde indpas i mange dele af det danske samfund, og det bliver en afgørende kompetence i videnssamfundet at kunne bruge dem. Men kan vi stole på, at de fungerer lige så godt på dansk som på engelsk?
Det undersøger sprogforskere fra Københavns Universitet og Det Danske Sprog- og Litteraturselskab i et fælles projekt. Med udgangspunkt i data fra særligt Den Danske Ordbog og Den Danske Begrebsordbog laver de store automatiserede sprogtests, som de kan bruge til at evaluere alle danske sprogmodeller med.
I artiklen ”Evaluering af sprogforståelsen i danske sprogmodeller – med udgangspunkt i semantiske ordbøger”, som netop er udkommet i tidsskriftet Nydanske Sprogstudier, har de sat to versioner af ChatGPT, 3.5 og 4.0, til at forholde sig til syv forskellige sprogforståelsesopgaver. Forskerne har blandt andet testet deres evne til at skelne mellem positive og negative betydninger af ord og sætninger samt beslægtede og flertydige ord.
- Begge versioner af ChatGPT klarer sig relativt godt, og især ChatGPT 4.0 imponerer os. Når vi beder dem om at forholde sig til logiske følgesætninger eller synonyme ord er de fantastisk gode, hvilket hænger sammen med den måde, som sprogmodellerne er konstrueret på. Men så snart opgaverne bliver mere abstrakte - fx som at forstå, hvad udsagnsord, der betegner følelser, præcis betyder - kan vi se, at der stadig er et stykke vej, siger professor Bolette Sandford Petersen fra Københavns Universitet.
Redaktør Nathalie Hau Sørensen fra Det Danske Sprog- og Litteraturselskab, som er medforfatter til forskningsartiklen, uddyber:
- I en af opgaverne beder vi chatbotterne om at bestemme, hvad et ord, der kan have flere betydninger, betyder i to konkrete eksempler: Bruges ordet kost fx i betydningen ’mad’ eller i den overførte betydning ’noget, man oplever’ i sætningen skældud var daglig kost i hans barndomshjem? Den type flertydighed har ChatGPT generelt svært ved at afkode.
Dansk med engelsk bias
Et af problemerne er ifølge forskerne, at chatbotter som ChatGPT bliver trænet ved at tygge sig gennem store mængder af tekst fra især engelske kilder, og at chatbotten derefter primært oversætter til dansk i stedet for at basere sin viden på danske tekster. Den proces øger risikoen for fejl og såkaldt bias i sprogmodellen, hvilket blandt andet betyder, at systemet ofte ikke kan genkende særlig dansk sprogbrug - som når kost bliver brugt om andet end mad.
- Nu hvor vi har fået dokumenteret, at det godt kan lade sig gøre at evaluere sprogmodellerne semiautomatisk og med brug af blandt andet Den Danske Ordbog og Den Danske Begrebsordbog, vil vi gerne udvide testene, så de også omfatter mere abstrakt og metaforisk sprogbrug. Det er nemlig her, vi mener, at der er størst risiko for, at de engelske kilder slår igennem og bliver til upræcist eller forvrøvlet sprog, fortæller Bolette Sandford Pedersen og fortsætter:
- Et godt eksempel er ordet mursten, som på dansk kan bruges i overført betydning om en meget tyk bog. Den betydning bruges ikke almindeligvis på engelsk – man kalder ikke en tyk bog en brick – og derfor har ChatGPT heller ikke kunnet forstå den danske brug af det. Den type af sprog er selvfølgelig ret avanceret, men det er ikke desto mindre vigtigt, at sprogmodellerne også kan håndtere overført sprog på andre sprog end engelsk, også fordi det rent faktisk udgør en ikke uvæsentlig del af vores sprogbrug.
At sprogmodellerne kommer til at fungere godt på andre sprog end engelsk er selvsagt også vigtigt i EU-regi, hvor chatbotter som ChatGPT også vinder indpas i medlemslandene i større og større omfang, fortæller Bolette Sandford Pedersen:
- Der er derfor stor interesse i at få etableret fælles standarder for sproglig evaluering af dem, fordi der i øjeblikket ganske enkelt ikke er nogen, der evaluerer på helt på samme måde, og derfor bliver testene heller ikke helt sammenlignelige. Har polakkerne eller franskmændene nogle bedre modeller end os? Vi ved det faktisk ikke helt præcist. Det er et metodisk udviklingsarbejde, som vi danske forskere håber på at kunne bidrage til i fremtiden, sådan at vi bl.a. sikrer, at ikke også de test, vi laver af modellerne, arver bias fra engelsk – ved fx at være oversat.
Om undersøgelsen
Formålet med forskernes arbejde er at lave et benchmark, som man kan evaluere alle danske sprogmodeller med i fremtiden.
Med udgangspunkt i danske betydningsordbøger har de genereret syv sprogforståelsesopgaver, som sprogmodellerne, i dette tilfælde ChatGPT 3.5 og 4.0, bliver sat til at løse helt automatisk – fx synonyme, beslægtede og flertydige ord.
Denne måde at evaluere på har vist sig at fungere godt, og forskerne vil arbejde videre med automatiserede evalueringer blandt andet inden for metaforiske og overført sprog.
Forskningen støttes af Carlsbergfondet.
Kontakter
Professor Bolette Sandford Pedersen
Center for Sprogteknologi
Københavns Universitet
Mail: bspedersen@hum.ku.dk
Telefon: 35 32 90 78
Redaktør Nathalie Hau Sørensen
Det Danske Sprog- og Litteraturselskab
Mail: nats@dsl.dk
Telefon: 33 13 06 60
Pressemedarbejder Carsten Munk Hansen
Det Humanistiske Fakultet
Mail: carstenhansen@hum.ku.dk
Telefon: 28 75 80 23
Følg pressemeddelelser fra Københavns Universitet - Det Humanistiske Fakultet
Skriv dig op her, og modtag pressemeddelelser på e-mail. Indtast din e-mail, klik på abonner, og følg instruktionerne i den udsendte e-mail.
Flere pressemeddelelser fra Københavns Universitet - Det Humanistiske Fakultet
Unge investerer i risikable finansielle produkter - og det begynder med computerspil18.11.2024 14:21:13 CET | Pressemeddelelse
For børn og unge – og især drenge og unge mænd – er finansielle investeringer blevet en del af hverdagen. Igennem computerspil og på sociale medier bliver unge eksponeret for gamblingmekanismer, højrisikable investeringer og svindel, viser ny forskning. Det er en side af de unges online liv, som er underbelyst og fuldstændig ureguleret. Den 22. november har medieforskere fra Københavns Universitet derfor inviteret skatteministeren og en række myndigheder, organisationer og fagprofessionelle til en konference for at diskutere problemet og finde mulige løsninger. Her vil forskerne også præsentere den nyeste viden på området.
TV 2's og DR's streamingplatforme går under politikernes radar14.11.2024 10:18:27 CET | Pressemeddelelse
Selv om en stor del af danskernes medieforbrug i dag foregår på streamingplatforme, interesserer politikerne og medierne sig ikke for, hvilket indhold DR og TV 2 prioriterer på deres streamingkanaler. Det siger medieforsker Mads Møller Tommerup Andersen, som i to nye forskningsartikler viser, at DRTV og TV 2 Play satser på reality og ikke altid prioriterer nyhedsstof.
Vores opmærksomhed er ikke ødelagt – den virker næsten for godt7.11.2024 12:37:02 CET | Pressemeddelelse
Mobiltelefonen får ofte skylden for at drukne os i information og stjæle vores opmærksomhed. Men det er snarere vores indre belønningssystem, som telefonen og techfirmaerne udnytter, viser ny forskning fra Københavns Universitet.
Privatøkonomien betyder mere end klimaet, når vi taler om madspild26.9.2024 10:26:02 CEST | Pressemeddelelse
Et flertal af danskerne siger, at de er enige i, at det er vigtigt at reducere madspild for at beskytte klimaet. Men noget tyder på, at det ofte er pengepungen, der bestemmer, når det kommer til stykket. Det er en af konklusionerne i en ny stor undersøgelse af danskernes holdninger til madspild, som forskere fra Københavns Universitet står bag.
Personer uden indre stemme har dårligere sproglig hukommelse14.5.2024 09:42:59 CEST | Pressemeddelelse
Langt de fleste mennesker har en løbende samtale med sig selv, en indre stemme, som spiller en stor rolle i deres daglige liv. Men mellem 5-10 procent af befolkningen har ikke samme oplevelse af en indre stemme, og de har sværere ved at løse bestemte sproglige opgaver, viser ny forskning.
I vores nyhedsrum kan du læse alle vores pressemeddelelser, tilgå materiale i form af billeder og dokumenter samt finde vores kontaktoplysninger.
Besøg vores nyhedsrum