375 timers indtaling af danske dialekter er netop frigivet til gratis brug: Det kan forbedre stemmestyrede hjælpemidler og automatisere notatskrivning

13.9.2024 10:45:27 CEST | Alexandra Instituttet | Pressemeddelelse

Del

Fra Flensborg til Bornholm har danskere i alle aldre med forskellige dialekter bidraget med deres stemme som skal styrke dansk taleteknologi. Tale-datasættet er det største af sin art til dato og kan forbedre brugen af taleteknologi herhjemme.

Over de seneste to år har danskere fra hele landet doneret deres stemme til et nyt tale-datasæt, som skal forbedre brugen af dansk taleteknologi. Det er en teknologi, som er i global vækst, og som kommer til at forbedre stemmestyrede hjælpemidler og effektivisere rutineopgaver såsom notatskrivning.

For at taleteknologien fungerer optimalt, kræver det store datasæt, og her har dansk, som er et lille sprog, haltet bagud. For at forbedre det har Alexandra Instituttet i samarbejde med en række partnere indsamlet omkring 375 timers dansk tale, hvilket svarer til lidt over en tredjedel af de 1.000 timers dansk tale, som skal udgives i alt, og som vil gøre det til største danske tale-datasæt, der er udgivet til dato. Og det giver samtidig en bred repræsentation på tværs af køn, alder samt de dialekter og accenter, som vi har i Danmark.

Hele befolkningen repræsenteret

Man vil kunne bruge datasættet til mange forskellige ting, herunder transskribering, forklarer Dan Saattrup Nielsen, Senior AI Specialist hos Alexandra Instituttet. Derudover har der været meget interesse fra høreapparatproducenter for at kunne bruge det i deres systemer.

“En af de unikke aspekter ved datasættet er, at det har en bred repræsentation af hele landet, hvor de datasæt, der tidligere har været udgivet, har været relativt små. Og det har typisk været unge mænd fra storbyen, som indgår i datasættene. Det betyder, at hvis du taler dialekt, er ældre eller er af de ‘forkerte’ køn, at så vil talegenkendelsen fungere dårligere. Det har ikke kun betydning for den enkelte borger, men det betyder også, at du virksomhed eller myndighed kan indfri det potentiale, der er med fx automatisk journalisering.”

Den ulighed har man prøvet at gøre op med og er gået efter at få et så bredt udsnit af befolkningen med i datasættet, forklarer Dan Saattrup Nielsen:

“Det betyder, at de modeller, der trænes på datasættet, langt bedre vil være i stand til at håndtere de forskellige måder, som vi taler ude på landet, og dermed minimere de bias, som eksisterende datasæt har. Det betyder, at alle de teknologier, som begynder at komme frem, vil kunne fungere langt bedre. Det kan være voicebots i kundeservices eller behandling af lyddata, som bliver brugt i det offentlige til automatisk at skrive journalnotater. Det kan også være virksomheder, som bruger det til automatiske mødereferater,” forklarer han.

Muligt at teste eksisterende systemer

Som en del af projektet har man også lavet et testdatasæt, som har en bred repræsentation mellem køn, alder, dialekter og accenter, og som gør det muligt at teste eksisterende systemer på tværs af de her faktorer. Med dem kan man teste talegenkendelsessystemer, som ikke er åbne, fra fx Google, Microsoft eller andre.

“Med det kan du teste præcist, hvor gode de systemer er. Det kan hjælpe virksomheder eller det offentlige med at træffe bedre beslutninger om, hvilket system de skal bruge. Hvis man er en virksomhed i Sønderjylland, så vil man selvfølgelig godt være sikker på, at det fungerer godt på sønderjysk, og det kan testdatasættet hjælpe med at afklare,” forklarer han.

Det frigivne datasæt er det første, der er udgivet i projektet. I løbet af efteråret vil der blive udgivet en anden del, som indeholder samtaledata mellem to personer, og som gengiver en mere naturlig samtale. I løbet af det kommende år kommer der flere udgivelser af både oplæst og samtaledata, indtil man er oppe på cirka 1.000 timers data.

Fakta

CoRal, der står for Danish Conversational and read-aloud speech dataset, er et initiativ, der over de sidste to år har optaget mere end 2.000 danskeres dialekter og accenter. Målet er at få et tale-datasæt med over 1.000 timers dansk tale. For at gøre modellen så repræsentativ og robust som mulig, trænes der på tale fra både mænd og kvinder, forskellige aldersgrupper og folk med forskellige dialekter samt udenlandske accenter. Samtidig skal der udvikles sprogmodeller, der kan genkende dansk tale og læse dansk højt.

Dansk taleteknologi kan anvendes til en lang række områder:

Det gælder stemmestyrede hjælpemidler til fx ældre og borgere med synshandicap samt diktat af sundhedsjournaler eller automatisk dokumentation af samtaler.
Det kan også give en bedre maskinoversættelse mellem dansk og andre sprog samt bedre digital oplæsning i fx GPS eller offentlig transport.
Det kan også bruges i voice- og chatbots til bl.a. it-hjælp som nulstilling af passwords, navigation på hjemmesider.

Projektet er et samarbejde mellem Alexandra Instituttet, Datalogisk Institut på Københavns Universitet, Alvenir, Corti og Digitaliseringsstyrelsen. Projektet har et samlet budget på 22 mio. kr., hvoraf de 14 mio. kr. kommer fra Innovationsfonden.

Alle data og modeller i projektet er frit tilgængeligt for alle. Man kan hente datasættet her https://hf.co/datasets/alexandrainst/coral

Alexandra Instituttet

100 eksperter under ét tag

Alexandra Instituttet hjælper offentlige og private virksomheder med at anvende den nyeste it-forskning og teknologi. Vores udgangspunkt er samfundsmæssige problemstillinger og behov for at omsætte den nyeste forskning til innovative løsninger.

Hos os finder du stærke kompetencer inden for blandt andet Visual computing, kunstig intelligens, IoT, cybersikkerhed, interaktionsdesign og smarte produkter.

Vi arbejder i et tværfagligt miljø og er et hold af højtkvalificerede specialister, der hurtigt kan forstå din organisations og dine brugeres problemstillinger.

Vi er Danmarks eneste Godkendte Teknologiske Service-institut specialiseret i it og digitalisering.

Følg pressemeddelelser fra Alexandra Instituttet

Skriv dig op her, og modtag pressemeddelelser på e-mail. Indtast din e-mail, klik på abonner, og følg instruktionerne i den udsendte e-mail.

Flere pressemeddelelser fra Alexandra Instituttet

Ny AI-platform giver danske virksomheder kraftfuld AI på dansk jord17.6.2026 10:48:03 CEST | Pressemeddelelse

Alexandra Instituttet lancerer nu en AI-platform, der er hostet i Danmark. Det giver danske virksomheder og organisationer adgang til kraftfulde AI-modeller, samtidig med at deres data bliver i landet. På den måde kan danske virksomheder leve op til stigende krav til datasikkerhed, GDPR og digital suverænitet.

AI ruller ind i bageriet: Dansk bagersoftware skifter mavefornemmelsen ud med præcise forudsigelser2.6.2026 09:56:52 CEST | Pressemeddelelse

Bageriernes økonomi har fået en udstrakt teknologisk hånd. I samarbejde med Alexandra Instituttet vil softwarevirksomheden Baker POS forbedre bageriernes spinkle marginer ved at forudsige salget med AI.

Forskningen rykker ud til SMV’erne: Fire nye projekter skal styrke digital sikkerhed i Danmark21.5.2026 11:15:16 CEST | Pressemeddelelse

Fire nye cybersikkerhedsprojekter får nu støtte fra innovationspartnerskabet Next Generation Cyber Security. Projekterne skal omsætte avanceret digital forskning til løsninger, som danske virksomheder kan bruge til at øge sikkerheden.

Alexandra Instituttet bringer glemt erhvervskvinde tilbage til Holstebros byrum med 3D-teknologi8.3.2026 06:15:00 CET | Pressemeddelelse

Ved hjælp af avanceret 3D-print har Alexandra Instituttet skabt en buste af erhvervskvinden Karoline Poulsen fra Holstebro – 60 år efter hendes død. Busten viser, hvor langt teknologien er kommet, og lægger kimen til bedre repræsentation af kvinder i det offentlige rum.

Gratis videreuddannelse til rådgivere skal gøre industrien cyber-robust19.2.2026 13:25:07 CET | Pressemeddelelse

Efter fire års intenst arbejde med at øge danske virksomheders cybersikkerhed er CyPro-samarbejdet nu nået til en vigtig milepæl. Det betyder, at værktøjerne kan tages i brug af rådgivere helt gratis.

I vores nyhedsrum kan du læse alle vores pressemeddelelser, tilgå materiale i form af billeder og dokumenter samt finde vores kontaktoplysninger.

Besøg vores nyhedsrum