375 timers indtaling af danske dialekter er netop frigivet til gratis brug: Det kan forbedre stemmestyrede hjælpemidler og automatisere notatskrivning
13.9.2024 10:45:27 CEST | Alexandra Instituttet | Pressemeddelelse
Fra Flensborg til Bornholm har danskere i alle aldre med forskellige dialekter bidraget med deres stemme som skal styrke dansk taleteknologi. Tale-datasættet er det største af sin art til dato og kan forbedre brugen af taleteknologi herhjemme.

Over de seneste to år har danskere fra hele landet doneret deres stemme til et nyt tale-datasæt, som skal forbedre brugen af dansk taleteknologi. Det er en teknologi, som er i global vækst, og som kommer til at forbedre stemmestyrede hjælpemidler og effektivisere rutineopgaver såsom notatskrivning.
For at taleteknologien fungerer optimalt, kræver det store datasæt, og her har dansk, som er et lille sprog, haltet bagud. For at forbedre det har Alexandra Instituttet i samarbejde med en række partnere indsamlet omkring 375 timers dansk tale, hvilket svarer til lidt over en tredjedel af de 1.000 timers dansk tale, som skal udgives i alt, og som vil gøre det til største danske tale-datasæt, der er udgivet til dato. Og det giver samtidig en bred repræsentation på tværs af køn, alder samt de dialekter og accenter, som vi har i Danmark.
Hele befolkningen repræsenteret
Man vil kunne bruge datasættet til mange forskellige ting, herunder transskribering, forklarer Dan Saattrup Nielsen, Senior AI Specialist hos Alexandra Instituttet. Derudover har der været meget interesse fra høreapparatproducenter for at kunne bruge det i deres systemer.
“En af de unikke aspekter ved datasættet er, at det har en bred repræsentation af hele landet, hvor de datasæt, der tidligere har været udgivet, har været relativt små. Og det har typisk været unge mænd fra storbyen, som indgår i datasættene. Det betyder, at hvis du taler dialekt, er ældre eller er af de ‘forkerte’ køn, at så vil talegenkendelsen fungere dårligere. Det har ikke kun betydning for den enkelte borger, men det betyder også, at du virksomhed eller myndighed kan indfri det potentiale, der er med fx automatisk journalisering.”
Den ulighed har man prøvet at gøre op med og er gået efter at få et så bredt udsnit af befolkningen med i datasættet, forklarer Dan Saattrup Nielsen:
“Det betyder, at de modeller, der trænes på datasættet, langt bedre vil være i stand til at håndtere de forskellige måder, som vi taler ude på landet, og dermed minimere de bias, som eksisterende datasæt har. Det betyder, at alle de teknologier, som begynder at komme frem, vil kunne fungere langt bedre. Det kan være voicebots i kundeservices eller behandling af lyddata, som bliver brugt i det offentlige til automatisk at skrive journalnotater. Det kan også være virksomheder, som bruger det til automatiske mødereferater,” forklarer han.
Muligt at teste eksisterende systemer
Som en del af projektet har man også lavet et testdatasæt, som har en bred repræsentation mellem køn, alder, dialekter og accenter, og som gør det muligt at teste eksisterende systemer på tværs af de her faktorer. Med dem kan man teste talegenkendelsessystemer, som ikke er åbne, fra fx Google, Microsoft eller andre.
“Med det kan du teste præcist, hvor gode de systemer er. Det kan hjælpe virksomheder eller det offentlige med at træffe bedre beslutninger om, hvilket system de skal bruge. Hvis man er en virksomhed i Sønderjylland, så vil man selvfølgelig godt være sikker på, at det fungerer godt på sønderjysk, og det kan testdatasættet hjælpe med at afklare,” forklarer han.
Det frigivne datasæt er det første, der er udgivet i projektet. I løbet af efteråret vil der blive udgivet en anden del, som indeholder samtaledata mellem to personer, og som gengiver en mere naturlig samtale. I løbet af det kommende år kommer der flere udgivelser af både oplæst og samtaledata, indtil man er oppe på cirka 1.000 timers data.
Fakta
CoRal, der står for Danish Conversational and read-aloud speech dataset, er et initiativ, der over de sidste to år har optaget mere end 2.000 danskeres dialekter og accenter. Målet er at få et tale-datasæt med over 1.000 timers dansk tale. For at gøre modellen så repræsentativ og robust som mulig, trænes der på tale fra både mænd og kvinder, forskellige aldersgrupper og folk med forskellige dialekter samt udenlandske accenter. Samtidig skal der udvikles sprogmodeller, der kan genkende dansk tale og læse dansk højt.
Dansk taleteknologi kan anvendes til en lang række områder:
- Det gælder stemmestyrede hjælpemidler til fx ældre og borgere med synshandicap samt diktat af sundhedsjournaler eller automatisk dokumentation af samtaler.
- Det kan også give en bedre maskinoversættelse mellem dansk og andre sprog samt bedre digital oplæsning i fx GPS eller offentlig transport.
- Det kan også bruges i voice- og chatbots til bl.a. it-hjælp som nulstilling af passwords, navigation på hjemmesider.
Projektet er et samarbejde mellem Alexandra Instituttet, Datalogisk Institut på Københavns Universitet, Alvenir, Corti og Digitaliseringsstyrelsen. Projektet har et samlet budget på 22 mio. kr., hvoraf de 14 mio. kr. kommer fra Innovationsfonden.
Alle data og modeller i projektet er frit tilgængeligt for alle. Man kan hente datasættet her https://hf.co/datasets/alexandrainst/coral
Alexandra Instituttet
100 eksperter under ét tag
Alexandra Instituttet hjælper offentlige og private virksomheder med at anvende den nyeste it-forskning og teknologi. Vores udgangspunkt er samfundsmæssige problemstillinger og behov for at omsætte den nyeste forskning til innovative løsninger.
Hos os finder du stærke kompetencer inden for blandt andet Visual computing, kunstig intelligens, IoT, cybersikkerhed, interaktionsdesign og smarte produkter.
Vi arbejder i et tværfagligt miljø og er et hold af højtkvalificerede specialister, der hurtigt kan forstå din organisations og dine brugeres problemstillinger.
Vi er Danmarks eneste Godkendte Teknologiske Service-institut specialiseret i it og digitalisering.
Følg pressemeddelelser fra Alexandra Instituttet
Skriv dig op her, og modtag pressemeddelelser på e-mail. Indtast din e-mail, klik på abonner, og følg instruktionerne i den udsendte e-mail.
Flere pressemeddelelser fra Alexandra Instituttet
Alexandra Instituttet bringer glemt erhvervskvinde tilbage til Holstebros byrum med 3D-teknologi8.3.2026 06:15:00 CET | Pressemeddelelse
Ved hjælp af avanceret 3D-print har Alexandra Instituttet skabt en buste af erhvervskvinden Karoline Poulsen fra Holstebro – 60 år efter hendes død. Busten viser, hvor langt teknologien er kommet, og lægger kimen til bedre repræsentation af kvinder i det offentlige rum.
Gratis videreuddannelse til rådgivere skal gøre industrien cyber-robust19.2.2026 13:25:07 CET | Pressemeddelelse
Efter fire års intenst arbejde med at øge danske virksomheders cybersikkerhed er CyPro-samarbejdet nu nået til en vigtig milepæl. Det betyder, at værktøjerne kan tages i brug af rådgivere helt gratis.
Cybersikkerhedsbranchen går sammen om at løfte små- og mellemstore virksomheder i ny millionsatsning fra Industriens Fond30.1.2026 09:11:29 CET | Pressemeddelelse
23 virksomheder i den danske cybersikkerhedsbranche har valgt at donere ydelser svarende til 33,5 millioner kroner til en ny national satsning, der skal øge sikkerheden i små og mellemstore virksomheder.
Alexandra Instituttet får ny frontfigur for kunstig intelligens12.1.2026 09:30:00 CET | Pressemeddelelse
Mie Hvas er tiltrådt som Head of AI Lab hos Alexandra Instituttet. Her skal hun omsætte forskning til løsninger, der optimerer processer, analyserer data og giver danske virksomheder et teknologisk forspring.
Danmarks første til at udføre prøvning af cybersikre IoT-produkter og radioudstyr17.12.2025 08:30:00 CET | Pressemeddelelse
Som de første i Danmark er Alexandra Instituttet blevet akkrediteret, så de kan udføre prøvning af udstyr efter kravene i EN 18031. Dermed kan instituttet, der er specialiseret i IT og digitalisering, hjælpe virksomheder med at overholde Radioudstyrsdirektivet.
I vores nyhedsrum kan du læse alle vores pressemeddelelser, tilgå materiale i form af billeder og dokumenter samt finde vores kontaktoplysninger.
Besøg vores nyhedsrum