Alexandra Instituttet

375 timers indtaling af danske dialekter er netop frigivet til gratis brug: Det kan forbedre stemmestyrede hjælpemidler og automatisere notatskrivning

Del

Fra Flensborg til Bornholm har danskere i alle aldre med forskellige dialekter bidraget med deres stemme som skal styrke dansk taleteknologi. Tale-datasættet er det største af sin art til dato og kan forbedre brugen af taleteknologi herhjemme.

Over de seneste to år har danskere fra hele landet doneret deres stemme til et nyt tale-datasæt, som skal forbedre brugen af dansk taleteknologi. Det er en teknologi, som er i global vækst, og som kommer til at forbedre stemmestyrede hjælpemidler og effektivisere rutineopgaver såsom notatskrivning. 

For at taleteknologien fungerer optimalt, kræver det store datasæt, og her har dansk, som er et lille sprog, haltet bagud. For at forbedre det har Alexandra Instituttet i samarbejde med en række partnere indsamlet omkring 375 timers dansk tale, hvilket svarer til lidt over en tredjedel af de 1.000 timers dansk tale, som skal udgives i alt, og som vil gøre det til største danske tale-datasæt, der er udgivet til dato. Og det giver samtidig en bred repræsentation på tværs af køn, alder samt de dialekter og accenter, som vi har i Danmark.

Hele befolkningen repræsenteret

Man vil kunne bruge datasættet til mange forskellige ting, herunder transskribering, forklarer Dan Saattrup Nielsen, Senior AI Specialist hos Alexandra Instituttet. Derudover har der været meget interesse fra høreapparatproducenter for at kunne bruge det i deres systemer. 

“En af de unikke aspekter ved datasættet er, at det har en bred repræsentation af hele landet, hvor de datasæt, der tidligere har været udgivet, har været relativt små. Og det har typisk været unge mænd fra storbyen, som indgår i datasættene. Det betyder, at hvis du taler dialekt, er ældre eller er af de ‘forkerte’ køn, at så vil talegenkendelsen fungere dårligere. Det har ikke kun betydning for den enkelte borger, men det betyder også, at du virksomhed eller myndighed kan indfri det potentiale, der er med fx automatisk journalisering.”

Den ulighed har man prøvet at gøre op med og er gået efter at få et så bredt udsnit af befolkningen med i datasættet, forklarer Dan Saattrup Nielsen:

“Det betyder, at de modeller, der trænes på datasættet, langt bedre vil være i stand til at håndtere de forskellige måder, som vi taler ude på landet, og dermed minimere de bias, som eksisterende datasæt har. Det betyder, at alle de teknologier, som begynder at komme frem, vil kunne fungere langt bedre. Det kan være voicebots i kundeservices eller behandling af lyddata, som bliver brugt i det offentlige til automatisk at skrive journalnotater. Det kan også være virksomheder, som bruger det til automatiske mødereferater,” forklarer han.

Muligt at teste eksisterende systemer

Som en del af projektet har man også lavet et testdatasæt, som har en bred repræsentation mellem køn, alder, dialekter og accenter, og som gør det muligt at teste eksisterende systemer på tværs af de her faktorer. Med dem kan man teste talegenkendelsessystemer, som ikke er åbne, fra fx Google, Microsoft eller andre.

“Med det kan du teste præcist, hvor gode de systemer er. Det kan hjælpe virksomheder eller det offentlige med at træffe bedre beslutninger om, hvilket system de skal bruge. Hvis man er en virksomhed i Sønderjylland, så vil man selvfølgelig godt være sikker på, at det fungerer godt på sønderjysk, og det kan testdatasættet hjælpe med at afklare,” forklarer han.

Det frigivne datasæt er det første, der er udgivet i projektet. I løbet af efteråret vil der blive udgivet en anden del, som indeholder samtaledata mellem to personer, og som gengiver en mere naturlig samtale. I løbet af det kommende år kommer der flere udgivelser af både oplæst og samtaledata, indtil man er oppe på cirka 1.000 timers data.

Fakta

CoRal, der står for Danish Conversational and read-aloud speech dataset, er et initiativ, der over de sidste to år har optaget mere end 2.000 danskeres dialekter og accenter. Målet er at få et tale-datasæt med over 1.000 timers dansk tale. For at gøre modellen så repræsentativ og robust som mulig, trænes der på tale fra både mænd og kvinder, forskellige aldersgrupper og folk med forskellige dialekter samt udenlandske accenter. Samtidig skal der udvikles sprogmodeller, der kan genkende dansk tale og læse dansk højt.

Dansk taleteknologi kan anvendes til en lang række områder: 

  • Det gælder stemmestyrede hjælpemidler til fx ældre og borgere med synshandicap samt diktat af sundhedsjournaler eller automatisk dokumentation af samtaler. 
  • Det kan også give en bedre maskinoversættelse mellem dansk og andre sprog samt bedre digital oplæsning i fx GPS eller offentlig transport. 
  • Det kan også bruges i voice- og chatbots til bl.a. it-hjælp som nulstilling af passwords, navigation på hjemmesider.

Projektet er et samarbejde mellem Alexandra Instituttet, Datalogisk Institut på Københavns Universitet, Alvenir, Corti og Digitaliseringsstyrelsen. Projektet har et samlet budget på 22 mio. kr., hvoraf de 14 mio. kr. kommer fra Innovationsfonden.

Alle data og modeller i projektet er frit tilgængeligt for alle. Man kan hente datasættet her https://hf.co/datasets/alexandrainst/coral

Alexandra Instituttet

100 eksperter under ét tag 

Alexandra Instituttet hjælper offentlige og private virksomheder med at anvende den nyeste it-forskning og teknologi. Vores udgangspunkt er samfundsmæssige problemstillinger og behov for at omsætte den nyeste forskning til innovative løsninger. 

Hos os finder du stærke kompetencer inden for blandt andet Visual computing, kunstig intelligens, IoT, cybersikkerhed, interaktionsdesign og smarte produkter. 

Vi arbejder i et tværfagligt miljø og er et hold af højtkvalificerede specialister, der hurtigt kan forstå din organisations og dine brugeres problemstillinger.

Vi er Danmarks eneste Godkendte Teknologiske Service-institut specialiseret i it og digitalisering.

Følg pressemeddelelser fra Alexandra Instituttet

Skriv dig op her, og modtag pressemeddelelser på e-mail. Indtast din e-mail, klik på abonner, og følg instruktionerne i den udsendte e-mail.

Flere pressemeddelelser fra Alexandra Instituttet

Global producent af klimaudstyr til landbruget har fået hjælp til at finde fælles fodslag inden for IoT-sikkerhed25.10.2024 12:06:07 CEST | Pressemeddelelse

Der er mange spørgsmål, der melder sig, når man som producent digitaliserer og kobler de fysiske produkter til nettet. Hvem har ansvaret og hvordan gør man cybersikkerhed til en integreret del af hele produktudviklingen. De spørgsmål fik SKOV, der har specialiseret sig i at fremstille køle- og ventilationsanlæg til svine- og fjerkræstalde, hjælp til ved at deltage i et af de udviklingskurser i cybersikkerhed, som Industriens Fond udbyder i samarbejde med Alexandra Instituttet.

Alexandra Instituttet har bragt Danmark foran digitalt i 25 år26.8.2024 08:00:00 CEST | Pressemeddelelse

Når Alexandra Instituttet fylder et kvart århundrede den 27. august, er det et klart bevis på, at missionen med at skabe forretning med anvendt it-forskning er lykkedes. Udover at stå bag forskning, der har ført til flere digitale løsninger og spin out virksomheder, så har Alexandra Instituttet frem for alt ageret teknologisk sparringspartner for et utal af virksomheder og hjulpet dem med at styrke deres konkurrenceevne.

I vores nyhedsrum kan du læse alle vores pressemeddelelser, tilgå materiale i form af billeder og dokumenter samt finde vores kontaktoplysninger.

Besøg vores nyhedsrum
World GlobeA line styled icon from Orion Icon Library.HiddenA line styled icon from Orion Icon Library.Eye