375 timers indtaling af danske dialekter er netop frigivet til gratis brug: Det kan forbedre stemmestyrede hjælpemidler og automatisere notatskrivning
Fra Flensborg til Bornholm har danskere i alle aldre med forskellige dialekter bidraget med deres stemme som skal styrke dansk taleteknologi. Tale-datasættet er det største af sin art til dato og kan forbedre brugen af taleteknologi herhjemme.
Over de seneste to år har danskere fra hele landet doneret deres stemme til et nyt tale-datasæt, som skal forbedre brugen af dansk taleteknologi. Det er en teknologi, som er i global vækst, og som kommer til at forbedre stemmestyrede hjælpemidler og effektivisere rutineopgaver såsom notatskrivning.
For at taleteknologien fungerer optimalt, kræver det store datasæt, og her har dansk, som er et lille sprog, haltet bagud. For at forbedre det har Alexandra Instituttet i samarbejde med en række partnere indsamlet omkring 375 timers dansk tale, hvilket svarer til lidt over en tredjedel af de 1.000 timers dansk tale, som skal udgives i alt, og som vil gøre det til største danske tale-datasæt, der er udgivet til dato. Og det giver samtidig en bred repræsentation på tværs af køn, alder samt de dialekter og accenter, som vi har i Danmark.
Hele befolkningen repræsenteret
Man vil kunne bruge datasættet til mange forskellige ting, herunder transskribering, forklarer Dan Saattrup Nielsen, Senior AI Specialist hos Alexandra Instituttet. Derudover har der været meget interesse fra høreapparatproducenter for at kunne bruge det i deres systemer.
“En af de unikke aspekter ved datasættet er, at det har en bred repræsentation af hele landet, hvor de datasæt, der tidligere har været udgivet, har været relativt små. Og det har typisk været unge mænd fra storbyen, som indgår i datasættene. Det betyder, at hvis du taler dialekt, er ældre eller er af de ‘forkerte’ køn, at så vil talegenkendelsen fungere dårligere. Det har ikke kun betydning for den enkelte borger, men det betyder også, at du virksomhed eller myndighed kan indfri det potentiale, der er med fx automatisk journalisering.”
Den ulighed har man prøvet at gøre op med og er gået efter at få et så bredt udsnit af befolkningen med i datasættet, forklarer Dan Saattrup Nielsen:
“Det betyder, at de modeller, der trænes på datasættet, langt bedre vil være i stand til at håndtere de forskellige måder, som vi taler ude på landet, og dermed minimere de bias, som eksisterende datasæt har. Det betyder, at alle de teknologier, som begynder at komme frem, vil kunne fungere langt bedre. Det kan være voicebots i kundeservices eller behandling af lyddata, som bliver brugt i det offentlige til automatisk at skrive journalnotater. Det kan også være virksomheder, som bruger det til automatiske mødereferater,” forklarer han.
Muligt at teste eksisterende systemer
Som en del af projektet har man også lavet et testdatasæt, som har en bred repræsentation mellem køn, alder, dialekter og accenter, og som gør det muligt at teste eksisterende systemer på tværs af de her faktorer. Med dem kan man teste talegenkendelsessystemer, som ikke er åbne, fra fx Google, Microsoft eller andre.
“Med det kan du teste præcist, hvor gode de systemer er. Det kan hjælpe virksomheder eller det offentlige med at træffe bedre beslutninger om, hvilket system de skal bruge. Hvis man er en virksomhed i Sønderjylland, så vil man selvfølgelig godt være sikker på, at det fungerer godt på sønderjysk, og det kan testdatasættet hjælpe med at afklare,” forklarer han.
Det frigivne datasæt er det første, der er udgivet i projektet. I løbet af efteråret vil der blive udgivet en anden del, som indeholder samtaledata mellem to personer, og som gengiver en mere naturlig samtale. I løbet af det kommende år kommer der flere udgivelser af både oplæst og samtaledata, indtil man er oppe på cirka 1.000 timers data.
Fakta
CoRal, der står for Danish Conversational and read-aloud speech dataset, er et initiativ, der over de sidste to år har optaget mere end 2.000 danskeres dialekter og accenter. Målet er at få et tale-datasæt med over 1.000 timers dansk tale. For at gøre modellen så repræsentativ og robust som mulig, trænes der på tale fra både mænd og kvinder, forskellige aldersgrupper og folk med forskellige dialekter samt udenlandske accenter. Samtidig skal der udvikles sprogmodeller, der kan genkende dansk tale og læse dansk højt.
Dansk taleteknologi kan anvendes til en lang række områder:
- Det gælder stemmestyrede hjælpemidler til fx ældre og borgere med synshandicap samt diktat af sundhedsjournaler eller automatisk dokumentation af samtaler.
- Det kan også give en bedre maskinoversættelse mellem dansk og andre sprog samt bedre digital oplæsning i fx GPS eller offentlig transport.
- Det kan også bruges i voice- og chatbots til bl.a. it-hjælp som nulstilling af passwords, navigation på hjemmesider.
Projektet er et samarbejde mellem Alexandra Instituttet, Datalogisk Institut på Københavns Universitet, Alvenir, Corti og Digitaliseringsstyrelsen. Projektet har et samlet budget på 22 mio. kr., hvoraf de 14 mio. kr. kommer fra Innovationsfonden.
Alle data og modeller i projektet er frit tilgængeligt for alle. Man kan hente datasættet her https://hf.co/datasets/alexandrainst/coral
Alexandra Instituttet
100 eksperter under ét tag
Alexandra Instituttet hjælper offentlige og private virksomheder med at anvende den nyeste it-forskning og teknologi. Vores udgangspunkt er samfundsmæssige problemstillinger og behov for at omsætte den nyeste forskning til innovative løsninger.
Hos os finder du stærke kompetencer inden for blandt andet Visual computing, kunstig intelligens, IoT, cybersikkerhed, interaktionsdesign og smarte produkter.
Vi arbejder i et tværfagligt miljø og er et hold af højtkvalificerede specialister, der hurtigt kan forstå din organisations og dine brugeres problemstillinger.
Vi er Danmarks eneste Godkendte Teknologiske Service-institut specialiseret i it og digitalisering.
Følg pressemeddelelser fra Alexandra Instituttet
Skriv dig op her, og modtag pressemeddelelser på e-mail. Indtast din e-mail, klik på abonner, og følg instruktionerne i den udsendte e-mail.
Flere pressemeddelelser fra Alexandra Instituttet
AI-software hjælper C.C. Jensen med at styre tørreprocessen i deres produktion af oliefiltre3.10.2024 10:23:20 CEST | Pressemeddelelse
Kunstig intelligens hjælper C.C. Jensen med at estimere restfugten i deres oliefiltre. De nye metoder hjælper Svendborg-virksomheden med at reducere energiforbruget samtidig med, at de kan bevare den ensartede kvalitet, som de har i deres produkter.
Alexandra Instituttet har bragt Danmark foran digitalt i 25 år26.8.2024 08:00:00 CEST | Pressemeddelelse
Når Alexandra Instituttet fylder et kvart århundrede den 27. august, er det et klart bevis på, at missionen med at skabe forretning med anvendt it-forskning er lykkedes. Udover at stå bag forskning, der har ført til flere digitale løsninger og spin out virksomheder, så har Alexandra Instituttet frem for alt ageret teknologisk sparringspartner for et utal af virksomheder og hjulpet dem med at styrke deres konkurrenceevne.
20 virksomheders erfaring med kunstig intelligens i praksis7.8.2024 16:20:19 CEST | Pressemeddelelse
Alexandra Instituttet interviewede 20 virksomheder for at samle deres erfaringer med kunstig intelligens. I denne rapport kan andre danske virksomheder bruge dem i deres jagt på AI-potentialet.
Digitalisering og cirkularitet er en bæredygtig dobbeltsalto9.7.2024 10:00:13 CEST | Pressemeddelelse
Virksomheden PE Redskaber fremstiller trampoliner og andre gymnastikredskaber og er selv midt i et ambitiøst spring mod en mere bæredygtig produktionsmåde. Det sker sammen med Alexandra Instituttet gennem projektet Afkobling 2030, der hjælper produktionsvirksomheder med at reducere deres klima- og miljøudledninger.
Erhvervsstyrelsen har valgt Alexandra Instituttet som it-leverandør på to delaftaler4.7.2024 07:16:55 CEST | Pressemeddelelse
Erhvervsstyrelsen har udvalgt Alexandra Instituttet som leverandør på delaftale 3 UX og delaftale 5 Engineering & Data Science på den it-rammeaftale, der netop er blevet indgået.
I vores nyhedsrum kan du læse alle vores pressemeddelelser, tilgå materiale i form af billeder og dokumenter samt finde vores kontaktoplysninger.
Besøg vores nyhedsrum