Talegenkendelse på telefonen kan snart klares uden internet
12.12.2024 09:08:06 CET | Københavns Universitet | Pressemeddelelse
I dag har mere end hver fjerde gjort talegenkendelse til en del af hverdagen. Ny algoritme, fra forsker ved Købehavns Universitet og internationale kollegaer, gør det for første gang muligt at tale med ”Siri” og andre digitale assistenter uden internetforbindelse. Med opfindelsen vil talegenkendelse kunne bruges hvor-som-helst, men også når sikkerheden er højeste prioritet.

Engang var det science fiction, at tale med en computer. I dag er det hverdag for mange at sige ”hej Siri”, ”Alexa” eller noget tredje til sit smartphone eller digitale assistent i hjemmet. Alligevel kan talegenkendelse få en endnu større rolle i fremtiden.
Hvor globale undersøgelser har vist, at hvor hver fjerde allerede bruger teknologierne jævnligt, så vil antallet af enheder, der har talegenkendelse, overstige antallet af mennesker på planeten i 2025, hvis forudsigelserne holder stik. Og teknologien udvikler sig stadig.
Indtil nu har funktionen været begrænset til enheder tilsluttet internettet. Det skyldes, at den algoritme, der normalt styrer processen, kræver en stor midlertidig hukommelse (RAM). Derfor har datacentrenes store servere holdt hånden under teknologien via internettet. Man kan selv teste det ved at sætte sin smartphone på ”flyfunktion” og konstatere, at ingen er hjemme, når man taler til den. Men det kan ændre sig nu.
Med en ny algoritme, opfundet af Professor Panagiotis Karras fra Datalogisk Institut ved Københavns Universitet, og udviklet i samarbejde med sprogforsker Nassos Katsamanis fra Athena Research Center i Grækenland og forskere fra Aalto Universitet, Finland, og KTH i Sverige, kan selv mindre computere som smartphones nu blive udstyret med software, der er i stand til at afkode vores tale uden det store behov for hukommelse - uden behov for internetadgang.
Koden, der fornyligt blev præsenteret i en videnskabelig artikel, benytter sig af et smart trick for at undgå det: Den glemmer det, den ikke skal bruge nu og her.
”Talegenkendelse fungerer grundlæggende ved, at de små lyde, som vi danner ord og sætninger med, kaldet fonemer, bliver matchet med et bibliotek af tilsvarende lyde. Der beregnes sandsynligheder for et match og for de efterfølgende kombinationer, som danner vores ord og sætninger. De mest sandsynlige sekvenser beregnes på den måde, og softwaren oversætter således lydene til tekst, ” forklarer Panagiotis Karras.
Men med de nuværende algoritmer kræver processen mere og mere hukommelse, jo længere det talte er, fordi alle alternative kombinationer skal holdes åbne, til den sidste lyd er blevet analyseret. Det er det, den nye algoritme gør op med.
”Den algoritme Panos udtænkte, og som vi har udviklet, kan noget helt nyt. I modsætning til den kode, der har været den gyldne standard siden talegenkendelens tidligste dage, gemmer den kun en brøkdel af arbejdet, der fungerer som en slags ”koordinater”. Med dem kan den genskabe hele sekvensen, den har fortolket, og resultatet er talegenkendelse, der ikke kræver nær samme RAM,” forklarer medudvikler og medforfatter til forskningen, Nassos Katsamanis.
Fra simple ”keywords” til lange sætninger
Den manøvre kan lyde enkel, men involverer unik kode, som ikke før er set, og som forskerne bag har søgt patent på. Algoritmen er den i stand til at mindske den afgørende hukommelse, uden at det går ud over kvaliteten af talegenkendelsen. Den kræver smule mere tid og regnekraft end tidligere processer, men det er ubetydeligt sammenlignet med de muskler, moderne enheder har, forsikrer forskerne.
Og så er den altså i stand til at gøre det uden internetforbindelse, hvilket gør talegenkendelse - og på sigt også oversættelse af hele sprog, håber forskerne - muligt hvor-som-helst, selv i Amazonas dybeste jungle.
Når den nuværende software må opbevare disse alternative sekvenser og biblioteker af potentielle lydtolkninger, så er det egentligt relativt uproblematisk, når opgaven er enkelte ord og ganske korte sætninger. Men jo længere sætninger, der er tale om, desto mere kompleks bliver de potentielle kombinationer, og dermed stiger behovet for RAM.
”I dag er det muligt for visse små devices, at genkende og handle ud fra nogle få ord uden at være på nettet. Smart home-systemer kan forstå enkelte ”keywords” som ”tænd” og ”sluk”. Det kalder man for small-vocabulary speech recognition. Med vores algoritme vil de kunne genkende lange instruktioner - i princippet hele sprog, uden internetforbindelse. Det kaldes large-vocabulary speech recognition,” siger Panagiotis Karras.
Bedre inklusion, sikkerhed og energibesparelse
Opfindelsen fører, ifølge forskerne, mange muligheder med sig. Den har fordele, som er både praktiske, sikkerhedsmæssige og samfundsmæssige. Og så er der et stort energibesparende potentiale.
Mange ville kunne få glæde af, at man fortsat vil kunne få hjælp til fx oversættelse af fremmede sprog på rejser, også uden for internettets rækkevidde, og den mulighed håber forskerne på sigt at realisere. Men samfundspotentialet for den sproglige tilgængelighed nu og på sigt er langt større end det.
”Denne algoritme kan være med til at udbrede sprogteknologi og gavne demokratisering ved at gøre information mere tilgængelig. At gøre oversættelsesværktøjer og taleassistenter tilgængelige, uanset om man befinder langt fra internettet, betyder, at flere vil kunne deltage i samfundet. Det giver blandt andet mennesker uden skriftsprog eller med fysiske handicap nye muligheder for at forstå og påvirke samfundets beslutninger,” siger Nassos Katsamanis
Et andet aspekt af opfindelsen er sikkerheden i forbindelse med talegenkendelse. Er sikkerheden ens højeste prioritet, kan den nye algoritme løse et vigtigt problem: Internet-opkoblinger kan hackes. Den nye algoritme øger sikkerheden ved at fjerne behovet for at være tilsluttet internettet.
Samtidigt er energiforbruget i de store datacentre, som understøtter den nuværende teknologi, måske usynlig for den enkelte forbruger, men yderst relevant at reducere i en tid med klimaforandringer. Her kan den hurtigt voksende talegenkendelses-teknologi spare stort ved at undgå det store behov for midlertidig hukommelse
”Det er vigtigt at reducere energiforbruget for at mindske afhængigheden af fossile brændstoffer, da der fortsat er datacentre, som er drevet af sådanne energikilder,” lyder det fra Panagiotis Karras
*
Fakta: Fonemer
Fonemer er de mindste udtaleenheder i sproget, som ikke kan udskiftes uden at ændre betydningen af det sagte. Dansk sprognævn formulerer det sådan i Retsskrivningsordbog: ”sproglyd med betydningsadskillende funktion”.
De bruges også af talegenkendelses-algoritmer, som den dataenhed sproglige ytringer kan genkendes og beregnes med, når softwaren skal matche vores lyde med tekst.
Fakta: Talegenkendelse bruges i mange apparater
Talegenkendelses-software bruges af mange såkaldte digitale devices. Nok mest udbredt er smartphones og home assistants, såsom Siri, Google Assistant, Amazon Alexa.
Sidstnævnte kan bruges til alt fra at styre hjemmets lysniveauer til at kommunikere med køleskabet. Det kan også udvide mulighederne for at bruge moderne bilers funktionaliteter, mens hænderne forbliver på rattet.
Men softwaren er også afgørende for transskriberingstjenester, oversættelses- og sproglærings-apps.
Mere info: En sproglig stifinder
Man kan prøve at forstå, hvordan computere arbejder med talegenkendelse, ved at tænke på den klassiske opgave, hvor man med en blyant skal finde den korrekte vej igennem en labyrint til udgangen.
Den klassiske algoritme til talegenkendelse vil nemlig gribe den opgave an på samme måde, som bruger til at genkende sproget. Fra udgangspunktet i starten af labyrinten vil den afsøge alle mulige veje, og i essens huske hele labyrinten - inklusiv alle blindgyderne - til udgangen er nået.
Den gyldne standard for denne metode er en ældre algoritme ved navn Viterbi. Processen beskrevet ovenfor trækker veksler på computerens midlertidige lagerplads, fordi den for hvert skridt på vejen skal beregne og huske sandsynligheder for alle positioner i hele labyrinten. Dette kan betyde, at algoritmen til sidst må huske på millioner af sandsynligheder, hvis labyrinten er tilpas lang.
Panagiotis’ nye algoritme benytter sig i stedet af et princip, der konstant halverer problemet. Ved enhver strækning på sin vej gennem labyrinten ville den nøjes med at huske det punkt, hvor den var halvejs. Konsekvensen er et væsentlig mindre behov for midlertidig hukommelse, og disse ”halvdele” i stedet beregnes igen inden den endelige rute er klar.
I talegenkendelse er disse punkter udgjort af de fonemer – sproglyde i tekst, der beregnes som det bedste match til det sagte, et hvert givet sted i den sætning, der bliver analyseret. De fonemer og deres sandsynlighed gemmes, som en slags koordinater på den rute, algoritmen undervejs finder bedst, mens den forsøger at finde vej mellem første og sidste lyd i en sætning.
Til sidst kan de bruges til at rekonstruere hele ”ruten”. Det vil sige: det bedste bud på en tekst af det, som er blevet sagt.
Bag studiet
Følgende forskere har medvirket til projektet:
Martino Ciaperoni
Athanasios (Nassos) Katsamanis
Aristides Gionis
Panagiotis Karras
Nøgleord
Kontakter
Panagiotis KarrasProfessorDatalogisk Institut, Københavns Universitet
Alternativ mail: piekarras@gmail.com
Athanasios (Nassos) KatsamanisSeniorforskerInstitute for Language and Speech Processing, Athena Research Center, Grækenland
Tlf:+30 210 6875405nkatsam@athenarc.grKristian Bjørn-HansenJournalist og pressekontaktDet Natur- og Biovidenskabelige Fakultet, Københavns Universitet
Tlf:93 51 60 02kbh@science.ku.dkLinks
Om Det Natur- og Biovidenskabelige Fakultet
Det Natur- og Biovidenskabelige Fakultet på Københavns Universitet – SCIENCE – er landets største naturvidenskabelige forsknings- og uddannelsesinstitution.
Fakultetets væsentligste opgave er at bidrage til løsning af de store udfordringer, som vi står overfor i en verden under hastig forandring med øget pres på bl.a. naturressourcer og markante klimaforandringer - både nationalt og globalt.
Følg pressemeddelelser fra Københavns Universitet
Skriv dig op her, og modtag pressemeddelelser på e-mail. Indtast din e-mail, klik på abonner, og følg instruktionerne i den udsendte e-mail.
Flere pressemeddelelser fra Københavns Universitet
Københavns Universitet lancerer stor vidensportal til kvinder i overgangsalderen5.3.2026 11:00:00 CET | Pressemeddelelse
Mange kvinder mangler viden om overgangsalderen, som længe har været et underprioriteret emne. En pjece og en ny vidensportal fra forskningsinitiativet Kvinder i Sund Overgang (KiSO) ved Københavns Universitet skal hjælpe kvinder med at få overblik og forstå denne fase af livet.
Her er Københavns Universitets valgeksperter4.3.2026 16:14:11 CET | Pressemeddelelse
Folketingsvalget er i gang. Der er stor efterspørgsel på ekspertkilderne. Her er Københavns Universitets liste med et udpluk af forskere, der kan agere eksperter i valgkampen.
Ny rapport: Unge frygter drugging i nattelivet – men anmelder stort set aldrig4.3.2026 06:00:00 CET | Pressemeddelelse
Unge – især kvinder – frygter i stigende grad at blive drugget, og fænomenet er mere omfattende og nuanceret end hidtil antaget. Det viser en ny rapport fra Kriminologisk Observatorium ved Københavns Universitet.
Børn med dårlig tandsundhed har oftere hjerte-kar-sygdomme som voksne2.3.2026 07:00:00 CET | Pressemeddelelse
Huller i tænderne og svær tandkødsbetændelse i barndommen kobles sammen med markant højere forekomst af hjertestop, hjerneblødning og åreforkalkning i voksenlivet, viser nyt studie fra Københavns Universitet.
Heste fløjter og synger, når de vrinsker23.2.2026 05:00:00 CET | Pressemeddelelse
Ny forskning fra Københavns Universitet viser, at et hestevrinsk er mere komplekst end som så. Opdagelsen bryder med tidligere antagelser om det store pattedyr og kaster nyt lys over, hvordan heste kommunikerer. Et forskningsområde, der trods 4.000 års domesticering stadig er fyldt med ubesvarede spørgsmål.
I vores nyhedsrum kan du læse alle vores pressemeddelelser, tilgå materiale i form af billeder og dokumenter samt finde vores kontaktoplysninger.
Besøg vores nyhedsrum