Talegenkendelse på telefonen kan snart klares uden internet

12.12.2024 09:08:06 CET | Københavns Universitet | Pressemeddelelse

Del

I dag har mere end hver fjerde gjort talegenkendelse til en del af hverdagen. Ny algoritme, fra forsker ved Købehavns Universitet og internationale kollegaer, gør det for første gang muligt at tale med ”Siri” og andre digitale assistenter uden internetforbindelse. Med opfindelsen vil talegenkendelse kunne bruges hvor-som-helst, men også når sikkerheden er højeste prioritet.

Ny patenteret algoritme gør talegenkendelse muligt, selv hvor kragerne vender - og på flyet hjem igen. **Foto: Getty**

Engang var det science fiction, at tale med en computer. I dag er det hverdag for mange at sige ”hej Siri”, ”Alexa” eller noget tredje til sit smartphone eller digitale assistent i hjemmet. Alligevel kan talegenkendelse få en endnu større rolle i fremtiden.

Hvor globale undersøgelser har vist, at hvor hver fjerde allerede bruger teknologierne jævnligt, så vil antallet af enheder, der har talegenkendelse, overstige antallet af mennesker på planeten i 2025, hvis forudsigelserne holder stik. Og teknologien udvikler sig stadig.

Indtil nu har funktionen været begrænset til enheder tilsluttet internettet. Det skyldes, at den algoritme, der normalt styrer processen, kræver en stor midlertidig hukommelse (RAM). Derfor har datacentrenes store servere holdt hånden under teknologien via internettet. Man kan selv teste det ved at sætte sin smartphone på ”flyfunktion” og konstatere, at ingen er hjemme, når man taler til den. Men det kan ændre sig nu.

Med en ny algoritme, opfundet af Professor Panagiotis Karras fra Datalogisk Institut ved Københavns Universitet, og udviklet i samarbejde med sprogforsker Nassos Katsamanis fra Athena Research Center i Grækenland og forskere fra Aalto Universitet, Finland, og KTH i Sverige, kan selv mindre computere som smartphones nu blive udstyret med software, der er i stand til at afkode vores tale uden det store behov for hukommelse - uden behov for internetadgang.

Koden, der fornyligt blev præsenteret i en videnskabelig artikel, benytter sig af et smart trick for at undgå det: Den glemmer det, den ikke skal bruge nu og her.

”Talegenkendelse fungerer grundlæggende ved, at de små lyde, som vi danner ord og sætninger med, kaldet fonemer, bliver matchet med et bibliotek af tilsvarende lyde. Der beregnes sandsynligheder for et match og for de efterfølgende kombinationer, som danner vores ord og sætninger. De mest sandsynlige sekvenser beregnes på den måde, og softwaren oversætter således lydene til tekst, ” forklarer Panagiotis Karras.

Men med de nuværende algoritmer kræver processen mere og mere hukommelse, jo længere det talte er, fordi alle alternative kombinationer skal holdes åbne, til den sidste lyd er blevet analyseret. Det er det, den nye algoritme gør op med.

”Den algoritme Panos udtænkte, og som vi har udviklet, kan noget helt nyt. I modsætning til den kode, der har været den gyldne standard siden talegenkendelens tidligste dage, gemmer den kun en brøkdel af arbejdet, der fungerer som en slags ”koordinater”. Med dem kan den genskabe hele sekvensen, den har fortolket, og resultatet er talegenkendelse, der ikke kræver nær samme RAM,” forklarer medudvikler og medforfatter til forskningen, Nassos Katsamanis.

Fra simple ”keywords” til lange sætninger

Den manøvre kan lyde enkel, men involverer unik kode, som ikke før er set, og som forskerne bag har søgt patent på. Algoritmen er den i stand til at mindske den afgørende hukommelse, uden at det går ud over kvaliteten af talegenkendelsen. Den kræver smule mere tid og regnekraft end tidligere processer, men det er ubetydeligt sammenlignet med de muskler, moderne enheder har, forsikrer forskerne.

Og så er den altså i stand til at gøre det uden internetforbindelse, hvilket gør talegenkendelse - og på sigt også oversættelse af hele sprog, håber forskerne - muligt hvor-som-helst, selv i Amazonas dybeste jungle.

Når den nuværende software må opbevare disse alternative sekvenser og biblioteker af potentielle lydtolkninger, så er det egentligt relativt uproblematisk, når opgaven er enkelte ord og ganske korte sætninger. Men jo længere sætninger, der er tale om, desto mere kompleks bliver de potentielle kombinationer, og dermed stiger behovet for RAM.

”I dag er det muligt for visse små devices, at genkende og handle ud fra nogle få ord uden at være på nettet. Smart home-systemer kan forstå enkelte ”keywords” som ”tænd” og ”sluk”. Det kalder man for small-vocabulary speech recognition. Med vores algoritme vil de kunne genkende lange instruktioner - i princippet hele sprog, uden internetforbindelse. Det kaldes large-vocabulary speech recognition,” siger Panagiotis Karras.

Bedre inklusion, sikkerhed og energibesparelse

Opfindelsen fører, ifølge forskerne, mange muligheder med sig. Den har fordele, som er både praktiske, sikkerhedsmæssige og samfundsmæssige. Og så er der et stort energibesparende potentiale.

Mange ville kunne få glæde af, at man fortsat vil kunne få hjælp til fx oversættelse af fremmede sprog på rejser, også uden for internettets rækkevidde, og den mulighed håber forskerne på sigt at realisere. Men samfundspotentialet for den sproglige tilgængelighed nu og på sigt er langt større end det.

”Denne algoritme kan være med til at udbrede sprogteknologi og gavne demokratisering ved at gøre information mere tilgængelig. At gøre oversættelsesværktøjer og taleassistenter tilgængelige, uanset om man befinder langt fra internettet, betyder, at flere vil kunne deltage i samfundet. Det giver blandt andet mennesker uden skriftsprog eller med fysiske handicap nye muligheder for at forstå og påvirke samfundets beslutninger,” siger Nassos Katsamanis

Et andet aspekt af opfindelsen er sikkerheden i forbindelse med talegenkendelse. Er sikkerheden ens højeste prioritet, kan den nye algoritme løse et vigtigt problem: Internet-opkoblinger kan hackes. Den nye algoritme øger sikkerheden ved at fjerne behovet for at være tilsluttet internettet.

Samtidigt er energiforbruget i de store datacentre, som understøtter den nuværende teknologi, måske usynlig for den enkelte forbruger, men yderst relevant at reducere i en tid med klimaforandringer. Her kan den hurtigt voksende talegenkendelses-teknologi spare stort ved at undgå det store behov for midlertidig hukommelse

”Det er vigtigt at reducere energiforbruget for at mindske afhængigheden af fossile brændstoffer, da der fortsat er datacentre, som er drevet af sådanne energikilder,” lyder det fra Panagiotis Karras

*

Fakta: Fonemer

Fonemer er de mindste udtaleenheder i sproget, som ikke kan udskiftes uden at ændre betydningen af det sagte. Dansk sprognævn formulerer det sådan i Retsskrivningsordbog: ”sproglyd med betydningsadskillende funktion”.

De bruges også af talegenkendelses-algoritmer, som den dataenhed sproglige ytringer kan genkendes og beregnes med, når softwaren skal matche vores lyde med tekst.

Fakta: Talegenkendelse bruges i mange apparater

Talegenkendelses-software bruges af mange såkaldte digitale devices. Nok mest udbredt er smartphones og home assistants, såsom Siri, Google Assistant, Amazon Alexa.

Sidstnævnte kan bruges til alt fra at styre hjemmets lysniveauer til at kommunikere med køleskabet. Det kan også udvide mulighederne for at bruge moderne bilers funktionaliteter, mens hænderne forbliver på rattet.

Men softwaren er også afgørende for transskriberingstjenester, oversættelses- og sproglærings-apps.

Mere info: En sproglig stifinder

Man kan prøve at forstå, hvordan computere arbejder med talegenkendelse, ved at tænke på den klassiske opgave, hvor man med en blyant skal finde den korrekte vej igennem en labyrint til udgangen.

Den klassiske algoritme til talegenkendelse vil nemlig gribe den opgave an på samme måde, som bruger til at genkende sproget. Fra udgangspunktet i starten af labyrinten vil den afsøge alle mulige veje, og i essens huske hele labyrinten - inklusiv alle blindgyderne - til udgangen er nået.

Den gyldne standard for denne metode er en ældre algoritme ved navn Viterbi. Processen beskrevet ovenfor trækker veksler på computerens midlertidige lagerplads, fordi den for hvert skridt på vejen skal beregne og huske sandsynligheder for alle positioner i hele labyrinten. Dette kan betyde, at algoritmen til sidst må huske på millioner af sandsynligheder, hvis labyrinten er tilpas lang.

Panagiotis’ nye algoritme benytter sig i stedet af et princip, der konstant halverer problemet. Ved enhver strækning på sin vej gennem labyrinten ville den nøjes med at huske det punkt, hvor den var halvejs. Konsekvensen er et væsentlig mindre behov for midlertidig hukommelse, og disse ”halvdele” i stedet beregnes igen inden den endelige rute er klar.

I talegenkendelse er disse punkter udgjort af de fonemer – sproglyde i tekst, der beregnes som det bedste match til det sagte, et hvert givet sted i den sætning, der bliver analyseret. De fonemer og deres sandsynlighed gemmes, som en slags koordinater på den rute, algoritmen undervejs finder bedst, mens den forsøger at finde vej mellem første og sidste lyd i en sætning.

Til sidst kan de bruges til at rekonstruere hele ”ruten”. Det vil sige: det bedste bud på en tekst af det, som er blevet sagt.

Bag studiet
Følgende forskere har medvirket til projektet:

Martino Ciaperoni

Athanasios (Nassos) Katsamanis

Aristides Gionis

Panagiotis Karras

Nøgleord

talegenkendelse algoritmer data datalogi siri digitale assistenter teknologi datalogisk institut københavns universitet

Kontakter

Panagiotis KarrasProfessorDatalogisk Institut, Københavns Universitet

Alternativ mail: piekarras@gmail.com

Tlf:91416469paka@di.ku.dk

Athanasios (Nassos) KatsamanisSeniorforskerInstitute for Language and Speech Processing, Athena Research Center, Grækenland

Tlf:+30 210 6875405nkatsam@athenarc.gr

Kristian Bjørn-HansenJournalist og pressekontaktDet Natur- og Biovidenskabelige Fakultet, Københavns Universitet

Tlf:93 51 60 02kbh@science.ku.dk

Om Det Natur- og Biovidenskabelige Fakultet

Det Natur- og Biovidenskabelige Fakultet på Københavns Universitet – SCIENCE – er landets største naturvidenskabelige forsknings- og uddannelsesinstitution.

Fakultetets væsentligste opgave er at bidrage til løsning af de store udfordringer, som vi står overfor i en verden under hastig forandring med øget pres på bl.a. naturressourcer og markante klimaforandringer - både nationalt og globalt.

Følg pressemeddelelser fra Københavns Universitet

Skriv dig op her, og modtag pressemeddelelser på e-mail. Indtast din e-mail, klik på abonner, og følg instruktionerne i den udsendte e-mail.

Flere pressemeddelelser fra Københavns Universitet

Stort dansk studie: Kræftpatienter rammes langt oftere af psykiske lidelser28.7.2026 06:05:00 CEST | Pressemeddelelse

Med en kræftdiagnose er der dobbelt så høj risiko for, at man senere udvikler en psykisk lidelse, end hvis man er kræftfri. I det første år er der fem gange øget risiko for at blive indlagt med en psykisk diagnose eller få udskrevet medicin til behandling af sådanne sygdomme.

Fra Nordjylland til Amager: DNA-støvsuger afslører det lokale dyreliv i dansk natur23.7.2026 06:05:00 CEST | Pressemeddelelse

Forskere har udviklet en DNA-støvsuger, der kan suge genetiske spor fra dyr ud af luften og afsløre, hvilke dyr der lever i et område. I to nye studier tager forskerne luftprøver i tre naturområder i Danmark og viser, at metoden kan bruges til at kortlægge det lokale dyreliv. Dermed rykker de et stort skridt tættere på bedre overvågning af biodiversitet ved hjælp af DNA fra luft.

Nu taler vi ikke længere kun om sorte huller, vi lytter til dem22.7.2026 14:30:00 CEST | Pressemeddelelse

For første gang i historien samler et internationalt forskerhold både teorien og observationerne af sorte hullers vibrationer i én samlet status over feltet. En af forskerne bag, kalder det ”et nyt stadie i astronomien”.

Når storebror bringer virus med hjem, kan det koste lillesøster dyrt senere i livet22.7.2026 06:38:13 CEST | Pressemeddelelse

Spædbørn, der udsættes for luftvejssygdomme via ældre søskende, klarer sig typisk dårligere i uddannelse, indkomst og helbred i voksenlivet. Det viser ny forskning fra Københavns Universitet.

Danmark skal have vådområderne tilbage: Nyt studie viser, hvor klimaeffekten er størst16.7.2026 06:05:00 CEST | Pressemeddelelse

Inden for fire år skal Danmark og resten af EU have genoprettet mindst 30% af de vådområder, som har det skidt i dag. Men hvor giver det bedst mening at sætte ind? Det giver forskere fra Københavns Universitet nu et bud på med det første detaljerede kort over Europas vådområder. Kortet lukker et videnshul og viser, hvor effekten på klima og biodiversitet formentlig er størst.

I vores nyhedsrum kan du læse alle vores pressemeddelelser, tilgå materiale i form af billeder og dokumenter samt finde vores kontaktoplysninger.

Besøg vores nyhedsrum