Københavns Universitet      -        Det Natur- og Biovidenskabelige Fakultet

Talegenkendelse på telefonen kan snart klares uden internet

Del

I dag har mere end hver fjerde gjort talegenkendelse til en del af hverdagen. Ny algoritme, fra forsker ved Købehavns Universitet og internationale kollegaer, gør det for første gang muligt at tale med ”Siri” og andre digitale assistenter uden internetforbindelse. Med opfindelsen vil talegenkendelse kunne bruges hvor-som-helst, men også når sikkerheden er højeste prioritet.

Ny patenteret algoritme gør talegenkendelse muligt, selv hvor kragerne vender - og på flyet hjem igen.
Ny patenteret algoritme gør talegenkendelse muligt, selv hvor kragerne vender - og på flyet hjem igen. Foto: Getty

Engang var det science fiction, at tale med en computer. I dag er det hverdag for mange at sige ”hej Siri”, ”Alexa” eller noget tredje til sit smartphone eller digitale assistent i hjemmet. Alligevel kan talegenkendelse få en endnu større rolle i fremtiden.

Hvor globale undersøgelser har vist, at hvor hver fjerde allerede bruger teknologierne jævnligt, så vil antallet af enheder, der har talegenkendelse, overstige antallet af mennesker på planeten i 2025, hvis forudsigelserne holder stik. Og teknologien udvikler sig stadig.

Indtil nu har funktionen været begrænset til enheder tilsluttet internettet. Det skyldes, at den algoritme, der normalt styrer processen, kræver en stor midlertidig hukommelse (RAM). Derfor har datacentrenes store servere holdt hånden under teknologien via internettet. Man kan selv teste det ved at sætte sin smartphone på ”flyfunktion” og konstatere, at ingen er hjemme, når man taler til den. Men det kan ændre sig nu.

Med en ny algoritme, opfundet af Professor Panagiotis Karras fra Datalogisk Institut ved Københavns Universitet, og udviklet i samarbejde med sprogforsker Nassos Katsamanis fra Athena Research Center i Grækenland og forskere fra Aalto Universitet, Finland, og KTH i Sverige, kan selv mindre computere som smartphones nu blive udstyret med software, der er i stand til at afkode vores tale uden det store behov for hukommelse - uden behov for internetadgang.

Koden, der fornyligt blev præsenteret i en videnskabelig artikel, benytter sig af et smart trick for at undgå det: Den glemmer det, den ikke skal bruge nu og her.

”Talegenkendelse fungerer grundlæggende ved, at de små lyde, som vi danner ord og sætninger med, kaldet fonemer, bliver matchet med et bibliotek af tilsvarende lyde. Der beregnes sandsynligheder for et match og for de efterfølgende kombinationer, som danner vores ord og sætninger. De mest sandsynlige sekvenser beregnes på den måde, og softwaren oversætter således lydene til tekst, ” forklarer Panagiotis Karras.

Men med de nuværende algoritmer kræver processen mere og mere hukommelse, jo længere det talte er, fordi alle alternative kombinationer skal holdes åbne, til den sidste lyd er blevet analyseret. Det er det, den nye algoritme gør op med.

”Den algoritme Panos udtænkte, og som vi har udviklet, kan noget helt nyt. I modsætning til den kode, der har været den gyldne standard siden talegenkendelens tidligste dage, gemmer den kun en brøkdel af arbejdet, der fungerer som en slags ”koordinater”. Med dem kan den genskabe hele sekvensen, den har fortolket, og resultatet er talegenkendelse, der ikke kræver nær samme RAM,” forklarer medudvikler og medforfatter til forskningen, Nassos Katsamanis.

Fra simple ”keywords” til lange sætninger

Den manøvre kan lyde enkel, men involverer unik kode, som ikke før er set, og som forskerne bag har søgt patent på. Algoritmen er den i stand til at mindske den afgørende hukommelse, uden at det går ud over kvaliteten af talegenkendelsen. Den kræver smule mere tid og regnekraft end tidligere processer, men det er ubetydeligt sammenlignet med de muskler, moderne enheder har, forsikrer forskerne.

Og så er den altså i stand til at gøre det uden internetforbindelse, hvilket gør talegenkendelse - og på sigt også oversættelse af hele sprog, håber forskerne - muligt hvor-som-helst, selv i Amazonas dybeste jungle.

Når den nuværende software må opbevare disse alternative sekvenser og biblioteker af potentielle lydtolkninger, så er det egentligt relativt uproblematisk, når opgaven er enkelte ord og ganske korte sætninger. Men jo længere sætninger, der er tale om, desto mere kompleks bliver de potentielle kombinationer, og dermed stiger behovet for RAM.

”I dag er det muligt for visse små devices, at genkende og handle ud fra nogle få ord uden at være på nettet. Smart home-systemer kan forstå enkelte ”keywords” som ”tænd” og ”sluk”. Det kalder man for small-vocabulary speech recognition. Med vores algoritme vil de kunne genkende lange instruktioner - i princippet hele sprog, uden internetforbindelse. Det kaldes large-vocabulary speech recognition,” siger Panagiotis Karras.

Bedre inklusion, sikkerhed og energibesparelse

Opfindelsen fører, ifølge forskerne, mange muligheder med sig. Den har fordele, som er både praktiske, sikkerhedsmæssige og samfundsmæssige. Og så er der et stort energibesparende potentiale. 

Mange ville kunne få glæde af, at man fortsat vil kunne få hjælp til fx oversættelse af fremmede sprog på rejser, også uden for internettets rækkevidde, og den mulighed håber forskerne på sigt at realisere. Men samfundspotentialet for den sproglige tilgængelighed nu og på sigt er langt større end det.

”Denne algoritme kan være med til at udbrede sprogteknologi og gavne demokratisering ved at gøre information mere tilgængelig. At gøre oversættelsesværktøjer og taleassistenter tilgængelige, uanset om man befinder langt fra internettet, betyder, at flere vil kunne deltage i samfundet. Det giver blandt andet mennesker uden skriftsprog eller med fysiske handicap nye muligheder for at forstå og påvirke samfundets beslutninger,” siger Nassos Katsamanis

Et andet aspekt af opfindelsen er sikkerheden i forbindelse med talegenkendelse. Er sikkerheden ens højeste prioritet, kan den nye algoritme løse et vigtigt problem: Internet-opkoblinger kan hackes. Den nye algoritme øger sikkerheden ved at fjerne behovet for at være tilsluttet internettet.

Samtidigt er energiforbruget i de store datacentre, som understøtter den nuværende teknologi, måske usynlig for den enkelte forbruger, men yderst relevant at reducere i en tid med klimaforandringer. Her kan den hurtigt voksende talegenkendelses-teknologi spare stort ved at undgå det store behov for midlertidig hukommelse

”Det er vigtigt at reducere energiforbruget for at mindske afhængigheden af fossile brændstoffer, da der fortsat er datacentre, som er drevet af sådanne energikilder,” lyder det fra Panagiotis Karras

*

Fakta: Fonemer

Fonemer er de mindste udtaleenheder i sproget, som ikke kan udskiftes uden at ændre betydningen af det sagte. Dansk sprognævn formulerer det sådan i Retsskrivningsordbog: ”sproglyd med betydningsadskillende funktion”.

De bruges også af talegenkendelses-algoritmer, som den dataenhed sproglige ytringer kan genkendes og beregnes med, når softwaren skal matche vores lyde med tekst.

Fakta: Talegenkendelse bruges i mange apparater

Talegenkendelses-software bruges af mange såkaldte digitale devices. Nok mest udbredt er smartphones og home assistants, såsom Siri, Google Assistant, Amazon Alexa.

Sidstnævnte kan bruges til alt fra at styre hjemmets lysniveauer til at kommunikere med køleskabet. Det kan også udvide mulighederne for at bruge moderne bilers funktionaliteter, mens hænderne forbliver på rattet.

Men softwaren er også afgørende for transskriberingstjenester, oversættelses- og sproglærings-apps.

Mere info: En sproglig stifinder

Man kan prøve at forstå, hvordan computere arbejder med talegenkendelse, ved at tænke på den klassiske opgave, hvor man med en blyant skal finde den korrekte vej igennem en labyrint til udgangen.

Den klassiske algoritme til talegenkendelse vil nemlig gribe den opgave an på samme måde, som bruger til at genkende sproget. Fra udgangspunktet i starten af labyrinten vil den afsøge alle mulige veje, og i essens huske hele labyrinten - inklusiv alle blindgyderne - til udgangen er nået.

Den gyldne standard for denne metode er en ældre algoritme ved navn Viterbi. Processen beskrevet ovenfor trækker veksler på computerens midlertidige lagerplads, fordi den for hvert skridt på vejen skal beregne og huske sandsynligheder for alle positioner i hele labyrinten. Dette kan betyde, at algoritmen til sidst må huske på millioner af sandsynligheder, hvis labyrinten er tilpas lang.

Panagiotis’ nye algoritme benytter sig i stedet af et princip, der konstant halverer problemet. Ved enhver strækning på sin vej gennem labyrinten ville den nøjes med at huske det punkt, hvor den var halvejs. Konsekvensen er et væsentlig mindre behov for midlertidig hukommelse, og disse ”halvdele” i stedet beregnes igen inden den endelige rute er klar.

I talegenkendelse er disse punkter udgjort af de fonemer – sproglyde i tekst, der beregnes som det bedste match til det sagte, et hvert givet sted i den sætning, der bliver analyseret. De fonemer og deres sandsynlighed gemmes, som en slags koordinater på den rute, algoritmen undervejs finder bedst, mens den forsøger at finde vej mellem første og sidste lyd i en sætning.

Til sidst kan de bruges til at rekonstruere hele ”ruten”. Det vil sige: det bedste bud på en tekst af det, som er blevet sagt.

Bag studiet
Følgende forskere har medvirket til projektet:

Martino Ciaperoni

Athanasios (Nassos) Katsamanis

Aristides Gionis

Panagiotis Karras

Nøgleord

Kontakter

Panagiotis KarrasProfessorDatalogisk Institut, Københavns Universitet

Alternativ mail: piekarras@gmail.com

Tlf:91416469paka@di.ku.dk

Kristian Bjørn-HansenJournalist og pressekontaktDet Natur- og Biovidenskabelige Fakultet, Københavns Universitet

Tlf:93 51 60 02kbh@science.ku.dk

Links

Om Det Natur- og Biovidenskabelige Fakultet

Det Natur- og Biovidenskabelige Fakultet på Københavns Universitet – SCIENCE – er landets største naturvidenskabelige forsknings- og uddannelsesinstitution.

Fakultetets væsentligste opgave er at bidrage til løsning af de store udfordringer, som vi står overfor i en verden under hastig forandring med øget pres på bl.a. naturressourcer og markante klimaforandringer - både nationalt og globalt.

Følg pressemeddelelser fra Københavns Universitet - Det Natur- og Biovidenskabelige Fakultet

Skriv dig op her, og modtag pressemeddelelser på e-mail. Indtast din e-mail, klik på abonner, og følg instruktionerne i den udsendte e-mail.

Flere pressemeddelelser fra Københavns Universitet - Det Natur- og Biovidenskabelige Fakultet

Coming soon – offline speech recognition on your phone12.12.2024 09:39:46 CET | Press release

More than one in four people currently integrate speech recognition into their daily lives. A new algorithm developed by a University of Copenhagen researcher and his international colleagues makes it possible to interact with digital assistants like “Siri” without any internet connection. The innovation allows for speech recognition to be used anywhere, even in situations where security is paramount.

I vores nyhedsrum kan du læse alle vores pressemeddelelser, tilgå materiale i form af billeder og dokumenter samt finde vores kontaktoplysninger.

Besøg vores nyhedsrum
World GlobeA line styled icon from Orion Icon Library.HiddenA line styled icon from Orion Icon Library.Eye