Dataloger får persondata til at støje: Kan gavne behandling af sygdomme

16.1.2024 12:00:00 CET | Københavns Universitet - Det Natur- og Biovidenskabelige Fakultet | Pressemeddelelse

Del

Forskere fra Københavns Universitet har udviklet en metode, der slører personfølsomme oplysninger i datasæt fra bl.a. sundhedsområdet. Metoden værner om den enkeltes ret til privatliv og stiller samtidig beskyttede data til rådighed for udvikling af bedre behandling.

I det moderne sundhedsvæsen er det et helt centralt værktøj at indsamle og analysere data for en stor gruppe patienter for at finde mønstre. Hvem har gavn af en bestemt behandling? Hvem risikerer at få bivirkninger? Men datasæt med personoplysninger skal beskyttes. Dels for at værne om den enkeltes ret til privatliv, dels fordi læk vil svække borgernes tillid, så færre vil sige ja til at medvirke i undersøgelser fremover.

Derfor har forskere fra Datalogisk Institut på Københavns Universitet udviklet en smart metode til at beskytte datasæt.

”Der er mange eksempler på, at datasæt er stillet til rådighed for offentligheden i anonymiseret form, hvorefter forskere i datasikkerhed har været i stand til at finde frem til deltagernes identitet. Det skyldes, at der findes så mange andre kilder til information i den moderne verden. Derfor vil det ofte være muligt at afdække folks identitet selv uden navne eller CPR-numre. Vi har fundet en praktisk og økonomisk måde at beskytte datasæt, der anvendes til maskinlæring,” siger ph.d.-studerende Joel Daniel Andersson.

Den nye algoritme er så interessant, at Joel blev inviteret til at fortælle om den på Google Tech Talk, som er et af de mest prestigefulde digitale formater i verden inden for datalogi. Desuden har han for nylig holdt et oplæg på NeurIPS, som er en af verdens førende konferencer for Machine Learning med flere end 10.000 deltagere.

Output fra datasættet bliver sløret

Tricket består af to dele. For det første stiller man aldrig datasættet direkte til rådighed. For eksempel vil en læge, der ønsker at afdække mønstre i virkningen af en behandling, ikke få de rå data, men kun adgang til at stille spørgsmål til datasættet. For det andet bliver svarene – kaldet output i fagsproget – tilsat en vis mængde tilfældige data, såkaldt støj. I modsætning til kryptering, hvor man tilføjer støj for senere at fjerne den igen, vil støjen i dette tilfælde forblive i datasættet. Faktisk vil det være umuligt at fjerne den, for støjen kan ikke skelnes fra de rigtige data.

Naturligvis er det surt for ejeren af et datasæt at skulle forurene output fra det med støj.

”En noget dårligere brugsværdi af datasættet er den pris, man betaler for at beskytte retten til privatliv for de deltagere, som har leveret data,” siger Joel Daniel Andersson.

Det gælder om at tilføje en tilpas mængde støj, så det bliver umuligt at genkende de oprindelige data, men samtidig bevare værdien af datasættet, tilføjer han:

”Hvis der er nok støj i output, bliver det umuligt at udlede værdien af et enkelt datapunkt, selv hvis du kender samtlige øvrige datapunkter. Man kan sige, at vi sætter et autoværn op omkring vekselvirkningen mellem analytiker og datasæt. Da analytikerne ikke får de rå data, men kun kan stille spørgsmål til datasættet, får de aldrig viden om individer. Dermed kan analytikerne aldrig lække data hverken bevidst eller utilsigtet.”

God beskyttelse har en pris

Der er ikke en universelt rigtig balance mellem beskyttelse af datasættet og brugbarhed, forklarer Joel Daniel Andersson:

”Du skal vælge den balance, der er rigtig i det givne tilfælde. Hvis vigtigheden af beskyttelse af privatliv er meget høj – for eksempel når der er tale om medicinske data – bør du vælge en stærk beskyttelse. Der skal altså tilføjes meget støj. Det vil nogle gange betyde, at du bliver nødt til at have flere data, altså have flere personer med i undersøgelsen, for stadig at have værdi af dit datasæt. I andre situationer, hvor behovet for beskyttelse er knap så højt, kan du nøjes med at tilsætte mindre støj. På den måde bevarer du værdien af datasættet bedre, og du mindsker også dine udgifter.”

Netop økonomi er den vigtigste grund til, at forskergruppens metode har fået så stor opmærksomhed, tilføjer han:

”Kernespørgsmålet er, hvor meget støj du skal tilsætte for at opnå et givent niveau af beskyttelse. Det er her vores smidige mekanisme har et fortrin i forhold til kendte metoder. Vi kan klare os med mindre støj og med lavere forbrug af computerkraft. Kort sagt mindsker vi udgiften ved at beskytte privatlivet.”

Stor interesse fra industrien

Machine Learning handler om at analysere store datasæt. For eksempel kan en computer typisk langt bedre end menneskelige eksperter finde mønstre i billeder fra medicinske skanninger. Forinden er computeren trænet ved hjælp af et datasæt med eksempler, hvor virkelige patienter indgår. Den slags træningssæt må beskyttes.

”Machine Learning vinder frem inden for mange felter. Samtidig er det ikke længere kun læger og andre professionelle, der bruger Machine Learning. Udviklingen åbner et væld af nye muligheder, men betyder også, at det bliver stadig vigtigere at beskytte personer, der indgår anonymt i datasæt, mod brud på deres ret til privatliv,” forklarer Joel Daniel Andersson.

Interessen er langt fra kun akademisk, tilføjer han:

”Ud over sundhedsvæsenet samt Google og andre store tech-virksomheder er det også brancher som konsulenthuse, revisionsfirmaer, advokater og mange andre, der har behov for at beskytte datasæt.”

Behov for regulering

Området kaldes differentiel beskyttelse af privatliv (differential privacy). Udtrykket henviser til, at man ikke kan sammenligne to datasæt, som er næsten ens, og finde frem til forskellen mellem dem. Selv hvis man sammenligner to datasæt, der kun har et enkelt datapunkt til forskel, vil det ikke være muligt at bestemme dette datapunkt. Det sørger støjen for.

Forskningsgruppen håber, at offentlige myndigheder vil vise større interesse for området.

”Fordi der er sammenhæng mellem bedre beskyttelse af privatliv og højere udgifter på grund af den dårligere nytteværdi af datasættet, er det fristende for de private aktører at give køb på beskyttelsen. Der bør være regler, som siger, at hvis du ønsker at arbejde med en bestemt anvendelse, skal du have et tilsvarende niveau af beskyttelse. Faktisk er det netop her, skønheden i metoden ligger. Du kan starte med at vælge, hvilket niveau af beskyttelse, du ønsker, og så kan systemet fortælle præcis, hvor meget støj, der skal tilsættes for at opnå det niveau,” siger Joel Daniel Andersson.

Han håber, at differentiel beskyttelse af privatliv kan hjælpe med at fremme brugen af Machine Learning:

”For igen at tage sundhedsområdet som eksempel, så skal patienterne i dag altid give samtykke til at indgå i undersøgelser. Der er altid et vist antal patienter, som enten nægter eller bare glemmer at give samtykke. Det forringer værdien af datasættet. Men når det er muligt at påvise en meget høj grad af sikkerhed mod at deltagernes privatliv bliver krænket, kan det være moralsk forsvarligt at undlade kravet om samtykke. På den måde ville man kunne opnå 100 % deltagelse til gavn for den medicinske forskning. Hvis den ekstra deltagelse er stor nok, vil den mere end kompensere for det tab af brugsværdi, som sløringen med støj medfører for datasættet. På den måde kan differentiel beskyttelse af privatliv blive en win-win for samfundet.”

Den videnskabelige artikel, som præsenterer den nye metode kan læses her “A Smooth Binary Mechanism for Efficient Private Continual Observation”.

Kontakter

Joel Daniel Andersson
Ph.d.-studerende
Datalogisk Institut
Københavns Universitet
+46 73 08 72 712.
jda@di.ku.dk

Michael Skov Jensen
Journalist og teamkoordinator
Det Natur- og Biovidenskabelige Fakultet
Københavns Universitet
msj@science.ku.dk
+45 93 56 58 97

Følg pressemeddelelser fra Københavns Universitet - Det Natur- og Biovidenskabelige Fakultet

Skriv dig op her, og modtag pressemeddelelser på e-mail. Indtast din e-mail, klik på abonner, og følg instruktionerne i den udsendte e-mail.

Flere pressemeddelelser fra Københavns Universitet - Det Natur- og Biovidenskabelige Fakultet

Nyt studie peger på Skagerrak som et slags ”fritidshjem” for den gådefulde grønlandshaj9.7.2025 09:00:00 CEST | Pressemeddelelse

Grønlandshajen – verdens længstlevende hvirveldyr – forbindes oftest med kolde arktiske vande. Et nyt internationalt studie ledt af forskere fra Grønlands Naturinstitut og Københavns Universitet viser dog, at Skagerrak sandsynligvis fungerer som opvækstområde for unge grønlandshajer. Studiet peger også på at grønlandshajer slet ikke fødes i hverken Grønland eller andre steder i Arktis.

Old aerial photos give scientists a new tool to predict sea level rise3.7.2025 08:00:00 CEST | Press release

Researchers from the University of Copenhagen have gained unique insight into the mechanisms behind the collapse of Antarctic ice shelves, which are crucial for sea level rise in the Northern Hemisphere. The discovery of old aerial photos has provided an unparalleled dataset that can improve predictions of sea level rise and how we should prioritise coastal protection and other forms of climate adaptation.

Gamle luftfotos giver forskere nyt redskab til at forudsige havstigninger3.7.2025 08:00:00 CEST | Pressemeddelelse

Forskere fra Københavns Universitet har fået unik adgang til at forstå mekanismerne bag antarktiske ishylders kollaps, som er afgørende for havstigninger på den nordlige halvkugle. Et fund af gamle luftfotos har skabt et enestående datasæt, som kan forbedre vores forudsigelser af hvor meget havene stiger, og vores prioritering af kystsikring og andre klimatilpasninger.

Ny institutleder på IFRO: ”Faglighed og fællesskab går hånd i hånd”1.7.2025 10:49:17 CEST | Pressemeddelelse

Per Svejstrup er fra 1. august ansat som institutleder på Institut for Fødevare- og Ressourceøkonomi (IFRO). Den kommende leder træder ind i rollen med stor respekt for IFRO's faglige og kollegiale kultur med klare ambitioner for fremtiden.

Dangerous Variant of Salmonella Still Not Eradicated – Researchers Point to the Solutions1.7.2025 09:53:23 CEST | Press release

The infectious and multi-resistant cattle disease Salmonella Dublin can be fatal to both humans and animals and causes significant losses for farmers. Although Denmark has attempted to eradicate the disease since 2008, it has not yet succeeded. A study from the University of Copenhagen points to possible reasons – and the necessary solutions.

I vores nyhedsrum kan du læse alle vores pressemeddelelser, tilgå materiale i form af billeder og dokumenter samt finde vores kontaktoplysninger.

Besøg vores nyhedsrum