Skip to main content

Henkilötietojen suojaus avoimessa terveysdatassa

Tiivistelmä: Terveystilastot voi julkaista yleisölle kyselykielellä, joka varmistaa henkilötietojen yksityisyyden kieltäytymällä näyttämästä tilastoja, jotka koskevat alle 100 henkeä. Kyselykieli on riittävän joustava lääketieteellisten hypoteesien alustavaan testaamiseen tutkimussuunnitelmaa laadittaessa.

  1. Yleishyödyllistä sensitiivistä dataa voi julkaista yksityisyyttä kunnioittaen
  2. Lääketieteellinen tutkimus vaatii joustavia kyselyitä
  3. Pseudonymisoitu data voi olla tietoturvariski ja vaatii pääsyn rajaamista
  4. Anonymisoitu yhdisteltävä data
  5. Anonymisoitu kyselykieli pitää suojata differentiaaliselta kryptoanalyysiltä

1. Yleishyödyllistä sensitiivistä dataa voi julkaista yksityisyyttä kunnioittaen

Tilastokesus julkaisee tietoa tuloista ja varallisuudesta. Julkaistavat tiedot kuuluvat yksilötasolla pankkisalaisuuden piiriin. Yrityksillä on tiukat prosessit sensitiivisten henkilötietojen käsittelyyn. Päänsääntöisesti työntekijöille teetetään Supon taustatarkistus ennen pääsyä käsiksi tietoihin. Kaikki kyselyt tietoihin kirjataan lokiin, josta voidaan jälkeenpäin katsoa, kuka katsoi mitä tietoja ja milloin.

Varallisuustilastot ovat silti julkisesti kenen tahansa katsottavissa, koska data on anonyymiä. Tiedot on pääsääntöisesti kerätty niin, että niistä ei paljastu mitään yksilön pankkisalaisuuden alaista tietoa, koska kukin taulukkosolu sisältää monta yksilöä (*).

2. Lääketieteellinen tutkimus vaatii joustavia kyselyitä

Hiljattain HS uutisoi tutkimuksesta, jossa oli selvitettiin raskaan astmalääkityksen vaikutusta muuhun terveyteen. Astma on tulehduksellinen keuhkosairaus, ja raskas lääkitys vähentää tulehdusta heikentämällä yleisesti immuunipuolustusta. Suurina annoksina tämä lisää riksiä muihin vakaviin sairauksiin, kuten keuhkokuumeeseen.

Mitä vaaditaan käyttöliittymältä, jolla voi tehdä tähän tutkimukseen liittyvää tiedonhakua?

Ensinnäkin siihen eivät riitä Tilastokeskus-tyyppiset tilastot, joissa käsitellään yksi alue kerrallaan. Tilastokeskus voisi julkaista esim. hengitystautitilaston, joka kertoisi astmaatikkojen (lievä, vaikea) ja keuhkokuumetta sairastavien määrän. Lääketilasto voisi kertoa eri astmalääkkeille annettujen reseptien määrän ja ajankohdan jakautumisen (esim. kesällä enemmän kuin talvella.) Tilastot ylipainosta ja muista vakavista sairauksista olisivat erikseen. Nämä osa-aluetilastot eivät kelpaisi aineistoksi tutkimukselle, koska tutkimuksessa tietoja pitää yhdistellä.

Tutkimushypoteesia voi lähestyä kyselyillä, jotka yhdistelevät neljää taulukkoa:

  • Potilaat-taulukko: Lasketaan tietyillä sairauksilla ja lääkityksellä olevien potilaiden määrää. Kontrolloidaan potilaiden ikä ja sukupuoli.
  • Reseptit-taulukko ja Lääkkeet-tailukko: Onko reseptiä immuunipuolustusta heikentävälle astmalääkitykselle? Onko annos iso vai pieni?
  • Diagnoosit-taulukko: Onko vaikea astma -diagnoosia vaiko ei? Onko keuhkokuumediagnoosia tai muita tutkittavia vakavia sairauksia astmalääkityksen aloittamisen jälkeen?

3. Pseudonymisoitu data voi olla tietovuotoriski ja vaatii pääsyn rajaamista

Yllä olevassa esimerkissä tutkija tekee suoria kyselyitä yksittäisistä henkilöistä kertoviin tauluihin. Millaisilla menetelmillä voidaan varmistaa henkilötietojen luottamuksellisuus?

Findatan sivuilla kerrottu keino on pseudonymisointi. Potilas tunnistetaan mielivaltaisesti valitulla numerolla, eikä kerrota henkilön nimeä. Tämä ei välttämättä suojaa yksityisyyttä. Jos urkittavasta henkilöstä tiedetään syntymäaika ja sairauden ja hoidon yksityiskohtia, voi olla mahdollista yhdistää pseudotunniste oikeaan henkilöön.

Datan minimointi: Tehdään etukäteen tutkimussuunnitelma ja poimitaan vain sellainen data, joka on tutkimuksen kannalta olennaista. Esim. yllä mainitussa astmatutkimuksessa normalisoidaan iän suhteen. Tällöin riittää syntymävuosi tai vuosikymmen, eikä tarvitse tietää syntymäpäivää. Voi olla etukäteen epäselvää, kuinka tarkkaa tietoa potilaista tarvitaan, erityisesti jos ei tiedetä etukäteen datan laatua tai tarkkaa kirjaustapaa (sairaanhoitokäyttöön kirjattu data voi olla tutkimuskäytössä heikkolaatuista.) Datan minimointi on sitä voimakkaampi menetelmä, mitä tarkempi tutkimussuunnitelma on.

Tietoturvakäytännöt. Findata vaatii, että pseudonymisoitua dataa, josta voi paljastua yksilöiden tietoja, käsitellään Findatan omassa, tietoturvallisessa ympäristössä tai yhtä tiukat kriteerit täyttävässä ympäristössä.

4. Anonymisoitu yhdisteltävä data

Terveysdataan voidaan aineiston sijasta tarjota julkinen kyselykäyttöliittymä, kuten Tilastokeskus tekee. Tällöin voidaan sensuroida yksityisyyttä loukkaavina taulukkosolut, joissa on alle 100 henkilöä. Tällöin voidaan suorittaa moni tutkimuksen vaatimista kyselyistä ilman, että tarvitaan pseudonymisoitua dataa, josta yksilöitä saattaa tunnistaa.

Esim. seuraavat kyselyt eivät edellytä pseudonymisoitua pääsyä yksittäisten potilaiden tietoihin.

  • Kuinka moni astmapotilas, joka sai/ei saanut immuunipuolustusta heikentävän astmalääkkeen reseptin, joutui astmalääkityksen alettua sairaalaan?
  • Mitkä olivat yleisimmät syyt joutua sairaalaan (vain ne syyt, joiden takia yli 100 sairaalaanjoutumista)?
  • Lisäsikö korkean annoksen immmuunipuolustusta heikentävä lääke painoa niillä, joiden paino on mitattu ennen ja jälkeen (jos yli sata punnittua)?

Anonyymien kyselyiden vahvinta alaa on hypoteesien testaus, kun ei vielä tiedetä, mitkä mittaustulokset tai sairaudet liittyvät tutkittavaan ilmiöön, ja ollaan vasta laatimassa tutkimussuunnitelmaa. Anonyymin pääsyn voi antaa kenelle tahansa. Anonyymissä tiedossa tarvitse minimoida vain käsiteltävien potilaiden lukumäärällä.

5. Anonymisoitu kyselykieli pitää suojata differentiaaliselta kryptoanalyysiltä


Kuva 1. Henkilötietojen urkkiminen differentiaalisella kryptoanalyysillä.

Differentiaalisessa kryptoanalyysissä tehdään pieniä muutoksia syötteeseen ja katsotaan, miten se vaikuttaa tuloksiin, pyrkimyksenä purkaa salaus. Kuvitellaan, että tiedämme Jaana Julkkiksesta uutisten perusteella riittävästi, että voimme valita vain hänet anonyymisoidulla kyselykielellä. Koska 1 < 100, niin tuota kyselytulosta ei tietenkään näytetä sellaisenaan. Miten voimme urkkia, onko Jaana Julkkiksella mielialalääkitys?

Temme ensin kyselyn, kuinka moni Jaanan kaltainen ihminen käyttää mielialalääkeitä. Rajaamme Jaanan tästä tuloksesta pois vaikkapa syntymäajan perusteella. Sitten teemme toisen kyselyn, jossa Jaana on mukana. Lisääntyikö tulos yhdellä? Se tarkoittaa sitä, että nimeomaan Jaana Julkkis on nyt mukana tuloksessa.

Anonyymin kyselykielen pitää ilmoittaa myös tulokset pyöristettyinä, jotta se olisi resistantti differentiaaliselle kryptoanalyysille.

Tämän lisäksi voidaan tarvita muita suojausmenetelmiä, kuten liian vähän eroavien kyselyjen estäminen tai liian tarkan poimimisen (esim. "kunta ja syntymäpäivä"-kriteeri valitsee alle 100 henkeä) estäminen.



(*) Joissain tapauksissa Kelan tilastot kertovat yksilöistä. Kuka on Suomen ainut yli 7 lapsen miespuolinen huoltaja, joka saa elatusapua?


Kuva 2. Tilastokeskus-tyyppiset tilastotkin voivat vuotaa yksilöiden henkilötietoja.

Comments

Popular posts from this blog

Doris Lessing: The Grass is Singing (1950)

Classics are hard to write about, because everything about them has been said much better by more learned scholars. The Grass is Singing is a truly exceptional book, because the plot is realistic and consistent on so many levels - human relationships, history, societal mechanisms, racism, economy of farming - while staying short, just 300 pages. As a student decades ago used to like discourse analysis, how it decostructs texts to find out how they reify social order, conventions and power structures by handing out roles, expectations and standards in everyday conversations and behaviours. The Grass is Singing is a treasure trove of such intricate negotiations. It starts with omnipresent racism (but certainly does not stop there.) However, the situation is far from stable. On the one hand the colonial masters tell stories and dream about past days when they could mistreat their labour as they pleased. On the other hand exit equals voice. Mistreatment is kept in check by the need for

Emma Kantanen: Nimi, jolla kutsutaan öisin (2019)

Etsin kirjaa ensin muistelmahyllystä, mutta se olikin autofiktiota ja fiktiohyllyssä. Kirja kertoo kirjailijan seikkailuista graafikkona kiinalaisessa pelifirmassa. Avoimeksi jää, mikä osa oli totta ja mikä tarua. Ennen kaikkea se kuvasi kulttuurishokkia ja ajan henkeä Pekingissä. Kirja on helppolukuinen ja vauhdikas runollisten ilmausten kaleidoskooppi, jossa ensivaikutelmat osoittautuvat pettäviksi matkailijan päästessä syvemmälle paikalliseen kulttuuriin. Päähenkilö on Mensan "älykäs selviää tilanteista, joihin viisas ei joudu" -siipeä ylpeänä edustava kunnianhimoinen seikkailija, joka janoaa uusia kokemuksia ja jonka on helpompi sietää epämukavuutta - työstressiä, kulttuurikonflikteja, jopa väkivaltaa - kuin tylsistymistä. Roviolla häntä häiritsi se, että hänen kykyjään ei huomattu, vaikka hän teki kaiken oikein sekä työssä että verkostoitumisessa. Vääntäessään kiinassa 6-päiväistä viikkoa ja pitkiä päiviä hän vähitellen huomaa, että sama kuvio toistuu sielläkin, mutt

Jani Antola & Allan Seppänen: Ohikulkijat

"Järjetön ajatus. Pitkästä aikaa." Sota-alueita kiertänyt kuvareportteri Emil Moltke on asettunut aloilleen Kööpenhaminaan kauan sitten kuvioista kadonneen naisen houkuttelemana, mutta ei sopeudu arkeen. Kriisialueiden jälkeen tuntuu banaalilta kirjoittaa pihagrillejä vertaileva artikkeli kuvineen. Eräänä iltana hän päättää jättää kaikki ja lähteä Abhaasiaan. Matkan nimellinen tarkoitus on löytää kunnioitettu akateemikko Johannes Böhm, joka on perityllä vauraudella vetäytynyt jumalan selän taakse kirjoittamaan suurta synteesiä maailman menosta, mutta varsinainen tarkoitus irtiotto pystyyn kuolleesta arjesta. Alkaa absurdi matka täynnä alkoholia, tyttöjä, seikkailuja ja vastoinkäymisiä. Abhaasia osoittautuu matalan intensiteetin sotatoimialueeksi Venäjän ja Georgian välillä. Infra on pommiteettu ja yksinkertaisetkin asiat ovat vaikeita, hitaita ja vaarallisia. Jostain silti aina löytyy paikalliskontakteja, viinaa ja länsivaurauden houkuttama tyttö kainaloon. "Kaikki