Tiivistelmä: Terveystilastot voi julkaista yleisölle kyselykielellä, joka varmistaa henkilötietojen yksityisyyden kieltäytymällä näyttämästä tilastoja, jotka koskevat alle 100 henkeä. Kyselykieli on riittävän joustava lääketieteellisten hypoteesien alustavaan testaamiseen tutkimussuunnitelmaa laadittaessa.
- Yleishyödyllistä sensitiivistä dataa voi julkaista yksityisyyttä kunnioittaen
- Lääketieteellinen tutkimus vaatii joustavia kyselyitä
- Pseudonymisoitu data voi olla tietoturvariski ja vaatii pääsyn rajaamista
- Anonymisoitu yhdisteltävä data
- Anonymisoitu kyselykieli pitää suojata differentiaaliselta kryptoanalyysiltä
1. Yleishyödyllistä sensitiivistä dataa voi julkaista yksityisyyttä kunnioittaen
Tilastokesus julkaisee tietoa tuloista ja varallisuudesta. Julkaistavat tiedot kuuluvat yksilötasolla pankkisalaisuuden piiriin. Yrityksillä on tiukat prosessit sensitiivisten henkilötietojen käsittelyyn. Päänsääntöisesti työntekijöille teetetään Supon taustatarkistus ennen pääsyä käsiksi tietoihin. Kaikki kyselyt tietoihin kirjataan lokiin, josta voidaan jälkeenpäin katsoa, kuka katsoi mitä tietoja ja milloin.
Varallisuustilastot ovat silti julkisesti kenen tahansa katsottavissa, koska data on anonyymiä. Tiedot on pääsääntöisesti kerätty niin, että niistä ei paljastu mitään yksilön pankkisalaisuuden alaista tietoa, koska kukin taulukkosolu sisältää monta yksilöä (*).
2. Lääketieteellinen tutkimus vaatii joustavia kyselyitä
Hiljattain HS uutisoi tutkimuksesta, jossa oli selvitettiin raskaan astmalääkityksen vaikutusta muuhun terveyteen. Astma on tulehduksellinen keuhkosairaus, ja raskas lääkitys vähentää tulehdusta heikentämällä yleisesti immuunipuolustusta. Suurina annoksina tämä lisää riksiä muihin vakaviin sairauksiin, kuten keuhkokuumeeseen.
Mitä vaaditaan käyttöliittymältä, jolla voi tehdä tähän tutkimukseen liittyvää tiedonhakua?
Ensinnäkin siihen eivät riitä Tilastokeskus-tyyppiset tilastot, joissa käsitellään yksi alue kerrallaan. Tilastokeskus voisi julkaista esim. hengitystautitilaston, joka kertoisi astmaatikkojen (lievä, vaikea) ja keuhkokuumetta sairastavien määrän. Lääketilasto voisi kertoa eri astmalääkkeille annettujen reseptien määrän ja ajankohdan jakautumisen (esim. kesällä enemmän kuin talvella.) Tilastot ylipainosta ja muista vakavista sairauksista olisivat erikseen. Nämä osa-aluetilastot eivät kelpaisi aineistoksi tutkimukselle, koska tutkimuksessa tietoja pitää yhdistellä.
Tutkimushypoteesia voi lähestyä kyselyillä, jotka yhdistelevät neljää taulukkoa:
- Potilaat-taulukko: Lasketaan tietyillä sairauksilla ja lääkityksellä olevien potilaiden määrää. Kontrolloidaan potilaiden ikä ja sukupuoli.
- Reseptit-taulukko ja Lääkkeet-tailukko: Onko reseptiä immuunipuolustusta heikentävälle astmalääkitykselle? Onko annos iso vai pieni?
- Diagnoosit-taulukko: Onko vaikea astma -diagnoosia vaiko ei? Onko keuhkokuumediagnoosia tai muita tutkittavia vakavia sairauksia astmalääkityksen aloittamisen jälkeen?
3. Pseudonymisoitu data voi olla tietovuotoriski ja vaatii pääsyn rajaamista
Yllä olevassa esimerkissä tutkija tekee suoria kyselyitä yksittäisistä henkilöistä kertoviin tauluihin. Millaisilla menetelmillä voidaan varmistaa henkilötietojen luottamuksellisuus?
Findatan sivuilla kerrottu keino on pseudonymisointi. Potilas tunnistetaan mielivaltaisesti valitulla numerolla, eikä kerrota henkilön nimeä. Tämä ei välttämättä suojaa yksityisyyttä. Jos urkittavasta henkilöstä tiedetään syntymäaika ja sairauden ja hoidon yksityiskohtia, voi olla mahdollista yhdistää pseudotunniste oikeaan henkilöön.
Datan minimointi: Tehdään etukäteen tutkimussuunnitelma ja poimitaan vain sellainen data, joka on tutkimuksen kannalta olennaista. Esim. yllä mainitussa astmatutkimuksessa normalisoidaan iän suhteen. Tällöin riittää syntymävuosi tai vuosikymmen, eikä tarvitse tietää syntymäpäivää. Voi olla etukäteen epäselvää, kuinka tarkkaa tietoa potilaista tarvitaan, erityisesti jos ei tiedetä etukäteen datan laatua tai tarkkaa kirjaustapaa (sairaanhoitokäyttöön kirjattu data voi olla tutkimuskäytössä heikkolaatuista.) Datan minimointi on sitä voimakkaampi menetelmä, mitä tarkempi tutkimussuunnitelma on.
Tietoturvakäytännöt. Findata vaatii, että pseudonymisoitua dataa, josta voi paljastua yksilöiden tietoja, käsitellään Findatan omassa, tietoturvallisessa ympäristössä tai yhtä tiukat kriteerit täyttävässä ympäristössä.
4. Anonymisoitu yhdisteltävä data
Terveysdataan voidaan aineiston sijasta tarjota julkinen kyselykäyttöliittymä, kuten Tilastokeskus tekee. Tällöin voidaan sensuroida yksityisyyttä loukkaavina taulukkosolut, joissa on alle 100 henkilöä. Tällöin voidaan suorittaa moni tutkimuksen vaatimista kyselyistä ilman, että tarvitaan pseudonymisoitua dataa, josta yksilöitä saattaa tunnistaa.
Esim. seuraavat kyselyt eivät edellytä pseudonymisoitua pääsyä yksittäisten potilaiden tietoihin.
- Kuinka moni astmapotilas, joka sai/ei saanut immuunipuolustusta heikentävän astmalääkkeen reseptin, joutui astmalääkityksen alettua sairaalaan?
- Mitkä olivat yleisimmät syyt joutua sairaalaan (vain ne syyt, joiden takia yli 100 sairaalaanjoutumista)?
- Lisäsikö korkean annoksen immmuunipuolustusta heikentävä lääke painoa niillä, joiden paino on mitattu ennen ja jälkeen (jos yli sata punnittua)?
Anonyymien kyselyiden vahvinta alaa on hypoteesien testaus, kun ei vielä tiedetä, mitkä mittaustulokset tai sairaudet liittyvät tutkittavaan ilmiöön, ja ollaan vasta laatimassa tutkimussuunnitelmaa. Anonyymin pääsyn voi antaa kenelle tahansa. Anonyymissä tiedossa tarvitse minimoida vain käsiteltävien potilaiden lukumäärällä.
5. Anonymisoitu kyselykieli pitää suojata differentiaaliselta kryptoanalyysiltä
Differentiaalisessa kryptoanalyysissä tehdään pieniä muutoksia syötteeseen ja katsotaan, miten se vaikuttaa tuloksiin, pyrkimyksenä purkaa salaus. Kuvitellaan, että tiedämme Jaana Julkkiksesta uutisten perusteella riittävästi, että voimme valita vain hänet anonyymisoidulla kyselykielellä. Koska 1 < 100, niin tuota kyselytulosta ei tietenkään näytetä sellaisenaan. Miten voimme urkkia, onko Jaana Julkkiksella mielialalääkitys?
Temme ensin kyselyn, kuinka moni Jaanan kaltainen ihminen käyttää mielialalääkeitä. Rajaamme Jaanan tästä tuloksesta pois vaikkapa syntymäajan perusteella. Sitten teemme toisen kyselyn, jossa Jaana on mukana. Lisääntyikö tulos yhdellä? Se tarkoittaa sitä, että nimeomaan Jaana Julkkis on nyt mukana tuloksessa.
Anonyymin kyselykielen pitää ilmoittaa myös tulokset pyöristettyinä, jotta se olisi resistantti differentiaaliselle kryptoanalyysille.
Tämän lisäksi voidaan tarvita muita suojausmenetelmiä, kuten liian vähän eroavien kyselyjen estäminen tai liian tarkan poimimisen (esim. "kunta ja syntymäpäivä"-kriteeri valitsee alle 100 henkeä) estäminen.
(*) Joissain tapauksissa Kelan tilastot kertovat yksilöistä. Kuka on Suomen ainut yli 7 lapsen miespuolinen huoltaja, joka saa elatusapua?
Comments
Post a Comment