Terveysdata avattava tutkijoille anonymisoituna

Tiivistelmä: Terveystilastot voi julkaista tutkijoille kyselykielellä, joka varmistaa henkilötietojen yksityisyyden. Kyselykieli soveltuu erityisesti lääketieteellisten hypoteesien alustavaan testaamiseen tutkimussuunnitelmaa laatiessa. Kyselykieli kieltäytyy näyttämästä tilastoja, jotka koskevat alle 100 henkeä. Lain mukaan terveystilastot ovat julkisia, elleivät ne paljasta yksilöiden terveystietoja.

Yleishyödyllistä sensitiivistä dataa voi julkaista yksityisyyttä kunnioittaen
Lääketieteellinen tutkimus vaatii Tilastokeskusta joustavampia kyselyitä
Pseudonymisoitu data vaatii pääsyn tiukkaa rajaamista
Anonymisoitu yhdisteltävä data
Anonymisoitu kyselykieli pitää suojata differentiaaliselta kryptoanalyysiltä
Julkisen sektorin tilastot ovat oletusarvoisesti julkisia

1. Yleishyödyllistä sensitiivistä dataa voi julkaista yksityisyyttä kunnioittaen

Yksilötasolla tiedot varallisuudesta, kuten pankkitilin saldo, kuuluvat pankkisalaisuuden piiriin. Pankeilla on tiukat prosessit sensitiivisten henkilötietojen käsittelyyn. Työntekijöille teetetään Supon taustatarkistus ennen pääsyä käsiksi tietoihin. Kaikki kyselyt kirjataan lokiin, josta voi jälkeenpäin auditoida, kuka katsoi mitä tietoja ja milloin. Työntekijät pääsevät käsiksi vain sellaisiin tietoihin, joita heidän tarvitsee käsitellä tehdäkseen työnsä.

Varallisuustilastot ovat silti julkisesti kenen tahansa katsottavissa, koska data on anonyymiä. Tiedot on pääsääntöisesti kerätty niin, ettei niistä paljastu yksilön pankkisalaisuuden alaista tietoa, koska kukin taulukkosolu sisältää riittävän monta yksilöä (*).

2. Lääketieteellinen tutkimus vaatii Tilastokeskusta joustavampia kyselyitä

Hiljattain HS uutisoi tutkimuksesta, joka selvitetti raskaan astmalääkityksen vaikutusta muuhun terveyteen. Astma on tulehduksellinen keuhkosairaus, ja raskas lääkitys vähentää tulehdusta heikentämällä yleisesti immuunipuolustusta. Suurina annoksina tämä lisää riskiä muihin vakaviin sairauksiin, kuten keuhkokuumeeseen.

Tutkimuksessa laskettiin mm. seuraavat tilastot:

Moniko suomalainen sai astmadiagnoosin vuosina 2014 - 2017 ja kuinka vakavan?
Moniko astmaatikko käytti immuunipuolustusta heikentävää raskasta lääkitystä säännöllisesti, kausittain tai ei ollenkaan?
Moniko astmaatikko sai sairaalahoitoa?
Kuinka yleisiä sydänsairaudet, osteoporoosi, kaihi ja ylipaino olivat erilaista lääkitystä käyttävissä ryhmissä?

Mitä vaaditaan käyttöliittymältä, jolla voi tehdä tähän tutkimukseen liittyvää tiedonhakua?

Ensinnäkin siihen eivät riitä Tilastokeskus-tyyppiset tilastot, joissa käsitellään yksi alue kerrallaan. Tilastokeskus voisi julkaista esim. hengitystautitilaston, joka kertoisi astmaatikkojen (lievä, vaikea) ja keuhkokuumetta sairastavien määrän. Erillinen lääketilasto voisi kertoa eri astmalääkkeille annettujen reseptien määrän ja ajankohdan. Nämä osa-aluetilastot eivät kelpaisi aineistoksi tutkimukselle, koska tutkimuksessa tietoja pitää yhdistellä.

Tutkimushypoteesia voi lähestyä kyselyillä, jotka SQL:n kaltaisesti yhdistelevät viittä taulukkoa:

Potilaat-taulukko: Potilaan ikä, sukupuoli ja asuinpaikka. Yhdistelytunniste muille taulukoille.
Hoitojaksot-taulukko: Vakavien sairauksien hoitojaksot sairaalassa.
Reseptit-taulukko ja Lääkkeet-taulukko: Reseptit immuunipuolustusta heikentävälle astmalääkitykselle. Iso vai pieni annoskoko?
Diagnoosit-taulukko: Onko vaikea astma -diagnoosia vaiko ei? Onko keuhkokuumediagnoosia tai muita tutkittavia vakavia sairauksia astmalääkityksen aloittamisen jälkeen?

3. Pseudonymisoitu data vaatii pääsyn tiukkaa rajaamista

Yllä olevassa esimerkissä tutkija tekee suoria kyselyitä yksittäisistä henkilöistä kertoviin tauluihin. Millaisilla menetelmillä voidaan varmistaa henkilötietojen luottamuksellisuus?

Findatan sivuilla kerrottu keino on pseudonymisointi. Potilas tunnistetaan mielivaltaisesti valitulla numerolla, eikä kerrota henkilön nimeä. Tämä ei välttämättä suojaa yksityisyyttä. Jos urkittavasta henkilöstä tiedetään syntymäaika ja sairauden ja hoidon yksityiskohtia, voi olla mahdollista yhdistää pseudotunniste oikeaan henkilöön.

Datan minimointi: Tehdään etukäteen tutkimussuunnitelma ja poimitaan vain sellainen data, joka on tutkimuksen kannalta olennaista. Esim. yllä mainitussa astmatutkimuksessa normalisoidaan iän suhteen. Tällöin riittää syntymävuosi tai vuosikymmen, eikä tarvitse tietää syntymäpäivää. Voi olla etukäteen epäselvää, kuinka tarkkaa tietoa potilaista tarvitaan, erityisesti jos ei tiedetä etukäteen datan laatua tai tarkkaa kirjaustapaa (sairaanhoitokäyttöön kirjattu data voi olla tutkimuskäytössä heikkolaatuista.) Datan minimointi on sitä voimakkaampi menetelmä, mitä tarkempi tutkimussuunnitelma on. Datan minimointi rajaa mahdollisuutta testata epävarmoja hypoteeseja.

Tietoturvakäytännöt. Findata vaatii, että pseudonymisoitua dataa, josta voi paljastua yksilöiden tietoja, käsitellään Findatan omassa, tietoturvallisessa ympäristössä tai yhtä tiukat kriteerit täyttävässä ympäristössä.

4. Anonymisoitu yhdisteltävä data

Terveysdataan voidaan aineiston sijasta tarjota kyselykäyttöliittymä, kuten Tilastokeskus tekee. Tällöin sensuroidaan yksityisyyttä loukkaavina taulukkosolut, joissa on alle 100 henkilöä. Tällöin voidaan suorittaa moni tutkimuksen vaatima kysely ilman, että tarvitaan pseudonymisoitua dataa. Tästä on hyötyä sekä tutkijalle että potilaiden tietosuojalle. Tutkijat eivät käsittele yksilöiden henkilötietoja, joten he voivat tehdä työnsä matalan tietoturvan työskentelytavoilla. Potilaiden henkilötietoja ei käsitellä edes Findata-tyylisesti pseudonymisoituina.

Esim. seuraavat kyselyt eivät edellytä pseudonymisoitua pääsyä yksittäisten potilaiden tietoihin.

Kuinka moni astmapotilas, joka sai/ei saanut immuunipuolustusta heikentävän astmalääkkeen reseptin, joutui astmalääkityksen alettua sairaalaan?
Mitkä olivat yleisimmät syyt joutua sairaalaan (vain ne syyt, joiden takia yli 100 sairaalaanjaksoa)?
Lisäsikö korkean annoksen immmuunipuolustusta heikentävä lääke painoa niillä, joiden paino on mitattu ennen ja jälkeen (jos yli sata punnittua)?

Anonyymien kyselyiden vahvinta alaa on hypoteesien testaus, kun ei vielä tiedetä, mitkä mittaustulokset tai sairaudet liittyvät tutkittavaan ilmiöön, ja vasta laaditaan tutkimussuunnitelmaa. Anonyymin pääsyn voi antaa kenelle tahansa, joka tarvitsee sitä työnsä tekemiseen, vaikka kaikille terveydenhuollon ammattilaisille. Vain käsiteltävien potilaiden lukumäärä tarvitsee rajata riittävän suureksi.

5. Anonymisoitu kyselykieli pitää suojata differentiaaliselta kryptoanalyysiltä

Kuva 1. Henkilötietojen urkkiminen differentiaalisella kryptoanalyysillä. Esimerkissä saadaan selville, että Jaana Julkkiksella on mielialalääkitys.

Differentiaalisessa kryptoanalyysissä tehdään pieniä muutoksia syötteeseen ja katsotaan, miten se vaikuttaa tuloksiin, pyrkimyksenä purkaa salaus. Kuvitellaan, että tiedämme Jaana Julkkiksesta uutisten perusteella riittävästi, että voimme valita vain hänet anonymisoidulla kyselykielellä. Koska 1 < 100, niin tuota kyselytulosta ei tietenkään näytetä sellaisenaan. Miten voimme urkkia, onko Jaana Julkkiksella mielialalääkitys?

Teemme ensin kyselyn, kuinka moni Jaanan kaltainen ihminen käyttää mielialalääkeitä. Rajaamme Jaanan tästä tuloksesta pois. Sitten teemme toisen kyselyn, jossa Jaana on mukana. Lisääntyikö tulos yhdellä? Se tarkoittaa sitä, että nimeomaan Jaana Julkkis on nyt mukana tuloksessa.

Suojaamiseksi on useita keinoja, joiden tehokkuuden todistaminen on tietojenkäsittelytieteen tutkijoiden työsarkaa.

Vaaditaan jokaiselta ryhmävalitsimelta, että se valitsee yli 100 henkilöä

Yllä olevassa esimerkissä syntymäaika ja paikkakunta rajaavat tehokkaasti valintajoukkoa. Sen lisäksi, että koko kyselyn pitää valita vähintään 100 henkeä, myös jokaisen osajoukon pitää sisältää yli 100 henkeä. Tällöin ei voida valita yksilöä ja yhdistää tätä isompaan joukkoon.

Spesifi ehdotus syntymäajan tai paikkakunnan pyöristämisestä ei ratkaise mitään. Yksilöiviä tietoja on muitakin, esim. sairaushistoria ja sairaalakäynnit tai DNA-näytteen hankkiminen. Toiseksi syntymäkuu voi olla relevanttia tietoa vaikkapa auringonvaloa ja D-vitamiinia koskevassa tutkimuksessa ja syntymäpaikka vaikkapa kylmän vaikutuksia koskevassa tutkimuksessa.

Satunnaisuuden lisääminen tuloksiin

Vaikka jokainen valintajoukko olisi yli 100 henkeä, on silti mahdollista verrata tuloksia joukoille, joissa on pieniä eroja, esim. Lapissa syntyneet 1.1. - 7.8.1991 tai 1.1. - 8.8.1991. Tämän takia tuloksiin pitää lisätä satunnaisuutta, jotta ei saada aikaiseksi yhden ihmisen eroja, esim. -5 ... +5 satunnaiset erot.

Satunnaisuuden pitää olla vakaata sikäli, että sama kysely antaa aina saman tuloksen. Tällöin ei ole mahdollista suorittaa samaa kyselyä monta kertaa ja laskea tulosten keskiarvoa.

Satunnaisuuden pitää myös olla sama kyselyn eri muodoille. Muuten on mahdollista tehdä samasta kyselystä eri muotoja vaihtamalla kyselytermien järjestystä tai pilkkomalla aikajanoja kahteen (esim. Kysely 1. (1.1.1991 - 7.8.1991), Kysely 2: ((1.1.1991 - 1.5.1991) JA (2.5.1991 - 7.8.1991))) ja siten laskea eri tavalla muotoillusta samasta kyselystä keskiarvo. Satunnaisuuden pitää perustua normalisoidusta kyselystä laskettuun hash-funktioon.

Auditointi

Kun käytössä on mahdollisuus tehdä valtava määrä kyselyjä ja käyttää riittävän ovelaa todennäköisyyslaskentaa, hyvin matalista todennäköisyyksistä (esim. että 5% todennäköisyydellä Jaana Julkkiksella on mielialalääkitys) voi yhdistellä varmaa tietoa. Siksi kyselykäyttöliittymästä ei voi tehdä täysin julkista ja anonyymiä samalla tavalla kuin Tilastokeskuksen tilastot.

Kaikki kyselyt pitää tehdä vahvasti tunnistautuneena ja kyselyistä pitää jäädä lokijälki. Järjestelmän pitää hälyttää automaattisesti, jos melkein samanlaisia kyselyitä tehdään valtava määrä (**), tai lokijälki näyttää siltä, että siinä yritetään tehdä differentiaalista kryptoanalyysiä. Kryptoanalyysin tunnusmerkki ovat valintaryhmät, jotka eroavat toisistaan vain muutamalla henkilöllä.

(**) Täysin samanlaisten kyselyiden teko automatisoidusti (esim. viikoittaiset tilastot keräävä botti) on normaali tuottavuustyökalu eikä mitään hälyttävää.

Julkisen sektorin tilastot ovat oletusarvoisesti julkisia

Laki viranomaisten toiminnan julkisuudesta säätää, että "viranomaisten asiakirjat ovat julkisia, jollei tässä tai muussa laissa erikseen toisin säädetä (1§)."

Esseessä käsittelimme julkisen terveydenhuollon tuottamaa tilastodataa. Erityisesti tilastoista laki sanoo, että kun viranomaisen laatima asiakirja on tutkimus tai tilasto, se tulee julkiseksi silloin, kun se on valmis käyttötarkoitukseensa.

Tässä Findata olisi viranomainen, ja kyselykäyttöliittymän kautta syntynyt kyselytulos olisi viranomaisen laatima tilastomuotoinen asiakirja. Tilasto olisi valmis käytettäväksi, kun on varmistettu, että se ei vuoda yksilöiden terveystietoja. Tämä varmistettaisiin automaattisesti anonymisoinnilla ja differentiaalisen kryptoanalyysin estävällä auditoinnilla.

24§ mukaan salassa pidettäviä viranomaisen asiakirjoja ovat mm. "asiakirjat, jotka sisältävät tietoja ... henkilön terveydentilasta tai vammaisuudesta taikka hänen saamastaan terveydenhuollon ja kuntoutuksen palvelusta". Anonymisoitu data ei kuitenkaan paljasta kenekään yksilön terveystietoja.

(*) Joissain tapauksissa Kelan tilastot kertovat yksilöistä. Kuka on Suomen ainut yli 7 lapsen miespuolinen huoltaja, joka saa elatusapua?

Kuva 2. Tilastokeskus-tyyppiset tilastotkin voivat vuotaa yksilöiden henkilötietoja.

Simon lueskelut

Search This Blog