Sensitīvu datu apstrāde ir viens no sarežģītākajiem pētniecības datu pārvaldības aspektiem, kas prasa īpašu uzmanību un zināšanas. Nepareiza sensitīvo datu izmantošana var radīt nopietnas sekas gan indivīdiem, gan organizācijām. Šajā sadaļā atradīsiet praktiskus padomus un metodes, kā droši strādāt ar sensitīviem datiem, ievērojot gan ētiskās, gan juridiskās prasības.
Galvenais mērķis ir nodrošināt, ka jūsu pētniecība var turpināties, vienlaikus aizsargājot personu privātumu un organizāciju konfidencialitāti. Darbā ar sensitīviem ir būtiski pielietot datu pseidonimizāciju un anonimizāciju, lai samazinātu identificēšanas risku.
Sensitīvie dati ir jebkura informācija, kuras atklāšana vai nepareiza izmantošana var apdraudēt kādas personas, grupas vai organizācijas privātumu, drošību, radīt diskrimināciju vai var būt pretēja sabiedrības interesēm.
Datu veids | Apraksts | Piemēri |
---|---|---|
Personas dati | Informācija, kas identificē vai var identificēt konkrētu personu | Vārds, personas kods, e-pasta adrese, GPS koordinātes, IP adrese |
Īpašo kategoriju personas dati | VDAR noteiktie īpaši aizsargājamie dati | Rase, seksuālā orientācija, politiskie uzskati, reliģiskās pārliecības, ģenētiskie un veselības dati |
Konfidenciālie dati | Dati, kuru izpaušana rada riskus organizācijām vai sabiedrībai | Finanšu pārskati un darījumu dati, paroles, komercnoslēpumi, intelektuālais īpašums, izmeklēšanas dati, sensitīvi valsts pārvaldes dati, drošības vai duālās lietošanas informācija. |
Bioloģiskie dati | Ar veselību un bioloģisko daudzveidību saistīti dati | Asins analīžu rezultāti, DNS sekvence, pirkstu nospiedumi. Apdraudēto vai izmirušo sugu atrašanās vieta. |
Kā atpazīt sensitīvos datus?
- Tiešie identifikatori – tieši identificē konkrētu personu:
- vārds, uzvārds;
- personas kods;
- e-pasta adrese (ja satur vārdu);
- atrašanās vieta (GPS koordinators, IP adrese).
- Netiešie identifikatori – kombinācijā var identificēt personu:
- dzimšanas datums vai vecums;
- dzimums, etniskā piederība;
- pasta indekss, dzīvesvietas adrese;
- unikāli sociāli ekonomiskie dati.
Dažkārt ir sarežģīti noteikt, vai pētniecības dati ir sensitīvi un kā tos drošā veidā ievākt, glabāt, apstrādāt un analizēt. Šādos gadījumos aicinām sazināties ar LU datu kuratoriem.
Pseidonimizācija ir process, kurā personas dati tiek aizvietoti ar izdomātiem identifikatoriem (pseidonīmiem), piemēram, ar kodiem vai unikāliem numuriem, saglabājot iespēju atjaunot sākotnējo informāciju, ja nepieciešams. Papildus tiek izveidota atslēgas datne, kur tiek atšifrēts, kādam dalībnieka numuram atbilst katra dalībnieka vārds. Šī atslēgas datne jāglabā atsevišķi no pseidonimizētās datu kopas, lai nodrošinātu datu aizsardzību.
Kad izmantot pseidonimizāciju?
- nepieciešama datu atjaunošana vai papildināšana – ja plānots papildināt esošos datus;
- datu saistīšana ar konkrētu personu – ja nepieciešams saglabāt saikni starp datiem un dalībniekiem;
- projekta laikā jānodrošina identificēšana – kad projekta gaitā var rasties nepieciešamība identificēt konkrētus dalībniekus.
Pseidonimizācijas būtība:
- dati joprojām ir saistīti ar konkrētu personu, bet tie ir aizsargāti no tiešas identifikācijas;
- uz pseidonimizētiem datiem joprojām attiecas personu datu aizsardzības prasības, jo pastāv risks, ka, izmantojot papildu informāciju, personas varētu tikt identificētas;
- piemērota gadījumiem, kad nepieciešama datu atjaunošana vai papildināšana.
Pseidonimizācijas metodes:
- kodu tabulas – vienkāršākā metode – vārdi un personas kodi tiek aizstāti ar īsiem kodiem (piemēram, ID-001, ID-002). Papildus tiek izveidota atsevišķa tabula, kurā tiek saglabāta informācija par to, kuram kodam atbilst kura persona.
- priekšrocības: vienkārša ieviešana, viegli saprotama jebkuram pētniekam, pilnīga kontrole pār kodu formātu un struktūru vienkārša, viegli saprotama, pilnīga kontrole pār kodiem;
- trūkumi: ja kodu tabula nonāk nepiederošu personu rīcībā, visa pseidonimizācijas sistēma sabrūk un personas kļūst identificējamas.
- jaucējfunkcijas (angliski: hash functions) – speciāli algoritmi, kas jebkuru tekstu vai datus pārveido par fiksēta garuma ciparu un burtu virkni.
- priekšrocības: nav vajadzīga atsevišķa tabula ar kodiem, drošāka metode nekā kodu tabulas, mazāks datu noplūdes risks;
- trūkumi: gandrīz neiespējami atjaunot oriģinālos datus, ja nepieciešams sazināties ar dalībniekiem vai papildināt datus.
- šifrēšana – oriģinālie dati tiek pārveidoti neatpazīstamā formā, izmantojot īpašu atslēgu. Atšķirībā no citām metodēm, šifrētos datus var atjaunot sākotnējā veidā, ja ir pieejama atšifrēšanas atslēga.
- priekšrocības: labāka drošība nekā kodu tabulām, datus var atjaunot, ja nepieciešams, elastīga metode;
- trūkumi: jānodrošina šifrēšanas atslēgas drošība – ja tā pazūd, dati kļūst nepieejami; ja nonāk nepiederošu personu rīcībā, dati tiek kompromitēti.
- tokenizācija – oriģinālie dati tiek aizstāti ar “žetoniem”, saglabājot sākotnējo datu formātu un struktūru. Piemēram, 11-ciparu personas kods tiek aizstāts ar citu 11-ciparu kodu.
- priekšrocības: saglabā datu struktūru un formātu, viegli integrējams esošajās sistēmās, netraucē datu analīzes procesus;
- trūkumi: var saglabāt daļu no identificējošās informācijas (piemēram, dzimšanas datumu), kas palielina reidentifikācijas risku.
Anonimizācija ir process, kurā dati tiek pilnībā pārveidoti tā, lai nav iespējams identificēt konkrētu personu, pat izmantojot papildu informāciju.
Kad izmantot anonimizāciju?
- dati tiks padarīti publiski pieejami;
- nav nepieciešams saglabāt saistību ar konkrētu personu;
- nav paredzēts datu kopu papildināt.
Anonimizācijas metodes:
- datu dzēšana – vienkāršākā metode – sensitīvo datu kolonu vai rindu pilnīga noņemšana no datu kopas. Piemēram, dzēšot vārdus, personas kodus vai kontaktinformāciju.
- priekšrocības: ļoti vienkārša ieviešana, pilnīgi novērš identificēšanas risku dzēstajiem datiem;
- trūkumi: var zaudēt svarīgu informāciju analīzei, samazina datu kopu vērtību.
- datu vispārināšana – konkrētas vērtības tiek aizstātas ar plašākām kategorijām. Piemēram, precīzs vecums "32 gadi" kļūst par vecuma grupu "30-39 gadi", vai konkrēta adrese par pilsētas nosaukumu.
- priekšrocības: saglabā analītiski noderīgu informāciju, viegli saprotama un ieviešama;
- trūkumi: zaudē precizitāti, var ietekmēt analīzes rezultātu kvalitāti.
- mikroagregācija – līdzīgi ieraksti tiek grupēti, un individuālās vērtības tiek aizstātas ar grupas vidējo, mediānu vai citu statistisko rādītāju.
- priekšrocības: saglabā statistiskās īpašības, piemērota kvantitatīviem datiem;
- trūkumi: var maskēt svarīgas individuālās atšķirības, sarežģītāka ieviešana.
- datu sajaukšana – datu vērtību secības mainīšana kolonnās – personas A vecums tiek piešķirts personai B, bet personas B izglītība – personai C utt.
- priekšrocības: saglabā datu sadalījumu un statistiskās īpašības, individuālās saistības kļūst neatpazīstamas;
- trūkumi: zaudē korelācijas starp mainīgajiem, var ietekmēt analīzes, kas balstās uz mainīgo savstarpējām saistībām.
- Datu izvērtēšana:
- identificējiet visus sensitīvos datus – izejiet cauri visiem laukiem un nosakiet, kuri satur personas datus, konfidenciālu informāciju vai citu sensitīvu saturu;
- nosakiet tiešos un netiešos identifikatorus – tiešie (vārds, personas kods) un netiešie (vecums + dzimums + pasta indekss kombinācijā);
- izvērtējiet reidentifikācijas risku – cik viegli kāds varētu atpazīt konkrētu personu, kombinējot pieejamo informāciju.
- Metodes izvēle:
- pseidonimizācija: ja vajag saglabāt saikni ar personām turpmākiem kontaktiem, datu papildināšanai vai longitudināliem pētījumiem;
- anonimizācija: ja dati tiks padarīti publiski pieejami, publicēti repozitorijā vai nav vajadzīga atjaunošana.
- Drošības pasākumi:
- glabājiet atslēgas tabulas atsevišķi un droši – nekad neglabājiet kodu tabulas tajā pašā mapē vai sistēmā kur pseidonimizētos datus;
- ierobežojiet piekļuvi tikai nepieciešamajām personām, piemēram, tikai projekta vadītājam vai īpaši pilnvarotām personām;
- dokumentējiet visus veiktās darbības – aprakstiet DPP kāda metode izmantota, kāpēc un kā.
- Kvalitātes kontrole:
- pārbaudiet, vai anonimizācija ir pietiekama – vai joprojām nav iespējams identificēt personas, īpaši kombinējot ar citiem datiem;
- testējiet reidentifikācijas risku – mēģiniet “atminēt” personas no anonimizētiem datiem;
- konsultējieties ar ekspertiem sarežģītos gadījumos – sazinieties ar LU datu kuratoriem vai datu aizsardzības speciālistiem.