Kvalitatīva datu organizācija, dokumentēšana un glabāšana ir būtiska, lai pētniecības datus varētu saprast, izmantot un atkārtoti pielietot gan paši pētnieki, gan citi zinātnieki ilgtermiņā. Bez atbilstošas informācijas par datiem, kas tie ir, kā iegūti, kā strukturēti un kā interpretēti, dati zaudē savu vērtību.

Efektīva datu pārvaldība ietver trīs savstarpēji saistītas komponentes:

  • organizācija – strukturēta un loģiska datu un datņu sakārtošana pētniecības projekta laikā;
  • dokumentēšana – detalizēta informācija par datu saturu, izcelsmi un izmantošanu;
  • glabāšana – droša datu glabāšana gan projekta laikā, gan ilgtermiņā pēc tā noslēguma.

Šie procesi jāplāno jau projekta sākumā un jāuztur visā pētniecības ciklā, lai nodrošinātu datu atbilstību FAIR principiem.

Strukturēta datu organizācija ir pētniecības efektivitātes pamats. Labi organizēti dati atvieglo ikdienas darbu, samazina kļūdu risku un nodrošina, ka informācija paliek pieejama un saprotama gan projekta laikā, gan nākotnē. Datu organizācija ietver loģisku mapju struktūru izveidi, konsekventu datņu nosaukšanas sistēmu un piemērotu formātu izvēli.

Efektīva organizācija sākas ar pārdomātu plānošanu projekta sākumā un turpinās ar disciplinētu pieeju visā pētniecības procesā. Tas ļauj izvairīties no haosa, kas rodas, kad dati uzkrājas bez skaidras sistēmas, un nodrošina, ka pētniecības rezultāti ir reproducējami un verificējami.

Mapju un datņu struktūra

Sākot vākt datus, svarīgi izveidot loģisku mapju struktūru. Strukturējiet mapes hierarhiski ar ierobežotu skaitu līmeņu (maksimums 3-4):

Mapju struktūras piemērs

Datņu nosaukšanas principi:

  • izmantojiet skaidrus, aprakstošus nosaukumus;
  • datuma formāts: YYYYMMDD (piemēram, 20241215_aptauja_v1.csv);
  • izvairieties no atstarpēm (izmantojiet _ vai -);
  • neizmantojiet īpašās rakstzīmes (& * % # ; u.c.);
  • iekļaujiet versiju numurus (v1, v2 vai 01, 02).

Datu formātu izvēle

Pareizs failu formāts ir būtisks, lai dati būtu ilgtermiņā pieejami, lasāmi un analizējami. Izvēlieties atvērtus un plaši lietotus formātus, piemēram:

  • .csv – tabulētiem datiem (universāls, atverams jebkurā programmā);
  • .txt – vienkāršam tekstam (UTF-8 kodējumā);
  • .xml vai .json – strukturētiem datiem;
  • .tiff – attēliem (bez kvalitātes zuduma);
  • .pdf/a – dokumentiem (ilgtermiņa glabāšanai);
  • .r / .py (skripti, ja izmanto R vai Python).

Izvairieties no patentētiem vai specifiskiem formātiem, kuri var zaudēt atbalstu nākotnē, piemēram

  • .xls (vecā Microsoft Excel versija) → izmantojiet .csv;
  • .sav (SPSS) → eksportējiet uz .csv;
  • .docx (Microsoft Word) → izvēlieties .pdf vai .txt

Svarīgi: Pārliecinieties, ka dati ir bez piekļuves šifrēšanas vai parolēm, ja tie paredzēti publiskai kopīgošanai!

Datu dokumentēšana ir process, kas padara pētniecības datus saprotamus un izmantojamus gan autoram, gan citiem pētniekiem. Bez kvalitatīvas dokumentācijas pat vērtīgākie dati var zaudēt savu nozīmi laika gaitā, jo netiek saglabāta informācija par to izcelsmi, struktūru un interpretāciju.

Dokumentēšana ietver metadatu veidošanu, detalizētus datu aprakstus un skaidrojošo materiālu sagatavošanu. Šis process jāuzsāk paralēli datu vākšanai un jāturpina visā projekta laikā, izmantojot standartizētus metadatu shēmas un kontrolētās vārdnīcas, lai nodrošinātu datu atbilstību FAIR principiem.

Kas ir metadati?

Metadati ir strukturēta informācija par konkrēto publicēto informācijas vienību (publikācijas vai datu kopu). Metadatus izmanto, lai informācijas sistēmā izveidotu mašīnlasāmu un cilvēklasāmu ierakstu par informācijas vienībām, nodrošinot to atrašanu, sasaisti tīmeklī, izmantošanu, pārvaldīšanu, kā arī lai palīdzētu uz to atsaukties (citēt). Kvalitatīvi metadati padara datus atrodamus un atkārtoti izmantojamus saskaņā ar FAIR principiem.

Datu dokumentācijas faila izveidošana

Ieteicams veidot datu dokumentācijas failu (piemēram, ReadMe.txt), kur detalizēti aprakstīts:

  • datu ieguves process: metodes, instrumenti, laiks un vieta, kā arī iespējamie ierobežojumi;
  • datu apstrādes soļi: tīrīšana, transformācija, aprēķini un kvalitātes kontrole;
  • datņu un mainīgo struktūra: katras datnes mērķis, formāts un savstarpējās saites;
  • terminoloģija un saīsinājumi: skaidrojums visiem specifiskajiem terminiem;
  • datu interpretācija: kā saprast konkrētās vērtības, mērvienības un iespējamās kļūdas.

Aprakstiet visus mainīgos (kolonnas/tabulas) ar šādu informāciju:

  • mainīgā nosaukums un apraksts;
  • datu tips (teksts, skaitlis, datums);
  • iespējamās vērtības vai diapazons;
  • trūkstošo datu apzīmējums;
  • mērvienības un precizitāte.

Ja izmantojat anketas vai intervijas, iekļaujiet jautājumu sarakstu vai scenāriju kā pielikumu. Norādiet izmantotās programmatūras versijas vai analīzes skriptus, ja tie nepieciešami datu interpretācijai. Dokumentējiet arī visas izmaiņas datos un to iemeslus.

ReadMe datņu veidnes: Latvijas datu kuratoru tīkls ir sagatavojis ReadMe datņu veidnes, lai atvieglotu datu kopu dokumentēšanu: veidne latviešu valodāveidne angļu valodā.

Metadatu standarti

Izmantojiet standartizētus metadatu shēmas, lai nodrošinātu konsekventu un starptautiski atpazīstamu dokumentāciju. Izplatītākie vispārējie metadatu standarti pētnieciskajiem datiem – Dublin CoreDataCite Metadata SchemaData Documentation Initiative (DDI) sociālo zinātņu datu aprakstīšanai.

Pētniecības datu aprakstīšanai vēlams izmantot nozares specifiskos metadatu standartus, kas nodrošina dziļāku un precīzāku datu raksturošanu. Ja tādi nav pieejami, izmantojiet daudznozaru standartus, kas ir plaši atzīti akadēmiskajā kopienā.

Kontrolēto vārdnīcu nozīme

Kontrolētā vārdnīca ir standartizētu terminu saraksts, kas nodrošina konsekventu atslēgvārdu un kategoriju lietošanu. Tas būtiski uzlabo datu atrodamību un sadarbspējību starp dažādām sistēmām, jo pētnieki izmanto vienus un tos pašus terminus vienādām koncepcijām. Kontrolētās vārdnīcas arī samazina neviennozīmības risku un atvieglo starptautisko sadarbību.

Populārākās starptautiskās kontrolētās vārdnīcas:

  • Wikidata: universāla, daudzvalodu zināšanu bāze ar standartizētiem identifikatoriem personām, vietām, jēdzieniem un objektiem;
  • LCSH (Library of Congress Subject Headings): plaši izmantots bibliotēkzinātnēs un humanitārajās zinātnēs tematu klasifikācijai;
  • MeSH (Medical Subject Headings): medicīnas un dzīvības zinātņu standarta terminoloģija, ko uztur ASV Nacionālā medicīnas bibliotēka;
  • AGROVOC: ANO Pārtikas un lauksaimniecības organizācijas izstrādāta daudzvalodu vārdnīca lauksaimniecības, mežsaimniecības un pārtikas zinātņu terminiem;
  • Getty Thesauri: mākslas, arhitektūras un kultūras mantojuma terminu kolekcija ar hierarhiskām attiecībām.

Izvēloties kontrolēto vārdnīcu, ņemiet vērā jūsu pētījuma jomu, mērķauditoriju un repozitorija prasības. Daudzi starptautiskie repozitoriji jau integrē populārākās vārdnīcas, atvieglojot to izmantošanu. Kombinējiet vispārīgās un nozares specifiskās vārdnīcas, lai nodrošinātu gan plašu atrodamību, gan precīzu kategorizāciju.

Praktiskas rekomendācijas

  1. sāciet dokumentāciju agrā pētījuma stadijā – neatlieciet to uz vēlāku laiku;
  2. izmantojiet deskriptīvus failu nosaukumus ar versiju norādēm;
  3. regulāri atjauniniet dokumentāciju paralēli datu apstrādei;
  4. konsultējieties ar LU datu kuratoriem par metadatu standartiem;
  5. testējiet dokumentāciju ar kolēģiem, lai pārliecinātos par tās saprotamību.

Svarīgi: Kvalitatīva datu dokumentācija ir investīcija pētījuma ilgtermiņa vērtībā un zinātniskās kopienas attīstībā.

Droša un ilgtspējīga datu glabāšana ir kritiska pētniecības integritātes nodrošināšanai. Datu glabāšanas stratēģija aptver gan aktīvo darbu projekta laikā, gan ilgtermiņa arhivēšanu pēc tā pabeigšanas. Pareiza glabāšanas pieeja aizsargā pret datu zudumu, nodrošina atbilstību drošības prasībām un garantē, ka pētniecības rezultāti paliek pieejami verifikācijai un turpmākai izmantošanai.

Efektīva glabāšana prasa gan tehnisko risinājumu izvēli, gan piekļuves tiesību pārvaldību, gan atbildības skaidru sadalījumu starp pētniecības projekta dalībniekiem. Tas ietver arī datu dzīves cikla plānošanu – no aktīvās izmantošanas līdz galīgai arhivēšanai vai dzēšanai.

Glabāšana projekta laikā

Pētījuma laikā izmantojiet LU centralizēti pārvaldītās IT sistēmas un pakalpojumus, kas nodrošina nepieciešamo drošības līmeni un automātisko dublējumu, lai aizsargātu pētniecības datus no zuduma vai nesankcionētas piekļuves:

  • Atļautie risinājumi: Pētniecības datu pārvaldībai pētījuma laikā galvenokārt izmantojami Microsoft 365 pakalpojumi – Microsoft Teams un SharePoint koplietošanas darbam, kas ļauj organizēt komandas sadarbību un projektu datu pārvaldību, kā arī LU nodrošinātie serveri.
  • Ierobežojumi: OneDrive ir paredzēts personīgai lietošanai un nav piemērots pētniecības projektu datu uzglabāšanai. Kad pētnieks atstāj darbu LU, viņa OneDrive konta saturs kļūst nepieejams, kas var izraisīt pētniecības datu zudumu.
  • Aizliegumi: Pētniecības datus nevajadzētu glabāt nepārvaldītās vai ārējās ierīcēs. Tas nozīmē, ka datiem nevajadzētu atrasties uz lokālajiem cietajiem diskiem, USB atmiņām vai mākoņa risinājumiem bez atbilstošas šifrēšanas un dublējuma. Tāpat aicinām neizmantot privātos mākoņa kontus, piemēram, Google Drive vai Dropbox kontus.

Piekļuves tiesību organizācija un sadarbība projekta laikā

Datu piekļuves organizācija jābalsta uz minimālās nepieciešamības principa. Katrai personai projektā jāpiešķir tikai tāda līmeņa piekļuve, kāda nepieciešama viņa konkrēto uzdevumu veikšanai. Projektā iesaistītās personas var saņemt dažādus piekļuves līmeņus atbilstoši to lomām un atbildībai.

Sadarbība ar ārējiem partneriem jāveic caur LU atzītajiem kanāliem. Microsoft Teams ļauj droši sadarboties ar citām institūcijām, izveidojot kontrolētus sadarbības telpas ar atbilstošiem drošības iestatījumiem. Lielapjoma datņu sūtīšanai pieejams store.lu.lv rīks, kas ļauj nosūtīt lielas datnes ar derīguma termiņu līdz 20 dienām.

Dublēšana un datu uzturēšana projekta laikā

LU pārvaldītās Microsoft 365 sistēmas automātiski nodrošina regulāru dublējumu un tehnisko uzturēšanu, tomēr pētniekiem jāuzņemas atbildība par savu datu organizāciju un kvalitāti. Tas ietver pagaidu datņu dzēšanu, novecojušo versiju noņemšanu un datu struktūras uzturēšanu tādā veidā, lai nepieciešamā informācija būtu viegli atrodama.

Ilgtermiņa glabāšana un arhivēšana

  • Datu izvērtēšana projekta beigās: Pētījuma noslēguma posmā katru datu kopu nepieciešams izvērtēt individuāli, lai noteiktu turpmāko rīcību ar tām. Daļa datu būs jāsaglabā ilgtermiņā, citi var būt piemēroti publiskai pieejai, bet trešā daļa var būt dzēšama. Izvērtējot datus, jāņem vērā to saistība ar publikācijām, potenciāls atkārtotai izmantošanai un iespējamā nozīme nākotnes pētījumiem.
  • Datu sagatavošana arhivēšanai: Datu kopu sagatavošana ilgtermiņa glabāšanai prasa rūpīgu plānošanu un strukturētu pieeju neatkarīgi no tā, vai tie būs publiski pieejami vai glabāti ar ierobežotu piekļuvi. Datu kopas jāsakārto pārskatāmā veidā un jādokumentē. Vēlams izmantot atvērtus un plaši izmantojamus datu formātus, lai nodrošinātu piekļuvi datiem arī nākotnē.
  • Metadatu un dokumentācijas prasības: Kvalitatīvi metadati ir būtiski, lai dati būtu atrodami un saprotami nākotnē. Metadatos jāiekļauj informācija par datu izcelsmi, vākšanas metodi, apstrādes soļiem un izmantotajiem rīkiem. Tāpat svarīga ir informācija par datu struktūru, mainīgo nozīmēm un iespējamiem ierobežojumiem.

    Dokumentācijā jāietver pietiekami daudz informācijas, lai neatkarīgs pētnieks varētu saprast un izmantot datus. Tas ietver metodiku aprakstus, kodu grāmatas, kalibrācijas informāciju un jebkurus citus materiālus, kas nepieciešami datu interpretācijai. Informētās piekrišanas formas un citi juridiski dokumenti jāglabā kopā ar datiem.

Atbildības nodošana

Ja par datiem atbildīgais pētnieks atstāj LU, jānodrošina datu pārvaldības atbildības nodošana kolēģiem. Tas ietver piekļuves tiesību pārnešanu, dokumentācijas nodošanu un jauna atbildīgā norīkošanu. Šis process jāplāno jau DPP izstrādes posmā.