Datanhallinnan perusopas: Miten pidät datasi järjestyksessä?

Datan järjestäminen kannattaa!

Case 1: Graduntekijälle tilanne on tuttu: tutkielman aloittaminen uudelleen tauon jälkeen on vaikeaa, kun aineistoon liittyvät asiat ovat päässeet unohtumaan.

metadata eli dataa kuvaileva tieto auttaa ymmärtämään, millaista data on

Case 2: Datan jakaminen ryhmätyön tekijöiden kesken käy työlääksi, kun jokainen on tuottanut ja työstänyt dataa omin päin ilman yhteistä suunnitelmaa.

tiedostoformaattien valinnalla voidaan helpottaa datan yhteiskäyttöä ja hyödyntämistä pitkällä aikavälillä

tiedostorakenteet ja tiedostojen nimeäminen vaikuttavat datan löydettävyyteen

Case 3: Olet tehnyt dataan muutoksia, jotka osoittautuvat virheellisiksi – vanhaan versioon ei ole kuitenkaan enää paluuta.

versionhallinta tekee datan käsittelystä turvallista

Tiedostoformaatin valinta

Tiedostoformaatin valinta vaikuttaa sekä tutkimuksenaikaiseen työskentelyyn että datan käytettävyyteen pitkällä aikavälillä. Yksiselitteistä suositusta ei ole, mutta formaatin valinnassa on hyvä noudattaa muutamia perusperiaatteita:

  • valinta kannattaa tehdä varhaisessa vaiheessa, jotta vältytään formaattikirjolta ja formaattimuunnoksilta
  • tärkein valintakriteeri on se, että formaatti sopii tarkoitukseensa
  • suositeltavimpia tiedostoformaatteja ovat alalla yleiset ja suositut formaatit
  • yksinkertainen listaus suositeltavista formaateista löytyy UK Data Service -sivustolta

Tiedostojen nimeäminen ja tiedostorakenne

Tiedostojen nimeäminen ja tiedostorakenne vaikuttavat datan löytämiseen ja tietosisältöjen hahmottamiseen. Nimeämisessä on pari nyrkkisääntöä:

  • nimeämiskäytännöt on hyvä suunnitella projektin alussa
  • nimeämisen tärkeimpiä periaatteita ovat johdonmukaisuus ja selkeys
  • hyvä tiedostonimi on loogisesti jäsennetty (esim. päivämäärän mukaan) ja se kertoo sisällöstä (ks. esimerkki Purduen yliopiston sivulta)
  • hyviä vinkkejä nimeämiseen on koottu Edinburghin yliopiston sivulle

Versionhallinta

Versionhallinta on tärkeä osa datan järjestämistä, koska dataa käsiteltäessä siitä syntyy eri versioita ja joskus voi tulla tarve palata aiempiin versioihin. Versionhallinta voi olla automaattista (suositeltava) tai manuaalista.

Automaattisessa versionhallinnassa järjestelmä huolehtii versioiden luomisesta ja järjestämisestä

kehittyneempään versionhallintaan on työkaluja, kuten Git (ks. myös Gitin käyttöön liittyvä ohje).

Manuaalisessa versionhallinnassa käyttäjä luo ja hallinnoi versioita itse (huom. nimeämisen tärkeys)

sopii pieniin datamääriin, joita datan tuottaja yksin hallinnoi.

Metadata – eli datan kuvailu

Metadata (metatieto = "tietoa tiedosta") eli kuvailutieto tekee datasta ymmärrettävää, löydettävää ja käytettävää, sillä metadata kertoo:

  • millaista data on
  • mitä datalle on tehty
  • missä data on

Metatiedoista yksinkertaisin on datasetin nimi. Muut kuvailutiedot voivat liittyä datan:

  • sisältöön
  • keräämiseen (menetelmät, laitteet, ohjelmistot)
  • käsittelyyn
  • tallennuspaikkoihin ja käyttöehtoihin

Metadatan tuottamiseen voi tutustua lyhyen yhteenvedon (pdf) kautta. Lisää vinkkejä kattavaan datan kuvailuun ja dokumentointiin löytyy Tietoarkiston sivulta.