Grundläggande guide för datahantering: Hur organiserar och dokumenterar du dina data?

Att organisera och dokumentera dina data lönar sig!

Fall 1: För en avhandlingsförfattare är situationen bekant – det är svårt att börja med skrivandet efter en paus när man hunnit glömma bort mycket som har med ens material att göra.

Metadata, information som beskriver data, hjälper till att förstå hurdana data är.

Fall 2: Att dela data mellan deltagare i ett grupparbete blir jobbigt när alla har producerat och arbetat med data på egen hand utan en gemensam plan.

► Med korrekt val av filformat kan man underlätta delning och användning av data på lång sikt.

Namngivning av filer och organisering av mappar påverkar hur lätt man hittar sina data.

► En redigerbar tabellmall för gemensamt eller eget bruk med rubrikrader gör det lättare att samla in data systematiskt. En strukturerad tabell underlättar när data analyseras i ett statistikprogram‎, till exempel SPSS eller R.

Fall 3: Du har gjort ändringar i dina data som visar sig vara felaktiga – men det går inte att gå tillbaka till den gamla versionen.

Versionskontroll gör att data kan hanteras säkert.

Val av filformat

Valet av filformat påverkar både arbetet under forskningen och användbarheten av data på lång sikt. Det finns ingen entydig rekommendation, men när du väljer ett format är det bra att följa några grundläggande principer:

  • Det är en bra idé att göra valet tidigt för att undvika en mängd olika format och formatkonverteringar.
  • Det viktigaste kriteriet att beakta när man väljer filformat är att formatet är lämpligt för dess avsedda syfte.
  • De mest rekommenderade filformaten är de format som är vanliga och populära i branschen.
  • En enkel lista över rekommenderade format finns på webbplatsen UK Data Service.

Namnge filer och organisera mappar

Hur filerna är namngivna och mapparna organiserade påverkar hur lätt du hittar dina data och får en uppfattning av datainnehållet. Det finns ett par tumregler när det gäller namngivning:

  • Det är en bra idé att planera principerna för namngivning i början av projektet.
  • De viktigaste principerna för namngivning är konsistens och tydlighet.
  • Ett bra filnamn är logiskt strukturerat (t.ex. enligt datum) och beskriver innehållet (se exempel från Purdue University). Bra tips för namngivning har sammanställts av University of Edinburgh.

Planera mappstrukturen enligt dina behov. Till exempel kan rådata, redigerade data, metoder, dokumentation, manus och presentationer organiseras i olika mappar.

Versionshantering

Versionshantering är en viktig del av att organisera data. När data hanteras genereras olika versioner av dem. Det är bra att kunna återgå till tidigare versioner om det behövs. Versionshanteringen kan vara automatisk, vilket rekommenderas, eller manuell. Spara originalfilen eller rådata separat så att du inte ändrar dem av misstag.

Vid automatisk versionshantering tar systemet hand om att skapa och organisera versioner.

► Det finns verktyg för mer avancerad versionskontroll, till exempel Git (se även anvisningarna för Git).

Vid manuell versionshantering skapar och hanterar användaren versioner själva (observera vikten av namngivning).

► Den manuella versionshanteringen är lämplig för små mängder data som dataproducenten själv hanterar.

Metadata eller databeskrivning

Dokumentering av data innebär att beskriva data.  

Metadata (metadata = "information om information"), dvs. beskrivande metadata, gör data begripliga, upptäckbara och användbara, eftersom metadata beskriver

  • typen av data
  • vad som har gjorts med data
  • var data finns.

Det enklaste typen av metadata är namn på datamängd. Annan beskrivande metadata kan ha att göra med annan information om data, till exempel

  • innehåll
  • insamling (metoder, utrustning, programvara)
  • bearbetning
  • lagringsplatser och användarvillkor, dvs. under vilka villkor eller licens man kan få tillstånd att använda data.

När du producerar metadata är det bra att ta hänsyn till:

  • Ju tidigare du börjar beskriva data, desto lättare är det – kvaliteten på metadata försämras om de produceras i efterhand.
  • Använd om möjligt modeller för metadata: data kan beskrivas enligt en specifik modell (metadataformat) eller fritt. Metadataformat varierar beroende på vetenskapsområde.
  • Skapa filer med beskrivningar: Metadata loggas vanligtvis i en readme.txt, en datakatalog (data dictionary) eller en kodbok (codebook).
  • Mer anvisningar för uttömmande beskrivning och dokumentation av data finns på finska på Dataarkivets webbplats.
  • Guide för dokumentation av data (endast på engelska):  Making a research project understandable - Guide for data documentation

Vad är metadata?

Saavutettavuusseloste