Långtidslagring av geodata

gammalkarta

Geodata från 1597. Förhoppningsvis är också VGR:s geodata läsbara om över 400 år.

Genom Västra Götalandsregionens GIS-nätverk får löpande vi inblick i behov inom GIS/GIT och geodata. Ett önskemål som kommer upp med jämna mellanrum är möjligheten att framöver kunna gå tillbaka och se hur våra geodata såg ut vid ett visst tillfälle och arbeta med materialet som det såg ut just då. Exakt vad framtida användare kan tänkas vilja använda det till kan man förstås bara gissa, men jag tror att vi kan hjälpa dem på traven om vi tänker till redan nu. Så hur säkerställer vi att det är möjligt för mina framtida kollegor att ta del av dagens geodata? Med ett tidsperspektiv på 5-10-50 år finns det ett antal val att göra:

  • Format – Vilket/vilka format ska vi använda?
  • Innehåll – Vad ska leveransen innehålla? Allt innehåll i alla tabeller i databasen? Endast ändringar sedan föregående ögonblicksbild? Ett urval av de mest använda underlagen?
  • Intervall – Hur ofta ska vi göra dessa uttag?
  • Metod – Hur ska vi läsa ut allt? Vilket verktyg bör vi använda?
  • Lagringsyta – Var lägger vi detta så att det är enkelt att hitta det under många år framöver?
  • Dokumentation – Hur säkerställer vi att det går förstå innehållet?

Inför denna uppgift ville jag ta reda på om det finns några nationella riktlinjer och rekommendationer. Riksarkivet har tagit fram en del material, men inget specifikt om geodata vad jag kan se. Ett par av deras generella rekommendationer är:

”I E-delegationens vägledning för webbutveckling har man identifierat följande grundläggande kriterier för att ett format för bevarande av exempelvis webbsidor ska anses lämpat för bevarande på sikt:
– följer en öppen standard och har publikt tillgängliga specifikationer,
– är leverantörsoberoende,
– är fritt från kryptering och DRM-kopieringsskydd (digital rights management),
– är vanligt förekommande bland organisationer i Sverige, och
– om möjligt är okomprimerande eller icke-destruktivt komprimerande (gäller bild, ljud och video)”

Enligt Arkivnämnden gäller ”Godkända filformat för kartor och bilder är PDF/E-1 och CALS”. De formaten lämpar sig dock inte riktigt för vårt syfte (tillhandahålla rådata, huvudsakligen vektordata, för framtida användning, ex. forskning, bearbetning och analys) så det är inte tillämpbart i detta fall.

Vad jag kan se finns det ingen svensk standard för att lagra geodata för framtida användning. Upp till oss att hitta en lämplig lösning som uppfyller andan i riktlinjerna ovan och samtidigt är anpassad för geodata, med andra ord. Så här resonerar jag om lösningen:

Format

Eftersom vi inte vet vilka verktyg som den framtida användaren kommer att ha tillgång till, bör det vara lämpligt att hålla sig till ett standardiserat och väl dokumenterat format. Jag tror att GeoPackage, som är en standard som kan läsas av många verktyg, är ett klokt val. Jag skrev ett par rader om formatet i våras.

Innehåll

Jag tänker mig att vi läser ut samtliga tabeller från PostGIS. Det kräver mer lagringsutrymme än att endast ta hand om ändringar, men det bör bli enklare för användaren att få en överblick. Det förutsätter heller inte att användaren har tillgång till samtliga föregående uttag och det blir dessutom enklare att administrera, inte minst eftersom vår GIS-miljö fortfarande är ganska ny och ändringar görs då och då. De första testerna resulterar i en cirka 600 MB stor zipfil, inte ohanterligt stort alltså.

Intervall

Eftersom avsikten inte är att utgöra den huvudsakligen backupen, utan ett komplement för att långtidslagra våra geodata, bör det kunna vara relativt glest mellan uttagen. Förslaget är två gånger per år.

Metod

För att automatisera dessa uttag används FME. Då görs det på samma sätt varje gång och vi minskar risken för manuella misstag.

Lagringsyta

Vi använder redan Alfresco för att lagra vissa dokument som gäller geodata och jag tror att det är lämpligt att använda samma yta för denna långtidslagring av geodata.

Dokumentation

Utöver GeoPackage-filen tas dokumentation med i arkivet:

  • Dokumentation om arbetet
  • Enklare metadata för de geodata som ingår
  • Det FME-workspace som används för att göra uttaget
  • Dokumentation från http://www.geopackage.org/spec/ om formatet GeoPackage. Om formatet mot förmodan skulle falla i glömska kan någon händig person ändå bygga en läsare mha dokumentationen.

I och med detta bör det inte vara helt omöjligt om ex. 25 år att både hitta, förstå och kunna arbeta vidare med våra geodata, så som de såg ut 2017. Hur gör du själv för att kunna tillhandahålla geodata till framtida användare? 25 år går snabbt, så vänta inte med att höra av dig med eventuella förbättringsförslag.

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s