Open data: un'analisi di standard e buone pratiche che generano valore

immagine rappresentativa della notizia

Interessante articolo di Antonio Vetrò (direttore della Ricerca del Centro Nexa su Internet & Società) e Marco Torchiano (Politecnico di Torino e Faculty Fellow del Centro Nexa) sui requisiti che gli Open Data dovrebbero possedere per essere facilmente riusati e generare valore: la qualità e la standardizzazione. L'articolo si concentra sulla parte di standardizzazione e su aspetti della pubblicazione degli Open Data, quali ad esempio il formato, i metadati, la semantica.
Alcuni esempio importanti sono le raccomandazioni del W3C (https://www.w3.org/TR/gov-data/) sulla pubblicazione degli Open Government Data, insieme alla guida sulle “Technical options” della World Bank (http://opendatatoolkit.worldbank.org/en/technology.html).
Entrambe le raccomandazioni riguardano i requisiti tecnici necessari per una efficiente e moderna architettura di data centers dedicati agli Open Government Data.
I due standard enfatizzano in particolar modo
1) che i dataset pubblici siano pubblicati in una forma la più possibile vicina a quella originaria (ovvero ai dati grezzi),
2) che ogni dataset sia associato a metadati ben documentati e
3) che i dati siano esposti in una serie di formati leggibili sia dall’uomo che dagli elaboratori.

Riguardo ai formati, si ricorda la condizione necessaria –ma non sufficiente ai fini della qualità- di fare riferimento alla scala 5-Star Linked Data (http://5stardata.info/en/), in cui il livello più basso (una stella) corrisponde a un dataset reso disponibile in un qualsiasi formato –anche proprietario- e quello più alto corrisponde a dati rilasciati con un formato aperto definito dal W3C e collegato ad altri dataset tramite l’uso di URI.

Riguardo ai metadati, sono senz’altro da tenere in considerazione le raccomandazioni del W3C sul modello di dati e metadati tabulari (https://www.w3.org/TR/tabular-data-model/) e il vocabolario dei metadati di dati pubblicati sul web (https://www.w3.org/TR/tabular-metadata/), importanti per due ragioni:
1) sia perché i dati in forma tabulare rappresentano la maggioranza dei dati aperti (ad esempio il .csv è il formato più frequente su http://www.dati.gov.it/ con quasi 6500 dataset, più del doppio di .json che segue),
2) sia perché i metadati sono fondamentali per la corretta interpretazione dei dati.

Il modello dei dati tabulari offre indicazioni per gruppi di tabelle, colonne, righe e singole celle, ed altre informazioni utili riguardanti il tipo di dato e il valore delle celle. Il modello dei metadati invece definisce anche dove posizionarli, come esprimerli (ovvero formato JSON-LD) e fornisce un vocabolario di riferimento. Tali informazioni sono fondamentali per automatizzare le operazioni di conversione, validazione e visualizzazione dei dati.

Sempre in tema di metadati, è degno di nota il Dublin Core Metadata Element Set (http://dublincore.org/documents/dces/), un vocabolario di 15 proprietà fondamentali (esempio: data, creatore, descrizione, linguaggio, editore, ecc…) che dovrebbero essere presenti nei metadati a supporto degli Open Data. Lo schema “Dublin Core” è richiamato da numerosi altri standard internazionali.

Infine, l'articolo fa riferimento agli standard ISO e ISO/IEC. Menzioniamo lo standard ISO17369:2013 (SDMX- Statistical Data and Metadata Exchange), che definisce una toolkit integrata che permette alle organizzazioni di riportare, disseminare e scambiare con facilità dati e metadati, e quelli sulla qualità dei dati ISO/IEC 25012:2008 (modello) e ISO/IEC 25024:2015 (misurazione), che non a caso avevamo già presentato nei nostri due precedenti interventi sulla qualità degli Open Data: il riferimento a standard e best practice è infatti uno dei fattori abilitanti la qualità dei dati, con ricadute positive sulla facilità di riuso, la possibilità di creare valore e offrire trasparenza.