Archiviazione dei dati della ricerca

L'accesso aperto ai dati della ricerca scientifica favorisce il progresso scientifico, la riproducibilità e la validazione delle ricerche, riduce le duplicazioni e incrementa la trasparenza

Sempre più spesso le riviste scientifiche internazionali e i programmi di finanziamento della ricerca chiedono che i dati di ricerca siano resi disponibili per consentire la validazione delle pubblicazioni scientifiche. Oltre alla possibilità di consultare i dati è raccomandata la concessione del loro libero utilizzo da parte di terzi, subordinato solo alla corretta citazione della fonte, per consentire l'avanzamento delle ricerche e pratiche di data mining.

Preferibilmente è bene archiviare i propri dati negli archivi o repository disciplinari di riferimento della propria comunità scientifica o multidisciplinari come Zenodo (gestito dal CERN), Dryad o Figshare. La maggior parte sono gratuiti fino a una certa dimensione del dataset, e attraverso banche dati come re3data.org e OpenDOAR è possibile individuare facilmente il repository di dati più appropriato. Occorre però verificare che il repository scelto rispetti alcuni requisiti. In particolare:

  • abbia una governance pubblica;
  • garantisca la conservazione a lungo termine dei dati;
  • supporti licenze aperte, come le Creative Commons;
  • adotti metadati standard richiesti dagli aggregatori internazionali (OpenAIRE);
  • attribuisca un identificatore persistente ai data set (DOI, Handle, URN...);
  • consenta il cross-linking con le pubblicazioni scientifiche;
  • gestisca il deposito di versioni aggiornate dello stesso data set collegate fra loro (versioning).

I dati di rilievo per la verifica dell’attendibilità, della correttezza e della riproducibilità dei processi e dei risultati delle ricerche pubblicate (underlying data) devono essere citati nella pubblicazione scientifica. Per questo motivo si raccomanda di depositare i dati nel repository scelto al momento dell’accettazione della pubblicazione, in modo da attribuire al dataset un identificatore persistente (DOI, Handle, URN...) da utilizzare nella citazione all'interno della pubblicazione.

I data set possono anche essere pubblicati mediante le "riviste di dati" (data journals). Si tratta di riviste specializzate nella valorizzazione disciplinare dei data set di ricerca che effettuano una selezione dei materiali.

Tuttavia la pubblicazione dei data set in una di queste riviste non sostituisce il deposito degli stessi in un repository istituzionale o disciplinare che è anche finalizzato alla preservazione a lungo termine.

Buona norma è depositare anche i software, ad esempio in GitHub, e i protocolli, ad esempio in Protocols.io. Per i software è necessario utilizzare le licenze appropriate, come ad esempio le Licenze GNU o la Licenza MIT. Altre licenze sono disponibili sul sito della Open Source Initiative.

Per approfondire: