Data Steward at INFN

Europe/Rome
online

online

Presenti: Dario Menasce, Tomaso Boccali, Stefano Bianco, Luca dell'Agnello, Luciano Gaido, Barbara Martelli, Marica Antonacci, Mario Locati, Rosario Nania, Concezio Bozzi, Gianpaolo Carlino, Mattia Bruno, Piero Vicini, Claudio Grandi, Nadina Foggetti, Giacinto Donvito, Cristina Vistoli, Alessandreo Costantini

  • Luciano Gaido introduce l'argomento. Dario: il problema e' nel finanziamento. Luciano: i fondi esterni ci sono, manca il complemento interno che rende il tutto sostenibile. Tommaso: se si finanzia internamente bisogna togliere da un'altra parte, sarebbe bene che l'Europa desse un gettone. Luciano, si dovrebbero utilizzare anche fondi nazionali. Dario: per i fondi nazionali significa fare upscaling da subito tra vari enti. Stefano risponde a Luca sull'archivio istituzionale zenodo, che e' collegato al disciplinare sui prodotti della ricerca, appena approvato. Sui fondi nazionali, si auspica un maggiore coinvolgimento non solo INFN ma anche COPER e ICDI al tavolo di lavoro del MUR. Tommaso: abbiamo bisogno di data steward che capiscano cosa viene fatto negli esperimenti. 
  • Mario Locati presenta l'esperienza INGV. Separazione del processo di pubblicazione scientifica dalla pubblicazione dei dati; e' caldeggiato l'anticipo della pubblicazione dei dati, ma non sempre e' possibile.  Dario: c'e' una distinzione tra dati replicabili e non replicabili. Non esiste repository centralizzato dei dati, ma una federazione delle infrastrutture esistenti, sia a livello generico che tematico, il management delle risorse, il catalogo dei metadati. Le persone che ci lavorano non sono espressamente dedicate. Vista la mole di lavoro, si sta valutando l'assunzione di una figura dedicata. Attenzione alla compliance con le regole AgID.
  • Concezio presenta gli appunti di Marcello Maggi sugli esperimenti di CSN1. Luca aggiunge altri esempi di esperimenti terminati. 
  • Mattia Bruno presenta il punto di vista della comunita' di fisica teorica, che produce minime quantita' di dati e i cui prodotti sono articoli di ricerca. I prodotti software rilasciano librerie tenendo conto degli aspetti delle licenze, open source, ecc. La comunita' di QCD su reticolo invece e' molto simile a un esperimento sotto molti aspetti, a partire dalle allocazioni su supercalcolatori e la produzione di dati grezzi primari, assolutamente fondamentali e preziosi, che vengono processati analizzati e riutilizzati piu' volte. Lifespan del dato: O(10 anni), i dati piu' vecchi vengono sorpassati dai dati che sono generati oggi con processi piu' attuali. Ogni collaborazione e' indipendente, non esistono standard, un paio di persone per esperimento si occupano di "data stewardship". L'accessibilita' e l'accesso open sono molto dipendenti dalla collaborazione, alcune (e.g. FNAL-MILC) sono molto aperte altre sono completamente chiuse. Sul codice la comunita' e' ben organizzata, con repositories piu' o meno istituzionali e un utilizzo crescente di DoI / Zenodo. Lavoro all'interno di ICSC, verso la standardizzazione dei dati prodotti. Stefano: necessari fondi per il personale, manca il riconoscimento per l'attivita' svolta. Dario: il riconoscimento e' essenziale, da un punto di vista scientifico e non solo informatico. Questo percorso di carriera finora e' avvenuto esclusivamente su base volontaristica. Per fare il data steward occorrono competenze specifiche, occorre sapere qual e' l'utilizzo dei dati e la fisica associata. 
  • Rosario Nania presenta lo stato del data management plan dei laboratori nazionali, fornendo come esempio LNL, e delle considerazioni relative. Dario commenta sulla necessita' di standardizzare il formato dei dati prodotti, che aiuta gli esperimenti piccoli, senza pero' uccidere l'inventiva. 
  • Stefano Bianco illustra il disciplinare sull'accesso ai prodotti della ricerca. 
  • Sommario della discussione: 
    • c'e' chiaramente bisogno di data steward; esistono iniziative e commitment personali per esperimenti e scopi specifici, ma e' necessario avere una visione d'insieme e istituzionalizzare queste figure;
    • "digeriamo" quanto presentato; Concezio et al. cercheranno di elaborare una proposta da discutere a un prossimo meeting, a fine settembre / inizio ottobre
There are minutes attached to this event. Show them.