Data Steward at INFN

Europe/Rome
online

online

Presenti: Dario Menasce, Tomaso Boccali, Stefano Bianco, Luca dell'Agnello, Luciano Gaido, Barbara Martelli, Marica Antonacci, Mario Locati, Rosario Nania, Concezio Bozzi, Gianpaolo Carlino, Mattia Bruno, Piero Vicini, Claudio Grandi, Nadina Foggetti, Giacinto Donvito, Cristina Vistoli, Alessandreo Costantini

  • Luciano Gaido introduce l'argomento. Dario: il problema e' nel finanziamento. Luciano: i fondi esterni ci sono, manca il complemento interno che rende il tutto sostenibile. Tommaso: se si finanzia internamente bisogna togliere da un'altra parte, sarebbe bene che l'Europa desse un gettone. Luciano, si dovrebbero utilizzare anche fondi nazionali. Dario: per i fondi nazionali significa fare upscaling da subito tra vari enti. Stefano risponde a Luca sull'archivio istituzionale zenodo, che e' collegato al disciplinare sui prodotti della ricerca, appena approvato. Sui fondi nazionali, si auspica un maggiore coinvolgimento non solo INFN ma anche COPER e ICDI al tavolo di lavoro del MUR. Tommaso: abbiamo bisogno di data steward che capiscano cosa viene fatto negli esperimenti. 
  • Mario Locati presenta l'esperienza INGV. Separazione del processo di pubblicazione scientifica dalla pubblicazione dei dati; e' caldeggiato l'anticipo della pubblicazione dei dati, ma non sempre e' possibile.  Dario: c'e' una distinzione tra dati replicabili e non replicabili. Non esiste repository centralizzato dei dati, ma una federazione delle infrastrutture esistenti, sia a livello generico che tematico, il management delle risorse, il catalogo dei metadati. Le persone che ci lavorano non sono espressamente dedicate. Vista la mole di lavoro, si sta valutando l'assunzione di una figura dedicata. Attenzione alla compliance con le regole AgID.
  • Concezio presenta gli appunti di Marcello Maggi sugli esperimenti di CSN1. Luca aggiunge altri esempi di esperimenti terminati. 
  • Mattia Bruno presenta il punto di vista della comunita' di fisica teorica, che produce minime quantita' di dati e i cui prodotti sono articoli di ricerca. I prodotti software rilasciano librerie tenendo conto degli aspetti delle licenze, open source, ecc. La comunita' di QCD su reticolo invece e' molto simile a un esperimento sotto molti aspetti, a partire dalle allocazioni su supercalcolatori e la produzione di dati grezzi primari, assolutamente fondamentali e preziosi, che vengono processati analizzati e riutilizzati piu' volte. Lifespan del dato: O(10 anni), i dati piu' vecchi vengono sorpassati dai dati che sono generati oggi con processi piu' attuali. Ogni collaborazione e' indipendente, non esistono standard, un paio di persone per esperimento si occupano di "data stewardship". L'accessibilita' e l'accesso open sono molto dipendenti dalla collaborazione, alcune (e.g. FNAL-MILC) sono molto aperte altre sono completamente chiuse. Sul codice la comunita' e' ben organizzata, con repositories piu' o meno istituzionali e un utilizzo crescente di DoI / Zenodo. Lavoro all'interno di ICSC, verso la standardizzazione dei dati prodotti. Stefano: necessari fondi per il personale, manca il riconoscimento per l'attivita' svolta. Dario: il riconoscimento e' essenziale, da un punto di vista scientifico e non solo informatico. Questo percorso di carriera finora e' avvenuto esclusivamente su base volontaristica. Per fare il data steward occorrono competenze specifiche, occorre sapere qual e' l'utilizzo dei dati e la fisica associata. 
  • Rosario Nania presenta lo stato del data management plan dei laboratori nazionali, fornendo come esempio LNL, e delle considerazioni relative. Dario commenta sulla necessita' di standardizzare il formato dei dati prodotti, che aiuta gli esperimenti piccoli, senza pero' uccidere l'inventiva. 
  • Stefano Bianco illustra il disciplinare sull'accesso ai prodotti della ricerca. 
  • Sommario della discussione: 
    • c'e' chiaramente bisogno di data steward; esistono iniziative e commitment personali per esperimenti e scopi specifici, ma e' necessario avere una visione d'insieme e istituzionalizzare queste figure;
    • "digeriamo" quanto presentato; Concezio et al. cercheranno di elaborare una proposta da discutere a un prossimo meeting, a fine settembre / inizio ottobre
There are minutes attached to this event. Show them.
    • 11:00 AM 11:15 AM
      Introduzione 15m
      Speaker: Luciano Gaido (Istituto Nazionale di Fisica Nucleare)
    • 11:15 AM 11:35 AM
      Data Steward: l'esperienza INGV 20m
      Speaker: Mario Locati (Istituto Nazionale di Geofisica e Vulcanologia (INGV))
    • 11:35 AM 11:50 AM
      Cura dei dati in esperimenti CSN1 15m
      Speaker: Marcello Maggi (Istituto Nazionale di Fisica Nucleare)

      Introduzione

      A differenza della scienza basata sulle osservazioni (che sono uniche), quella basata sugli esperimenti ha in principio la possibilità della riproducibilità e dunque la non necessità di condividere nella comunità o nel tempo tutti i prodotti della ricerca. 
      Ed è per questo che non c’è una cultura associata alla condivisione nel tempo in HEP. In astrofisica per esempio i prodotti della ricerca diventano aperti e immagazzinati con degli standard (FIT per i dati ed esiste una libreria in diversi linguaggi sw capaci di manipolare tali dati). 
       

      In HEP

      Maturata la consapevolezza, visto che gli esperimenti hanno un costo… e la riproducibilità rimane "solo” un principio, il grosso sforzo è stato fatto senza una programmazione e risorse dedicate. Gli esperimenti cercano all’interno del loro perimetro “spazio-temporale” i migliori meccanismi per la condivisione dei loro prodotti della ricerca. 
      Fuori da tale perimetri usufruire di un oggetto digitale aperto è complicato da una serie di barriere (tecnologiche, obsolescenze, assenza di standard o conoscenze tecnico scientifiche).
       

      ALEPH

      L’esperienza maturata dopo la fine dell’esperimento indica con chiarezza che varie azioni possono mitigare le difficoltà di accesso. Tali difficoltà si riscontrano anche tra chi ha fatto parte della collaborazione… nonostante la documentazione … 
      Nonostante questo molti articoli sono usciti a poche firme con i dati di Aleph sia su ricerca di nuove particelle sia su studi “standard” (QCD, tau physics, etc), sempre in parallelo a novità. Ancora oggi c’è una lista di argomenti di fisica che beneficerebbe da l’uso dei dati di Aleph (lettera di Blondel Janot a Tenchini, coordinata da Ganis). Ma non esistendo un supporto per l’accesso la cosa è rimasta sulla carta. Una volta “acceso” un supporto la cosa è risultata relativamente semplice. 
       

      Data Stewart

      Il supporto “acceso” è stato un processo di data stewardship. Esso è consistito di 
      1. verificare e validare che i dati fossero accessibili (leggibili analizzabili) via via che c’era un cambio di Architettura SW. 
      2. Validare che dati e sw fossero utilizzabili all’interno dei nuovi paradigmi di calcolo (Condor, Eudat, GRID, Cloud, data analytics parquet, etc.)
      3. Costruire e usare emulatori, VM e containers per le architetture in cui il sw non gira (anche in maniera incastonata)
      4. Tradurre i dati in formati semplici che non richiedessero l’uso del sw di ALEPH.
      5. La CERNLIB é stata portata per 64 bit e compilatori ultimi. Ma ALEPH perderebbe la possibilità di validazione bit to bit (produzione MC) dovendo ricompilare tutto… e geant 3 deve subire delle semplici modifiche (bugs) ma aleph ha una serie di correzioni per compensare discrepanze forse anche dovuti ai bugs…
      Ci sono ulteriori cose che andrebbero fatte 
      1. partecipare allo sviluppo e adottare edm4hep (o qualunque standard che permetterebbe l’uso di un ambiente unico di analisi per qualunque esperimento)
      2. I nuovi generatori costringono all’uso del sw stack di ALEPH (mentre la lettura dati già esistenti una volta tradotti non lo richiederebbe, dati mini con calibrazioni allineamento ed altre conditions già applicate). Dunque servirebbe automatizzare il running dando come input gli eventi in stdhep o altro standard.
      3. Nuovi generatori QCD richiederebbero nuovi tuning…
      4. Mettere a posto o recuperare la documentazione.
      5. Ripristinare il data Bookkeeping system o meglio FAIRificare gli oggetti digitali e pubblicare con DOI gerarchizzato 
      6. Mettere i dati su Open Data Portal 
         
    • 11:50 AM 12:10 PM
      Cura dei dati in esperimenti CSN3 e CSN4 (in attesa di conferma) 20m
      Speakers: Enrico Fioretto (Istituto Nazionale di Fisica Nucleare), Mattia Bruno (Universita' di Milano-Bicocca), Rosario Nania (Istituto Nazionale di Fisica Nucleare)
    • 12:10 PM 12:25 PM
      Data Management Plan nei laboratori nazionali 15m
      Speaker: Rosario Nania (Istituto Nazionale di Fisica Nucleare)
    • 12:25 PM 12:40 PM
      Il nuovo disciplinare sull' Accesso ai prodotti della ricerca dell' INFN 15m
      Speaker: Stefano Bianco (Istituto Nazionale di Fisica Nucleare)
    • 12:40 PM 1:00 PM
      Discussione / prossimi passi 20m