3–5 Apr 2024
Istituto degli Innocenti
Europe/Rome timezone

Analisi quasi-interattiva per big data con alto throughput per la Fisica delle Alte Energie

5 Apr 2024, 12:10
15m
Salone Brunelleschi (Istituto degli Innocenti)

Salone Brunelleschi

Istituto degli Innocenti

piazza SS. Annunziata 12 50122 Firenze
Presentazione orale Nuove tecnologie

Speaker

Matteo Bartolini (INFN, Sez. Firenze)

Description

L’analisi dei dati nell’ambito della Fisica delle Alte Energie presenta le esigenze tipiche dei big data, come la grande mole di dati da processare in maniera efficiente e veloce. Il Large Hadron Collider nella sua fase di alta luminosità produrrà circa 100 PB di dati all’anno, ponendo gli esperimenti di fronte alla necessità di adottare nuove strategie per l’analisi dei dati.
Lo sviluppo di nuovi paradigmi di analisi e di gestione delle risorse, unitamente all’accesso a strumenti open source quali Jupyter, Dask e HTCondor, creano i presupposti per riprogettare l’analisi dei dati a LHC, tradizionalmente basata su batch, con un approccio interattivo con alto throughput che sfrutta il “Centro Nazionale di Ricerca in HPC, Big Data and Quantum Computing” (ICSC) su modello data-lake.
In questo contributo descriveremo il lavoro svolto per portare diverse applicazioni di analisi dati - provenienti da varie collaborazioni per una vasta gamma di processi fisici - da un approccio tradizionale a un approccio interattivo basato su soluzioni dichiarative, come ROOT RDataFrame. Queste applicazioni utilizzano un’infrastruttura cloud, distribuendo in carico di lavoro su più nodi worker, laddove i risultati sono prodotti su una singola interfaccia in maniera trasparente per l’utilizzatore. Verrà inoltre fornita una valutazione delle prestazioni, tramite metriche indicative riscalate alle risorse di ICSC, al fine di individuare eventuali svantaggi dell’approccio interattivo ad alto throughput che proponiamo e fornire indicazioni utili alla sua implementazione su ICSC.

Primary authors

Adelina D'Onofrio (Istituto Nazionale di Fisica Nucleare) Alessandro Tarasio (LNF) Antimo Cagnotta (Istituto Nazionale di Fisica Nucleare) Bernardino Spisso (Istituto Nazionale di Fisica Nucleare) Federica Maria Simone (Istituto Nazionale di Fisica Nucleare) Francesco Giuseppe Gravili (Istituto Nazionale di Fisica Nucleare) Gianluca Sabella (Istituto Nazionale di Fisica Nucleare) Matteo Bartolini (INFN, Sez. Firenze) Muhammad Numan Anwar (Istituto Nazionale di Fisica Nucleare) Paolo Mastrandrea (INFN) Tommaso Diotalevi (Università e INFN, Bologna) Tommaso Tedeschi (Università e INFN Perugia)

Presentation materials