Speakers
Description
INFN Datacloud è il portfolio di infrastrutture e servizi cloud sviluppato dall’Istituto Nazionale di Fisica Nucleare per supportare le comunità scientifiche con piattaforme distribuite, scalabili e semplici da utilizzare. L’ecosistema offre numerosi servizi infrastrutturali e applicativi — tra cui PaaS, NaaS, repository di container basati su Harbor, sistemi di Identity and Access Management (IAM) e altri strumenti dedicati alla gestione di ambienti di calcolo scientifico — progettati per facilitare l’adozione del paradigma cloud nella ricerca.
La gestione di un’infrastruttura così articolata richiede strumenti avanzati di controllo, automazione e osservabilità. Per questo INFN Cloud adotta un sistema di gestione che semplifica il lavoro degli amministratori di sistema e garantisce visibilità sull’intera piattaforma. Tra questi rientrano sistemi di monitoring e accounting per il tracciamento delle risorse e delle prestazioni, strumenti di configurazione e automazione come Puppet, e piattaforme di logging e analisi che permettono di individuare rapidamente anomalie o degradi del servizio.
Un aspetto centrale nella progettazione di INFN Datacloud è la capacità di garantire alta affidabilità e continuità operativa dei servizi, requisiti fondamentali per supportare carichi di lavoro scientifici spesso critici e distribuiti. Per raggiungere questo obiettivo vengono adottate diverse strategie di resilienza infrastrutturale: storage e database distribuiti per eliminare singoli punti di guasto, ridondanza geografica tra diversi data center, meccanismi di replica e backup periodici per la protezione dei dati, e sistemi di failover basati su DNS che consentono di reindirizzare automaticamente il traffico verso siti alternativi in caso di indisponibilità.
In questo contributo presentiamo l’architettura dei servizi principali di INFN Datacloud e le soluzioni adottate per garantire robustezza e continuità del servizio. Verranno inoltre discusse le scelte tecnologiche e operative che permettono di mantenere un equilibrio tra semplicità d’uso per gli utenti finali, efficienza operativa per i gestori dell’infrastruttura e sicurezza complessiva della piattaforma. Come caso d'uso di questa architettura in alta affidabilità, discuteremo l'implementazione multi-primary del repository di container Harbor, la sua integrazione con il database Postgres, e il meccanismo di failover automatico basato su DNS e monitoring Zabbix.