Speaker
Description
Il presente intervento illustra la prima parte di un aggiornamento generale dell'infrastruttura cloud del centro di calcolo della Sezione di Torino, basato su OpenNebula.
Il progetto prevede l'orchestrazione di tecnologie di virtualizzazione native Linux (hypervisor KVM, libvirt) e storage distribuito. L'obiettivo è fornire la flessibilità necessaria per supportare, all'interno del medesimo ambiente, sia servizi infrastrutturali standard sia applicazioni intensive di calcolo scientifico, ottimizzando l'uso di un parco macchine eterogeneo e introducendo strumenti di verifica automatizzata della configurazione.
L'infrastruttura include host generici affiancati a server specializzati equipaggiati con acceleratori hardware (GPU) o processori multicore adatti al calcolo intensivo, e richiede dunque regole specifiche di scheduling per confinare i workload di calcolo scientifico e le simulazioni sui nodi appropriati, garantendo l'accesso all'hardware dedicato senza frammentare la gestione in cluster separati.
Per rispondere ai diversi profili di I/O richiesti dalle applicazioni, sono implementati tre livelli di storage: locale, CephRBD e CephFS, in base alla necessità di prestazioni, flessibilità o necessità di filesystem condivisi tra i nodi.
Il routing del traffico tra le reti isolate interne e l'esterno è demandato a istanze di Virtual Router (appliance Linux basate su Alpine) fortemente personalizzate all’avvio.
Per garantire che lo stato configurato nel database corrisponda alla realtà operativa, è stato integrato un tool di audit che esegue script modulari che interrogano in parallelo le API di OpenNebula e la riga di comando dei nodi KVM. L'audit verifica il corretto posizionamento delle VM, l'applicazione effettiva delle regole di firewall e l'integrità dei bridge di rete, segnalando istantaneamente disallineamenti o derive di configurazione.