AI_INFN Technical meeting – Minutes and actions
Date: 2024-02-19
Nessuna presentazione.
Vorremmo organizzare una giornata in presenza focalizzata sugli use-case.
Se c’è interesse nell’organizzare in una delle vostre sedi, prendete contatti.
Tracked developments:
Tests on deployments with RKE2 (L. Anderlini, R. Petrini, G. Misurelli, M. Corvo)
- Il management board di INFN Cloud ha deciso che sarà organizzata una riunione per definire i passi verso l’integrazione. Siamo in attesa.
- L. Anderlini chiede a G. Misurelli di iniziare a lavorare ad un documento di sintesi dei requisiti per la dashboard/integrazione che ci rendano semplice la gestione del cluster, incluso l’aggiornamento.
- Prima documentiamo nel README, discutiamo e facciamo una presentazione
Port monitoring infrastructure to Helm chart (R. Petrini)
- Primo contatto con Costantini per il monitoring in INFN Cloud
- Risposta positiva, ma da discutere con WP1
- Questione relativa alla sicurezza per proteggere l’endpoint prometheus
Define a list of libraries for QC simulations in Cloud (S. Giagu, S. Bordoni)
- Eravamo rimasti che andavano fatti test per mettere su un ambiente containerizzato sotto conda per tutti i pacchetti
- I test mostravano che più o meno funzionava tutto, ma andava testato il comportamento con GPU.
- Richiesto a Simone Bordoni il test con GPU. Sono state necessarie diverse librerie addizionali,
alcune su conda alcune con pip e ha funzionato. Testato con una GPU locale nVidia. - Resta fuori DWave, ma non sembra uno show-stopper.
- L. Anderlini chiede a Matteo di verificare la compatibiltà con l’environment in attesa di avere il setup nuovo.
Offloading tests with virtual kubelets (G. Bianchini, D. Ciangottini)
- Test di spawning di JupyterHub via VK. I test sono ancora fatti con infrastruttura locale a PG.
- Il setup è presumibilmente identico nel setup nuovo.
- G. Bianchini ha iniziato a lavorare anche ad una guida per creare il setup. Più sulla parte di backend.
- L. Zangrando: come viene condivisa la GPU? Ogni pod ha uso esclusivo della GPU.
- Fatti test e le GPU possono essere condivise tra pod diverse con GPU-share, uno scheduler che si installa come Operator per Kubernetes. Vengono definite delle policy con cui alternare l’uso delle GPU. Il pod dichiara quanta GPU vuole utilizzare. Conosce lo stato della GPU ma non ha policy specifiche.
containerd
può supportare le GPU, vanno sostituiti alcuni parameteri e vanno installati i driver, a quel punto si installa un operator e questi due software permettono la condivisione della GPU che viene usata davvero in parallelo da più processi.- Non specifico per offloading.
- S. Dal Pra chiede se è vero anche per le partizioni MIG. Risposta: sì.
Acquisto FPGA
- Breve aggiornamento da S. Dal Pra: D. Cesini sta cercando di acquistare un server su cui installare le FPGA.
Status legend
Active
Priority
Problems
Postponed or Blocked by others
Completed
There are minutes attached to this event.
Show them.