AI_INFN Technical Meeting

Europe/Rome
Description

Virtual meeting room (zoom): https://l.infn.it/ai-infn-meeting

Date: 2024-02-12

Nessuna presentazione.

Il CNAF ci ha contattato perché avverrà una migrazione fisica dei server che ospitano la nostra tenancy Cloud@CNAF al tecnopolo. Questo comporterà di dover distruggere tutte le VM con conseguente perdita di tutti i dati.
Centralmente cercheremo di tamponare il problema su alcuni nodi gestiti centralmente, ma in questa operazione è impossibile evitare un ampio e diffusa perdita di dati.

Abbiamo cominciato, e continueremo nei prossimi giorni, una campagna per invitare gli utenti di INFN Cloud a fare backup dei dati nelle loro VM e nelle istanze comuni. Aiutateci a fare girare questo invito.

Tracked developments:

 :parking: Tests on deployments with RKE2 (L. Anderlini, R. Petrini, G. Misurelli, M. Corvo)

  • Creata l’entry nel DNS per https://hub.ai.cloud.infn.it. Cluster istanziato.
  • La richiesta di far puntare ai.cloud.infn.it ad hub.cloud.infn.it non può essere soddisfatta per limitazioni del DNS INFN.
  • Procede la discussione con DataCloud per l’integrazione nella dashboard con RKE2. Oggi in discussione al Management Board.
  • Data la migrazione al tecnopolo, la migrazione degli utenti e dei dati al nuovo cluster è sospesa. Passeremo in un colpo solo al nuovo cluster ospitato al tecnopolo per evitare 2 migrazioni complicate in poche settimane.
  • Per ora proseguiamo i test sul cluster nuovo. Abbiamo indicato molto chiaramente che tutti i dati utente saranno cancellati.
  • Giuseppe Misurelli: aspettiamo i commenti del management board. Alcune considerazioni su modalità con cui viene fatto il setup, e la modalità con cui noi vogliamo fare il cluster. Ci sono diversi livelli di complessità che possono essere gestiti. In particolare ci sono cose da capire per quanto riguarda gli aggiornamenti frequenti. Se abbiamo un cluster, se non abbiamo in mente dall’inizio una modalità per l’aggiornamento di kubernetes, c’è bisogno di avere una certa autonomia nel modo con cui effettuare le configurazioni.
  • Aggiornamenti in place con l’ansible. Il playbook che stiamo usando permette di aggiornare i nodi uno dopo l’altro.

:arrow_forward: Port monitoring infrastructure to Helm chart (R. Petrini)

  • Fissata a domani pomeriggio una riunione per valutare l’utilizzo di Grafana di INFN Cloud per dashboarding di piattaforma.
  • La documentazione di prometheus sconsiglia di usare NFS per i dati di monitoring, valutiamo di andare direttamente sul disco host con “hostPath”.

:arrow_forward: Define a list of libraries for QC simulations in Cloud (S. Giagu, S. Bordoni)

  • NTR

:arrow_forward: Offloading tests with virtual kubelets (G. Bianchini, D. Ciangottini)

  • Giulio Bianchini: La VM con RTX usata per i test di offloadin sarà distrutta? Sì.
  • Primi test fatti, le cose sembra che funzionino, ma vanno fatti molti più test.
  • Documentazione interfaccia? Pare non ce ne sia e ne andrà fatta molta. Ok cominciare prima di aver limato il backend.

:arrow_forward: Acquisto FPGA

  • (Stefano Dal Pra): Sentito Mirko, l’orientamento è quello di acquistare una o due Alveo V70. Già disponibile il preventivo da ottobre, che sarà aumentato e va ri-richiesto.
  • La U55C potrebbe essere molto simile alla U50. Di U50 ce ne sono già altre al CNAF che possiamo chiedere di utilizzare perché sono poco utilizzate. Potremmo chiedere di allocare una delle U50 e acquistare 2x V70. Una per sviluppo e una per beta testing.
  • Va capito dove installare fisicamente queste nuove schede. Mancano gli slot PCIe sulle macchine nella nostra tenancy. Stiamo discutendo e cercando una soluzione, ma non è banale. Suggerimenti benvenuti.
  • Lo schema di sviluppo di U50 e U55C sono simili. Le performance dovrebbero essere inferiori, ma il ciclo di sviluppo dovrebbe essere lo stesso.
  • Capiamo offline se Vitis AI è supportato.
  • Enrico Calore:
  • Giulio Bianchini:
    • La U55C è più corazzata della U50, quindi lo sviluppo è lo stesso.
    • La V70 supporta una versione VitisAI nell’ultima versione.

Status legend

:arrow_forward: Active
:fast_forward: Priority
:bangbang: Problems
:parking: Postponed or Blocked by others
:white_check_mark: Completed

There are minutes attached to this event. Show them.
    • 16:00 16:20
      News and setup 20m
      Speaker: Lucio Anderlini (Istituto Nazionale di Fisica Nucleare)
    • 16:20 16:50
      Discussion on tasks and priorities 30m
      Speaker: All
    • 16:50 17:00
      Any other business 10m