Meeting federazione ATLAS-IT
Vidyo only
=============================================================================
1) report dai T1/T2
=============================================================================
A) Napoli :
- problemi in passato su alcuni nodi nel passaggio centos7, risolti.
- alcuni problemi di surriscaldamento sala macchine
- problema sullo storage : attualmente blacklisted in scrittura, rebuild dei volumi in corso
B) Frascati :
- aggiornamento DPM quasi terminato
- ultimi nodi comprati hanno molte CPU alcuni jobs si piantano presumibilmente per problemi di velocità' di connessione. Attualmente due connessioni da 1 Gbit/s. Per risolvere il problema sarebbe necessario cambiare infrastruttura ed arrivare a 10 Gbit/s
- problemi con pbs : arrivati a 4000 slot, al limite del sistema PBS, sperimentare condor
- disco tutto online ma da assegnare tutto in datadisk. Possibile fare un favore a Padme anticipando 100 TB ATLAS che verranno restituiti verso fine anno. Da valutare quando mettiamo in linea tutto lo storage disponibile e capiamo come siamo messi rispetto al pledge.
C) Roma1 :
- non si sono notati problemi con i jobs che si bloccano per la rete
- migrazione a condor, test in corso
- CPU tutta in linea, storage tutto in linea e assegnato.
- Migrazione a DPM completata
D) Milano :
- problemi con storage gpfs che si trascinano da settimane. Problemi a scrivere un singolo blocco ( uno ogni tanto, non si capisce ). In contatto stretto con gli esperti del CNAF.
- storage non ancora tutto online. Aspetta per capire se serve qualche cambiamento nella configurazione prima di farlo riempire.
- Questo ci mette un po' in crisi rispetto al pledge : prendersi ancora qualche giorno ma poi mettere comunque il linea e assegnare tutto lo storage.
E) CNAF :
- rate elevato di fallimenti. Interrogazione server webdav per ottenere il path fisico du gpfs molto lunga, fino a 80 secondi. C'e' un limite di 10 secondi hardcoded timeout quindi i jobs muoiono. Investigazioni in corso da parte degli esperti del CNAF.
- reprocessing 2018 e test del tape carousel : CNAF escluso perche' c'era stato un down.
- migrazione condor : due code ATLAS pronte (analisi e produzione), pochi jobs ~100 (su 4000)
============================================================================
2) report dai T3
=============================================================================
A) COSENZA
- piccolo stop a inizio anno per il resto tutto bene
- sperimentazione in corso sull'uso di condor
- lavoro sulla rete per adattare a IPV6
- apel non raccoglie piu' i dati ? (da controllare)
- sperimentati alcuni utili tools di monitoraggio : ricavare potenza dissipata su macchina, temperature
etc [ maggiori informazione nel mail di Alessandro T. ]
B) ROMA3
- problema con wn per richiesta RAM superiore a quella settata, ora tutto ok.
- no IPV6, provare aggiornamento centos7 per storm
- interesse a sperimentare la migrazione a condor
=============================================================================
3) gare / acquisti
=============================================================================
Cercare di far partire il prima possibile le gare. Accordo per :
- gara unica per lo storage ( 900 TB, 126 KEURO ). Capire che sara' il RUP.
- gare separate per CPU. Valutare quanti HS06 si comprano con 50K euro ( IVA esclusa ). Se ci stiamo rispetto al pledge procediamo con 3 gare locali < 50 KEuro.
=============================================================================
4) varie
=============================================================================
A) Siti DPM : white paper della DPM community in cui si esprimono tutte le preoccupazioni circa il
calo progressivo di supporto verso DPM e’ in circolazione
B) INFN ha acconsentito a pagare (20 Keuro) l'estensione garanzia hardware comprato attraverso RECAS. Contattare Chiara per capire come far partire la procedura. Questo dovrebbe garantire un altro anno di copertura
C) Prossime gare : ricordarsi di chiedere in fase di gara l'estensione della garanzia a 5 anni anche
per le CPU
D) aggiungere per le prossime riunioni un report sulle cose importanti che sono successe in ATLAS.
=============================================================================
ACTION ITEMS :
=============================================================================
1) capire come si controlla esattamente l'hardware che effettivamente abbiamo online
2) seguire la preparazione delle gare : chat durante la S&C week. Verificare il costo stimato per HS06.
3) interesse generalizzato a condividere l'esperienza/istruzioni per la migrazione a condor. Come facilitare questo scambio ? Istruzioni, meeting dedicato telefonico/fisico ?
4) controllare la raccolta dei dati in apel ( segnalato da Alessandro T. )