RIUNIONE CALCOLO ATLAS ITALIA 28/05/2020
- Introduzione : buone performance siti italiani nell’ultimo mese.
- Il CNAF e’ tornato al pledge.
- Monitorare ora piu’ nel dettaglio l’efficienza dei siti per produzione e analisi.
- Gare disco in movimento. Draft capitolato per CPU preparato da Elisabetta.
- CNAF : risorse sotto pledge, problema identificato nel comportamento del batch system, ora risolto. CNAF anche abbondantemente sopra pledge. Sperimentazione scrittura con XrootD, potenzialmente utile per accesso a risorse CINECA.
- COSENZA : problemi con raffreddamento sala macchine, l’origine di alcuni fallimenti recenti potrebbe essere dovuta allo spegnimento di wn per temperatura elevata.
- GENOVA : attualmente offline per lavori all’impianto elettrico. Fissati alcuni problemi di configurazione ( sam test e user namespace per singularity ).
- migrazione a HTCondorCE dalla prossima settimana. Probabilmente batch system slurm
- LECCE : problema con lo scratchdisk risolto aumentando lo storage disponibile.
- Controllare dumps per cleaning dei dark data
- Problemi di efficienza in passato probabilmente dovuti ad una serie di problemi hardware e di configurazione che dovrebbero essere ora risolti
- ROMA3 : sistemati alcuni problemi di configurazione ( sam test ).
- Re-inserire i dump
- Upgrade di storm/gpfs possibilmente su centos7
- Esplorare diverse soluzioni per il batch ( slurm ? )
- FRASCATI : buone performance nell’ultimo mese
- solo alcuni problemi con jobs che saturano la rete su macchine connesse a 1 Gbps. I jobs devono essere uccisi a mano. Switch a 10 Gbps finanziato da CCR dovrebbe risolvere la situazione.
- Aggiornare i dumps
- Aggiungere frazioni di disco ancora non in linea
- MILANO : nuove macchine della gara 2018 installate felicemente.
- storage : rimossa centralmente gran parte dei dati, restano solo ~ 100TB da muovere nel nuovo storage
- storage : David sta provando una configurazione con gpfs5 ( che funziona su centos7 ) e storm ( mancano pero’ le configurazioni esatte per girare su centos7 ). Nei prossimi giorni ci dovrebbero essere novita’. ( interesse da parte di Genova e Roma3)
- NAPOLI : nessun problema particolare da segnalare efficienza del sito bassa a inizio anno probabilmente dovuta a problemi di quota
- ROMA1 : efficienza del sito bassa in questo ultimo mese. Problema identificato in un bunch di jobs di produzione bacati che hanno girato per quasi due settimane.
- Pensare ad una pagine comune dove inserire links diretti a pagine di monitoring ed una eventuale collezione di “ricette” comuni per affrontare questioni ricorrenti. Questo potrebbe aiutare gli admis a controllare il comportamento dei siti.
- Cancellazione dati da LOCALGROUDISKS : sono necessari privilegi di produzione. Identificare persone che lo possono fare e a cui i vari admins possono fare riferimento.
Prossima riunione : Giovedi 25 giugno ore 11
There are minutes attached to this event.
Show them.