A B C D E F G H I J K
1 39 BA - CMS CT - ALICE LNF - ATLAS LNL - CMS MI - ATLAS NA - ATLAS PI - CMS RM - ATLAS RM - CMS TO - ALICE
2                      
1 ) Sistema di code usato Torque/MAUI LSF 6.1 HPC PBS LSF TORQUE/PBS 2.1.6 PBS/Torque 2.X LSF LSF LSF v 6.1 PBS (torque-2 + maui)
4 1a) Da quando e' in produzione? PBS e' in produzione dal 2003. Torque/MAUI dal 2005. Marzo 2005 2004 Dal 2001 2 mesi (precendemente TORQUE/PBS 1.x) circa 2 anni 2 mesi; precedentemente PBS 1.x Ottobre 2006 meta' settembre 2006, prima PBS Dall'inizio...
5 2a) Code per esperimento o code per lunghezza dei jobs? Code specifiche per esperimento solo quando strettamente richiesto (ALICE, test). Per tutti gli altri code condivise fra esperimenti e organizzate per durata. Entrambe per esperimento Per esperimento code per esperimento + 1 coda short code per esperimento. Per Atlas 2 code in base alla lunghezza dei job. per esperimento atlasgcert (Grid, dteam/infngrid (certification), 1440.0 min); atlasglong (Grid, ATLAS, 4320.0 min); atlaslong (Local, local users, 4320.0 min); atlascalib (Local, calibration, 4320.0 min); cdfglong (Grid, CDF, 4320.0 min) code per lunghezza job divise per esperimento ~per VO
6 2b) Numero totale di code 7 17 3 8 7 7 7 5 5 11
7 2c) Macchina su cui gira lo scheduler (es, CE, nodo a parte ...) CE CE CE Master LSF su un nodo a parte CE CE master LSF, nodo a parte Server LSF separato Master LSF dedicato, nodo a parte CE
8 2d) Quali VO supportate? Tutte quelle EGEE e INFN-GRID Tutte quelle mostrate nella pagina: http://grid.ct.infn.it/monit/daily.php Atlas, Dteam, Infngrid, Gridit I quattro esperimenti LHC piu' cdf ed euindiagrid alice, atlas, cms, lhcb, dteam,infngrid,ops atlas alice lhcb cms dteam ops infngrid gridit virgo babar cdf argo pamela (esp. HEP + esp. presenti in sezione) tutte quelle di LCG/INFNGrid ATLAS, CDF, DTEAM, INFNGRID CMS, Grid Cert atlas alice lhcb cms dteam infngrid babar zeus na48 ops biomed
9 3 ) Sistema di code prettamente utilizzato via GRID o anche uso locale Prevalentemente via Grid. La coda locale e' ormai dismessa. Sia uso via GRID che locale solo via grid Solo via grid (coda locale usato solo da admin, per test e poco altro) solo via GRID via grid anche uso locale LSF anche uso locale Esclusivamente via GRID
10 4 ) Sistema di prioritizzazione scheduler (FIFO, FairShare, Priority based...) Il sistema di prioritizzazione tiene in considerazione molti parametri per coprire al meglio le richieste di una farm multi-VO. Vengono dati dei pesi sia alla priorita' statica di una VO o di un utente, sia al fair-share, sia al tempo trascorso in coda; sono anche possibili pre-allocazioni di risorse. Priorita' + Pre-emption Priority based FairShare, con Host Partitions per dare piu' priorita' ad alice sulle macchine da loro comprate Priority based e FairShare con vari pesi priority FairShare FairShare cross queue FairShare Priority + FairShare
11 5 ) Macchine da cui e' possibile sottomettere jobs locali 3 diversi CE e una UI (in dismissione) 2 o 3 macchine cluster lxcalc Master LSF solo CE al momento nessuna qualunque CE/WN Tutte le UI del sito (correntemente 3 UI su macchine virtuali) UI dedicata NESSUNA
12 6 ) Account esistenti sul manager, utilizzabili per mandare jobs Solo account grid. Diversi solo account grid account grid account Grid + ~10 account locali al momento nessuno account grid, in via di installazione su tutti i nodi Grid tutti gli account AFS di sezione 80 account locali account grid, account locali T2 (numero limitato) NESSUNA
13 7 ) Dimensioni medie del cluster (slot utilizzabili, jobs running, jobs in coda) 90 slot, 90 job running , anche fino a 2000-3000 job in coda. Guarda la pagina: http://grid.ct.infn.it/monit/queues.php 30 slot, 30 job running, ~ 400 job in coda 200 / 0-200 / 0-Nmila 65 / 60 / da 0 fino a 2000 jobs in coda 34 slot (altre 28 entro pochi giorni); 34 job running, job in code dell'ordine delle centinaia. 600 / 400 / mediamente zero, con punte > 3000 56 slot, 56 jobs running, >100 jobs pending 42/ 40 (togliendo 2 job cert) / 400 jobs in coda 146 + 2 (riservate per job di test/certificazione), 146 job running, ~50 in coda
14 8 ) Scalabilita' del sistema: fino a che livello e' stato testato fino a 150 slot e 4000 job in coda Da quando e' stato installato LSF il job count e' a poco meno di 1 milione di job 30 slot, 30 job running, ~ 1500 job in coda 75 host, 200 slot, ~5000 job in coda 26 hosts/ 70 slots /2000 jobs in coda il sistema lavora al 100% per la maggior parte del tempo 170 hosts / 600 Slots / 3500 jobs in coda fino a 56 nodi a Roma1, ma LSF supporta migliaia di nodi (testato sia al CNAF che al CERN) vedi punto 7 148 job running, 500 in coda
15 9 ) Carico medio del GridManager in condizioni di massimo utilizza LoadAverage intorno a 4-5 ma dovuto al middleware di grid. Se intendi il CE, mai piu' del 50-60% di CPU (e' un dual dual-core con 4 GB di RAM) 1 Non mi e' chiaro cosa si intende con 'GridManager', il CE ha sempre un load elevato (in genere da 2 a 10), mentre sul master LSF il load e' trascurabile (~0.1) loadaverage sul CE ~5 ; pbs_server %MEM 7.0 %CPU 0-6 ; maui %MEM 4.5 %CPU 0-3 CPU Load del CE-pbs server < 40% (era questo che volevate sapere?) lsf manager carico sempre < 1 Load >= 2.0 domanda non chiara 3-4
16 10 ) Problemi riscontrati nel sistema per massimo utilizzo Il middleware di grid satura la macchina -> Necessario avere piu' CE installati per suddividere il carico. Nessuno - Nessun problema specifico di LSF con la versione 2 nessun problema Nessuno carico eccessivo sul CE (~20), non LSF specific Blocco del sistema per utilizzo eccessivo di memoria o intensivo di servizi hang del CE, risolto con sostituzione del CE con macchina piu' performante Il sistema di code intrinsecamente non ha problemi riscontrabili anche a pieno carico. I job wrapper del middleware lasciano spesso parecchi processi defunct, e la versione di globus-url-copy usata per il trasferimento da/verso il WMS soffre spesso di bug di comunicazione che bloccano di fatto la prosecuzione del job. (Questi pero' non sono problemi del sistema di code)
17 11a) Possibilita' di spostare risorse fra code diverse senza fermare tutto E' possibile ma non viene usato, perche' maui consente una gestione piu' fine per ottenere lo stesso risultato SI semplice reconfig dinamico SI SI Non abbiamo l'associazione risorse-code semplice reconfig, dinamico Supportata e testata conf dinamica Tutte le code vedono le medesime CPU
18 11b) Possibilita' di riorganizzare a runtime priorita' dei jobs Si, in diversi modi: facile. SI abbastanza facile usando comandi qorder, ecc... SI SI Si, molto semplice molto facile Supportata e testata, anche advanced reservation SI i nodi sono job-exclusive
19 11c) Strumenti di debug/logging dei jobs (per es per trovare "buchi neri") Il logging e' presente, non ci sono strumenti gia' forniti, se ne possono sviluppare diversi in modo semplice. SI ok, guardando i log SI SI (checkjob, tracejob, diagnose) Non immediato, attraverso i log files. ok, anche per i jobs finiti da tempo Attualmente in fase di implementazione nel sistema locale di monitoring con un po' di lavoro Strumento di monitoraggio impiegati: nagios + mrtg oltre a naturalmente grep nei file di log
20 11d) Possibilita' di partizionare la farm (cioe' di legare WN a code) SI SI si e' possibile SI SI Possibilita' non utilizzata. SI Supportata e implementata per i job di certificazione e le code locali o di calibrazione SI non utilizzato:Tutte le code vedono le medesime CPU. Inoltre molte delle feature del LRMS non sono utilizzabili dal wrapping grid
21 12 ) Sviluppi previsti come # di Slots nella coda Gli sviluppi dipenderanno dai finanziamenti ricevuti Siamo un T-2 per ALICE quindi diverse centinaia di core nei prossimi anni non sono previsti sviluppi al momento ? ~20 nuovi nei prossimi mesi aggiunta entro pochi giorni di 28 nuove slot (7 biprocessori dual core) circa costante Inclusione dei nuovi nodi Intel Woodcrest (8 nodi x 4 CPU = 32 slot) dipende dai referee no nel 2007
22 13 ) Prevedete un cambiamento di gestore di code nel prossimo futuro? Solo se le condizioni di utilizzo evidenziassero evidenti problemi di scalabilita' NO no NO Si se le condizioni di utilizzo evidenziano problemi di scalabilita' si, verso LSF, in un tempo non ancora definito. NO NO NO NO
23 14 ) Costo del gestore di code / provenienza licenze Torque/MAUI, entrambi open source. Licenze CNAF via server FlexLM OPENPBS e' gratuito Licenze acquistate negli anni 2001-2004. Dal 2005 (o 2006?) non paghiamo piu' la manutenziona, a carico del contratto LSF-INF del CNAF TORQUE/MAUI sono opensource e free free demo accademic licenses Licenze CNAF licenze centralizzate al T1 Licenza LGPL, progetto mantenuto da cluster resources (http://www.clusterresources.com/) come versione opensource del sistema commerciale MOAB
24 15 ) Gestore di code unico per tutta la sezione o specifico per il T2? Torque/MAUI usati in piu' cluster, ma con installazioni separate T2 + farm di CMS + farm di Gruppo IV. La farm di Gruppo III usa OpenPBS unico per tutta la sezione Al momento il T2 e la farm dei Laboratori hanno ancora 2 istanze separate di LSF, ma stiamo lavorando per unificarli e avere un gestore unico specifico per il T2 specifico per il T2 LSF per 13 cluster (compreso T2). 2 cluster con SunGridEngine SGE Specifico per i Tier2, ma utilizzato anche per i siti INFN-ROMA1-CMS e INFN-ROMA1-VIRGO specifico T2 Atlas/CMS assoluta anarchia
25 16 ) Altre particolarita' del vostro sistema? Lo stesso batch server e' usato da piu' CE appartenenti a test-bed diversi che pero' condividono i WN. - Controllo automatico del numero di job pending e messa automatica del sito in "draining mode" quando il numero di job pending supera 750. - Integrazione di MPICH-2 con gLite. - Supporto per WN con SLC 4.4 a 64 bit nativi nessuna - tutti i WN son sotto rete privata - nessuna Gestione congiunta per i tre sisti ospitati dalla sezione di ROMA1 nessuna I nodi di calcolo non hanno indirizzi pubblici.
26 17 ) Esperienza nella installazione (problemi / meraviglie) e nella gestione Instazione e management molto semplici. Necessita' di usare l'ultima versione per ottenere la scalabilita' necessaria. Ottima nessuna - installazione e management semplici, problemi di scalabilita' con torque 1.x Installazione ed aggiornamenti con il resto del mw infn-grid, nessun problema installazione LSF completamente automatizzata e integrata nel tool di installazione di una nuova farm. Software e le configurazioni distribuite centralmente via AFS - inst di LSF sui WN inserita nel kickstart nulla di particolare
27 18a) Problemi nella presente configurazione Nessuno legato al Batch System, pero' necessario prevedere lo splitting dei servizi Grid per aumentare la scalabilita' (Il CE puo' andare sovraccarico quando ci sono molti job) Nessuno nessuno Nessuno specifico di LSF NO Nessuno in particolare, dobbiamo implementare il fair share per migliorare la condivisione delle risorse. nessuno - nessuno apparentemente nessuno
28 18b) Pensate che il vs sistema possa scalare nei prossimi anni fino a coprire un T2? Dal comportamento visto fin'ora sembrerebbe di si. Ma siamo disponibili a cambiare sistema se mostrasse problemi. CERTAMENTE si Si' Si, ma possibile passaggio a LSF per questo pensiamo ad un passaggio a LSF. SI SI SI adeguando opportunamente l'hardware
29 18c) Grado di soddisfazione nell'utilizzo giornaliero Ottimo PIENA ottimo Alto (e' forse l'unica cosa che non da' mai problemi) Buono con l'ultima versione buono ottimo Alto buono.. nessuna lamentela al momento -
30 18d) Tempo necessario per il mantenimento giornaliero del gestore di code 0, interventi solo in caso di cambiamento della configurazione di scheduling MINIMO circa il 5% della giornata lavorativa di un FTE Solo quando serve modificare priorita', share, ecc. Intervento solo in caso di cambiamneto parametri di scheduling (maui.cfg) minimo 0 Mediamente pochi minuti al giorno dipende, ancora in fase di tuning per avere una conf ottimale Il gestore di code presenta problemi con una frequenza di diversi ordini di grandezza inferiore rispetto al resto del middleware.
31 19 ) Avete provato/valutato altri sistemi di batch queuing? Si, condor Si, prima usavano OpenPBS e poi Torque/MAUI no No, partiti fin dall'inizio con LSF LSF NO PBS, SGE Si: DQS, PBS, Torque/MAUI PBS LSF e' stato preso in considerazione.
32 19a) Accennare a pro e contro riscontrati Difficolta' di configurare la parte grid, impossibilita' di gestire le code, in modo semplice. LSF non ha mostrato finora dei "contro". - - contro: difficolta' di configurazione, mancanza di documentazione e supporto open - PBS (scarsa scalabilita', poco stabile, CE spesso sovraccarico); SGE (solo in cluster locali) Pro: semplicita' di configurazione; Contro: impossibilita' di FairShare adeguato e limitazioni sulla scalabilita' non scalabile, meno flessibile, meno configurabile LSF e' sistema proprietario e a licenza commerciale con caratteristiche analoghe. La scelta del sistema di code è fortemente limitato dalle poche funzionalità che vengono realmente sfruttate dal middleware grid.
33 20 ) Esperienza col supporto tecnico Ottima. OTTIMA ottima Buono Il supporto per TORQUE/MAUI viene dalla comunity degli utenti, ottima documentazione e supporto open nessuna interazione col supporto di PBS/Torque, buon supporto da parte del ROC. LSF buono Buona, attraverso i canali preferenziali dell'INFN LSF buono google funziona egregiamente