You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Magerit• Cluster de computación del Centro deSupercomputación y Visualización deMadrid (CeSViMa)• Forma parte de la Red Española deSupercomputación• Segunda máquina más potente de España• 90 proyectos y 200 usuarios
Hardware• 1204 nodos••2704 CPUsPotencia de cálculo: 14TFLOPS• 192 Tb disco compartido• Myrinet• Latencia 3 micro-sg• Ancho de banda: 2Gbps
Tipos de Nodos• Interactivos o de login••Habilitado acceso desde el exterior (SSH)Utilizados para compilar, enviar y monitorizar lostrabajos• No está permitido la ejecución de procesos decómputo• Cómputo• Aislados del exterior•Encargados de ejecutar los trabajos
Software• SuSE LES 9• General Parallel File System (GPFS)• Load Leveler• Aplicaciones de cálculo científico: ABINIT,AMBER, GAMESS, NAMD, NETCDF,SIESTA, ...
Sistemas de Ficheros/gpfs/hometrabajo y datos personales/gpfs/projectsdatos compartidos por el grupo/gpfs/scratch/gpfs/appsdatos temporalesAplicaciones y bibliotecas
Ejecución de Trabajos• Pasos para poder ejecutar un trabajo:• Conectarse a uno de los nodosinteractivos (SSH)• Preparar el ejecutable• Preparar la definición de trabajo• Enviar el trabajo al gestor de colas
Compilación con MPI• Compilador XLC• Wrappers que incluyen las opciones -I y -Ladecuadas:• mpicxx (C++)• mpicc (C)
Load Leveler• Gestor de trabajos• Los trabajos pertenecen a una determinadaclase (debug, small, medium, large,...)• distintas prioridades• Sistema de envejecimiento
Definición del Trabajo#!/bin/bash#@ group = [project_id]#@ class = [class_name]#@ job_type = [parallel|serial]#@ initialdir = ~/Documents/program_dir#@ output = res_dir/program.$(schedd_hostname).$(jobid).$(stepid).out#@ error = res_dir/program.$(schedd_hostname).$(jobid).$(stepid).err#@ restart = no#@ requirements = (Feature == "mx")#@ total_tasks = number of tasks#@ blocking = unlimited#@ wall_clock_limit = hh:mm:ss#@ queue# Environmentexport MP_EUILIB=mxexport OBJECT_MODE=64export MP_RSH=ssh# Reserved nodesNPROCS=‘cat ${LL_MACHINE_LIST} | wc -l‘# Run our programmpirun -np ${NPROCS} -machinefile ${LL_MACHINE_LIST} ./program
Mandatos Útiles••llsubmit: envía un trabajollclass -l: Muestra los límites de cadacola•••llcancel: cancela un trabajo encoladollq: muestra el estado de los trabajosllw: muestra la posición del primer trabajodel usuario que está en cola
Estados de un TrabajoCACINQRMRSTVCanceledCompletedIdleNot QueuedRemovedRunningStartingVacated
Errores Típicosbad interpreter: No such file or directoryCodificación errónea del retorno de carroTrabajo termina con el estado vacatedexpulsado por:1.motivos administrativos2. fallo en alguno de los nodosNo se escribe en el fichero de salidaSistema de bufferingbash: line 90: ulimit core file sizeNo afecta al funcionamiento
Más Información• Guía de usuario de Magerit. Centro deSupercomputación y Visualización deMadrid.http://www.cesvima.upm.es/media/docs/Magerit-GuiaUsuarios.pdf