12.07.2015 Views

Santiago Muelas Pascual

Santiago Muelas Pascual

Santiago Muelas Pascual

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Magerit• Cluster de computación del Centro deSupercomputación y Visualización deMadrid (CeSViMa)• Forma parte de la Red Española deSupercomputación• Segunda máquina más potente de España• 90 proyectos y 200 usuarios


Hardware• 1204 nodos••2704 CPUsPotencia de cálculo: 14TFLOPS• 192 Tb disco compartido• Myrinet• Latencia 3 micro-sg• Ancho de banda: 2Gbps


Tipos de Nodos• Interactivos o de login••Habilitado acceso desde el exterior (SSH)Utilizados para compilar, enviar y monitorizar lostrabajos• No está permitido la ejecución de procesos decómputo• Cómputo• Aislados del exterior•Encargados de ejecutar los trabajos


Software• SuSE LES 9• General Parallel File System (GPFS)• Load Leveler• Aplicaciones de cálculo científico: ABINIT,AMBER, GAMESS, NAMD, NETCDF,SIESTA, ...


Sistemas de Ficheros/gpfs/hometrabajo y datos personales/gpfs/projectsdatos compartidos por el grupo/gpfs/scratch/gpfs/appsdatos temporalesAplicaciones y bibliotecas


Ejecución de Trabajos• Pasos para poder ejecutar un trabajo:• Conectarse a uno de los nodosinteractivos (SSH)• Preparar el ejecutable• Preparar la definición de trabajo• Enviar el trabajo al gestor de colas


Compilación con MPI• Compilador XLC• Wrappers que incluyen las opciones -I y -Ladecuadas:• mpicxx (C++)• mpicc (C)


Load Leveler• Gestor de trabajos• Los trabajos pertenecen a una determinadaclase (debug, small, medium, large,...)• distintas prioridades• Sistema de envejecimiento


Definición del Trabajo#!/bin/bash#@ group = [project_id]#@ class = [class_name]#@ job_type = [parallel|serial]#@ initialdir = ~/Documents/program_dir#@ output = res_dir/program.$(schedd_hostname).$(jobid).$(stepid).out#@ error = res_dir/program.$(schedd_hostname).$(jobid).$(stepid).err#@ restart = no#@ requirements = (Feature == "mx")#@ total_tasks = number of tasks#@ blocking = unlimited#@ wall_clock_limit = hh:mm:ss#@ queue# Environmentexport MP_EUILIB=mxexport OBJECT_MODE=64export MP_RSH=ssh# Reserved nodesNPROCS=‘cat ${LL_MACHINE_LIST} | wc -l‘# Run our programmpirun -np ${NPROCS} -machinefile ${LL_MACHINE_LIST} ./program


Mandatos Útiles••llsubmit: envía un trabajollclass -l: Muestra los límites de cadacola•••llcancel: cancela un trabajo encoladollq: muestra el estado de los trabajosllw: muestra la posición del primer trabajodel usuario que está en cola


Estados de un TrabajoCACINQRMRSTVCanceledCompletedIdleNot QueuedRemovedRunningStartingVacated


Errores Típicosbad interpreter: No such file or directoryCodificación errónea del retorno de carroTrabajo termina con el estado vacatedexpulsado por:1.motivos administrativos2. fallo en alguno de los nodosNo se escribe en el fichero de salidaSistema de bufferingbash: line 90: ulimit core file sizeNo afecta al funcionamiento


Más Información• Guía de usuario de Magerit. Centro deSupercomputación y Visualización deMadrid.http://www.cesvima.upm.es/media/docs/Magerit-GuiaUsuarios.pdf

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!