Head Node: Intel Xeon E5-2640 v2 | 2 CPU x 8 cores | Memoria: 96 GB (12) Micron 8GB |
69 Nodos de cálculo: Intel Xeon E5-1620 v2 - 1 CPU x 4 cores | Memoria: 16 GB (2) Micron 8GB |
Total cores: 292 cores |
Total memoria: 1.2 TB |
sbatch
y srun
. Se recomienda el uso del primer comando, ya que permite una mejor configuración a pesar de tener que usar un archivo de configuración.sbatch [opciones] script
#!/bin/bash
#SBATCH --job-name=prueba4 # nombre para identificar el trabajo. Por defecto es el nombre del script
#SBATCH --ntasks=10 # cantidad de cores pedidos
# la linea siguiente es ignorada por Slurm porque empieza con ##
##SBATCH --ntasks-per-node=1 # cantidad de cores por nodo, para que distribuya entre varios nodos
#SBATCH --output=myjob.output # la salida y error estandar van a este archivo. Si no es especifca es slurm-%j.out (donde %j es el Job ID)
#SBATCH --error=myjob.error # si se especifica, la salida de error va por separado a este archivo
# aqui comienzan los comandos
mpirun /u/alquien/programa/programa_mpi
sbatch trabajo.sh
Submitted batch job 101
squeue -l
se puede ver el estado:
JOBID PARTITION NAME USER STATE TIME TIME_LIMI NODES NODELIST(REASON)
101 work prueba4 alguien PENDING 0:00 UNLIMITED 1 (Resources)
100 work mpi-slur alguien RUNNING 0:44 UNLIMITED 5 compute-0-[2-7]
prueba4
ha quedado en espera (PENDING
) hasta que haya nodos suficientes/adecuados (Resources
) para que se ejecute.SBATCH
):sbatch --ntasks=4 --constraint=RAM16 --job-name=parte2 trabajo.sh
sbatch --dependency=afterany:110 segunda_parte.sh
--dependency
son:
afterany:job_id[:job_id...]
job_id
haya finalizado.afternotok:job_id[:job_id...]
job_id
haya finalizado con algún estado de error (código de sálida distinto de cero, fallo de nodo, timeout, etc.)afterok:job_id[:job_id...]
job_id
haya finalizado correctamente./usr/local/mpich
(v3.1.4). No hay que especificar una lista de hosts (-f) en mpirun porque queda en espera permanente../configure --prefix=/u/alguien/openmpi --enable-static --disable-java --without-x --without-loadleveler --with-slurm --with-pmi=/usr/local/include/slurm --with-pmi-libdir=/usr/local/lib --with-cuda=/usr/local/cuda
squeue -l # lista los trabajos en ejecución y espera
sinfo # muestra estado de los nodos
scancel JOB_ID # cancela un trabajo
c3admin@santafe-conicet.gov.ar
hpc-cimec@googlegroups.com (Lista de usuarios)
+54-342-4511594/95 int 7025/7026/7027
Edificio CIMEC - Predio CONICET Santa Fe "Dr. Alberto Cassano" - Colectora Ruta Nac Nro 168, Km 0, Paraje El Pozo - (3000) Santa Fe - Argentina