| Head Node: Intel Xeon E5-2640 v2 | 2 CPU x 8 cores | Memoria: 96 GB (12) Micron 8GB |
| 69 Nodos de cálculo: Intel Xeon E5-1620 v2 - 1 CPU x 4 cores | Memoria: 16 GB (2) Micron 8GB |
| Total cores: 292 cores |
| Total memoria: 1.2 TB |
sbatch y srun. Se recomienda el uso del primer comando, ya que permite una mejor configuración a pesar de tener que usar un archivo de configuración.sbatch [opciones] script
#!/bin/bash
#SBATCH --job-name=prueba4 # nombre para identificar el trabajo. Por defecto es el nombre del script
#SBATCH --ntasks=10 # cantidad de cores pedidos
# la linea siguiente es ignorada por Slurm porque empieza con ##
##SBATCH --ntasks-per-node=1 # cantidad de cores por nodo, para que distribuya entre varios nodos
#SBATCH --output=myjob.output # la salida y error estandar van a este archivo. Si no es especifca es slurm-%j.out (donde %j es el Job ID)
#SBATCH --error=myjob.error # si se especifica, la salida de error va por separado a este archivo
# aqui comienzan los comandos
mpirun /u/alquien/programa/programa_mpi
sbatch trabajo.shSubmitted batch job 101
squeue -l se puede ver el estado:
JOBID PARTITION NAME USER STATE TIME TIME_LIMI NODES NODELIST(REASON)
101 work prueba4 alguien PENDING 0:00 UNLIMITED 1 (Resources)
100 work mpi-slur alguien RUNNING 0:44 UNLIMITED 5 compute-0-[2-7]
prueba4 ha quedado en espera (PENDING) hasta que haya nodos suficientes/adecuados (Resources) para que se ejecute.SBATCH):sbatch --ntasks=4 --constraint=RAM16 --job-name=parte2 trabajo.shsbatch --dependency=afterany:110 segunda_parte.sh
--dependency son:
afterany:job_id[:job_id...]job_id haya finalizado.afternotok:job_id[:job_id...]job_id haya finalizado con algún estado de error (código de sálida distinto de cero, fallo de nodo, timeout, etc.)afterok:job_id[:job_id...]job_id haya finalizado correctamente./usr/local/mpich (v3.1.4). No hay que especificar una lista de hosts (-f) en mpirun porque queda en espera permanente../configure --prefix=/u/alguien/openmpi --enable-static --disable-java --without-x --without-loadleveler --with-slurm --with-pmi=/usr/local/include/slurm --with-pmi-libdir=/usr/local/lib --with-cuda=/usr/local/cuda
squeue -l # lista los trabajos en ejecución y esperasinfo # muestra estado de los nodosscancel JOB_ID # cancela un trabajo
c3admin@santafe-conicet.gov.ar
hpc-cimec@googlegroups.com (Lista de usuarios)
+54-342-4511594/95 int 7025/7026/7027
Edificio CIMEC - Predio CONICET Santa Fe "Dr. Alberto Cassano" - Colectora Ruta Nac Nro 168, Km 0, Paraje El Pozo - (3000) Santa Fe - Argentina