FAQ
1) Не подходит пароль
Passphrase - пароль от файла приватного ключа, хранимого на персональном компьютере пользователя. Если Вы забыли пароль от файла приватного ключа, создайте новую пару из приватного и публичного ключей согласно инструкции и пришлите новый публичный ключ с почты, указанной при регистрации аккаунта:
Password - пароль от аккаунта пользователя. У типового аккаунта hpc.mephi.ru нет пароля, авторизация осуществляется по ключам. Проверьте, что Вы подключаетесь одним из рекомендованных способов и корректно указываете путь до файла приватного ключа:
https://it.mephi.ru/hpc/openssh
https://it.mephi.ru/hpc/openssh-wsl
https://it.mephi.ru/hpc/putty
2) Не работает WinSCP, PuTTY
Если у Вас возникают проблемы с WinSCP или графическим интерфейсом PuTTY, попробуйте подключиться/скопировать файлы одним из рекомендованных способов:
https://it.mephi.ru/hpc/openssh
https://it.mephi.ru/hpc/openssh-wsl
https://it.mephi.ru/hpc/putty
ПО со сложным интерфейсом не рекомендуется для начинающих пользователей.
3) Your account has expired
Проверьте почту, указанную при регистрации. Если Вы не получали писем от администраторов кластера, Ваш срок действия Вашего аккаунта истек. Продление аккаунта аналогично заведению нового. Укажите в заявке старый логин.
4) На кластере нет ПО
Если Вы столкнулись с отсутствием заявленного ПО, вероятно, Вы пытаетесь подготовить задачу на логин-узле. Перейдите на головной узел того кластера, для которого Вы готовите задачу.
5) root/sudo
На многопользовательских системах пользователи устанавливают ПО не в системные директории, а в персональные. На кластерах ПО нужно устанавливать в директории /mnt/pool/3/username или /mnt/pool/4/username. Для этого не нужны права root/sudo.
Пакетный менеджер pip нужно использовать с помощью venv. Proot использовать можно. С apt может работать только системный администратор.
6) Как запустить простую задачу?
username@localhost:~$ ssh -i /path/to/private/key username@hpc.mephi.ru
username@hpc:~$ ssh unicluster
username@unicluster:~$ cd /mnt/pool/6/username
username@unicluster:/mnt/pool/6/username$ nano start.sh
username@unicluster:/mnt/pool/6/username$ cat start.sh
#!/bin/bash
#SBATCH --nodes=1
#SBATCH --ntasks-per-node=1
#SBATCH --time=10:00:00
echo "Hello, world!"
username@unicluster:/mnt/pool/6/username$ chmod +x start.sh
username@unicluster:/mnt/pool/6/username$ sbatch start.sh
Submitted batch job 639433
username@unicluster:/mnt/pool/6/username$ scontrol show job 639433
...
username@unicluster:/mnt/pool/6/username$ cat /mnt/pool/6/username/slurm-639433.out
Hello, world!
7) Нет свободных узлов
HPC-кластеры - это неинтерактивные вычислительные системы. Полная загрузка - это штатное состояние HPC-кластера. Свободные узлы не нужны для постановки задачи в очередь. Пока задача не поставлена в очередь, она не набирает баллы приоритета, необходимые для запуска. Не ждите свободных узлов, ставьте задачу в очередь. Для срочных малых задач есть очередь fast на unicluster.
8) Задача обрывается
Убедитесь, что Вы запускаете задачу через менеджер ресурсов SLURM, а не на головном узле кластера. Запуск задачи непосредственно на головном узел - серьезное нарушение правил эксплуатации.
Проверьте выходной файл задачи slurm-номер_задачи.out на предмет сообщений об ошибках. Начинающим пользователям не рекомендуется перенаправлять STDOUT и STDERR.
9) Задача не создает выходной файл
Убедитесь, что путь до выходного файла находится внутри /mnt/pool/6/username.
10) Какую очередь использовать для задачи?
Для обычных приложений:
- рекомендуются: очереди cpu на unicluster и basov;
- допускаются: очереди cpu на cherenkov и tensor;
- не допускаются: очереди avx2, avx512, gpu на cherenkov, tensor, basis.
Если профилирование приложения показывает, что в bottleneck используются процессорные инструкции vfma... на регистрами ymm (для AVX2) или zmm (для AVX512), Ваше приложение использует современные векторные технологии. Для таких приложений:
- рекомендуются: очередь avx2 на cherenkov или avx512 на tensor соответственно;
- допускаются: очереди cpu;
- не допускаются: очереди gpu.
Очереди gpu предназначены исключительно для задач, поддерживающих соответствующие графические ускорители.
Использование запрещенных очередей является серьезным нарушением правил эксплуатации.
11) Сколько использовать ядер?
Для определения рекомендованного числа вычислительных потоков типовой задачи нужно построить кривую масштабирования для тестовой задачи: замерить время выполнения на 1, 2, 4 ядрах; 1, 2, 4 сокетах; 1, 2, 4 узлах. Произведение времени выполнения на число использованных потоков не должно превышать удвоенное время выполнения в 1 поток. Лучше использовать больше отдельных задач на меньшее число ядер.