Slurm 簡易操作說明
使用流程
注意事項-sbatch(外部分配)
建議將所需要的資源寫進xxx.sh裡面(xxx自行命名),
再使用 sbatch 執行
sbatch xxx.sh
xxx.sh 範例
#!/bin/bash
#SBATCH -J my_python_job # Job 名稱
#SBATCH --nodes=1 # 節點數量
#SBATCH --cpus-per-task=4 # 每個任務使用 4 顆 CPU
#SBATCH --gres=gpu:h100:1 # 要求 1 張 H100 GPU
#SBATCH --mem=64G # 記憶體大小
#SBATCH --time=01:00:00 # 最長執行時間
#SBATCH -p defq # 使用 defq 分區
#SBATCH -o out.log # 標準輸出檔案
#SBATCH -e err.log # 錯誤輸出檔案
python xxx.py
註 :
紅字部分請自行修改,若超出限制會進入PD狀態,即Slurm會讓你一直處在排隊狀態
藍字部分看個人需不需要
一些限制 :
CPU core 最大為 7 �Mem 依照規定為 256G�執行時間最長1天�
squeue --me 使用說明
squeue --me 是查看自己目前的工作狀態
顯示**目前還在排隊(PD)、執行中(R)或即將結束(CG)**的工作。
只會列出「你」這個帳號的工作。
代碼 | 狀態 | 說明 |
R | RUNNING | 執行中 |
PD | PENDING | 等待資源排程 |
CG | COMPLETING | 正在結束階段 |
CD | COMPLETED | 執行完成(通常 squeue 看不到) |
scancel <jobid> 取消已提交的工作
中止還沒執行或正在執行的工作。
用 squeue --me 可以看到自己的jobid
scontrol show job <jobid>查看工作詳細內容
顯示單一工作的完整設定與目前狀態。
包含資源分配、使用者、節點、工作目錄、錯誤代碼、stdout 檔名等。