1 of 7

Slurm 簡易操作說明

2 of 7

使用流程

  1. 安裝 OpenVPN 並連線 VPN (會擋學校外的IP)
  2. SSH 進入 headnode (192.168.20.253 / 192.168.20.254)
  3. 安裝 Anaconda/miniconda 並建立好自己所需的環境
  4. 下 sbatch 搭配腳本執行

3 of 7

注意事項-sbatch(外部分配)

建議將所需要的資源寫進xxx.sh裡面(xxx自行命名),

再使用 sbatch 執行

sbatch xxx.sh

4 of 7

xxx.sh 範例

#!/bin/bash

#SBATCH -J my_python_job # Job 名稱

#SBATCH --nodes=1 # 節點數量

#SBATCH --cpus-per-task=4 # 每個任務使用 4 顆 CPU

#SBATCH --gres=gpu:h100:1 # 要求 1 張 H100 GPU

#SBATCH --mem=64G # 記憶體大小

#SBATCH --time=01:00:00 # 最長執行時間

#SBATCH -p defq # 使用 defq 分區

#SBATCH -o out.log # 標準輸出檔案

#SBATCH -e err.log # 錯誤輸出檔案

python xxx.py

註 :

紅字部分請自行修改,若超出限制會進入PD狀態,即Slurm會讓你一直處在排隊狀態

藍字部分看個人需不需要

一些限制 :

CPU core 最大為 7 �Mem 依照規定為 256G�執行時間最長1天�

5 of 7

squeue --me 使用說明

squeue --me 是查看自己目前的工作狀態

顯示**目前還在排隊(PD)、執行中(R)或即將結束(CG)**的工作。

只會列出「你」這個帳號的工作。

代碼

狀態

說明

R

RUNNING

執行中

PD

PENDING

等待資源排程

CG

COMPLETING

正在結束階段

CD

COMPLETED

執行完成(通常 squeue 看不到)

6 of 7

scancel <jobid> 取消已提交的工作

中止還沒執行或正在執行的工作。

用 squeue --me 可以看到自己的jobid

7 of 7

scontrol show job <jobid>查看工作詳細內容

顯示單一工作的完整設定與目前狀態。

包含資源分配、使用者、節點、工作目錄、錯誤代碼、stdout 檔名等。