下載並安裝集成軟件包以在 Cray Linux 系統上運行 LSF

2024年2月6日 25点热度 0人点赞

程序
1、在 Cray Linux (在 Cray XT/XE/XC 上) 集成上下載 LSF 集成的安裝包和分發 tar 文件。
例如,在 LSF V 10.1.0中,需要以下文件:

  • lsf10.1.0_lnx26-lib23-x64-cray.tar.Z
  • Intstaller 軟件包:


lsf10.1.0_lsfinstall.tar.Z

這是標準安裝程序軟件包。 在具有除 x86-64 以外的混合系統 ( zLinux除外) 的異構集群中使用此軟件包。 需要大約 1 GB 可用空間。


lsf10.1.0_lsfinstall_linux_x86_64.tar.Z

在同類 x86-64 集群中使用此較小的安裝程序包。 如果添加其他非 x86-64 主機,那麼必須使用標準安裝程序軟件包。 大約需要 100 MB 可用空間。


lsf10.1.0_no_jre_lsfinstall.tar.Z
對於不需要 JRE 的所有平臺。 必須已在系統上安裝 JRE V 1.4 或更高版本。 大約需要 1 MB 可用空間。

2、確認 Cray Linux 系統正在工作。
a.在 CLE 4.0 或更高版本上,確認是否存在
/opt/cray/rca/default/bin/rca-helper, /etc/xthostname 和
/etc/opt/cray/sdb/node_classes。 否則,請確認 xtuname 和 xthostname 命令存在並且位於 $PATH中。

b.確認所有計算 PE 都處於批處理方式。 如果沒有,請將所有計算 PE 切換到批處理方式,然後在引導節點上重新啟動 ALPS 服務:

  • xtprocadmin -k m batch
  • $/etc/init.d/alps restart(可選)
  • apstat -rn(可選)

3、遵循標準 LSF 安裝過程在引導節點上安裝 LSF 。
a.運行 xtopview 命令以切換到共享根文件系統。
b.將 Cray Linux 機器添加到現有集群。
有關更多詳細信息,請參閱升級/遷移指示信息。

c.編輯 install.config 文件並設置以下安裝參數:

  • LSF_TOP=/software/lsf
  • LSF_CLUSTER_NAME=<crayxt_machine_name>
  • LSF_MASTER_LIST=<管理_host_candidates> (登錄節點名或服務節點名的列表)
  • EGO_DAEMON_CONTROL=N
  • ENABLE_DYNAMIC_HOSTS=N
  • LSF_ADD_SERVERS=
  • CONFIGURATION_TEMPLATE=PARALLEL

LSF_MASTER_LIST 和 LSF_ADD_SERVERS 參數應僅包含登錄節點或服務節點。

LSF 守護程序的啟動和關閉腳本位於 $LSF_SERVERDIR/lsf_daemons中。

4、作為 LSF 管理員,創建並使用 LSF-HPC 服務。
a.將以下行添加到
/opt/xt-boot/default/etc/serv_cmd 文件:

  • service_cmd_info=‘LSF-HPC’,service_num=XXX,heartbeat=null
  • start_cmd=‘<$LSF_SERVERDIR>/lsf_daemons start’
  • stop_cmd=‘<$LSF_SERVERDIR>/lsf_daemons stop’
  • restart_cmd=‘<$LSF_SERVERDIR>/lsf_daemons restart’
  • fail_cmd=‘<$LSF_SERVERDIR>/lsf_daemons stop’

b.創建服務命令: xtservcmd2db -f
/opt/xt-boot/default/etc/serv_cmd。

c.將 LSF-HPC 服務分配給 serv_cmd: xtservconfig -c login add LSF-HPC。
d.退出 xtopview 並訪問登錄節點。

  • 確保 /ufs 在所有登錄/服務節點之間共享,並且 root 用戶和 LSF 管理員具有寫許可權。
  • 在 /ufs 下設置與 /opt/xt-lsfhpc/log 和 /opt/xt-lsfhpc/work 相同的子目錄 (請參閱
    “文件結構” 部分以獲取詳細信息)。
  • 確保保留目錄所有權和許可權方式 (可以使用 cp -r 命令) ,並且 root 用戶和 LSF 管理員對
    /ufs/lsfhpc下的子目錄具有寫許可權。

5、使用 module 命令來設置 LSF 環境變量。
module load xt-lsfhpc