HPCクラスター構築(その4)

クラスター構築の方針ですが、まず最小構成(hpc01とhpc02)のクラスターを完成させます。その後、hpc02をコピーしてhpc03, hpc04と作っていきます。 今回は hpc01の/homeをNFSでexportして/hpc02で読み書きできるようにします。...

Share
HPCクラスター構築(その4)

クラスター構築の方針ですが、まず最小構成(hpc01とhpc02)のクラスターを完成させます。その後、hpc02をコピーしてhpc03, hpc04と作っていきます。
今回は
hpc01の/homeをNFSでexportして/hpc02で読み書きできるようにします。
それだけですと、hpc02のSSDなどの空きスペースが無駄になってしまう可能性がありますので、hpc02の/homeを/home2にリネームし、他のノード(hpc01も含む)でも読み書きができるようにします。

hpc01の/homeをNFSでexportしてhpc02でautomountする

hpc01で

sudo apt install nfs-kernel-server

を実行し、必要なパッケージをインストールします。

sudo vim /etc/exports

で最終行に

/home hpc*(rw,no_root_squash)を付け加えます。

sudo exportfs -a

を実行し、

sudo exportfs -v

で確認します。

続いてhpc02での作業になります。

sudo su

cd

mv /home /home2

apt install nfs-common autofs -y

vim /etc/auto.master

最終行に

/- /etc/auto.direct

を付け加えます。

続いて/etc/auto.directを作成します。

vim /etc/auto.direct

/home -fstype=nfs,rw hpc01:/home

を付け加えます。

sudo systemctl enable autofs

sudo systemctl restart autofs

を実行してdf -hを行うと

/homeにhpc01:/homeがマウントされていることがわかります。

hpc02のhome2をhpc01で読み書きできるようにする

それでは次にhpc02の/home2を他のノードで読み書きができるように設定します。

sudo apt install nfs-kernel-server

で必要なパッケージをインストールします。

sudo vim /etc/exports

最終行に

/home2 hpc*(rw,no_root_squash)

を加えます。

sudo exportfs -a

sudo exportfs -v

を実行します。

次にhpc01で上記をautomountします。

sudo apt install autofs

で必要なパッケージを追加します。

sudo vim /etc/auto.master

最終行に

/-  /etc/auto.direct

を加えます。

sudo vim /etc/auto.direct

 

最終行に

/home2 -fwtype=nfs,rw hpc02:/home2

を加えます。

sudo systemctl enable autofs

sudo systemctl restart autofs

を実行します。

ls /home2

df -h

hpc02:/home2が/home2にマウントされていることがわかります。

これでhpc01とhpc02でお互いのSSDに読み書きできるようになりました。

次にhpc01とhpc02で時刻をNICTのサーバーに合わせます。

以下は、hpc01とhpc02で同じ作業を行います。

sudo vim /etc/systemd/timesyncd.conf

15行目をNTP=ntp.nict.jpに変更します。

sudo timedatectl set-ntp true

sudo timedatectl

を実行して

System clock synchronized: yes

NTP service: active

になっていれば時刻は同期しています。

確かめてみましょう。

時刻があっているのが分かります。

Read more

ローカルLLMはAllegro/NeQUIPの学習設定YAMLを作れるのか:Nemotronでmetadata-only preflightを検証

ローカルLLMはAllegro/NeQUIPの学習設定YAMLを作れるのか:Nemotronでmetadata-only preflightを検証 これは性能ベンチマークではありません。A100x4上のローカルLLMで、Allegro / NeQUIPの学習設定YAMLをどこまで安全に作り、実行前に確認できるかを調べた機能検証です。 結論から言うと、NemotronはAllegro / NeQUIPのtraining YAML候補を生成できました。既存SIF内で torch / nequip / allegro のimport、A100x4のCUDA可視

By Kenetsu Hanabusa

ローカルLLMはHPC入力ファイルを作り、エラーを直せるのか:NemotronでQuantum ESPRESSOとLAMMPSを検証

ローカルLLMはHPC入力ファイルを作り、エラーを直せるのか:NemotronでQuantum ESPRESSOとLAMMPSを検証 この記事の位置づけ これは性能ベンチマークではなく、 ローカルLLMがHPC入力ファイルの生成、実行ログを使った修正、再実行まで支援できるか を確認した機能検証です。 H200 NVLやRTX PRO 6000 Blackwellへの一般化はせず、次回以降の別フェーズとして扱います。 結論 A100 80GB x4上で NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 をローカル配信し、Quantum

By Kenetsu Hanabusa