HPCクラスター構築(その3)

今回の作業は、 1. hpc01をコピーしてhpc02を作成する 2. hpc01でIPマスカレードして、クラスター内(hpc02)からインターネットにアクセス可能にする です。

Share
HPCクラスター構築(その3)

hpc01をコピーしてhpc02を作成

VertualBox Managerでhpc01を右クリックして、

ポップアップしたメニューのName:にhpc02を入れて

Nextをクリックします。

Full cloneが選択されていますので、Cloneをクリックします。

:

hpc02をStartします。

起動したら/etc/hostnameのhpc01をhpc02へ、/etc/NetworkManager/system-connections/Wired\  connection\ 1.nmconnectionのaddress=以降を192.168.20.2/24に変更します。

そしてリブートしてターミナルで確認します。

確認できました。

eth1は必要ないので、シャットダウンして、削除します。

eth0のみになりました。

hpc01も立ち上げてsshでhpc02にログインしてみます。

rootでもやってみます。

うまくいきました。i

hpc01でIPマスカレードして、クラスター内からインターネットにアクセスする

hpc02はクラスターの内部にあり、インターネットとは接続されていません。これでは不便なので、hpc01経由でインターネットに接続できるように設定します。

以下はhpc01での作業です。

sudo vim /etc/sysctl.conf


28行目の#net.ipv4.ip_forward=1のコメントをはずして書き込みます。
変更した設定を読み込みます。

hpc@hpc01:~$ sudo sysctl -p
net.ipv4.ip_forward = 1

クラスタ内部用のネットワーク192.168.20.0/24は外部から切り離されたネットワークです。インターネットに接続するためには、hpc01でNAT(IPマスカレード)します。iptablesコマンドを使ってNATするのですが、そのままでは設定が再起動後消えてしまいます。設定が再起動後も残るようiptables-persistentをインストールします。

sudo apt install iptables-persistent

sudo su

iptables -t nat -A POSTROUTING -s 192.168.20.0/24 -o eth1 -j MASQUERADE 

iptables-save > /etc/iptables/rules.v4

exit

を実行します。

その後hpc02のネットワーク設定を開き

gatewayにhpc01のアドレスである192.168.20.1を入れて、DNSにgoogleのDNSである8.8.8.8を入れてApplyをクリックします。

接続をオフにして再度オンにします。

ターミナルでping google.comなどとしてみて、インターネットに接続されていることを確認できます。

Read more

ローカルLLMはAllegro/NeQUIPの学習設定YAMLを作れるのか:Nemotronでmetadata-only preflightを検証

ローカルLLMはAllegro/NeQUIPの学習設定YAMLを作れるのか:Nemotronでmetadata-only preflightを検証 これは性能ベンチマークではありません。A100x4上のローカルLLMで、Allegro / NeQUIPの学習設定YAMLをどこまで安全に作り、実行前に確認できるかを調べた機能検証です。 結論から言うと、NemotronはAllegro / NeQUIPのtraining YAML候補を生成できました。既存SIF内で torch / nequip / allegro のimport、A100x4のCUDA可視

By Kenetsu Hanabusa

ローカルLLMはHPC入力ファイルを作り、エラーを直せるのか:NemotronでQuantum ESPRESSOとLAMMPSを検証

ローカルLLMはHPC入力ファイルを作り、エラーを直せるのか:NemotronでQuantum ESPRESSOとLAMMPSを検証 この記事の位置づけ これは性能ベンチマークではなく、 ローカルLLMがHPC入力ファイルの生成、実行ログを使った修正、再実行まで支援できるか を確認した機能検証です。 H200 NVLやRTX PRO 6000 Blackwellへの一般化はせず、次回以降の別フェーズとして扱います。 結論 A100 80GB x4上で NVIDIA-Nemotron-3-Nano-30B-A3B-BF16 をローカル配信し、Quantum

By Kenetsu Hanabusa