クラウドGPUサービス「RunPod」を使えば、NVIDIA H100のような最新GPUを時間単位でレンタルし、機械学習のトレーニングを実行できる。自前でGPUマシンを持つ必要がなく、必要なときだけ使って課金を最小限に抑えられる。
本記事では、RunPodの基本的な使い方を、実際にOpenAIの技術コンペ「Parameter Golf」で使用した経験をもとに解説する。現在、OPENAIからRunpod 25$分のクレジットももらえるので、この機会に高価なGPUを使いたいという方はチャレンジがてら触ってみてもいいだろう。
RunPodとは
RunPodは、GPUインスタンスをオンデマンドで提供するクラウドサービスだ。AWSやGCPのGPUインスタンスと比べて、以下の特徴がある:
- シンプルな料金体系 — GPU単位の時間課金。H100 SXMが$2.69/h〜
- テンプレート機能 — 環境構築済みのDockerイメージからワンクリックでデプロイ
- SSH/Web Terminal — ブラウザからもSSHからもアクセス可能
- Spot/On-Demand — Spotインスタンスなら半額以下で利用可能(中断リスクあり)
Step 1: アカウント作成とクレジット追加
- RunPodにアクセスしてアカウントを作成
- Billing画面でクレジットを追加(クレジットカードまたはプリペイド)
- OpenAI Parameter GolfのようなプログラムではCompute Grantとして無料クレジットが提供されることもある
Step 2: SSHキーの登録
RunPodのPodにSSHで接続するには、事前に公開鍵を登録する必要がある。
- 左メニューの Settings → SSH Keys を開く
- ローカルマシンの公開鍵を貼り付ける
# 鍵がない場合は生成
ssh-keygen -t ed25519 -C "your-email@example.com"
# 公開鍵を表示してコピー
cat ~/.ssh/id_ed25519.pub
表示された ssh-ed25519 AAAA... をRunPodのSSH Keys欄に貼り付けて保存する。
Step 3: GPU Podのデプロイ
左メニューの Pods → Deploy ボタンをクリックすると、GPU選択画面が表示される。
GPU選択の目安
| GPU | VRAM | 価格/h | 用途 |
|---|---|---|---|
| RTX 4090 | 24GB | $0.35〜 | 小規模な実験・推論 |
| L4 | 24GB | $0.30〜 | 推論・軽量学習 |
| A100 80GB | 80GB | $1.64〜 | 大規模学習 |
| H100 SXM | 80GB | $2.69〜 | 最新世代、大規模学習に最適 |
| H200 SXM | 141GB | $3.59〜 | 超大規模モデル |
用途に合わせて選択する。テスト段階では安いGPUで試し、本番は必要なスペックに切り替えるのがコスト効率が良い。
デプロイ設定
- GPU Count: 必要な台数(1台から開始推奨)
- Template: 用途に合ったテンプレートを選択(PyTorchプリインストール済みなど)
- SSH Terminal Access: 有効にする
- Volume: 永続ストレージが必要なら設定(デフォルトはPod停止で消える)
Deploy をクリックすると数分でPodが起動する。
Step 4: Podへの接続
SSH接続
Podが起動すると、接続情報が表示される。
ssh root@<IP_ADDRESS> -p <PORT> -i ~/.ssh/id_ed25519
Web Terminal
ダッシュボードのPod名の横にある Connect ボタンから、ブラウザ上でターミナルを開くこともできる。SSH設定が不要なので手軽だ。
Step 5: 作業の実行
SSH接続後は通常のLinuxサーバーと同じように使える。
# リポジトリをクローン
cd /workspace
git clone https://github.com/your-repo.git
cd your-repo
# 依存関係インストール(テンプレートに含まれていない場合)
pip install -r requirements.txt
# トレーニング実行
torchrun --standalone --nproc_per_node=1 train.py
長時間ジョブのTips
SSH接続が切れてもジョブを継続させたい場合は nohup を使う:
nohup torchrun --standalone --nproc_per_node=1 train.py > output.log 2>&1 &
# 進捗確認
tail -f output.log
Step 6: Podの停止
使い終わったらすぐにPodを停止する。起動中は常に課金される。
- ダッシュボードのPod一覧で対象Podの Stop ボタンをクリック
- データを保持したい場合は Volume を設定しておく(Podを削除するとデータも消える)
課金を最小限にするコツ
- Spot Instance を使う:On-Demandの半額以下だが、需要が高いと中断される可能性がある。短いジョブ向き
- Idle Timeout: 設定しておくと、アイドル状態で自動停止される
- 必要なときだけ起動: 実験計画を立ててからPodを起動し、完了したらすぐ停止
実際に使ってみた:Parameter Golfの場合
我々はOpenAIのParameter Golfコンペで、以下のような使い方をした。
環境
- GPU: 1x H100 SXM 80GB($2.69/h)
- テンプレート: Parameter Golf公式テンプレート
実行内容
cd /workspace
git clone https://github.com/tsubasagit/parameter-golf.git
cd parameter-golf
# データセットDL
python3 data/cached_challenge_fineweb.py --variant sp1024 --train-shards 1
# ベースライン学習(10分で自動停止)
RUN_ID=baseline torchrun --standalone --nproc_per_node=1 train_gpt.py
結果
- 学習時間: 10分(600秒で自動停止)
- 評価(Sliding Window Eval): 約20分
- 合計Pod使用時間: 約30分
- コスト: 約$1.35
H100の80GB VRAMのうち10GBしか使わなかったが、計算速度はT4(Google Colab無料枠)と比べて圧倒的に速く、bfloat16やFlash Attentionといった最新機能もそのまま使えた。
まとめ
| 項目 | 内容 |
|---|---|
| 向いている用途 | GPU学習、推論、ファインチューニング |
| 最低コスト | RTX 4090で$0.35/h〜 |
| 支払い | クレジットカード、プリペイド |
| 接続方法 | SSH、Web Terminal |
| 注意点 | 使い終わったら必ず停止。Spot Instanceは中断リスクあり |
個人開発者や小規模チームにとって、RunPodは「必要なときだけH100を借りる」という使い方ができる実用的なサービスだ。自前でGPUマシンを買うよりも遥かに柔軟で、実験のイテレーションを高速に回せる。



